当前位置:网站首页>pyspark实现csv文件转parquet格式(最优解决方案)
pyspark实现csv文件转parquet格式(最优解决方案)
2022-08-05 13:06:00 【u013250861】
最佳解决方案
自动判断各个csv文件字段的数据类型生成parquet文件(inferSchema=‘True’)
sc.stop()
from pyspark.sql import SparkSession
spark = SparkSession.builder.enableHiveSupport().getOrCreate()
df = spark.read.options(header='True', inferSchema='True', delimiter=',').csv("./csv2parquet.csv")
#df.printSchema()
df.write.parquet('./input-parquet135')
print("运行成功")
sc.stop()
另一种解决方案
需要自己判断数据的格式然后自定义schema
sc.stop()
from pyspark import SparkContext
from pyspark.sql import SQLContext
from pyspark.sql.types import *
def parse(line):
items = line.split(",")
return (items[0], items[1], items[2])
if __name__ == "__main__":
sc = SparkContext(appName="CSV2Parquet")
sqlContext = SQLContext(sc)
schema = StructType([
StructField("identity_line_item_id", StringType(), True),
StructField("identity_time_interval", StringType(), True),
StructField("bill_invoice_id",IntegerType(), True)])
rdd = sc.textFile("./csv2parquet.csv").map(parse)
df = sqlContext.createDataFrame(rdd, schema)
df.write.parquet('./input-parquet133')
print("运行成功")
边栏推荐
- shell脚本,帮你提升摸鱼时间!
- The memory problem is difficult to locate, that's because you don't use ASAN
- Dialogue with Zhuang Biaowei: The first lesson of open source
- 【IC5000教程】-02-使用daqIDEA图形化显示“Array数组”和“struct结构体”类型变量的值变化
- Matplotlib 使用指南
- 五、平衡二叉树——伸展树Splay
- DonkeyCar源码阅读.4(项目文件创建)
- 小程序开发商城的因素有哪些?
- 【时序数据库InfluxDB】Windows环境下配置InfluxDB+数据可视化,以及使用 C#进行简单操作的代码实例...
- 《MySQL核心知识》第4章:简单语法
猜你喜欢
随机推荐
C进阶-动态内存管理
solaris-oralce rac installation
wallys/QCA9882/2×2 MIMO 802.11ac Mini PCIe Wi-Fi Module,
"Original" "Tutorial" to add a small pendant of the telescopic sidebar to the Joe theme article page
做个小程序商城大约多少钱?哪些方面会影响价格?
微信商城小程序怎么弄?怎么做微信商城小程序?
可编程直流电源用途广泛可以满足各种直流电源的应用场景
Mysql索引
AVL树大总结
华为分析&联运活动,助您提升游戏总体付费
Amazon Detective 支持 Amazon EKS 上的 Kubernetes 工作负载以进行安全调查
ansible-playbook使用普通用户提权
基于 nacos/灰度发布 实现减少本地启动微服务数量的实践
RT-Thread记录(二、RT-Thread内核启动流程 — 启动文件和源码分析)
弱网测试(一)
Sentinel introduction and use
【时序数据库InfluxDB】Windows环境下配置InfluxDB+数据可视化,以及使用 C#进行简单操作的代码实例...
松翰烧录器在keil仿真时闪退,解决方法
A brief explanation of permutation and combination
Top 10 new features in Oracle Database 19c at a glance









