当前位置:网站首页>RDD和DataFrame和Dataset
RDD和DataFrame和Dataset
2022-08-05 05:12:00 【价值成长】
1. DataFrame
为了支持结构化数据的处理,Spark SQL 提供了新的数据结构 DataFrame。DataFrame 是一个由具名列组成的数据集。它在概念上等同于关系数据库中的表或 R/Python 语言中的 data frame。 由于 Spark SQL 支持多种语言的开发,所以每种语言都定义了 DataFrame 的抽象
2. DataSet
Dataset 也是分布式的数据集合,它集成了 RDD 和 DataFrame 的优点,具备强类型的特点,同时支持 Lambda 函数。Spark 2.0 后,为了方便开发者,Spark 将 DataFrame 和 Dataset 的 API 融合到一起,提供了结构化的 API(Structured API),即用户可以通过一套标准的 API 就能完成对两者的操作。
Spark SQL && DataFrame && Dataset
如果你用的是 Spark SQL 的查询语句,则直到运行时你才会发现有语法错误,而如果你用的是 DataFrame 和 Dataset,则在编译时就可以发现错误 (这节省了开发时间和整体代价)。
DataFrame & DataSet & RDDs
- RDDs 适合非结构化数据的处理,而 DataFrame & DataSet 更适合结构化数据和半结构化的处理;
- DataFrame & DataSet 可以通过统一的 Structured API 进行访问,而 RDDs 则更适合函数式编程的场景;
- 相比于 DataFrame 而言,DataSet 是强类型的 (Typed),有着更为严格的静态类型检查;
- DataSets、DataFrames、SQL 的底层都依赖了 RDDs API,并对外提供结构化的访问接口。
边栏推荐
- 电话溥功能
- How to identify false evidence and evidence?
- Qt制作18帧丘比特表白意中人、是你的丘比特嘛!!!
- The solution to the failure to read channel information when dedecms generates a message in the background
- Using QR codes to solve fixed asset management challenges
- 入口点注入
- [informix] Resolving startup errors and solutions
- In the hot summer, teach you to use Xiaomi smart home accessories + Raspberry Pi 4 to connect to Apple HomeKit
- 【转】什么是etcd
- flex布局青蛙游戏通关攻略
猜你喜欢

Excel Paint

flex布局青蛙游戏通关攻略

University Physics---Particle Kinematics

【cesium】3D Tileset 模型加载并与模型树关联

Flutter真机运行及模拟器运行

RL强化学习总结(一)

Dephi reverse tool Dede exports function name MAP and imports it into IDA
![[cesium] element highlighting](/img/99/504ca9802db83eb33bc6d91b34fa84.png)
[cesium] element highlighting

Basic properties of binary tree + oj problem analysis

Flutter learning three-Flutter basic structure and principle
随机推荐
[Nine Lectures on Backpacks - 01 Backpack Problems]
【cesium】Load and locate 3D Tileset
使用二维码解决固定资产管理的难题
Redis哨兵模式配置文件详解
server disk array
Multi-threaded query results, add List collection
2023年信息与通信工程国际会议(JCICE 2023)
entry point injection
Structured Light 3D Reconstruction (2) Line Structured Light 3D Reconstruction
Difference between for..in and for..of
human weakness
Requests库部署与常用函数讲解
dedecms报错The each() function is deprecated
开发一套高容错分布式系统
Mini Program_Dynamic setting of tabBar theme skin
RL强化学习总结(一)
2022杭电多校第一场01
Flutter真机运行及模拟器运行
请写出SparkSQL语句
How to identify false evidence and evidence?