当前位置:网站首页>Spark入门
Spark入门
2022-07-13 17:53:00 【小码上线】
简介Spark
1.Spark概述
1.1什么是Spark?
进入官网,看简介:http://spark.apache.org/
Apache Spark is a unified analytics engine for ==large-scale data processing. ==
Spark是一个处理大数据的分析引擎。
2.Spark的模块

四大模块:
SQL,流式数据处理(实时计算),机器学习,图计算。
3.Spark的特点
四个特点,一眼便知。
- 比Hadoop的MapReduce快110+。
- 易用,可以用Java, Python, R 和SQL
- 通用,处理不同类型的业务,几乎是一站式。处理四大模块。
- 兼容,可以独立运行,也可以运行在YARN,Mesos,Kubernetes。
可以从HDFS, HBase, Hive,MySql等中读/写取数据
2.Spark运行模式
2.1 单机模式
单机模式略过不提
2.2 集群模式
集群模式官网给出三种:
- 独立运行
- 在Mesos(国内不多)
- 在YARN
练习Spark入门的话,就用Local模式,就可以了。
3.入门案例
3.1 Word Count

打开Spark-shell ,准备文件。并输入以上程序。
查看结果:
浏览器中输入地址:主机ip:4040(端口号4040)
3.2 集群角色
3.2.1 Master和Worker
Master资源调度中的Leader,类似YARN中的ResourceManager
Worker资源调度中的Fllower,类似YARN中的NodeManager
3.2.2 Driver和Worker
总结:Master和Worker是Spark的守护进程,即Spark在特定模式下正常运行所必须的进程。Driver和Executor是临时程序,当有具体任务提交到Spark集群才会开启的程序。
边栏推荐
- 第一章 DHT11温湿度传感器的使用
- 【Multisim】使用NE5532P系列运放仿真时必须注意的问题
- 【CVPR2022】MPViT : Multi-Path Vision Transformer for Dense Prediction
- STM32F103 guider - example game Tetris
- 虚拟内存位置结构(保留区、代码区、栈区、堆区、字面值常量区)与变量修饰符(const、auto、static、register、volatile、extern)
- HDU 3666 THE MATRIX PROBLEM (差分约束+栈优化spfa判负环)
- ##DHCP-MASTER自动化部署
- 【云原生|中间件】开源 SPL 轻松应对 T+0
- Go language from entry to specification -6.8, go generation and parsing JSON and precautions
- 短视频平台常见SQL面试题,你学会了吗?
猜你喜欢

Embedded software development stm32f407 key input standard library version

语音芯片JQ8400的使用心得

02-FeatureScaling归一化
![[PCB] some experience about video game hardware design and PCB drawing (continuously updated)](/img/8d/78abff78fef5893c4a02d7fb331f67.png)
[PCB] some experience about video game hardware design and PCB drawing (continuously updated)

嵌入式单片机该如何选型?

STM32—TIM3输出PWM信号驱动MG996R舵机(按键控制)

【Multisim】关于Multisim仿真“过零比较器”出现的问题以及解决方法

DHT11和DHT22(AM2302)比较及使用方法

Blue Bridge Cup embedded Hal library LED_ TEST

U-boot 2021.01 version compilation
随机推荐
蓝桥杯嵌入式-HAL库-TIM_BASE
How to make electronic signature transparent
Embedded software development stm32f407 buzzer register version
A complete collection of C language preprocessing instructions
stm32学习(入门)
C语言动态内存分配原理以及堆区的使用(malloc、calloc、realloc、free)
【CVPR2022】MPViT : Multi-Path Vision Transformer for Dense Prediction
c语言 字符串的系列操作(字符串的逆序输出、字符串类型与int、double的互相转换)
stm32f429+LAN4720A+lwip 问题记录及解决
01机器学习:评估指标
MPU6050的一些使用方法汇总
嵌入式软件开发 STM32F407 按键输入 标准库版
RTtread-动态内存分配
RT_thread 临界区保护
OPENGL 射线拾取法
[signal conditioning] ADC protection circuit /adc buffer
蓝桥杯嵌入式-HAL库-LED_TEST
RT_thread 线程优先级的翻转
基于RT_thread的分布式无线温度监控系统实战(一)
About coursera