Bigdata
大数据处理相关技术学习之路(持续更新中...)。 Bigdata整理 --> 慢慢滴~ 大数据相关技术包括离线处理,实时处理,OLAP等,如hadoop、spark、flink、hive、hbase、oozie...以及大数据项目,如用户画像、数据仓库等,欢迎感兴趣的小伙伴一起来开发...
Install / Use
/learn @baolibin/BigdataREADME
大数据技术之路
本人从13年开始接触大数据,也算在大数据领域中摸爬滚打了很多年,本项目是我对大数据行业相关技术做些梳理。
1、Hadoop
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
2、Spark
Spark是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序
3、Flink
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。
Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。
4、大数据生态圈一些其它技术框架
- Hive
- HBase
- Kafka
- Doris
- Kudu
- Parquet
- Kylin
- Superset
- Druid
- Talos
- Pegasus
- Griffin
- ElasticSearch
- Oozie
- Redis
- MySQL
- SpringBoot
- Vue
5、大数据相关技能前奏
6、大数据一些相关项目
7、数据相关知识点
- 1、数据仓库
- 2、数据中台
- 3、数据建模
- 4、数据监控
- 5、数据治理
- 6、数据质量
- 7、数据血缘
- 8、数据计算
- 9、数据存储
- 数据收集
- 数据压缩
- 数据加解密
- 数据产生
- 数据延迟
- 数据可视化
- 数据字典
- 数据分析
- 数据集市
8、大数据学习相关资料
8.1、大数据学习网站
8.2、大数据学习书籍
8.3、大数据论文
8.4、学习网址收藏
9、必会知识点
-
- 1)、Spark作业提交流程?
- 2)、Spark的内存模型?
- 3)、SparkContext创建流程?源码级别?
- 4)、简述Spark个版本区别?1.x与2.x?
- 5)、使用Spark中遇到过哪些问题?如何解决的?
- 6)、Spark的Shuffle过程? 和MR Shuffle区别?
- 7)、Spark中的数据倾斜问题有啥好的解决方案?
- 8)、Spark有哪些聚合类的算子,我们应该怎么避免使用这些算子?ReduceByKey和GroupByKey的区别?
- 9)、Spark On Yarn作业执行流程?yarn-client和yarn-cluster的区别?
- 10)、Spark中Job、Task、RDD、DAG、Stage的理解?
- 11)、Spark中RDD如何通过记录更新的方式容错?
- 12)、Spark常用调优方法?
- 13)、Spark中宽依赖和窄依赖如何理解?
- 14)、Spark中Job和Task如何理解?
- 15)、Spark中Transformation和action区别是什么?列举出常用的方法?
- 16)、Spark中persist()和cache()的区别?
- 17)、Spark中map和mapPartitions的区别?
- 18)、Spark中Worker和Executor的异同?
- 19)、Spark中提供的2中共享变量是啥?
- 20)、菲波那切数列可以用Spark做出来么?
- 21)、看过哪些Spark源码?
- 22)、Spark通信机制?
- 23)、Spark的存储级别有哪些?
- 24)、Spark序列化模式有哪些?
- 25)、Spark使用到的安全协议有哪些?
- 26)、Spark部署模式有哪些?
- 27)、Spark的cache后能不能接其它算子?是不是action操作?
- 28)、Spark中reduceByKey是action算子不?reduec呢?
- 29)、Spark中数据本地性是哪个阶段确定的?
- 30)、Spark中RDD的弹性提现在哪里?
- 31)、Spark中容错机制?
- 32)、Spark中RDD的缺陷?
- 33)、Spark中有哪些聚合类的算子?应该避免什么类型的算子?
- 34)、Spark中并行度怎么设置比较合理一些?
- 35)、Spark中数据的位置由谁来管理?
- 36)、Spark中数据本地性有哪几种?
- 37)、Spark如何处理不被序列化的数据?
- 38)、Spark中collect功能是啥?其底层是如何实现的?
- 39)、Spark作业在没有获得足够资源就开始启动了,可能会导致什么问题?
- 40)、Spark中map和flatmap有啥区别?
- 41)、介绍一下join操作优化经验?
- 42)、Spark有哪些组件?
- 43)、Spark的工作机制?
- 44)、Spark中的宽窄依赖?
- 45)、Spark如何划分stage?
- 46)、spark-submit时候如何引用外部的jar包?
- 47)、Spark中RDD有哪些特性?
- 48)、Spark的一个工作流程?
- 49)、Spark on yarn与standalone区别?
- 50)、Spark优化之内存管理?
- 51)、Spark优化之广播变量?
- 52)、Spark优化之数据本地性?
- 53)、Spark中task有几种类型?
- 54)、Spark中基本概念?
- 55)、Spark中的ShuffleManager?
- 56)、Spark中Shuffle时候数据一定会落磁盘么?
- 57)、Spark和MR中Shuffle不同?Spark的优势?
- 58)、Spark如何做checkpoint?
- 59)、Spark比MR速度快的原因?
- 60)、Spark distinct去重原理?
- 61)、Spark cache和checkpoint区别?
- 62)、Spark Core和Spark SQL区别?
- 63)、Spark和MapReduce区别?
- 64)、Spark不同版本区别?
-
[9.2、Spark
