当前位置: 首页 / 技术干货 / 正文
好程序员大数据学习路线之Spark快速入门(72集视频+源码+笔记)

2019-11-23

BigData 大数据培训 好程序员 大数据学习路线

好程序员大数据学习路线之Spark快速入门(72集视频+源码+笔记)

1、什么是Spark?

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

 

2、Spark具有哪些优点?

1)高级 API 剥离了对集群本身的关注,Spark 应用开发者可以专注于应用所要做的计算本身。

2)Spark 很快,支持交互式计算和复杂算法。

3)Spark 是一个通用引擎,可用它来完成各种各样的运算,包括 SQL 查询、文本处理、机器学习等,而在 Spark 出现之前,我们一般需要学习各种各样的引擎来分别处理这些需求。

 

3、Spark计算方法

1)Bagel: Pregel on Spark,可以用Spark进行图计算,这是个非常有用的小项目。Bagel自带了一个例子,实现了Google的PageRank算法。

2)当下Spark已不止步于实时计算,目标直指通用大数据处理平台,而终止Spark,开启SparkSQL或许已经初见端倪。

3)近年来国内外开始关注在 Spark 平台上如何实现各种机器学习和数据挖掘并行化算法设计。为了方便一般应用领域的数据分析人员使用所熟悉的 R 语言在 Spark 平台上完成数据分析,Spark 提供了一个称为 SparkR 的编程接口,使得一般应用领域的数据分析人员可以在 R 语言的环境里方便地使用 Spark 的并行化编程接口和强大计算能力。

 

4、2019好程序员大数据教程-如何快速入门Spark72集视频+源码+笔记)

1本课适用人群:

具有一定大数据基础的人群

2)学完本视频能掌握什么?

本节课能够掌握Spark的环境搭建,任务调度流程,以及RDD代码的应用。

(3)课程目录:

1章 Spark知识讲解

01_为什么学习Spark

02_Spark和MapReduce的对比

03_Spark框架体系

04_Spark下载

05.Spark运行模式介绍

06.Spark集群安装

07.Spark程序执行流程

08.Spark相关名词解释

09_SparkShellLocal

10_SparkShellCluster

11_Spark2.2和Spark1.6Shell对比

 

2章 Maven和IDEA

12_Maven和IDEA下载

13_Maven安装

14_IDEA安装

15_IDEA中配置Maven

16_Scala环境安装和IDEA中配置Scala插件

17_IDEA创建Spark工程

18_Spark开发WordCount程序

19_Spark程序打包

20_Spark集群运行打包程序

 

3章 RDD知识讲解

21_RDD概念

22_RDD执行流程

23_RDD属性

24_RDD弹性

25_RDD的两种创建

26_RDD编程API

 

4章 Transformation算法

27_Transformation算法

28_Action算法

29_Map

30_filter

31_flatMap

32_sample

33 union

34 intersection

35 distinct

36 join

37_leftOuterJoin

38_rightOuterJoin

39_cartesian

40_groupBy

41_mapPartition

42_mapPartitionWithIndex

43_sortby

44_sortbykey

45_repartition

46_coalesce

47_partitionBy

48_repartitionAndSortWithinPartitions

49_reduce

50_reduceByKey

51_aggregateByKey

52_combineByKey

 

5章 Action算法

53_collect

54_count

55_top

56_take

57_takeOrdered

58_first

59_saveAsTextFile

60_foreach

61_其他算子之countByKey

62_其他算子之countByValue

63_其他算子之filterByRange

64_其他算子之flatMapValues

65_其他算子之foreachPartition

66_其他算子之keyBy

67_其他算子之keys和values

68_其他算子之collectAsMap

69_RDD函数传递

70_RDD的依赖关系

71_RDD任务划分

72_Lineage血统

(4)免费视频获取方法:

方法一:关注微信公众号“好程序员”(微信号:qfhcxy回复“DT1”到本公众号,即可免费领取2019好程序员大数据培训之快速入玩转Spark~连载(72集)》视频教程以及免费的源码、笔记、配置软件”!

好程序员公众号

  • · 剖析行业发展趋势
  • · 汇聚企业项目源码

好程序员开班动态

More+
  • HTML5大前端 <高端班>

    开班时间:2021-04-12(深圳)

    开班盛况

    开班时间:2021-05-17(北京)

    开班盛况
  • 大数据+人工智能 <高端班>

    开班时间:2021-03-22(杭州)

    开班盛况

    开班时间:2021-04-26(北京)

    开班盛况
  • JavaEE分布式开发 <高端班>

    开班时间:2021-05-10(北京)

    开班盛况

    开班时间:2021-02-22(北京)

    开班盛况
  • Python人工智能+数据分析 <高端班>

    开班时间:2021-07-12(北京)

    预约报名

    开班时间:2020-09-21(上海)

    开班盛况
  • 云计算开发 <高端班>

    开班时间:2021-07-12(北京)

    预约报名

    开班时间:2019-07-22(北京)

    开班盛况
IT培训IT培训
在线咨询
IT培训IT培训
试听
IT培训IT培训
入学教程
IT培训IT培训
立即报名
IT培训

Copyright 2011-2023 北京千锋互联科技有限公司 .All Right 京ICP备12003911号-5 京公网安备 11010802035720号