自学内容网 自学内容网

Spark Core

23.sortByKey

函数说明

在一个(K,V)的 RDD 上调用,K 必须实现 Ordered 接口(特质),返回一个按照 key 进行排序

24. join

 函数说明

在类型为(K,V)和(K,W)的 RDD 上调用,返回一个相同 key 对应的所有元素连接在一起的

(K,(V,W))的 RDD

25.leftOuterJoin

函数说明

类似于 SQL 语句的左外连接

26.cogroup

函数说明

在类型为(K,V)和(K,W)的 RDD 上调用,返回一个(K,(Iterable<V>,Iterable<W>))类型的 RDD

RDD行动算子:

行动算子就是会触发action的算子,触发action的含义就是真正的计算数据。

1. reduce

函数说明

聚集 RDD 中的所有元素,先聚合分区内数据,再聚合分区间数据

2.collect

函数说明

在驱动程序中,以数组 Array 的形式返回数据集的所有元素

3. foreach

函数说明

分布式遍历 RDD 中的每一个元素,调用指定函数

4.count

函数说明

返回 RDD 中元素的个数

5. first

函数说明

返回 RDD 中的第一个元素

6.take

 函数说明

返回一个由 RDD 的前 n 个元素组成的数组

7. takeOrdered

函数说明

返回该 RDD 排序后的前 n 个元素组成的数组

9.fold

函数说明

折叠操作,aggregate 的简化版操作

10.countByKey

函数说明

统计每种 key 的个数

11.save 相关算子

函数说明
将数据保存到不同格式的文件中

累加器

实现原理

累加器用来把 Executor 端变量信息聚合到 Driver 端。在 Driver 程序中定义的变量,在

Executor 端的每个 Task 都会得到这个变量的一份新的副本,每个 task 更新这些副本的值后,传回 Driver 端进行 merge。

广播变量

实现原理

广播变量用来高效分发较大的对象。向所有工作节点发送一个较大的只读值,以供一个

或多个 Spark 操作使用。比如,如果你的应用需要向所有节点发送一个较大的只读查询表,

广播变量用起来都很顺手。在多个并行操作中使用同一个变量,但是 Spark 会为每个任务

分别发送。


原文地址:https://blog.csdn.net/2401_82430542/article/details/147137395

免责声明:本站文章内容转载自网络资源,如侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!