Spark Exchange节点和Partitioning_网站优化分享_上海毫米网络优化公司

您的位置：上海毫米网络优化公司 > 网站优化分享 >

相关推荐recommended

Spark Exchange节点和Partitioning

作者：mmseoamin日期：2024-02-04

Exchange

在explain时，常看到Exchange节点，这个节点其实就是发生了数据交换

Spark Exchange节点和Partitioning,第1张

Spark Exchange节点和Partitioning,第2张 — 此图片来自于网络截取

BroadcastExchangeExec 主要是用来广播的

ShuffleExchangeExec 里面决定了数据分布的方式和采用哪种shuffle

Spark Exchange节点和Partitioning,第3张

Spark Exchange节点和Partitioning,第4张

在这里可以看到好几种不同的分区器

Spark Exchange节点和Partitioning,第5张

shufleManager创建不同的shuffle方式

Spark Exchange节点和Partitioning,第6张

Distribution与Partitioning

Distribution与Partitioning关联，定义了数据在集群各个节点上的分布情况

Distribution：

有6个子类

Spark Exchange节点和Partitioning,第7张

Spark Exchange节点和Partitioning,第8张

Partitioning和对应的子类

Spark Exchange节点和Partitioning,第9张

Spark Exchange节点和Partitioning,第10张

Distribution子类	描述	算子示例	调用createPartitioning()方法
UnspecifiedDistribution	未指定分布，无需确定数据元组之间的位置关系		抛出异常
AllTuples	只有一个分区，所有的数据元组存放在一起	例如GlobalLimit算子	SinglePartition
BroadcastDistribution	广播分布，数据会广播到所有节点上，构造参数mode为广播模式（BroadcastMode）	例如Broadcast的Join操作中的requiredChildDistribution为[BroadcastDistribution(mode)]	BroadcastPartitioning
ClusteredDistribution	构造参数clustering是Seq[Expression]类型，起到哈希函数的效果，经过clustering之后，相同的value数据会放到一个分区中	例如SortAggregateExec类型的Join操作中的requiredChildDistribution就是ClusteredDistribution(exprs)	HashPartitioning
HashClusteredDistribution 3.3 移出	构造参数expressions是Seq[Expression]类型，起到哈希函数的效果，经过expressions之后，相同的value数据会放到一个分区中	例如SortMerge类型的Join操作中的requiredChildDistribution就是[HashClusteredDistribution(leftKeys), HashClusteredDistribution(reghtKeys)]	HashPartitioning
OrderedDistribution	构造参数ordering是Seq[SortOrder]类型，数据会根据ordering计算后的结果排序	例如在全局的Sort算子中，requiredChildDistribution就是[OrderedDistribution(sortOrder)]	RangePartitioning
StatefulOpClusteredDistribution 3.3 新增

海南网站建设及维护模板素材网站搜索引擎营销优化的方法做一个网页需要多少钱深圳专业建站合肥公司企业网站建设

上一篇：Hadoop3.X集群安装

下一篇：字节跳动 Spark 支持万卡模型推理实践