partitioning相关内容

如何确定“首选位置"?PySpark数据帧的分区?

我试图了解 coalesce 如何确定如何将初始分区加入最终问题,并且显然“首选位置"与之相关. 根据此问题,Scala Spark有一个功能 preferredLocations(split:Partition)可以识别此功能.但是我一点都不熟悉Spark的Scala方面.有没有办法在PySpark级别确定给定行或分区ID的首选位置? 解决方案 是的,理论上是可能的.强制某些形式的 ..
发布时间:2021-04-08 20:03:48 其他开发

将Scala代码转换为Java for Spark Partitioner

因此,我尝试使用 Spark 和 Java 来实现自定义分区程序,我找到了一个很好的在线示例,但它使用的是 Scala ,我一生都无法弄清楚它如何正确转换为Java,因此我可以尝试实现它.有人可以帮忙吗?这是我在 Scala 中找到的示例代码: class DomainNamePartitioner(numParts:Int)扩展了Partitioner {覆盖def numPartition ..
发布时间:2021-04-08 20:01:42 Java开发

如何知道执行分区的工作人员?

我只是试图找到一种方法来获取Spark中RDD分区的位置. 在调用 RDD.repartition()或 PairRDD.combineByKey()之后,返回的RDD被分区.我想知道分区位于哪个工作实例(用于检查分区行为)?! 有人可以提供线索吗? 解决方案 我确定这是一个有趣的问题,没有那么有趣的答案:) 首先,将转换应用于RDD与工作实例无关,因为它们是单独的“实体 ..
发布时间:2021-04-08 20:01:39 其他开发

蜂巢分区表上的火花行为

我使用Spark 2. 实际上,我不是执行查询的人,因此我无法包括查询计划.数据科学团队已经问过我这个问题. 我们将配置单元表划分为2000个分区,并以实木复合地板格式存储.当在spark中使用此表时,执行器之间将恰好执行2000个任务.但是我们的块大小为256 MB,我们期望分区的总数(总大小为256)肯定会比2000小得多.是否有任何内部逻辑可以激发使用数据的物理结构来创建分区.任 ..
发布时间:2021-04-08 19:58:51 其他开发

为什么过滤器不保留分区?

这是来自 jaceklaskowski.gitbooks.io的引用. 某些操作,例如地图,flatMap,过滤器,不保留分区.地图,flatMap,过滤器操作将一个函数应用于每个分区. 我不明白为什么过滤器不能保留分区.它只是获得满足条件的每个分区的子集,因此我认为可以保留分区.为什么不是这样? 解决方案 您当然是正确的.引用不正确. filter 确实保留了分区(由于您已经 ..
发布时间:2021-04-08 19:51:22 其他开发

分区如何划分为Kafka Broker?

我知道分区是通过Kafka Broker划分的.但是拆分基于什么?例如,如果我有3个代理和6个分区,那么如何确保每个代理将有2个分区?目前如何在Kafka中进行此拆分? 解决方案 分配策略是内部实施细节,没有记录在案,因为它可以随时更改.因此,您不应该依赖于此算法保持不变.此外,您无法采取任何措施来影响/配置这种内部策略. 基本策略是确保负载平衡,即,将分区分配给分配的分区比其他分区 ..
发布时间:2021-04-08 18:54:59 其他开发

kafka主题分区的最大复制因子是多少

我有3个经纪人和几个主题,每个主题有5个分区,拥有kafka集群.现在,我想为分区设置复制因子. 我可以为kafka主题分区设置的最大复制因子是什么? 解决方案 复制因子确定每个分区具有的复制数量,这使Kafka能够自动故障转移到这些副本当群集中的服务器发生故障,以便消息仍然可用时万一失败 分区副本分布在各个代理中,一个代理应保留一个副本,这意味着我们的副本不能超过代理的数 ..
发布时间:2021-04-08 18:53:40 其他开发

Apache Flink-将流等同于输入Kafka主题进行分区

我想在Apache Flink中实现以下场景: 鉴于Kafka主题有4个分区,我想根据事件的类型使用不同的逻辑在Flink中独立处理分区内数据. 尤其是,假设输入的Kafka主题包含先前图像中描述的事件.每个事件具有不同的结构:分区1具有字段" a ".作为键,分区2具有字段" b ".在Flink中,我想根据事件应用不同的业务逻辑,所以我认为我应该以某种方式拆分流.为了实现图片中描述 ..

从胶水Cloudformation模板对Athena表进行分区

使用 AWS :: Glue ::表格,您可以在此处设置雅典娜表格.雅典娜支持基于S3中文件夹结构的分区数据.我想从我的Glue模板中对Athena表进行分区. 来自 AWS粘合表TableInput,看来我可以使用 PartitionKeys 来对数据进行分区,但是当我尝试使用以下模板时,Athena会失败并且无法获取任何数据. 资源:...MyGlueTable:类型:AWS :: G ..

将集合分为n个不相等的子集,关键决定因素是该子集中的元素聚合并等于预定量吗?

我正在寻找一组数字,并希望通过集合划分将它们分成子集.关于如何生成这些子集的决定因素将是确保子集中所有元素的总和尽可能接近由预定分布生成的数量.子集的大小不必相同,每个元素只能在一个子集中.之前我已经通过贪婪算法( s_diff 将是模拟的理论结果与实际结果之间的最小差异,而 x_fin 将是每个元素属于哪个子集(即,它对应于哪个折叠).然后,我想删除掉属于第一个子集的元素,然后从那里继续,但是我 ..
发布时间:2021-04-02 20:24:22 其他开发

在Impala/Hive中删除多个分区

1-我正在尝试一次删除多个分区,但是很难用Impala或Hive做到这一点.我尝试了以下查询,使用和不使用': ALTER TABLE cz_prd_corrti_st.s1mme_transstats_info DROP IF EXISTS PARTITION (pr_load_time='20170701000317') PARTITION (pr_load_time='20170701 ..
发布时间:2020-11-22 19:20:11 其他开发

分区配置单元

我在蜂巢中使用静态分区以根据日期字段将数据隔离到子目录中,因为我每天需要向蜂巢中加载数据,所以每个表(总共14个表)每年需要365个分区. 在配置单元中可以创建的静态分区数量是否有限制? 如果"hive.exec.max.dynamic.partitions.pernode",动态分区给出错误 超过了sqoop导入的指定阈值(100) 我有5个节点HDP集群,其中3个是数据节点 ..
发布时间:2020-11-22 02:30:41 其他开发

通过分区控制Impala中的数据局部性

在表创建时已知理想数据位置或布局的情况下,我想避免Impala节点不必要地通过网络从其他节点请求数据.这对于“非累加"操作将很有帮助,因为无论如何(例如,百分位数)都需要在同一位置(节点)使用分区中的所有记录. 是否可以告诉Impala,对于任何HDFS副本,分区中的所有数据应始终位于同一节点上? 在Impala-SQL中,我不确定"PARTITIONED BY"子句是否提供此功能.以 ..
发布时间:2020-11-22 02:03:55 其他开发

蜂巢:为现有文件夹结构添加分区

我在HDFS中有一个文件夹结构,如下所示.但是,即使将文件夹结构设置为好像表具有分区一样,实际上也没有使用ALTER TABLE ADD PARTITION命令在表上创建任何分区. 如何自动将所有分区添加到Hive表中? (配置单元1.0,外部表) /user/frank/clicks.db /date=20190401 /file0004.csv /date=2019 ..
发布时间:2020-11-22 01:42:32 其他开发