partitioning 第8页 - IT屋-程序员软件开发技术分享社区

在我的Spark应用程序中对未完全指定的错误进行分区

请在下面查看此代码.当我传递分区数量的值时，以下代码出现错误. def loadDataFromPostgress(sqlContext:SQLContext，tableName:字符串，columnName:字符串，dbURL:字符串，userName:字符串，pwd:字符串，分区:字符串):DataFrame = {println(“分区数为:" + partitions)var data ..

发布时间：2021-04-08 20:19:13 apache-spark partitioning 其他开发

如何确定“首选位置"?PySpark数据帧的分区?

我试图了解 coalesce 如何确定如何将初始分区加入最终问题，并且显然“首选位置"与之相关. 根据此问题，Scala Spark有一个功能 preferredLocations(split:Partition)可以识别此功能.但是我一点都不熟悉Spark的Scala方面.有没有办法在PySpark级别确定给定行或分区ID的首选位置? 解决方案是的，理论上是可能的.强制某些形式的 ..

发布时间：2021-04-08 20:03:48 apache-spark pyspark partitioning 其他开发

将Scala代码转换为Java for Spark Partitioner

因此，我尝试使用 Spark 和 Java 来实现自定义分区程序，我找到了一个很好的在线示例，但它使用的是 Scala ，我一生都无法弄清楚它如何正确转换为Java，因此我可以尝试实现它.有人可以帮忙吗?这是我在 Scala 中找到的示例代码: class DomainNamePartitioner(numParts:Int)扩展了Partitioner {覆盖def numPartition ..

发布时间：2021-04-08 20:01:42 java scala apache-spark partitioning Java开发

如何知道执行分区的工作人员?

我只是试图找到一种方法来获取Spark中RDD分区的位置. 在调用 RDD.repartition()或 PairRDD.combineByKey()之后，返回的RDD被分区.我想知道分区位于哪个工作实例(用于检查分区行为)?！有人可以提供线索吗? 解决方案我确定这是一个有趣的问题，没有那么有趣的答案:) 首先，将转换应用于RDD与工作实例无关，因为它们是单独的“实体 ..

发布时间：2021-04-08 20:01:39 apache-spark partitioning rdd 其他开发

蜂巢分区表上的火花行为

我使用Spark 2. 实际上，我不是执行查询的人，因此我无法包括查询计划.数据科学团队已经问过我这个问题. 我们将配置单元表划分为2000个分区，并以实木复合地板格式存储.当在spark中使用此表时，执行器之间将恰好执行2000个任务.但是我们的块大小为256 MB，我们期望分区的总数(总大小为256)肯定会比2000小得多.是否有任何内部逻辑可以激发使用数据的物理结构来创建分区.任 ..

发布时间：2021-04-08 19:58:51 apache-spark hive partitioning 其他开发

如何根据给定分区过滤RDD?

请考虑以下示例: JavaPairRDDR = input.textFile("test").mapToPair(new PairFunction(){公共Tuple2call(String arg0)引发异常{String []部分= arg0.split(“");行r = RowFactory.cr ..

发布时间：2021-04-08 19:56:58 java apache-spark partitioning rdd Java开发

为什么过滤器不保留分区?

这是来自 jaceklaskowski.gitbooks.io的引用. 某些操作，例如地图，flatMap，过滤器，不保留分区.地图，flatMap，过滤器操作将一个函数应用于每个分区. 我不明白为什么过滤器不能保留分区.它只是获得满足条件的每个分区的子集，因此我认为可以保留分区.为什么不是这样? 解决方案您当然是正确的.引用不正确. filter 确实保留了分区(由于您已经 ..

发布时间：2021-04-08 19:51:22 apache-spark partitioning 其他开发

在Spark中使用reduceByKey时，是否有一种有效的分区方法?

当我使用 reduceByKey 或 aggregateByKey 时，我遇到了分区问题. ex) reduceBykey(_ + _).map(code) 尤其是，如果输入数据倾斜，则使用上述方法时，分区问题将变得更加严重. 因此，作为解决方案，我使用 repartition 方法. 例如， http://dev.sortable.com/spark-repartitio ..

发布时间：2021-04-08 19:40:05 apache-spark rdd partitioning 其他开发

如何在PySpark DataFrame中强制进行某些分区?

假设我有一个带有 partition_id 列的DataFrame: n_partitions = 2df = spark.sparkContext.parallelize([[1，'A']，[1，'B']，[2，'A']，[2，"C"]]).toDF(('partition_id'，'val')) 如何重新划分DataFrame以保证 partition_id 的每个值都进入一个单独的分 ..

发布时间：2021-04-08 19:33:15 apache-spark pyspark partitioning 其他开发

分区如何划分为Kafka Broker?

我知道分区是通过Kafka Broker划分的.但是拆分基于什么?例如，如果我有3个代理和6个分区，那么如何确保每个代理将有2个分区?目前如何在Kafka中进行此拆分? 解决方案分配策略是内部实施细节，没有记录在案，因为它可以随时更改.因此，您不应该依赖于此算法保持不变.此外，您无法采取任何措施来影响/配置这种内部策略. 基本策略是确保负载平衡，即，将分区分配给分配的分区比其他分区 ..

发布时间：2021-04-08 18:54:59 apache-kafka partitioning 其他开发

kafka主题分区的最大复制因子是多少

我有3个经纪人和几个主题，每个主题有5个分区，拥有kafka集群.现在，我想为分区设置复制因子. 我可以为kafka主题分区设置的最大复制因子是什么? 解决方案复制因子确定每个分区具有的复制数量，这使Kafka能够自动故障转移到这些副本当群集中的服务器发生故障，以便消息仍然可用时万一失败分区副本分布在各个代理中，一个代理应保留一个副本，这意味着我们的副本不能超过代理的数 ..

发布时间：2021-04-08 18:53:40 apache-kafka replication partitioning kafka-topic 其他开发

Apache Flink-将流等同于输入Kafka主题进行分区

我想在Apache Flink中实现以下场景: 鉴于Kafka主题有4个分区，我想根据事件的类型使用不同的逻辑在Flink中独立处理分区内数据. 尤其是，假设输入的Kafka主题包含先前图像中描述的事件.每个事件具有不同的结构:分区1具有字段" a ".作为键，分区2具有字段" b ".在Flink中，我想根据事件应用不同的业务逻辑，所以我认为我应该以某种方式拆分流.为了实现图片中描述 ..

发布时间：2021-04-08 18:36:51 apache-kafka parallel-processing apache-flink partitioning kafka-topic 其他开发

从胶水Cloudformation模板对Athena表进行分区

使用 AWS :: Glue ::表格，您可以在此处设置雅典娜表格.雅典娜支持基于S3中文件夹结构的分区数据.我想从我的Glue模板中对Athena表进行分区. 来自 AWS粘合表TableInput，看来我可以使用 PartitionKeys 来对数据进行分区，但是当我尝试使用以下模板时，Athena会失败并且无法获取任何数据. 资源:...MyGlueTable:类型:AWS :: G ..

发布时间：2021-04-03 18:38:42 amazon-web-services partitioning amazon-athena aws-glue 其他开发

将集合分为n个不相等的子集，关键决定因素是该子集中的元素聚合并等于预定量吗?

我正在寻找一组数字，并希望通过集合划分将它们分成子集.关于如何生成这些子集的决定因素将是确保子集中所有元素的总和尽可能接近由预定分布生成的数量.子集的大小不必相同，每个元素只能在一个子集中.之前我已经通过贪婪算法( s_diff 将是模拟的理论结果与实际结果之间的最小差异，而 x_fin 将是每个元素属于哪个子集(即，它对应于哪个折叠).然后，我想删除掉属于第一个子集的元素，然后从那里继续，但是我 ..

发布时间：2021-04-02 20:24:22 r algorithm partitioning combinatorics 其他开发

使用jq，如何根据对象属性的值将对象的JSON流拆分为单独的文件?

我有一个名为input.json的超大文件(压缩了20GB以上)，其中包含JSON对象流，如下所示: { "timestamp": "12345", "name": "Some name", "type": "typea" } { "timestamp": "12345", "name": "Some name", "type": "typea ..

发布时间：2021-02-12 20:45:22 json bash stream jq partitioning 其他开发

如何分组到地图中并更改密钥类型

我有一个代码，假定将交易对象的列表分为2类； public class Transaction { public String type; public Integer amount; } 以下功能通过检查条件将列表分为2类.流操作的输出映射为Map>，但我想使用String作为其键.所以我手动将它们转换. pu ..

发布时间：2021-02-10 18:58:57 java java-8 java-stream partitioning collectors Java开发

在Impala/Hive中删除多个分区

1-我正在尝试一次删除多个分区，但是很难用Impala或Hive做到这一点.我尝试了以下查询，使用和不使用': ALTER TABLE cz_prd_corrti_st.s1mme_transstats_info DROP IF EXISTS PARTITION (pr_load_time='20170701000317') PARTITION (pr_load_time='20170701 ..

发布时间：2020-11-22 19:20:11 sql hive hdfs partitioning impala 其他开发

分区配置单元

我在蜂巢中使用静态分区以根据日期字段将数据隔离到子目录中，因为我每天需要向蜂巢中加载数据，所以每个表(总共14个表)每年需要365个分区. 在配置单元中可以创建的静态分区数量是否有限制? 如果"hive.exec.max.dynamic.partitions.pernode"，动态分区给出错误超过了sqoop导入的指定阈值(100) 我有5个节点HDP集群，其中3个是数据节点 ..

发布时间：2020-11-22 02:30:41 performance hadoop hive partitioning sqoop 其他开发

通过分区控制Impala中的数据局部性

在表创建时已知理想数据位置或布局的情况下，我想避免Impala节点不必要地通过网络从其他节点请求数据.这对于“非累加"操作将很有帮助，因为无论如何(例如，百分位数)都需要在同一位置(节点)使用分区中的所有记录. 是否可以告诉Impala，对于任何HDFS副本，分区中的所有数据应始终位于同一节点上? 在Impala-SQL中，我不确定"PARTITIONED BY"子句是否提供此功能.以 ..

发布时间：2020-11-22 02:03:55 hadoop hdfs partitioning database-partitioning impala 其他开发

蜂巢:为现有文件夹结构添加分区

我在HDFS中有一个文件夹结构，如下所示.但是，即使将文件夹结构设置为好像表具有分区一样，实际上也没有使用ALTER TABLE ADD PARTITION命令在表上创建任何分区. 如何自动将所有分区添加到Hive表中? (配置单元1.0，外部表) /user/frank/clicks.db /date=20190401 /file0004.csv /date=2019 ..

发布时间：2020-11-22 01:42:32 hadoop hive hdfs partitioning hive-partitions 其他开发

partitioning相关内容