partitioning 第5页 - IT屋-程序员软件开发技术分享社区

kafka 主题分区的最大复制因子是多少

我的 kafka 集群有 3 个代理和几个主题，每个主题有 5 个分区.现在我想为分区设置复制因子. 我可以为 kafka 主题的分区设置的最大复制因子是多少? 解决方案复制因子决定了每个分区的复制数量，这允许 Kafka 自动故障转移到这些副本当集群中的服务器出现故障时，消息仍然可用万一失败分区副本分布在代理之间，一个代理应该保留一个副本，这意味着我们不能拥有超过代理 ..

发布时间：2021-11-12 02:19:20 apache-kafka replication partitioning kafka-topic 其他开发

Kafka Streams - 如何更好地控制内部创建的状态存储主题的分区?

Kafka Streams 中的状态存储是在内部创建的.状态存储按键分区，但不允许提供除键以外的分区(据我所知). 问题如何控制 state-store 内部创建的主题的分区数?状态存储主题如何推断默认使用的分区数量和分区，以及如何覆盖? 如果您想通过除传入键值记录的键以外的其他内容来分区状态存储并进行共同分区，如何解决此问题?在这种情况下，我想通过比我的常规键更具体的东西进行 ..

发布时间：2021-11-12 02:03:19 apache-kafka partitioning apache-kafka-streams 其他开发

是否可以创建具有动态分区计数的 kafka 主题?

我正在使用 kafka 将网站用户的页面访问事件流式传输到分析服务.每个事件将包含消费者的以下详细信息: 用户名用户的IP地址我需要非常高的吞吐量，所以我决定使用分区键将主题分区为 userId-ipAddress即对于 userId 1000 和 ip 地址 10.0.0.1，事件将有分区键为“1000-10.0.0.1" 在这个用例中，分区键是动态的，因此在创建 ..

发布时间：2021-11-12 01:52:58 apache-kafka partitioning kafka-consumer-api 其他开发

Zookeeper 是 Kafka 的必备品吗?

在 Kafka 中，我只想使用单个代理、单个主题和具有一个生产者和多个消费者的单个分区(每个消费者都从代理获取自己的数据副本).鉴于此，我不想要使用 Zookeeper 的开销；我不能只使用经纪人吗?为什么必须要有动物园管理员? 解决方案是的，运行 Kafka 需要 Zookeeper.来自 Kafka 入门文档: 第 2 步:启动服务器 Kafka 使用zookeeper， ..

发布时间：2021-11-12 01:42:14 partitioning apache-zookeeper producer-consumer apache-kafka broker 其他开发

Apache Flink - 将流与输入 Kafka 主题一样进行分区

我想在 Apache Flink 中实现以下场景: 给定一个有 4 个分区的 Kafka 主题，我想在 Flink 中使用不同的逻辑独立处理分区内数据，具体取决于事件的类型. 特别地，假设输入 Kafka 主题包含之前图像中描述的事件.每个事件都有不同的结构:分区 1 具有字段“a"；作为键，分区 2 具有字段“b"；作为关键等.在 Flink 中，我想根据事件应用不同的业务逻辑，所以 ..

发布时间：2021-11-12 01:16:43 apache-kafka parallel-processing apache-flink partitioning kafka-topic 其他开发

Apache Flink - 将流与输入 Kafka 主题一样进行分区

我想在 Apache Flink 中实现以下场景: 给定一个有 4 个分区的 Kafka 主题，我想在 Flink 中使用不同的逻辑独立处理分区内数据，具体取决于事件的类型. 特别地，假设输入 Kafka 主题包含之前图像中描述的事件.每个事件都有不同的结构:分区 1 具有字段“a"；作为键，分区 2 具有字段“b"；作为关键等.在 Flink 中，我想根据事件应用不同的业务逻辑，所以 ..

发布时间：2021-11-12 01:14:27 apache-kafka parallel-processing apache-flink partitioning kafka-topic 其他开发

我正在编写一个云数据流，它从 Pubsub 读取消息并将其存储到 BigQuery 中.我想使用分区表(按日期)，并且我正在使用与消息关联的 Timestamp 来确定消息应该进入哪个分区.下面是我的代码: BigQueryIO.writeTableRows().to(new SerializableFunction, TableDestination>() {private static f ..

发布时间：2021-11-11 22:45:44 google-bigquery partitioning google-cloud-dataflow apache-beam 其他开发

AWS Athena - 查询分区中不同年份的数据

我们在 S3 中分区了大型数据集，例如 s3://bucket/year=YYYY/month=MM/day=DD/file.csv. 在 Athena 中查询不同年份的数据并利用分区的最佳方法是什么? 以下是我对 2018-03-07 至 2020-03-06 数据的尝试: 查询 1 - 在我取消之前运行 2 分 45 秒 SELECT dt, col1, col2从 myt ..

发布时间：2021-10-26 18:55:29 sql amazon-web-services hive partitioning amazon-athena 其他开发

如何在sql server中动态声明PARTITION RANGE IN Partition函数

我想动态声明我的分区函数的范围.我不想硬编码范围值，如下所示: 创建分区函数 PartFun(smallint)AS RANGE LEFT FOR VALUES (1,2,3,4,5) 问题是:我想在其上创建分区的列(IDMASTER 表中的 ID)是 smallint 数据类型. 声明@IDS NVARCHAR(100)SELECT @IDS = coalesce(@IDS + ' ..

发布时间：2021-06-14 19:47:51 sql sql-server partitioning 数据库

仅跟踪工作日的连续缺勤天数 SQL

我正在尝试创建一个表，该表获取员工生病的日期，并创建一个新列以提供“疾病 ID"，该列将标识多个日期的唯一缺勤实例.我已经设法做到了这一点，但是我现在需要考虑一个包含每个员工工作模式的表格，这会让我知道是否有人在一周中的某一天上班. 这可以使用两个表中的 day_no 列以及 employee_number 进行连接. 我发布了一个这个问题早些时候，@GMB 有一个很好的解决方案，但是 ..

发布时间：2021-06-14 19:47:48 sql sql-server ssms partitioning 数据库

将大型数据集拆分为更小的部分以供 Web 查看

背景我正在为 Web 应用程序开发 Web 平台.该平台的关键功能之一是用户管理.因此，我实现了一个登录系统，使注册用户能够登录平台和应用程序.这是使用 MySQL 数据库实现的，其中包含登录凭据、用户 ID、联系信息等... 问题我遇到的问题是用户表.这张桌子可能有很大的潜力.因此，如果管理员想要编辑特定用户的信息，根据用户在列表中的位置，管理员将不得不滚动可能的数千条记录 ..

发布时间：2021-06-14 19:47:45 php mysql partitioning PHP

将当前的 solr 索引划分为分片

我一直在分析提高 SOLR 索引性能的最佳方法，并且可能会分片当前索引以允许搜索变得分布式. 然而，鉴于我们的索引超过 400GB 并且包含大约 700MM 的文档，重新索引数据似乎很麻烦.我一直在考虑复制索引和删除文档作为更有效地创建分片环境的方法. 不幸的是，模数似乎不可用于查询文档的内部数字 ID.我可以使用哪些其他可能的分区策略按查询删除而不是完全重新索引? 解决方案 ..

发布时间：2021-06-14 19:47:42 solr partitioning 其他开发

Spark中的ReduceByKey函数

我在某处读到，对于作用于单个 RDD 的操作，例如 reduceByKey()，在预先分区的 RDD 上运行将导致在本地计算每个键的所有值在单台机器上，只需要将最终的、本地减少的值从每个工作节点发送回主节点.这意味着我必须声明一个分区器，如: val sc = new SparkContext(...)val userData = sc.sequenceFile[UserID, UserInfo ..

发布时间：2021-06-14 19:47:39 scala apache-spark rdd partitioning reduce 其他开发

Oracle 12c - 删除表和所有关联的分区

我在 Oracle 12c 中创建了表 t1.表有数据，在列表分区上进行分区，也有子分区. 现在我想删除整个表和所有关联的分区(和子分区). 这是删除所有内容的正确命令吗? DROP TABLE t1 PURGE; 解决方案当您运行 DROP 时，该表将从数据库中完全删除，即该表不再存在. 如果您只想从该表中删除所有数据，请运行 truncate table T1 dr ..

发布时间：2021-06-14 19:47:36 oracle sql-delete partitioning drop-table 数据库

以所有可能的方式将列表拆分为所有对

我知道很多帖子都有类似的问题，并且我都看过.但是，我无法做我需要的事情. 我有列表说 l1=[0,1,2,3,4] 我想将其划分为如下的元组对: [(0, 1), (2, 3), 4],[(0, 1), (2, 4), 3],[(0, 1), (3, 4), 2],[(0, 2), (1, 3), 4],[(0, 2), (1, 4), 5],[(0, 2), (3, 4), 1],[( ..

发布时间：2021-06-14 19:47:33 python list partitioning Python

MySQL 分区:为什么不采用适当的分区

DROP TABLE temp;创建表`temp`(`CallID` bigint(8) 无符号 NOT NULL，`InfoID` bigint(8) 无符号 NOT NULL，`CallStartTime` 日期时间不为空，`PartitionID` int(4) 无符号非空，KEY`CallStartTime`(`CallStartTime`)) 引擎=InnoDB 默认字符集=latin ..

发布时间：2021-06-14 19:47:30 mysql partitioning 数据库

如何在自定义 Presto 聚合函数中强制执行排序 (ORDER BY)

我正在编写一个自定义 Presto 聚合函数，当(且仅当)值按我聚合的值按升序排序时，该函数会产生正确的结果.即以下将起作用: SELECT key, MY_AGG_FUNC(value ORDER BY value ASC) FROM my_table GROUP BY key 以下将产生错误的结果: SELECT key, MY_AGG_FUNC(value) FROM my_t ..

发布时间：2021-06-14 19:47:27 aggregation partitioning presto nosql-aggregation trino 其他开发

找到包含空间中所有点的最大空矩形的集合

给定一个由(白色)矩形和一组占据该空间的(黑色)矩形限制的 2D 空间，我正在寻找一种以某种方式索引空(白色)空间的方法.为此，我想创建一组(白色)矩形，以便对于空间中的任何给定点(不属于任何“黑色"矩形的点)在该白色矩形结果集中存在最大的空矩形. 谢谢解决方案 http://rd.springer.com/chapter/10.1007%2F3-540-53487-3_50这篇论 ..

发布时间：2021-06-14 19:47:24 space partitioning rectangles 其他开发

Hive 分区验证

我创建了一个分区的配置单元表.我将数据插入到这个表中.现在假设我使用 where 子句执行一个 select * 查询，那么我如何确保 hive 查询使用分区? 解决方案您可以通过执行 EXPLAIN EXTENDED 命令来验证分区修剪工作. EXPLAIN EXTENDED select * from mytable where load_date='2018-01-01'; 计 ..

发布时间：2021-06-14 19:47:22 hadoop hive partitioning 其他开发

Python 重新排序已排序的列表，以便最大值位于中间

我需要重新排序一个排序列表，以便“中间"元素是最高的数字.到中间的数字是递增的，经过中间的数字是递减的. 我有以下可行的解决方案，但感觉它可以更简单: foo = range(7)bar = [n for i, n in enumerate(foo) if n % 2 == len(foo) % 2]bar += [n for n in reversed(foo) if n not in ..

发布时间：2021-06-14 19:47:17 python sorting partitioning Python

partitioning相关内容

kafka 主题分区的最大复制因子是多少

Kafka Streams - 如何更好地控制内部创建的状态存储主题的分区?

是否可以创建具有动态分区计数的 kafka 主题?

Zookeeper 是 Kafka 的必备品吗?

Apache Flink - 将流与输入 Kafka 主题一样进行分区

Apache Flink - 将流与输入 Kafka 主题一样进行分区

Apache beam:以编程方式创建分区表

AWS Athena - 查询分区中不同年份的数据

如何在sql server中动态声明PARTITION RANGE IN Partition函数

仅跟踪工作日的连续缺勤天数 SQL

将大型数据集拆分为更小的部分以供 Web 查看

将当前的 solr 索引划分为分片

Spark中的ReduceByKey函数

Oracle 12c - 删除表和所有关联的分区

以所有可能的方式将列表拆分为所有对

MySQL 分区:为什么不采用适当的分区

如何在自定义 Presto 聚合函数中强制执行排序 (ORDER BY)

找到包含空间中所有点的最大空矩形的集合

Hive 分区验证

Python 重新排序已排序的列表，以便最大值位于中间