partitioning相关内容

kafka 主题分区的最大复制因子是多少

我的 kafka 集群有 3 个代理和几个主题,每个主题有 5 个分区.现在我想为分区设置复制因子. 我可以为 kafka 主题的分区设置的最大复制因子是多少? 解决方案 复制因子决定了每个分区的复制数量,这允许 Kafka 自动故障转移到这些副本当集群中的服务器出现故障时,消息仍然可用万一失败 分区副本分布在代理之间,一个代理应该保留一个副本,这意味着我们不能拥有超过代理 ..
发布时间:2021-11-12 02:19:20 其他开发

Kafka Streams - 如何更好地控制内部创建的状态存储主题的分区?

Kafka Streams 中的状态存储是在内部创建的.状态存储按键分区,但不允许提供除键以外的分区(据我所知). 问题 如何控制 state-store 内部创建的主题的分区数?状态存储主题如何推断默认使用的分区数量和分区,以及如何覆盖? 如果您想通过除传入键值记录的键以外的其他内容来分区状态存储并进行共同分区,如何解决此问题?在这种情况下,我想通过比我的常规键更具体的东西进行 ..
发布时间:2021-11-12 02:03:19 其他开发

是否可以创建具有动态分区计数的 kafka 主题?

我正在使用 kafka 将网站用户的页面访问事件流式传输到分析服务.每个事件将包含消费者的以下详细信息: 用户名 用户的IP地址 我需要非常高的吞吐量,所以我决定使用分区键将主题分区为 userId-ipAddress即 对于 userId 1000 和 ip 地址 10.0.0.1,事件将有分区键为“1000-10.0.0.1" 在这个用例中,分区键是动态的,因此在创建 ..
发布时间:2021-11-12 01:52:58 其他开发

Zookeeper 是 Kafka 的必备品吗?

在 Kafka 中,我只想使用单个代理、单个主题和具有一个生产者和多个消费者的单个分区(每个消费者都从代理获取自己的数据副本).鉴于此,我不想要使用 Zookeeper 的开销;我不能只使用经纪人吗?为什么必须要有动物园管理员? 解决方案 是的,运行 Kafka 需要 Zookeeper.来自 Kafka 入门文档: 第 2 步:启动服务器 Kafka 使用zookeeper, ..

Apache Flink - 将流与输入 Kafka 主题一样进行分区

我想在 Apache Flink 中实现以下场景: 给定一个有 4 个分区的 Kafka 主题,我想在 Flink 中使用不同的逻辑独立处理分区内数据,具体取决于事件的类型. 特别地,假设输入 Kafka 主题包含之前图像中描述的事件.每个事件都有不同的结构:分区 1 具有字段“a";作为键,分区 2 具有字段“b";作为关键等.在 Flink 中,我想根据事件应用不同的业务逻辑,所以 ..

Apache Flink - 将流与输入 Kafka 主题一样进行分区

我想在 Apache Flink 中实现以下场景: 给定一个有 4 个分区的 Kafka 主题,我想在 Flink 中使用不同的逻辑独立处理分区内数据,具体取决于事件的类型. 特别地,假设输入 Kafka 主题包含之前图像中描述的事件.每个事件都有不同的结构:分区 1 具有字段“a";作为键,分区 2 具有字段“b";作为关键等.在 Flink 中,我想根据事件应用不同的业务逻辑,所以 ..

仅跟踪工作日的连续缺勤天数 SQL

我正在尝试创建一个表,该表获取员工生病的日期,并创建一个新列以提供“疾病 ID",该列将标识多个日期的唯一缺勤实例.我已经设法做到了这一点,但是我现在需要考虑一个包含每个员工工作模式的表格,这会让我知道是否有人在一周中的某一天上班. 这可以使用两个表中的 day_no 列以及 employee_number 进行连接. 我发布了一个这个问题早些时候,@GMB 有一个很好的解决方案,但是 ..
发布时间:2021-06-14 19:47:48 数据库

将大型数据集拆分为更小的部分以供 Web 查看

背景 我正在为 Web 应用程序开发 Web 平台.该平台的关键功能之一是用户管理.因此,我实现了一个登录系统,使注册用户能够登录平台和应用程序.这是使用 MySQL 数据库实现的,其中包含登录凭据、用户 ID、联系信息等... 问题 我遇到的问题是用户表.这张桌子可能有很大的潜力.因此,如果管理员想要编辑特定用户的信息,根据用户在列表中的位置,管理员将不得不滚动可能的数千条记录 ..
发布时间:2021-06-14 19:47:45 PHP

将当前的 solr 索引划分为分片

我一直在分析提高 SOLR 索引性能的最佳方法,并且可能会分片当前索引以允许搜索变得分布式. 然而,鉴于我们的索引超过 400GB 并且包含大约 700MM 的文档,重新索引数据似乎很麻烦.我一直在考虑复制索引和删除文档作为更有效地创建分片环境的方法. 不幸的是,模数似乎不可用于查询文档的内部数字 ID.我可以使用哪些其他可能的分区策略按查询删除而不是完全重新索引? 解决方案 ..
发布时间:2021-06-14 19:47:42 其他开发

Spark中的ReduceByKey函数

我在某处读到,对于作用于单个 RDD 的操作,例如 reduceByKey(),在预先分区的 RDD 上运行将导致在本地计算每个键的所有值在单台机器上,只需要将最终的、本地减少的值从每个工作节点发送回主节点.这意味着我必须声明一个分区器,如: val sc = new SparkContext(...)val userData = sc.sequenceFile[UserID, UserInfo ..
发布时间:2021-06-14 19:47:39 其他开发

Oracle 12c - 删除表和所有关联的分区

我在 Oracle 12c 中创建了表 t1.表有数据,在列表分区上进行分区,也有子分区. 现在我想删除整个表和所有关联的分区(和子分区). 这是删除所有内容的正确命令吗? DROP TABLE t1 PURGE; 解决方案 当您运行 DROP 时,该表将从数据库中完全删除,即该表不再存在. 如果您只想从该表中删除所有数据,请运行 truncate table T1 dr ..
发布时间:2021-06-14 19:47:36 数据库

以所有可能的方式将列表拆分为所有对

我知道很多帖子都有类似的问题,并且我都看过.但是,我无法做我需要的事情. 我有列表说 l1=[0,1,2,3,4] 我想将其划分为如下的元组对: [(0, 1), (2, 3), 4],[(0, 1), (2, 4), 3],[(0, 1), (3, 4), 2],[(0, 2), (1, 3), 4],[(0, 2), (1, 4), 5],[(0, 2), (3, 4), 1],[( ..
发布时间:2021-06-14 19:47:33 Python

MySQL 分区:为什么不采用适当的分区

DROP TABLE temp;创建表`temp`(`CallID` bigint(8) 无符号 NOT NULL,`InfoID` bigint(8) 无符号 NOT NULL,`CallStartTime` 日期时间不为空,`PartitionID` int(4) 无符号非空,KEY`CallStartTime`(`CallStartTime`)) 引擎=InnoDB 默认字符集=latin ..
发布时间:2021-06-14 19:47:30 数据库

找到包含空间中所有点的最大空矩形的集合

给定一个由(白色)矩形和一组占据该空间的(黑色)矩形限制的 2D 空间,我正在寻找一种以某种方式索引空(白色)空间的方法.为此,我想创建一组(白色)矩形,以便对于空间中的任何给定点(不属于任何“黑色"矩形的点)在该白色矩形结果集中存在最大的空矩形. 谢谢 解决方案 http://rd.springer.com/chapter/10.1007%2F3-540-53487-3_50这篇论 ..
发布时间:2021-06-14 19:47:24 其他开发

Hive 分区验证

我创建了一个分区的配置单元表.我将数据插入到这个表中.现在假设我使用 where 子句执行一个 select * 查询,那么我如何确保 hive 查询使用分区? 解决方案 您可以通过执行 EXPLAIN EXTENDED 命令来验证分区修剪工作. EXPLAIN EXTENDED select * from mytable where load_date='2018-01-01'; 计 ..
发布时间:2021-06-14 19:47:22 其他开发