partitioning相关内容

用于数据库分片的 MySQL 代理替代方案

MySQL 代理是否有任何替代方案.我不想使用它,因为它仍处于 alpha 阶段. 我将有 10 个 MySQL 服务器,其中 table_1 table_2 table_3 table_4 ... table_10 分布在 10 个服务器上.每个表的结构都是相同的,它们只是具有不同数据集的分片. 是否有 MySQL 代理的替代方案,我可以让我的客户端应用程序连接到单个 SQL Ser ..
发布时间:2021-12-31 19:42:07 数据库

Cassandra 牺牲了 CAP 定理的哪一部分,为什么?

这里有精彩的演讲关于使用 Kingsby 的 Jesper 库 在 Cassandra 中模拟分区问题. 我的问题是 - 对于 Cassandra,您主要关注 CAP 定理的分区部分,还是一致性也是您需要管理的一个因素? 解决方案 Cassandra 通常被归类为 AP 系统,这意味着可用性和分区容错性通常被认为比一致性更重要.然而,现实世界的系统很少完全属于这些类别,因此将 CAP ..

过滤火花分区表在 Pyspark 中不起作用

我正在使用 spark 2.3 并使用 pyspark 中的数据帧编写器类方法编写了一个数据帧来创建配置单元分区表. newdf.coalesce(1).write.format('orc').partitionBy('veh_country').mode("overwrite").saveAsTable('emp.partition_Load_table') 这是我的表结构和分区信息. h ..
发布时间:2021-12-28 23:48:55 其他开发

Hive 1.1.0 将表分区类型从 int 更改为 string

我有一个表,它有一个 int 类型的分区,但我想将其转换为字符串.但是,我不知道该怎么做. 表描述为: Col1 时间戳Col2 字符串Col3 字符串Col4 字符串Part_col 整数#分区信息# col_name data_type 注释Part_col 整数 我创建的分区是 Part_col=0, Part_col=1, ..., Part_col=23 我想将它们更改为 ..
发布时间:2021-12-28 23:43:50 其他开发

Hive 不读取 Spark 生成的分区镶木地板文件

我在 Hive 中读取 Spark 生成的分区镶木地板文件时遇到问题.我可以在 hive 中创建外部表,但是当我尝试选择几行时,hive 只返回一条没有行的“OK"消息. 我能够在 Spark 中正确读取分区的镶木地板文件,因此我假设它们是正确生成的.当我在 hive 中创建一个外部表而不进行分区时,我也可以读取这些文件. 有人有什么建议吗? 我的环境是: 集群 EMR 4 ..
发布时间:2021-12-28 23:24:48 其他开发

手动从 HDFS 中删除分区数据时,如何更新 Hive 中的分区元数据

自动更新Hive分区表元数据的方法是什么? 如果新的分区数据被添加到 HDFS(没有执行 alter table add partition 命令).然后我们可以通过执行命令“msck repair"来同步元数据. 如果从HDFS中删除了大量分区数据(没有执行alter table drop partition命令执行)怎么办. 同步 Hive 元数据的方法是什么? 解决方 ..
发布时间:2021-12-28 23:17:15 其他开发

将列表分组为每组 X 项的组

我在了解将项目列表分组为(例如)不超过 3 个项目的组的最佳方法时遇到了问题.我已经创建了下面的方法,但是在返回之前没有在组上执行 ToList,如果列表被多次枚举,我会遇到问题. 第一次枚举是正确的,但任何额外的枚举都会被抛弃,因为两个变量(i 和 groupKey)似乎在迭代之间被记住了. 所以问题是: 有没有更好的方法来完成我正在努力实现的目标? 就是在结果组离开这个 ..
发布时间:2021-12-27 08:08:06 C#/.NET

数据库 - 设计“事件"桌子

阅读这个很棒的Nettuts+的提示后文章 我想出了一个表模式,它将高度易变的数据与其他受到大量读取的表分开,同时减少整个数据库模式中所需的表数量,但是我不确定这是否是一个好主意,因为它不遵循规范化规则,我想听听您的建议,这里是总体思路: 我在 类表继承结构中建模了四种类型的用户,主要是“用户"表我存储所有用户共有的数据(id、username、password、几个flags、...) 以 ..
发布时间:2021-12-26 21:20:42 数据库

包含 8000 万条记录的表并添加索引需要超过 18 小时(或永远)!怎么办?

简要回顾所发生的事情.我正在处理 7100 万条记录(与其他人处理的数十亿条记录相比并不多).在另一个线程上,有人建议我的集群的当前设置不适合我的需要.我的表结构是: 创建表`IPAddresses`(`id` int(11) unsigned NOT NULL auto_increment,`ipaddress` bigint(20) 无符号默认 NULL,主键(`id`)) 引擎=MyISA ..
发布时间:2021-12-26 21:09:24 数据库

用mysql处理非常大的数据

抱歉长篇幅! 我有一个包含约 30 个表的数据库(InnoDB 引擎).其中只有两个表,即“transaction"和“shift"非常大(第一个有 150 万行,而 shift 有 23k 行).现在一切正常,我对当前数据库大小没有问题. 但是,我们将有一个类似的数据库(相同的数据类型、设计……)但要大得多,例如,“事务"表将有大约 10 亿条记录(大约 230 万条记录)每天交易) ..
发布时间:2021-12-21 23:33:25 数据库

按负载将 AWS Kinesis Firehose 数据分区到 s3

我正在使用 AWS-Kinesis-Firehose 将数据注入 S3,然后使用 Athena 使用它. 我正在尝试分析来自不同游戏的事件,以避免 Athena 探索大量数据我想使用每个游戏的标识符对 s3 数据进行分区,到目前为止我没有找到解决方案,因为 Firehose 接收来自不同游戏的数据. 有人知道怎么做吗? 谢谢,哈维. 解决方案 您可以使用 Amazon K ..

如何在 hadoop 集群上处理 id 生成?

我正在 hadoop 集群上构建字典,需要为每个令牌生成一个 数字 id.我该怎么做? 解决方案 您有两个问题.首先,您要确保为每个令牌准确分配一个 ID.为此,您应该按标记对记录进行排序和分组,并在减速器中进行分配.一旦确定为每个标记只调用了一次 reducer 方法,您就可以使用上下文中的分区号和由 reducer 维护的唯一数字 ID(每个分区一个实例) - 只需使用初始化为 1 的 ..
发布时间:2021-12-15 19:28:37 其他开发

为什么此查询不会发生分区消除?

我有一个按年、月、日和小时分区的 hive 表.我需要对其运行查询以获取过去 7 天的数据.这是在 Hive 0.14.0.2.2.4.2-2 中.我的查询目前看起来像这样: SELECT COUNT(column_name) from table_name其中年 >= 年(date_sub(from_unixtime(unix_timestamp()), 7))AND 月份 >= 月份(dat ..
发布时间:2021-12-15 19:01:47 其他开发

Hive:为现有文件夹结构添加分区

我在 HDFS 中有一个文件夹结构,如下所示.但是,使用 ALTER TABLE ADD PARTITION 命令实际上没有在表上创建分区,即使文件夹结构被设置为好像表有分区一样. 如何自动将所有分区添加到 Hive 表中?(Hive 1.0,外部表) /user/frank/clicks.db/日期=20190401/file0004.csv/日期=20190402/file0009.c ..
发布时间:2021-12-15 18:31:38 其他开发

LINQ 分区列表成 8 个成员的列表

如何将一个列表(使用 LINQ)分解成一个列表列表,在每 8 个条目上对原始列表进行分区? 我想这样的事情会涉及到 Skip 和/或 Take,但我对 LINQ 还是很陌生. 编辑:使用 C#/.Net 3.5 Edit2:这个问题的措辞与其他“重复"问题不同.虽然问题相似,但这个问题的答案更胜一筹:“接受"的答案都非常可靠(使用 yield 声明)以及 Jon Skeet 建议 ..
发布时间:2021-12-09 11:00:47 其他开发

如何找到一个集合的所有分区

我有一组不同的值.我正在寻找一种方法来生成该集合的所有分区,即将集合划分为子集的所有可能方法. 例如,集合 {1, 2, 3} 具有以下分区: { {1}, {2}, {3} },{ {1, 2}, {3} },{ {1, 3}, {2} },{ {1}, {2, 3} },{ {1, 2, 3} }. 由于这些是数学意义上的集合,因此顺序无关紧要.例如,{1, 2}, {3} 与 {3 ..
发布时间:2021-12-06 19:44:16 C#/.NET