partitioning 第2页 - IT屋-程序员软件开发技术分享社区

EXECUTE of SELECT ... INTO 未实现

我正在尝试在 PostrgeSQL 中运行此函数: 创建或替换函数 create_partition_and_insert()返回触发 AS$BODY$宣布分区 VARCHAR(25);_date 文本；开始EXECUTE 'SELECT REPLACE(' || quote_literal(NEW.date) || ',''-'',''_'') into _date';分区:= TG_RELN ..

发布时间：2022-01-01 21:19:59 postgresql triggers plpgsql dynamic-sql partitioning 其他开发

用于数据库分片的 MySQL 代理替代方案

MySQL 代理是否有任何替代方案.我不想使用它，因为它仍处于 alpha 阶段. 我将有 10 个 MySQL 服务器，其中 table_1 table_2 table_3 table_4 ... table_10 分布在 10 个服务器上.每个表的结构都是相同的，它们只是具有不同数据集的分片. 是否有 MySQL 代理的替代方案，我可以让我的客户端应用程序连接到单个 SQL Ser ..

发布时间：2021-12-31 19:42:07 mysql proxy partitioning sharding load-balancing 数据库

Cassandra 牺牲了 CAP 定理的哪一部分，为什么?

这里有精彩的演讲关于使用 Kingsby 的 Jesper 库在 Cassandra 中模拟分区问题. 我的问题是 - 对于 Cassandra，您主要关注 CAP 定理的分区部分，还是一致性也是您需要管理的一个因素? 解决方案 Cassandra 通常被归类为 AP 系统，这意味着可用性和分区容错性通常被认为比一致性更重要.然而，现实世界的系统很少完全属于这些类别，因此将 CAP ..

发布时间：2021-12-31 18:08:39 cassandra partitioning high-availability consistency cap-theorem 其他开发

过滤火花分区表在 Pyspark 中不起作用

我正在使用 spark 2.3 并使用 pyspark 中的数据帧编写器类方法编写了一个数据帧来创建配置单元分区表. newdf.coalesce(1).write.format('orc').partitionBy('veh_country').mode("overwrite").saveAsTable('emp.partition_Load_table') 这是我的表结构和分区信息. h ..

发布时间：2021-12-28 23:48:55 hive pyspark partitioning 其他开发

Hive 1.1.0 将表分区类型从 int 更改为 string

我有一个表，它有一个 int 类型的分区，但我想将其转换为字符串.但是，我不知道该怎么做. 表描述为: Col1 时间戳Col2 字符串Col3 字符串Col4 字符串Part_col 整数#分区信息# col_name data_type 注释Part_col 整数我创建的分区是 Part_col=0, Part_col=1, ..., Part_col=23 我想将它们更改为 ..

发布时间：2021-12-28 23:43:50 hadoop hive partitioning ddl 其他开发

Hive 不读取 Spark 生成的分区镶木地板文件

我在 Hive 中读取 Spark 生成的分区镶木地板文件时遇到问题.我可以在 hive 中创建外部表，但是当我尝试选择几行时，hive 只返回一条没有行的“OK"消息. 我能够在 Spark 中正确读取分区的镶木地板文件，因此我假设它们是正确生成的.当我在 hive 中创建一个外部表而不进行分区时，我也可以读取这些文件. 有人有什么建议吗? 我的环境是: 集群 EMR 4 ..

发布时间：2021-12-28 23:24:48 apache-spark hive partitioning partition parquet 其他开发

使用 Hive 分区表优化连接性能

我有一个带有一些示例数据的 Hive orc test_dev_db.TransactionUpdateTable 表，它将保存需要更新到主表 (test_dev_db.TransactionMainHistoryTable) 的增量数据，该表在列 Country,Tran_date 上进行分区. Hive Incremental load table schema:包含19行需要合并. ..

发布时间：2021-12-28 23:22:46 performance hive query-optimization partitioning 其他开发

手动从 HDFS 中删除分区数据时，如何更新 Hive 中的分区元数据

自动更新Hive分区表元数据的方法是什么? 如果新的分区数据被添加到 HDFS(没有执行 alter table add partition 命令).然后我们可以通过执行命令“msck repair"来同步元数据. 如果从HDFS中删除了大量分区数据(没有执行alter table drop partition命令执行)怎么办. 同步 Hive 元数据的方法是什么? 解决方 ..

发布时间：2021-12-28 23:17:15 hive partitioning 其他开发

将列表分组为每组 X 项的组

我在了解将项目列表分组为(例如)不超过 3 个项目的组的最佳方法时遇到了问题.我已经创建了下面的方法，但是在返回之前没有在组上执行 ToList，如果列表被多次枚举，我会遇到问题. 第一次枚举是正确的，但任何额外的枚举都会被抛弃，因为两个变量(i 和 groupKey)似乎在迭代之间被记住了. 所以问题是: 有没有更好的方法来完成我正在努力实现的目标? 就是在结果组离开这个 ..

发布时间：2021-12-27 08:08:06 c# linq group-by grouping partitioning C#/.NET

数据库 - 设计“事件"桌子

阅读这个很棒的Nettuts+的提示后文章我想出了一个表模式，它将高度易变的数据与其他受到大量读取的表分开，同时减少整个数据库模式中所需的表数量，但是我不确定这是否是一个好主意，因为它不遵循规范化规则，我想听听您的建议，这里是总体思路: 我在类表继承结构中建模了四种类型的用户，主要是“用户"表我存储所有用户共有的数据(id、username、password、几个flags、...) 以 ..

发布时间：2021-12-26 21:20:42 mysql database database-design relational partitioning 数据库

包含 8000 万条记录的表并添加索引需要超过 18 小时(或永远)！怎么办?

简要回顾所发生的事情.我正在处理 7100 万条记录(与其他人处理的数十亿条记录相比并不多).在另一个线程上，有人建议我的集群的当前设置不适合我的需要.我的表结构是: 创建表`IPAddresses`(`id` int(11) unsigned NOT NULL auto_increment，`ipaddress` bigint(20) 无符号默认 NULL，主键(`id`)) 引擎=MyISA ..

发布时间：2021-12-26 21:09:24 mysql database database-design partitioning 数据库

用mysql处理非常大的数据

抱歉长篇幅！我有一个包含约 30 个表的数据库(InnoDB 引擎).其中只有两个表，即“transaction"和“shift"非常大(第一个有 150 万行，而 shift 有 23k 行).现在一切正常，我对当前数据库大小没有问题. 但是，我们将有一个类似的数据库(相同的数据类型、设计……)但要大得多，例如，“事务"表将有大约 10 亿条记录(大约 230 万条记录)每天交易) ..

发布时间：2021-12-21 23:33:25 mysql database performance indexing partitioning 数据库

按负载将 AWS Kinesis Firehose 数据分区到 s3

我正在使用 AWS-Kinesis-Firehose 将数据注入 S3，然后使用 Athena 使用它. 我正在尝试分析来自不同游戏的事件，以避免 Athena 探索大量数据我想使用每个游戏的标识符对 s3 数据进行分区，到目前为止我没有找到解决方案，因为 Firehose 接收来自不同游戏的数据. 有人知道怎么做吗? 谢谢，哈维. 解决方案您可以使用 Amazon K ..

发布时间：2021-12-15 20:33:26 amazon-web-services amazon-s3 partitioning payload amazon-kinesis-firehose 其他开发

如何在 hadoop 集群上处理 id 生成?

我正在 hadoop 集群上构建字典，需要为每个令牌生成一个数字 id.我该怎么做? 解决方案您有两个问题.首先，您要确保为每个令牌准确分配一个 ID.为此，您应该按标记对记录进行排序和分组，并在减速器中进行分配.一旦确定为每个标记只调用了一次 reducer 方法，您就可以使用上下文中的分区号和由 reducer 维护的唯一数字 ID(每个分区一个实例) - 只需使用初始化为 1 的 ..

发布时间：2021-12-15 19:28:37 hadoop mapreduce partitioning 其他开发

按现有字段对 Hive 表进行分区?

..

发布时间：2021-12-15 19:25:27 hadoop hive partitioning hdfs database-partitioning 其他开发

为什么此查询不会发生分区消除?

我有一个按年、月、日和小时分区的 hive 表.我需要对其运行查询以获取过去 7 天的数据.这是在 Hive 0.14.0.2.2.4.2-2 中.我的查询目前看起来像这样: SELECT COUNT(column_name) from table_name其中年 >= 年(date_sub(from_unixtime(unix_timestamp()), 7))AND 月份 >= 月份(dat ..

发布时间：2021-12-15 19:01:47 sql hadoop hive hiveql partitioning 其他开发

Hive:为现有文件夹结构添加分区

我在 HDFS 中有一个文件夹结构，如下所示.但是，使用 ALTER TABLE ADD PARTITION 命令实际上没有在表上创建分区，即使文件夹结构被设置为好像表有分区一样. 如何自动将所有分区添加到 Hive 表中?(Hive 1.0，外部表) /user/frank/clicks.db/日期=20190401/file0004.csv/日期=20190402/file0009.c ..

发布时间：2021-12-15 18:31:38 hadoop hive hdfs partitioning hive-partitions 其他开发

LINQ 分区列表成 8 个成员的列表

如何将一个列表(使用 LINQ)分解成一个列表列表，在每 8 个条目上对原始列表进行分区? 我想这样的事情会涉及到 Skip 和/或 Take，但我对 LINQ 还是很陌生. 编辑:使用 C#/.Net 3.5 Edit2:这个问题的措辞与其他“重复"问题不同.虽然问题相似，但这个问题的答案更胜一筹:“接受"的答案都非常可靠(使用 yield 声明)以及 Jon Skeet 建议 ..

发布时间：2021-12-09 11:00:47 linq partitioning skip take 其他开发

如何找到一个集合的所有分区

我有一组不同的值.我正在寻找一种方法来生成该集合的所有分区，即将集合划分为子集的所有可能方法. 例如，集合 {1, 2, 3} 具有以下分区: { {1}, {2}, {3} },{ {1, 2}, {3} },{ {1, 3}, {2} },{ {1}, {2, 3} },{ {1, 2, 3} }. 由于这些是数学意义上的集合，因此顺序无关紧要.例如，{1, 2}, {3} 与 {3 ..

发布时间：2021-12-06 19:44:16 c# algorithm set partitioning C#/.NET

测试 Postgres 表分区的 HASH 函数

我正在使用 Postgres 11，并且想在主键是 UUID 的表上使用哈希分区.我知道我需要预先选择多个分区，并且主键上的哈希函数的模数将用于为每个分区分配行. 像这样: CREATE TABLE new_table (id uuid) PARTITION BY HASH (id);CREATE TABLE new_table_0 PARTITION OF new_table FOR V ..

发布时间：2021-11-27 08:55:45 postgresql hash partitioning amazon-aurora postgresql-11 其他开发

partitioning相关内容