partition 第3页 - IT屋-程序员软件开发技术分享社区

如何遍历蜂巢中的所有分区?

我想更新所有分区中列的值.在我发现insert overwrite可以用来更新数据之前.我目前的说法是 insert OVERWRITE table s_job PARTITION(pt = '20190101') select case job_name when 'Job' then 'system' end from s_job; 但是，它必须指定某些分区.我想要的是更新所有分区 ..

发布时间：2020-11-23 18:42:50 sql hive hiveql partition 其他开发

动态分区不能是静态分区"3"的父级

在将数据插入表配置单元中时，使用以下查询引发错误“动态分区不能是静态分区'3'的父级" INSERT INTO TABLE student_partition PARTITION(course，year = 3) SELECT name，id，course FROM student1 WHERE year = 3; 请说明原因. 解决方案此异常的原因是因为分区是分层文件夹. ..

发布时间：2020-11-23 18:30:41 hive hiveql partition hive-partitions 其他开发

从另一个表(包括配置单元中的分区列)创建临时表

我正在使用AS子句从另一个表创建一个临时表，其中包括另一个表的分区列也属于临时表，然后出现以下错误.下面是表create语句，其中col4是表xyz的分区列. 在运行create语句时，出现以下错误.当我从create语句中删除col4时，它运行正常. 错误: 编译语句时出错:FAILED:NumberFormatException为输入字符串:"HIVE_DEFAULT_PA ..

发布时间：2020-11-22 01:55:04 sql hadoop hive hiveql partition 其他开发

在Linux上的C ++中移动文件的更快方法

我正在尝试使用C ++在Linux上移动文件. 问题在于，源文件和目标文件夹可以位于不同的分区中.所以我不能简单地移动文件. 好的.我决定复制文件并删除旧文件. //----- bool copyFile(string source, string destination) { bool retval = false; ifstream srcF (source.c_str( ..

发布时间：2020-11-06 01:43:48 c++ linux file-io filesystems partition 服务器开发

数据帧Pyspark中的时间戳列的分区

我在PSspark中有一个 DataFrame ，格式如下：日期ID名称小时Dno Dname 2013/12/11 1 sam 8102 It 2013/12/10 2 Ram 7102 It 2013/10/11 3 Jack 8103账户 2013年12月11日4 Jim 9101 Marketing 我想基于 dno 并使用Parquet格式另存为H ..

发布时间：2020-10-17 01:54:46 apache-spark dataframe timestamp pyspark partition 其他开发

SQL连接多行

我正在使用Teradata，我有一个像这样的表 ID字符串 123 Jim 123 John 123 Jane 321 Jill 321 Janine 321 Johan 我想查询表，以便得到 ID字符串 123 Jim，John， Jane 321 Jill，Janine，Johan 我尝试了分区，但可以有很多名称 ..

发布时间：2020-10-07 19:13:37 teradata concat partition 其他开发

初始令牌为cassandra无法正常工作

要了解没有vNode的环，我尝试将节点1中的初始令牌尝试为25，将节点2的初始令牌尝试为50，如下所示，地址机架状态状态拥有者令牌 50 172.30.56.60 rack1向上正常82.08 KiB 100.00％25 172.30.56.61 rack1向上正常82.09 KiB 100.00％50 user_id | |提供以下信息（user_id-主键/分 ..

发布时间：2020-09-29 20:57:45 cassandra partition cassandra-3.0 其他开发

拥有一个具有单行分区的Cassandra表是一种不好的做法吗？

假设我有一个这样的表创建表请求（ transaction_id文本， request_date时间戳，数据文本，主键（transaction_id））; transaction_id是唯一的，据我了解，该表中的每个分区只能有一行，我不确定这种情况是否会导致OS性能问题，可能是因为Cassandra为每个分区创建了一个文件，从而导致大量文件要为其托管OS进行管理，请 ..

发布时间：2020-09-29 20:50:44 cassandra primary-key partition 其他开发

Cassandra桶拆分，用于分区大小

我对Cassandra还是很陌生，我只是通过Datastax课程学习它的，但是我在这里或Internet上没有关于存储桶的足够信息，而在我的应用程序中，我需要使用存储桶来拆分数据。我有一些仪器可以进行很多测量，并且每天拆分测量（以时间戳作为分区键）可能有点冒险，因为我们很容易达到100MB的上限用于分区。每个度量值都涉及一个用ID标识的特定对象。所以我想用一个水桶，但我不知道该怎么办。 ..

发布时间：2020-09-29 19:38:05 cassandra time-series datastax partition bucket 其他开发

将消息发送到Azure IoT中心分区

任何人都知道是否存在一个库，该库可让您使用Azure将消息发送到IoT中心上的特定分区. 以前，我无法通过azuresblite库实现此功能，但是我无法使用它. https://github.com/ppatierno/azuresblite 解决方案无法将消息发送到特定分区.时期. 分区在内部用于允许扩展IoT(事件中心)并允许扩展消费者应用程序(将事件从集线器中读取的应用程序). ..

发布时间：2020-09-17 05:36:57 azure iot servicebus partition azure-iot-hub 其他开发

SparkSQL PostgresQL数据框分区

我有一个非常简单的SparkSQL连接到Postgres DB的设置，我正在尝试从一个表中获取一个DataFrame，该Dataframe的分区数为X(说2).代码如下: Map options = new HashMap(); options.put("url", DB_URL); options.put("driver", ..

发布时间：2020-09-04 19:44:04 postgresql apache-spark apache-spark-sql partition 其他开发

如何在不产生.rdd成本的情况下检查Spark DataFrame的分区数

关于如何获取n RDD和DataFrame的分区数存在很多问题:答案总是: rdd.getNumPartitions 或 df.rdd.getNumPartitions 不幸的是，这是对DataFrame的昂贵操作，因为 df.rdd 需要从DataFrame到rdd的转换.这是运行时间的顺序 df.count 我正在编写可选 repartition ..

发布时间：2020-09-04 02:16:45 scala apache-spark partition 其他开发

用少于N个分区的N个文件将数据写入磁盘

我们可以写100个文件的数据，每个文件有10个分区吗? 我知道我们可以使用重新分区或合并来减少分区数量.但是我已经看到一些hadoop生成的avro数据具有比文件数量更多的分区. 解决方案要写出的文件数由DataFrame或RDD的并行化控制.因此，如果您的数据被划分为10个Spark分区，则在不减少分区(例如coalesce或repartition)的情况下，您写的文件不能少于1 ..

发布时间：2020-09-04 02:12:59 apache-spark partition 其他开发

当文件无法容纳在Spark主内存中时，Spark如何读取大文件(PB)

在这种情况下，大文件会发生什么? 1)Spark从NameNode获取数据位置. Spark是否会在同一时间停止，因为根据NameNode的信息，数据大小太长了? 2)Spark根据数据节点块大小对数据进行分区，但是无法将所有数据存储到主存储器中.在这里，我们不使用StorageLevel.那么这里会发生什么呢? 3)Spark会对数据进行分区，一旦该主存储器中的数据再次处理，一 ..

发布时间：2020-09-03 23:57:31 apache-spark rdd partition 其他开发

如何使用VB 6读取HDD卷的序列号?

如何在不使用任何ActiveX控件或第三方附件的情况下使用VB 6读取HDD卷的序列号? 解决方案 Private Declare Function GetVolumeInformation _ Lib "kernel32" Alias "GetVolumeInformationA" _ (ByVal lpRootPathName As String, _ ByVa ..

发布时间：2020-06-14 19:14:39 vb6 ntfs partition serial-number fat 其他开发

Spark聚集在分区内的多个列上，而不会随机

我正在尝试在多个列上汇总一个数据框。我知道聚合所需的所有内容都在分区内-即无需进行洗牌，因为聚合的所有数据都在分区本地。使用示例，如果我有 val sales = sc.parallelize（List（（ “ West”，“ Apple”，2.0、10），（“ West”，“ Apple”，3.0、15），（“ West”，“ Orange”，5.0、15），（“南部”， ..

发布时间：2020-06-02 20:53:00 apache-spark aggregation shuffle partition 其他开发

我正在尝试将分区数据恢复到原始表中. 但是出现以下错误. 我通过此命令将分区数据交换到AR_TBCAM.BKP_COST_EVENT_P2016表中 ALTER TABLE BKP_COST_EVENT EXCHANGE PARTITION P2016 WITH TABLE AR_TBCAM.BKP_COST_EVENT_P2016 INCLUDING INDEXES WITHOUT VAL ..

发布时间：2020-05-22 18:32:10 oracle oracle12c partitioning partition 数据库

分组更新

我为似乎是简单的UPDATE语句而感到困惑. 我正在寻找使用两个值的UPDATE.第一个(a)用于分组，第二个(b)用于查找各个组内的局部最小值.另外，b上有一个阈值:任何值1或更小都应保持不变. drop table t1; create table t1 (a number, b number); insert into t1 values (1,0); insert into t ..

发布时间：2020-05-22 03:38:00 oracle group-by partition 数据库

Oracle:删除多个分区

表 TMP 具有5个分区，即P_1，P_2，.... P_5. 我需要删除 TMP 的一些分区；要删除的分区是由另一个查询派生的. 例如: ALTER TABLE TMP DROP PARTITIONS (SELECT ... From ... //expression to get partition names ) 假设SELECT语句返回P_1& P_5.上面的ALTER语 ..

发布时间：2020-05-22 01:50:05 oracle database-partitioning partition 数据库

如何更改现有表以在Oracle中创建范围分区

我有一个拥有10年数据的表(我已经进行了转储). 我想在表中的一个日期键列上对现有表进行分区. 我看到的大多数示例都是使用CREATE TABLE..PARTITION BY RANGE...添加新分区的.但是我的表是现有表. 我认为我需要一些ALTER语句. ALTER TABLE TABLE_NAME PARTITION BY RANGE(CREATED_DATE) ..

发布时间：2020-05-22 00:11:49 oracle create-table alter-table partition 数据库

partition相关内容