bigdata相关内容

Hive/Hadoop 中的唯一密钥生成

在从大数据蜂巢表中选择一组记录时,需要为每条记录创建一个唯一的键.在顺序操作模式下,很容易通过调用像 max(id) 这样的 soem 来生成唯一的 id.由于 hive 并行运行任务,我们如何在不影响 hadoop 性能的情况下生成唯一键作为选择查询的一部分.这真的是一个 map reduce 问题还是我们需要采用顺序方法来解决这个问题. 解决方案 如果由于某种原因你不想处理 UUID, ..
发布时间:2021-12-28 23:59:14 Java开发

Hive 表在所有查询上返回空结果集

我创建了一个 Hive 表,它从文本文件加载数据.但是它在所有查询上返回空结果集. 我尝试了以下命令: CREATE TABLE table2(id1 INT,id2 INT,id3 INT,id4 字符串,id5 INT,id6 字符串,id7 字符串,id8 字符串,id9 字符串,id10 字符串,id11 字符串,id12 字符串,id13 字符串,id14 字符串,id15 字符 ..
发布时间:2021-12-28 23:55:32 数据库

hbase 和 hive 有什么区别?(Hadoop)

据我了解,Hbase 是 Hadoop 数据库,Hive 是数据仓库. Hive 允许创建表并在其中存储数据,您还可以将现有的 HBase 表映射到 Hive 并对其进行操作. 如果 hive 做这一切,为什么我们应该使用 hbase?我们可以单独使用 hive 吗?我很困惑:( 解决方案 所以简单来说,使用 hive,您可以在您的表上触发类似 SQL 的查询(有一些例外),并 ..
发布时间:2021-12-28 23:54:37 其他开发

如何使用 shell 脚本将 HiveQL 查询的结果输出到 CSV?

我想运行多个 Hive 查询,最好是并行而不是顺序运行,并将每个查询的输出存储到一个 csv 文件中.例如,csv1 中的 query1 输出,csv2 中的 query2 输出等.我将在之后运行这些查询离开工作的目标是在下一个工作日分析输出.我对使用 bash shell 脚本很感兴趣,因为这样我就可以设置一个 cron 任务来在一天中的特定时间运行它. 我知道如何将 HiveQL 查询的 ..
发布时间:2021-12-28 23:52:19 其他开发

如何修复在 src 文件系统问题上更改的资源

我正在尝试在执行 SQL 的 MR 上使用 Hive 并且中途失败并出现以下错误: 应用程序 application_1570514228864_0001 失败 2 次,原因是 appattempt_1570514228864_0001_000002 的 AM 容器退出,exitCode:-1000这次尝试失败.诊断:[2019-10-08 13:57:49.272]无法下载资源{ { s3a: ..
发布时间:2021-12-28 23:49:50 Java开发

Hive 执行钩子

我需要在 Apache Hive 中挂钩一个自定义执行挂钩.如果有人知道怎么做,请告诉我. 我当前使用的环境如下: Hadoop:Cloudera 版本 4.1.2操作系统:Centos 谢谢,阿伦 解决方案 根据您要在哪个阶段注入自定义代码,有多种类型的钩子: 驱动程序运行挂钩(前/后) 语义分析器挂钩(前/后) 执行挂钩(前/失败/后) 客户统计信息发布者 ..
发布时间:2021-12-28 23:40:07 其他开发

有没有办法在 Hive 中转置数据?

Hive 中的数据可以转置吗?如在,行变成列,列是行?如果没有直接的功能,有没有办法分几步完成? 我有一张这样的桌子: |身份证 |姓名 |进程 1 |进程2 |进程3 ||1 |A1 |× |乙 |f ||2 |B1 |是 |c |克 ||3 |C1 || |d |小时 ||4 |D1 |一个|电子 |我| 我希望它是这样的: |A1 |B1 |C1 |D1 ||× |是 || ..
发布时间:2021-12-28 23:16:09 其他开发

将大量节点插入 Neo4J

我有一个存储在典型 MySQL 数据库中的表,我已经使用 java 构建了一个小型解析器工具,以解析并构建一个 neo4j 数据库.该数据库将有大约 4000 万个节点,每个节点都有一个或多个边(最多可能有 10 个边).问题来自我必须创建某些节点的方式.有一个用户节点、评论节点和主题标签节点.用户节点和标签节点必须是唯一的.我正在使用以下示例中的代码来确保唯一性: 公共节点 getOrCrea ..
发布时间:2021-12-28 17:21:37 Java开发

Neo4j 的水平可扩展性项目 Rassilon 处于什么状态?

只是想知道是否有人了解有关 Neo4j 的侧项目 Rassilon 的状态的信息,该项目专注于提高 Neo4j 的水平可扩展性? 它于 2013 年 1 月首次发布此处. 我特别想知道更多关于何时取消图形大小限制以及何时可以使用跨集群分片. 解决方案 节点 &2.1 中的关系限制将消失,这是 2.0 后的下一个版本(现在有一个候选版本). Rassilon 肯定还在组合中 ..
发布时间:2021-12-28 17:15:06 其他开发

有没有像Redis DB这样的东西,但不受RAM大小的限制?

我正在寻找符合这些条件的数据库: 可能是非持久的; DB 的几乎所有密钥都需要在 3-6 小时内更新一次(100M+ 密钥,总大小为 100Gb) 能够通过键(或主键)快速选择数据 这需要是一个 DBMS(所以 LevelDB 不适合) 写入数据时,数据库集群必须能够提供查询服务(尽管可以阻塞单个节点) 不在内存中 - 我们的数据集将超出 RAM 限制 水平扩展和复制 支持所有 ..
发布时间:2021-12-28 09:32:17 其他开发

LSH 使用的散列混淆

Matrix M 是签名矩阵,通过对实际数据进行 Minhashing 生成,以文档为列,单词为行.所以一列代表一个文档. 现在它说每个条带(b 的数量,r 的长度)都有它的列散列,因此一列落入一个桶中.如果两列落在同一个桶中,对于 >= 1 个条带,那么它们可能是相似的. 所以这意味着我应该创建 b 哈希表并找到 b 独立的哈希函数?或者只有一个就足够了,每个条带都将其列发送到相同的 ..
发布时间:2021-12-27 16:45:29 Python

如何将 Pandas 中的一列扩展为多列?

作为标题,我在pandas中有一个列(系列),它的每一行都是一个类似于[0,1,2,3,4,5]的列表.每个列表有 6 个数字.我想把这一列改成6列,比如[0,1,2,3,4,5]会变成6列,其中0就是第一列,1 是第二列,2 是第三列,依此类推.我该怎么做? 解决方案 不如@jezrael 的解决方案快.但优雅:-) apply 和 pd.Series df.a.apply(pd ..
发布时间:2021-12-25 14:46:35 Python

大数据上的增量 PCA

我刚刚尝试使用 sklearn.decomposition 中的 IncrementalPCA,但它引发了 MemoryError,就像之前的 PCA 和 RandomizedPCA 一样.我的问题是,我尝试加载的矩阵太大而无法放入 RAM.现在它作为形状 ~(1000000, 1000) 的数据集存储在 hdf5 数据库中,所以我有 1.000.000.000 float32 值.我认为 Inc ..
发布时间:2021-12-25 14:31:33 Python

将 PL/SQL 转换为 Hive QL

我想要一个工具,通过它我可以通过提供 PL/SQL 查询来获取相应的 hive 查询.有很多工具可以将 sql 转换为 hql.即:用于 cloude 数据库的 taod.但它没有向我显示相应的 hive 查询. 有没有这样的工具可以将给定的sql转换为hql.请帮帮我. 谢谢和问候,藤 解决方案 请在 http://www.hplsql.org/ 现在是 Hive 2.x 或 ..
发布时间:2021-12-24 16:20:04 其他开发

使用 big.matrix 对象计算欧几里得距离矩阵

我在 R 中有一个 big.matrix 类的对象,维度为 778844 x 2.这些值都是整数(公里).我的目标是使用 big.matrix 计算欧几里得距离矩阵,并得到一个 big.matrix 类的对象.我想知道是否有最佳方法可以做到这一点. 我选择使用 big.matrix 类的原因是内存限制.我可以将我的 big.matrix 转换为 matrix 类的对象,并使用 dist() ..
发布时间:2021-12-18 23:48:42 其他开发

R foverlaps 在 Python 中等效

我正在尝试用 Python 重写一些 R 代码,但无法通过某一特定代码位.我发现 R 中的 foverlaps 函数在执行基于时间的连接时非常有用,但没有发现任何在 Python3 中也能正常工作的函数. 我正在做的是连接两个数据表,其中一个表中的 time 介于另一个表中的 start_time 和 end_time 之间.两个表的周期不一样 - table_A 每秒发生一次,每个间隔可以 ..
发布时间:2021-12-17 20:47:01 Python

Django + Postgres + 大时间序列

我正在寻找一个包含大量、大部分不可压缩的时间序列数据的项目,并想知道使用原始 SQL 的 Django + Postgres 是否是正确的调用. 我有每小时约 2K 个对象/小时的时间序列数据.我每年存储大约 200 万行,我希望 1) 能够通过连接分割数据以进行分析,2) 能够在 Django 提供的网络上进行基本的概述工作.我认为最好的想法是将 Django 用于对象本身,但使用原始 S ..
发布时间:2021-12-16 22:46:58 Python

如何将日期字符串从 UTC 转换为 HIVE 中的特定时区?

我的 Hive 表有一个带有 UTC 日期字符串的日期列.我想获取特定 EST 日期的所有行. 我正在尝试执行以下操作: 选择*从表名 T其中 TO_DATE(ConvertToESTTimeZone(T.date)) = "2014-01-12" 我想知道是否有 ConvertToESTTimeZone 的函数,或者如何实现? 我尝试了以下方法但不起作用(我的默认时区是 CST) ..
发布时间:2021-12-15 19:26:22 其他开发

是否可以使用 Apache Spark 读取 pdf/音频/视频文件(非结构化数据)?

是否可以使用 Apache Spark 读取 pdf/音频/视频文件(非结构化数据)?例如,我有数千张 pdf 发票,我想从中读取数据并对其进行一些分析.我必须执行哪些步骤来处理非结构化数据? 解决方案 是的.使用 sparkContext.binaryFiles 以二进制格式加载文件,然后使用 map 将值映射到其他格式 - 例如,使用 Apache Tika 或 Apache POI ..
发布时间:2021-12-15 19:26:07 其他开发