bigdata相关内容

sqoop支持通过蜂巢进行动态分区吗?

sqoop是否支持通过蜂巢进行动态分区? 我尝试使用以下提到的选项: --hive-partition-key和--hive = partition-vlaue仅用于静态分区 例如: sqoop导入 --connect"jdbc:mysql://quickstart.cloudera:3306/prac" --username root-密码cloudera --hive-import -- ..
发布时间:2020-09-20 20:02:39 其他开发

尝试安装HUE但未成功

我正在尝试在ubuntu上安装hue,并在尝试安装时收到以下错误. 有人可以告诉我为什么它给lber.h错误吗?我已经安装了所有依赖项并使用了hue2.1.0 谢谢 解决方案 您的Ubuntu版本是什么?色相与LTS 12:04和 14配合得很好: 04 . 还要确保已安装特定的LDAP软件包: https://github.com/cloudera/hue#develo ..
发布时间:2020-09-20 20:01:33 服务器开发

在python中从大型数据帧中快速采样大量行

我有一个非常大的数据框(大约110万行),我正在尝试对其进行采样. 我有一个要从整个数据框中选择的索引列表(大约70,000个索引). 这是我到目前为止尝试过的方法,但是所有这些方法都花费了太多时间: 方法1-使用熊猫: sample = pandas.read_csv("data.csv", index_col = 0).reset_index() sample = sa ..
发布时间:2020-09-20 20:00:22 Python

从长数据集和大数据集中清除一列

我试图从长数据集和大数据集中仅清除一列.数据有18列,超过100k的csv文件超过10k行,我只想清理其中的一列. 从长列表中仅输入几个字段 userLocation, userTimezone, Coordinates, India, Hawaii, {u'type': u'Point', u'coordinates': [73.8567, 18.52 ..
发布时间:2020-09-20 20:00:13 Python

将数百万行从Teradata传输到mySQL

我必须将大约500万行数据从Teradata传输到MySQL.任何人都可以建议我以最快的方式在不使用文件系统的情况下通过网络执行此操作.我是Teradata和MySQL的新手.我想每周一次将此传输作为批处理作业运行,因此我正在寻找可以完全自动化的解决方案.任何建议或提示将不胜感激. 我已经使用JDBC编写了代码,以从Teradata获取记录并将其插入MySQL.但这非常慢,因此我希望使该代码 ..
发布时间:2020-09-20 20:00:07 Java开发

读取CSV文件,使用连接在各行之间循环

所以我有一个很大的csv excel文件,如果没有rstudio终止,我的计算机将无法处理打开. 为解决这个问题,我试图遍历文件的各行,以便一次对每一行进行计算,然后再存储该值,然后继续进行下一行. 通常我可以通过简单地在Rstudio中读取和存储整个csv文件并运行一个简单的for循环来实现(例如,在较小的文件上). 但是,这是我要避免的这种数据存储的大小,因此我试图一次一次读 ..
发布时间:2020-09-20 20:00:03 其他开发

Hive JDBC连接设置或与MySQL的映射

我不熟悉大数据;从技术上讲,我是Java开发人员,因此决定学习大数据概念.我只能够安装Hadoop和Hive,现在我想将Java程序连接到Hive.我已经将MySQL配置为后端数据库. 尝试使用Google,并找到了一些Java程序示例,他们在其中使用了类似URL jdbc:hive2://172.16.149.158:10000/default,"",""的内容. 我的问题是我没有在 ..
发布时间:2020-09-20 19:55:31 Java开发

Spark Java累加器未递增

只是从Spark-Java的第一步开始.下面是一个单词计数程序,其中包括一个停用词列表,该列表将跳过列表中的单词.我有2个累加器来计算跳过的单词和未跳过的单词. 但是,程序末尾的Sysout总是将两个累加器的值都设为0 . 请指出我要去哪里了. public static void main(String[] args) throws FileNotFoundException ..
发布时间:2020-09-20 19:55:22 Java开发

只读文本文件的第n列,该文本文件不包含带有R和sqldf的标题

我有类似这样的问题: 在使用SQLDF或读取时选择第N个列. csv.sql 我想读取大文件的某些列(150行表,> 500,000列,以空格分隔,填充有数字数据并且只有32位系统可用).该文件没有标题,因此上面线程中的代码不起作用,我决定写一篇新文章. 您有解决此问题的想法吗? 我考虑过类似的事情,但是任何使用fread或read.table的结果都可以: MyConne ..
发布时间:2020-09-20 19:55:17 其他开发