bigdata 第11页 - IT屋-程序员软件开发技术分享社区

sqoop支持通过蜂巢进行动态分区吗?

sqoop是否支持通过蜂巢进行动态分区? 我尝试使用以下提到的选项: --hive-partition-key和--hive = partition-vlaue仅用于静态分区例如: sqoop导入 --connect"jdbc:mysql://quickstart.cloudera:3306/prac" --username root-密码cloudera --hive-import -- ..

发布时间：2020-09-20 20:02:39 hadoop hive sqoop bigdata 其他开发

尝试安装HUE但未成功

我正在尝试在ubuntu上安装hue，并在尝试安装时收到以下错误. 有人可以告诉我为什么它给lber.h错误吗?我已经安装了所有依赖项并使用了hue2.1.0 谢谢解决方案您的Ubuntu版本是什么?色相与LTS 12:04和 14配合得很好: 04 . 还要确保已安装特定的LDAP软件包: https://github.com/cloudera/hue#develo ..

发布时间：2020-09-20 20:01:33 linux ubuntu bigdata hue 服务器开发

Apache Spark-Scala-HashMap(k，HashMap [String，Double](v1，v2，..))到((k，v1)，(k，v2)，...)

我得到了: val vector: RDD[(String, HashMap[String,Double])] = [("a", {("x",1.0),("y", 2.0),...}] 我想得到: RDD[String,(String,Double)] = [("a",("x",1.0)), ("a", ("y", 2.0)), ...] 如何使用FlatMap完成?欢迎提供更 ..

发布时间：2020-09-20 20:01:30 scala apache-spark text-processing bigdata 其他开发

无法通过级联使用一个键连接两个文件

让我们看看我们拥有什么.第一个文件[接口类]: list arrayList list linkedList 第二个文件[Class1数量]: arrayList 120 linkedList 4 我想通过key [Class]加入这两个文件，并获取每个接口的计数: list arraylist 120 list linkedlist 4 代码: public ..

发布时间：2020-09-20 20:00:26 java tap cascading bigdata Java开发

在python中从大型数据帧中快速采样大量行

我有一个非常大的数据框(大约110万行)，我正在尝试对其进行采样. 我有一个要从整个数据框中选择的索引列表(大约70,000个索引). 这是我到目前为止尝试过的方法，但是所有这些方法都花费了太多时间: 方法1-使用熊猫: sample = pandas.read_csv("data.csv", index_col = 0).reset_index() sample = sa ..

发布时间：2020-09-20 20:00:22 python pandas dataframe sampling bigdata Python

我想像下面提到的方法那样为顶点设置自己的ID. BaseConfiguration configuration = new BaseConfiguration(); configuration.setProperty("storage.backend", "hbase"); configuration.setProperty("storage.hostname", "slave05"); c ..

发布时间：2020-09-20 20:00:15 java bigdata titan Java开发

从长数据集和大数据集中清除一列

我试图从长数据集和大数据集中仅清除一列.数据有18列，超过100k的csv文件超过10k行，我只想清理其中的一列. 从长列表中仅输入几个字段 userLocation, userTimezone, Coordinates, India, Hawaii, {u'type': u'Point', u'coordinates': [73.8567, 18.52 ..

发布时间：2020-09-20 20:00:13 python pandas data-cleaning bigdata Python

将数百万行从Teradata传输到mySQL

我必须将大约500万行数据从Teradata传输到MySQL.任何人都可以建议我以最快的方式在不使用文件系统的情况下通过网络执行此操作.我是Teradata和MySQL的新手.我想每周一次将此传输作为批处理作业运行，因此我正在寻找可以完全自动化的解决方案.任何建议或提示将不胜感激. 我已经使用JDBC编写了代码，以从Teradata获取记录并将其插入MySQL.但这非常慢，因此我希望使该代码 ..

发布时间：2020-09-20 20:00:07 java mysql sql bigdata teradata Java开发

读取CSV文件，使用连接在各行之间循环

所以我有一个很大的csv excel文件，如果没有rstudio终止，我的计算机将无法处理打开. 为解决这个问题，我试图遍历文件的各行，以便一次对每一行进行计算，然后再存储该值，然后继续进行下一行. 通常我可以通过简单地在Rstudio中读取和存储整个csv文件并运行一个简单的for循环来实现(例如，在较小的文件上). 但是，这是我要避免的这种数据存储的大小，因此我试图一次一次读 ..

发布时间：2020-09-20 20:00:03 r csv bigdata 其他开发

在LARGE数据集上生成R中的同现矩阵

我正在尝试在一个非常大的数据集(26M行)上的R中创建一个共现矩阵，基本上看起来像这样: ID 观察 11000 榕 11112 樱桃 11112 榕 12223 杜松 12223 橄榄 12223 ..

发布时间：2020-09-20 20:00:01 r bigdata hierarchical-clustering 其他开发

如何在sklearn RandomForestRegressor中正确预测?

我正在为我的学校项目开发一个大数据项目.我的数据集如下所示: https://github.com/gindeleo/climate/blob/master/GlobalTemperatures. csv 我正在尝试预测"LandAverageTemperature"的下一个值. 首先，我将csv导入了pandas，并将其命名为"df1". 在第一次尝试sklearn时遇到错误后，我 ..

发布时间：2020-09-20 19:59:54 python pandas bigdata random-forest sklearn-pandas Python

R {ff}:如何在ffdf对象中添加依赖于同一行中其他元素的新列?

我有一个ffdf对象(23Mx4)和一个带有值"TUMOR"或"NORMAL"的字符向量，并且每个值都有一个名称，一个唯一的icgc_specimen_id，因此我用这种方式指出某个标本是正常细胞还是肿瘤细胞. > head(expresion,4) ffdf (all open) dim=c(23939146,4), dimorder=c(1,2) row.names=NULL ffdf ..

发布时间：2020-09-20 19:58:46 r bigdata 其他开发

从MySQL大表中删除重复项的最快过程是什么

我在MySQL中有一张表(5000万行)，新数据不断插入. 此表具有以下结构 CREATE TABLE values ( id double NOT NULL AUTO_INCREMENT, channel_id int(11) NOT NULL, val text NOT NULL, date_time datetime NOT NULL, P ..

发布时间：2020-09-20 19:57:43 mysql insert bigdata 数据库

Datamash 1.7在浮点值合并时输出零

我在Centos 7.7 Linux x86_64计算机上使用Datamash 1.7来分类和分类24 GB的数据.输入数据如下(仅前50个样本) Ind_poob 0.040618 0.006233 0.004652 0.003559 0.001752 0.001605 0.007701 0.004722 0.029899 0.00104 0.014031 6.1e-5 0.002144 ..

发布时间：2020-09-20 19:56:37 bash floating-point bigdata 其他开发

SQL(大查询)文本相似性

我要执行以下操作: 我得到的数据也许是按列的，也许只是一个像这样的方案的字符串: > 420-xyz-somefancytext-12.3.2018-etc... > 4-20-xyz-somefancytext-12.3.2018-etc... > 4-250-xyz-somefancyothertext-13.3.2018-etc... > 4-230-xyz-somefancyothe ..

发布时间：2020-09-20 19:55:34 google-bigquery bigdata user-defined-functions text-mining 其他开发

Hive JDBC连接设置或与MySQL的映射

我不熟悉大数据；从技术上讲，我是Java开发人员，因此决定学习大数据概念.我只能够安装Hadoop和Hive，现在我想将Java程序连接到Hive.我已经将MySQL配置为后端数据库. 尝试使用Google，并找到了一些Java程序示例，他们在其中使用了类似URL jdbc:hive2://172.16.149.158:10000/default,"",""的内容. 我的问题是我没有在 ..

发布时间：2020-09-20 19:55:31 java hadoop hive bigdata Java开发

Python(pyspark)错误= ValueError:无法将字符串转换为float:"17"

我正在Spark上使用Python，并从前几行是.csv文件中读取我的数据集: 17 0.2 7 17 0.2 7 39 1.3 7 19 1 7 19 0 7 当我从文件中逐行读取以下代码时: # Load and parse the data def parsePoint(line): values = [float(x) for x in l ..

发布时间：2020-09-20 19:55:26 python apache-spark type-conversion bigdata Python

Spark Java累加器未递增

只是从Spark-Java的第一步开始.下面是一个单词计数程序，其中包括一个停用词列表，该列表将跳过列表中的单词.我有2个累加器来计算跳过的单词和未跳过的单词. 但是，程序末尾的Sysout总是将两个累加器的值都设为0 . 请指出我要去哪里了. public static void main(String[] args) throws FileNotFoundException ..

发布时间：2020-09-20 19:55:22 java apache-spark bigdata Java开发

为什么在相对较小的数据集上，特定分区上的Cassandra COUNT(*)会花费很长时间

我有一个定义如下的表: 键空间: CREATE KEYSPACE messages WITH replication = {'class': 'SimpleStrategy', 'replication_factor': '1'} AND durable_writes = true; 表格: CREATE TABLE messages.textmessages ( ..

发布时间：2020-09-20 19:55:19 cassandra nosql bigdata cql 其他开发

只读文本文件的第n列，该文本文件不包含带有R和sqldf的标题

我有类似这样的问题: 在使用SQLDF或读取时选择第N个列. csv.sql 我想读取大文件的某些列(150行表，> 500,000列，以空格分隔，填充有数字数据并且只有32位系统可用).该文件没有标题，因此上面线程中的代码不起作用，我决定写一篇新文章. 您有解决此问题的想法吗? 我考虑过类似的事情，但是任何使用fread或read.table的结果都可以: MyConne ..

发布时间：2020-09-20 19:55:17 sql r bigdata read.table sqldf 其他开发

bigdata相关内容