bigdata 第10页 - IT屋-程序员软件开发技术分享社区

有谁知道我如何在R中处理大数据?

在RStudio中分析推文: 我的csv文件包含4,000,000条tweets，其中包含5列:screen_name，text，created_at，favourite_count和retweet_count. 我正在尝试使用以下代码来确定主题标签的出现频率，但是它运行太慢了几天，有时RStudio会崩溃. mydata％>％unnest_tokens(单词，文本，令牌="twe ..

发布时间：2021-04-08 20:28:11 r apache-spark-sql bigdata tidytext 其他开发

ValueError:在未知的TensorShape上未定义as_list()

我基于此请帮助，谢谢解决方案使用以下内容阅读图像并创建培训内容&测试集从pyspark.sql.functions导入点亮从sparkdl.image导入imageIOimg_dir ="/PATH/TO/个性/"jobs_df = imageIO.readImagesWithCustomFn(img_dir +"/jobs",decode_f=imageIO.PIL_ ..

发布时间：2021-04-08 20:23:29 python apache-spark tensorflow deep-learning bigdata Python

读取配置单元表时，火花引发错误

我正在尝试从蜂巢中的db.abc中选择*，此蜂巢表是使用spark加载的它不起作用显示错误: 错误:java.io.IOException:java.lang.IllegalArgumentException:bucketId超出范围:-1(状态=，代码= 0) 使用以下属性时，我可以查询配置单元: set hive.mapred.mode = nonstrict;设置hi ..

发布时间：2021-04-08 19:55:33 apache-spark hive apache-spark-sql bigdata 其他开发

Pyspark简单的重新分区和toPandas()仅在600,000多行上无法完成

我有JSON数据，我正在将其读取到具有多个字段的数据框中，然后基于两列对其进行重新分区，然后转换为Pandas. 这项工作使仅60万行数据的EMR一直失败，并带有一些模糊的错误.我还增加了spark驱动程序的内存设置，但仍然看不到任何分辨率. 这是我的pyspark代码: enhDataDf =(sqlContext.read.json(sys.argv [1]))enhDataD ..

发布时间：2021-04-08 19:50:40 apache-spark memory pyspark distributed-computing bigdata 其他开发

我想使用联接 3个表.我使用spark sql实现了我的目标，但是当我尝试使用Rdd加入它时，没有得到期望的结果.以下是我使用 spark SQL 和 output 的查询: scala>actorDF.as("df1").join(movieCastDF.as("df2")，$"df1.act_id" === $"df2.act_id").join(movieDF.as("df3")，$"d ..

发布时间：2021-04-08 19:49:25 apache-spark hadoop apache-spark-sql bigdata rdd 其他开发

火花与Scala:saveAsTextFile()异常

我是Spark&的新手.Scala和我在调用saveAsTextFile()之后得到了异常.希望有人能帮忙... 这是我的input.txt: Hello World，我是一名程序员世界，您好，我是一名程序员这是在CMD上运行"spark-shell"后的信息: C:\ Users \ Nan Tran> spark-shell将默认日志级别设置为"WARN".要调整日志记录级 ..

发布时间：2021-04-08 19:34:14 scala apache-spark hadoop apache-spark-sql bigdata 其他开发

pyspark:dataframe中like()方法的计数器部分

spark数据帧中的like()是否有任何计数器方法(类似于notLike())? 或者除了使用传统的SQL查询外，还有其他方法吗? 我想做以下相反的事情: df.where(col("_ c2").like("XY6％")).show(5) 解决方案有效:) 我必须使用否定运算符(〜)而不是'not'关键字. df.where(〜col("_ c2").like ..

发布时间：2021-04-08 19:33:44 apache-spark spark-dataframe pyspark-sql bigdata 其他开发

“谓词下推"和“谓词下推"之间的区别是什么?和“投影下推"?

我遇到过多种信息来源，例如这里，将“谓词下推"解释为: ...如果您可以将查询的一部分“下推"到存储数据的位置，从而过滤掉大部分数据，则可以大大减少网络流量. 但是，我在其他文档中也看到过“投影下推"一词，例如这里，这似乎是一回事，但据我所知，我不确定. 两个词之间有特定区别吗? 解决方案谓词指影响返回的行数的where/filter子句. 投影指的是选定的列. ..

发布时间：2021-04-08 19:33:05 apache-spark bigdata parquet 其他开发

在配置单元表的顶部添加一些行

发布时间：2020-11-23 18:40:32 hadoop hive mapreduce bigdata hiveql 其他开发

无法在Spark Streaming作业中获得广播_1的广播_1_piece0

我正在群集模式下在纱线上运行火花作业.作业从kafka直接流中获取消息.我正在使用广播变量，并且每30秒检查一次.当我第一次开始工作时，它运行正常，没有任何问题.如果我终止工作并重新启动，则在收到来自kafka的消息后，执行程序将抛出以下异常: java.io.IOException: org.apache.spark.SparkException: Failed to get broadc ..

发布时间：2020-11-22 03:00:42 hadoop apache-spark spark-streaming bigdata 其他开发

引发选择并添加具有别名的列

我想选择几列，添加几列或除以某些列，并用空格填充这些列，并以新名称存储它们作为别名.例如，SQL中的内容应类似于: select " " as col1, b as b1, c+d as e from table 如何在Spark中实现这一目标? 解决方案您还可以使用本机DF函数.例如: import org.apache.spark.sql.functions._ ..

发布时间：2020-11-22 02:28:24 scala apache-spark hadoop bigdata 其他开发

Hive alter table更改列名称将"NULL"赋予重命名的列

我试图将表中的现有列重命名为新列.但是，在更改名称后，新列仅给了我'NULL'值. Parquet中表的存储格式. 例如 “用户"是字符串数据类型的“测试"表中的一列.插入了一个示例记录，其值为'John'. Select user from Test; 结果:约翰我已将“用户"重命名为“用户名"，而未更改任何数据类型. ALTER TABLE Test ..

发布时间：2020-11-22 02:26:38 hadoop hive bigdata hiveql parquet 其他开发

重用气流中的任务

我正在尝试通过气流来编排一些数据管道.每个摄取管道都有多个任务.这些任务在多个摄取管道中不断重复.如何在DAGS中重用气流中的任务? 解决方案就像 object是class 的实例，Airflow 任务是因此，编写一个“可重用"(也称为通用)运算符，并通过传递不同的参数(尤其是task_id)，在整个管道中使用它100次. ..

发布时间：2020-11-22 02:19:43 hadoop machine-learning bigdata airflow orchestration AI人工智能

在同一应用程序的任务（映射函数）中创建Spark任务

是否可以从pyspark中的映射器功能（即从任务）进行映射？换句话说，是否可以从任务中打开“子任务”？如果是这样-我如何将sparkContext传递给任务-就像一个变量一样？我想要一份由许多任务组成的工作-这些任务中的每一个也应该创建许多任务，而无需回到驱动程序。我的用例是这样的：我正在编写代码将使用工作队列编写的应用程序移植到pyspark。在我的旧应用程序中， ..

发布时间：2020-10-22 19:07:58 apache-spark pyspark task distributed-computing bigdata 其他开发

Spark应用程序状态中的FAILED和ERROR有什么区别

我正在尝试创建已提交的spark应用程序的状态图。我以及那种在什么时候认为应用程序失败的迷失。状态从这里： https://github.com/apache/spark/blob/d6dc12f0146ae409834c78737c116050 core / src / main / scala / org / apache / spark / deploy / master / Dri ..

发布时间：2020-10-22 19:07:53 apache-spark driver scheduling distributed-computing bigdata 其他开发

如何在Spark RDD中不使用combiningByKey和aggregateByKey获取指定的输出

以下是我的数据: val keysWithValuesList = Array("foo=A", "foo=A", "foo=A", "foo=A", "foo=B", bar=C","bar=D", "bar=D") 现在，我要使用以下类型的输出，但是使用combineByKey和aggregateByKey 不使用: 1) Array[(String, Int)] = Ar ..

发布时间：2020-09-20 20:03:57 apache-spark hadoop bigdata rdd 其他开发

通过python从行到行yelp数据集读取

我想将此代码更改为专门从1400001行读取为1450000.什么是修改? 文件由单一对象类型组成，每行一个JSON对象. 我还想将输出保存到.csv文件.我该怎么办? revu=[] with open("review.json", 'r',encoding="utf8") as f: for line in f: revu = json.loads(line[1 ..

发布时间：2020-09-20 20:03:55 python indexing bigdata yelp Python

R-快速模式函数，用于data.table [，lapply(.SD，Mode)，by =.()]

我正在按组汇总data.table中的数据，在这里我需要在组中获取变量的单个值.我希望此值成为组的模式.我认为它应该是模式，因为通常一组是8行，一个值有2行，而另外6个左右的行是另一个值. 这是一个简化的示例， key1 2 key1 2 key1 2 key1 8 key1 2 key1 2 key1 2 key1 8 我想要这个: key1 2 我在使用base R提 ..

发布时间：2020-09-20 20:02:51 r data.table lapply mode bigdata 其他开发

Sqoop的语法导入数据库中存在的100个表中的5个-不使用exclude关键字吗?

我在数据库中有100张表. 我只想导入5张桌子. 我不能/不使用“-排除"命令解决方案 This can be done by shell script. 1)Prepare a input file which has list of 5 DBNAME.TABLENAME 2)The shell script will have this file as input, iterat ..

发布时间：2020-09-20 20:02:47 hadoop bigdata sqoop 其他开发

配置单元-分区和分区

我们应该缩小在Hive中对一组列使用分区还是存储分区的依据? 假设我们有一个庞大的数据集，其中有两个最常查询的列-所以我的明显选择可能是基于这两个列进行分区，但是如果这会导致大量的小数据在大量目录中创建的文件，那么根据这些列对数据进行分区将是一个错误的决定，并且可能进行存储分区是一个更好的选择. 我们可以定义一种方法来决定是否应该进行存储分区或分区吗? 解决方案加壳和分区不是 ..

发布时间：2020-09-20 20:02:43 hadoop hive bigdata 其他开发

bigdata相关内容