apache-spark-sql相关内容
使用星火ML变压器 我来到了一个数据帧,每行看起来是这样的: 行(OBJECT_ID,text_features_vector,color_features,type_features) 其中, text_features 是项权重的稀疏向量, color_features 是一个小的20元(一热-en codeR)的颜色密集向量和 type_features 也是种一热恩codeR密集的
..
现在是一个天星火正在进行中。星火使用Scala语言加载和执行程序,也Python和Java。 RDD用来存储数据。但是,我无法理解星火的体系结构,它是如何在内部运行。 请告诉我Spark架构以及它是如何工作的内部? 解决方案 连我一直在寻找的网站,了解星火的内部,下面是我可以学习和共享想到这里, 火花围绕弹性分布式数据集(RDD),这是可以并行操作的元件的容错集合的概念。 RDDS支持
..
我有这样的code: 从pyspark进口SparkContext 从pyspark.sql进口SQLContext,行SC = SparkContext() sqlContext = SQLContext(SC) 文件= sqlContext.createDataFrame([ 行(ID = 1,标题= [行(值= u'cars',max_dist = 1000)]), 行(I
..
我有一种情况,有一些小的(〜300MB每个)文件被应用一定数量的操作,包括一组通过。操作看起来是这样的。 df.groupBy(....)。AGG(....) 现在对其进行处理多个文件,我可以使用通配符“/**/*.csv”但是,创建单个RDD和分区它的操作。然而,看着操作,它是一组通过,并涉及大量的洗牌,如果这些文件是互相排斥的是不必要的。 什么,我看到的是,这是一种在那里我可以在文件创建
..
我创建从现有的数据帧新的数据框,但需要(在下面code“字段1”),在这个新的DF添加新列。我该怎么办呢?工作示例code例子将是AP preciated。 VAL edwDf = omniDataFrame .withColumn(“字段1”,callUDF((价值:字符串)=>无)) .withColumn(“字段2” callUdf(“devicetypeUDF”,
..
这个问题的目标是文档: 读写使用PySpark JDBC连接数据所需的步骤 可能的JDBC源的问题和解决方案的了解 使用小的变化,这些方法应与其他支持的语言包括Scala和R.工作 解决方案 将数据写入 包括适用的JDBC驱动程序,当你递交申请或启动外壳。您可以使用例如 - 包: 斌/ pyspark --packages组:名称:版本 或组合驱动程序类路径和
..
我有一个卡桑德拉表,为了简便起见看起来类似: 键:文本 jsonData:文本 blobData:BLOB 我可以创建这个火花通过一个基本的数据帧,并使用火花卡桑德拉连接器: VAL DF = sqlContext.read .format(“org.apache.spark.sql.cassandra”) 可供选项(图(“表” - >“中MYTABLE”,“密钥空间” - &
..
我有以下数据框中 VAL transactions_with_counts = sqlContext.sql( “”“选择USER_ID AS USER_ID,AS CATEGORY_ID CATEGORY_ID, COUNT(CATEGORY_ID)FROM交易GROUP BY user_ID的,CATEGORY_ID“”“) 我想要的行评对象转换,但由于X(0)返回一个数组失败
..
我试图创建和保存的管道定制阶段。我需要添加一个列我的数据帧使用 UDF 。因此,我想知道是否有可能转换 UDF 或类似的操作成变压器? 我的自定义 UDF 看起来是这样的,我想学习如何使用 UDF 为做到这一点一个自定义的变压器。 高清getFeatures(N:字符串)= { VAL NUMBER_FEATURES = 4 VAL名称= n.split(“+”)(0).toL
..
我使用我的本地Windows独立群集,并试图加载使用以下code从我们的服务器的一个数据 - 从pyspark.sql进口SQLContext sqlContext = SQLContext(SC) DF = sqlContext.load(来源=“JDBC”,URL =“的jdbc:在PostgreSQL://主机/ DBNAME”,DBTABLE =“schema.tablename”)
..
我有我使用加载和处理星火一些数据的Python类。在我需要做的各种事情,我从生成各列在Spark数据帧导出虚拟变量列表。我的问题是我不知道如何正确定义一个用户定义的函数来完成我所需要的。 我的做的目前有,当映射了潜在的数据帧RDD,解决了一半的问题(请记住,这是一个方法的方法更大的 data_processor 类): 高清build_feature_arr(个体经营,表): #这
..
我已经给出了示例表。我想从每个组的“源”列“值”列中的值。哪里 源列是字符串数据类型 值列是双数据类型的 斯卡拉> sqlContext.sql(“SELECT * FROM TTAB为了通过源”)。秀+ --------------- + ----- + |来源|值| + --------------- + ----- + | 131.183.222.110 | 1.0 | | 13
..
我在看 spark.sql.DataFrame 文档。 有 为高清(别名:字符串):数据帧 返回与别名设置一个新的数据帧。 以来 1.3.0 什么是这种方法的目的是什么?它是如何使用的?能有一个例子吗? 我还没有成功地在网上找到有关此方法的任何和文档是pretty不存在。我还没有设法使任何类型的使用这种方法的别名。 解决方案 星火< = 1.5
..
我正在运行在星火外壳此查询,但它给我的错误, sqlContext.sql( “选择samplecsv那里SAL&LT SAL(选择samplecsv MAX(SAL))” ).collect()的foreach(的println) 错误: 了java.lang.RuntimeException:[1.47]失败:``)'',但却标识符MAX找到 从samplecsv
..
我有一个名为DF与指定的列EMPLOYEE_ID数据帧。我做的: df.registerTempTable(“D_F”) VAL查询=“”“SELECT *,ROW_NUMBER)OVER(ORDER BY EMPLOYEE_ID)(ROW_NUMBER FROM D_F”“” VAL结果= Spark.getSqlContext()。SQL(查询) 但是,得到以下问题。任何帮助吗? [1
..
说明 给出一个数据帧东风 ID |日期 --------------- 1 | 2015年9月1日 2 | 2015年9月1日 1 | 2015年9月3日 1 | 2015年9月4日 2 | 2015年9月4日 我想创建一个运行计数器或索引, 用相同的ID和分组 按日期该组中的排序, 因此, ID |日期|计数器 --------------------------
..
什么是Apache的星火SQLContext和HiveContext之间的区别是什么? 有消息说,由于HiveContext是SQLContext开发的超集应始终使用HiveContext具有比SQLContext更多的功能。但是每上下文的当前API的大多是一样的。 什么是它SQLContext / HiveContext是比较有用的场景? 是HiveContext更有益与蜂巢的工作
..
在火花,我们每次做上RDD任何操作时,RDD重新计算。所以,如果我们知道的是,RDD是要重复使用更多的,我们应该明确缓存RDD。 让我们说,星火决定懒洋洋地缓存所有RDDS并采用LRU自动保存在内存中最相关的RDDS(这是大多数缓存是如何工作的任何方式)。这将是对开发商有很大的帮助,因为他没有考虑缓存和专注于应用程序。也看不到它如何产生负面的性能产生影响,因为它是难以跟踪,多少时间的变量(RDD
..
我试图解决增加一个序列号到数据集的老问题。我与DataFrames工作,而且似乎不等同于数据帧 RDD.zipWithIndex 。在另一方面,下面的工作或多或少我希望它的方式: VAL origDF = sqlContext.load(...)VAL seqDF = sqlContext.createDataFrame( origDF.rdd.zipWithIndex.map(LN
..
寻找在新的火花数据帧的API,也不清楚是否有可能要修改数据帧列。 我怎么会去行 X 列是 A数据框的改变价值? 在熊猫这将是 df.ix [X,Y] = NEW_VALUE 解决方案 虽然你不能修改列正因为如此,你可以在一列操作,并返回一个新的数据框反映这种变化。对于你首先创建一个 UserDefinedFunction 实施操作申请,然后有选择地应用该功能仅目标列。在Python:
..