apache-spark-sql 第240页 - IT屋-程序员软件开发技术分享社区

如何合并在数据帧的多个特征向量？

使用星火ML变压器我来到了一个数据帧，每行看起来是这样的：行（OBJECT_ID，text_features_vector，color_features，type_features）其中， text_features 是项权重的稀疏向量， color_features 是一个小的20元（一热-en codeR）的颜色密集向量和 type_features 也是种一热恩codeR密集的 ..

发布时间：2016-05-22 15:19:57 apache-spark machine-learning apache-spark-sql AI人工智能

星火内部工作

现在是一个天星火正在进行中。星火使用Scala语言加载和执行程序，也Python和Java。 RDD用来存储数据。但是，我无法理解星火的体系结构，它是如何在内部运行。请告诉我Spark架构以及它是如何工作的内部？解决方案连我一直在寻找的网站，了解星火的内部，下面是我可以学习和共享想到这里，火花围绕弹性分布式数据集（RDD），这是可以并行操作的元件的容错集合的概念。 RDDS支持 ..

发布时间：2016-05-22 15:19:15 scala apache-spark apache-spark-sql 其他开发

数据框划分复杂排在Pyspark简单的行

我有这样的code：从pyspark进口SparkContext 从pyspark.sql进口SQLContext，行SC = SparkContext（） sqlContext = SQLContext（SC）文件= sqlContext.createDataFrame（[ 行（ID = 1，标题= [行（值= u'cars'，max_dist = 1000）]），行（I ..

发布时间：2016-05-22 15:19:00 python apache-spark pyspark apache-spark-sql spark-dataframe Python

处理多个文件作为独立RDD的并行

我有一种情况，有一些小的（〜300MB每个）文件被应用一定数量的操作，包括一组通过。操作看起来是这样的。 df.groupBy（....）。AGG（....）现在对其进行处理多个文件，我可以使用通配符“/**/*.csv”但是，创建单个RDD和分区它的操作。然而，看着操作，它是一组通过，并涉及大量的洗牌，如果这些文件是互相排斥的是不必要的。什么，我看到的是，这是一种在那里我可以在文件创建 ..

发布时间：2016-05-22 15:18:50 scala apache-spark apache-spark-sql 其他开发

创建空/空字段值新的数据框

我创建从现有的数据帧新的数据框，但需要（在下面code“字段1”），在这个新的DF添加新列。我该怎么办呢？工作示例code例子将是AP preciated。 VAL edwDf = omniDataFrame .withColumn（“字段1”，callUDF（（价值：字符串）=＆GT;无）） .withColumn（“字段2” callUdf（“devicetypeUDF”， ..

发布时间：2016-05-22 15:18:13 scala apache-spark apache-spark-sql spark-dataframe 其他开发

如何使用JDBC源写入和读取（PY）火花数据？

这个问题的目标是文档：读写使用PySpark JDBC连接数据所需的步骤可能的JDBC源的问题和解决方案的了解使用小的变化，这些方法应与其他支持的语言包括Scala和R.工作解决方案将数据写入包括适用的JDBC驱动程序，当你递交申请或启动外壳。您可以使用例如 - 包：斌/ pyspark --packages组：名称：版本或组合驱动程序类路径和 ..

发布时间：2016-05-22 15:18:02 python scala apache-spark apache-spark-sql pyspark Python

如何利用星火DataFrames查询JSON数据列？

我有一个卡桑德拉表，为了简便起见看起来类似：键：文本 jsonData：文本 blobData：BLOB 我可以创建这个火花通过一个基本的数据帧，并使用火花卡桑德拉连接器： VAL DF = sqlContext.read .format（“org.apache.spark.sql.cassandra”）可供选项（图（“表” - ＆gt;“中MYTABLE”，“密钥空间” - ＆ ..

发布时间：2016-05-22 15:17:53 scala apache-spark apache-spark-sql spark-dataframe spark-cassandra-connector 其他开发

星火从行提取值

我有以下数据框中 VAL transactions_with_counts = sqlContext.sql（ “”“选择USER_ID AS USER_ID，AS CATEGORY_ID CATEGORY_ID， COUNT（CATEGORY_ID）FROM交易GROUP BY user_ID的，CATEGORY_ID“”“）我想要的行评对象转换，但由于X（0）返回一个数组失败 ..

发布时间：2016-05-22 15:17:49 scala apache-spark apache-spark-sql 其他开发

如何创建从UDF定制变压器？

我试图创建和保存的管道定制阶段。我需要添加一个列我的数据帧使用 UDF 。因此，我想知道是否有可能转换 UDF 或类似的操作成变压器？我的自定义 UDF 看起来是这样的，我想学习如何使用 UDF 为做到这一点一个自定义的变压器。高清getFeatures（N：字符串）= { VAL NUMBER_FEATURES = 4 VAL名称= n.split（“+”）（0）.toL ..

发布时间：2016-05-22 15:17:42 scala apache-spark apache-spark-sql apache-spark-ml 其他开发

我使用我的本地Windows独立群集，并试图加载使用以下code从我们的服务器的一个数据 - 从pyspark.sql进口SQLContext sqlContext = SQLContext（SC） DF = sqlContext.load（来源=“JDBC”，URL =“的jdbc：在PostgreSQL：//主机/ DBNAME”，DBTABLE =“schema.tablename”） ..

发布时间：2016-05-22 15:17:18 postgresql jdbc apache-spark apache-spark-sql pyspark 其他开发

恩code和装配在PySpark多种功能

我有我使用加载和处理星火一些数据的Python类。在我需要做的各种事情，我从生成各列在Spark数据帧导出虚拟变量列表。我的问题是我不知道如何正确定义一个用户定义的函数来完成我所需要的。我的做的目前有，当映射了潜在的数据帧RDD，解决了一半的问题（请记住，这是一个方法的方法更大的 data_processor 类）：高清build_feature_arr（个体经营，表）：＃这 ..

发布时间：2016-05-22 15:16:54 python apache-spark apache-spark-sql Python

如何计算中位数火花sqlContext数据类型为双列

我已经给出了示例表。我想从每个组的“源”列“值”列中的值。哪里源列是字符串数据类型值列是双数据类型的斯卡拉＆GT; sqlContext.sql（“SELECT * FROM TTAB为了通过源”）。秀+ --------------- + ----- + |来源|值| + --------------- + ----- + | 131.183.222.110 | 1.0 | | 13 ..

发布时间：2016-05-22 15:15:51 apache-spark hive apache-spark-sql 其他开发

火花数据框＆QUOT的使用;为＆QUOT;方法

我在看 spark.sql.DataFrame 文档。有为高清（别名：字符串）：数据帧返回与别名设置一个新的数据帧。以来 1.3.0 什么是这种方法的目的是什么？它是如何使用的？能有一个例子吗？我还没有成功地在网上找到有关此方法的任何和文档是pretty不存在。我还没有设法使任何类型的使用这种方法的别名。解决方案星火＆LT; = 1.5 ..

发布时间：2016-05-22 15:15:43 scala apache-spark apache-spark-sql 其他开发

为什么SparkSQL不支持子查询？

我正在运行在星火外壳此查询，但它给我的错误， sqlContext.sql（ “选择samplecsv那里SAL＆LT SAL（选择samplecsv MAX（SAL））” ）.collect（）的foreach（的println）错误：了java.lang.RuntimeException：[1.47]失败：``）''，但却标识符MAX找到从samplecsv ..

发布时间：2016-05-22 15:15:39 sql apache-spark subquery apache-spark-sql 其他开发

SPARK：失败：``联盟'预期，但'（'发现

我有一个名为DF与指定的列EMPLOYEE_ID数据帧。我做的： df.registerTempTable（“D_F”） VAL查询=“”“SELECT *，ROW_NUMBER）OVER（ORDER BY EMPLOYEE_ID）（ROW_NUMBER FROM D_F”“” VAL结果= Spark.getSqlContext（）。SQL（查询）但是，得到以下问题。任何帮助吗？ [1 ..

发布时间：2016-05-22 15:15:28 sql scala apache-spark dataframe apache-spark-sql 其他开发

Spark和SparkSQL：如何模仿窗函数？

说明给出一个数据帧东风 ID |日期 --------------- 1 | 2015年9月1日 2 | 2015年9月1日 1 | 2015年9月3日 1 | 2015年9月4日 2 | 2015年9月4日我想创建一个运行计数器或索引，用相同的ID和分组按日期该组中的排序，因此， ID |日期|计数器 -------------------------- ..

发布时间：2016-05-22 15:15:04 scala apache-spark apache-spark-sql window-functions 其他开发

什么是Apache的星火SQLContext VS HiveContext区别？

什么是Apache的星火SQLContext和HiveContext之间的区别是什么？有消息说，由于HiveContext是SQLContext开发的超集应始终使用HiveContext具有比SQLContext更多的功能。但是每上下文的当前API的大多是一样的。什么是它SQLContext / HiveContext是比较有用的场景？是HiveContext更有益与蜂巢的工作 ..

发布时间：2016-05-22 15:14:59 apache-spark hive apache-spark-sql 其他开发

星火：为什么我要明确地告诉缓存什么呢？

在火花，我们每次做上RDD任何操作时，RDD重新计算。所以，如果我们知道的是，RDD是要重复使用更多的，我们应该明确缓存RDD。让我们说，星火决定懒洋洋地缓存所有RDDS并采用LRU自动保存在内存中最相关的RDDS（这是大多数缓存是如何工作的任何方式）。这将是对开发商有很大的帮助，因为他没有考虑缓存和专注于应用程序。也看不到它如何产生负面的性能产生影响，因为它是难以跟踪，多少时间的变量（RDD ..

发布时间：2016-05-22 15:14:53 caching apache-spark apache-spark-sql spark-streaming 其他开发

数据框，指明分数zipWithIndex

我试图解决增加一个序列号到数据集的老问题。我与DataFrames工作，而且似乎不等同于数据帧 RDD.zipWithIndex 。在另一方面，下面的工作或多或少我希望它的方式： VAL origDF = sqlContext.load（...）VAL seqDF = sqlContext.createDataFrame（ origDF.rdd.zipWithIndex.map（LN ..

发布时间：2016-05-22 15:14:09 apache-spark apache-spark-sql 其他开发

更新的火花数据框列

寻找在新的火花数据帧的API，也不清楚是否有可能要修改数据帧列。我怎么会去行 X 列是 A数据框的改变价值？在熊猫这将是 df.ix [X，Y] = NEW_VALUE 解决方案虽然你不能修改列正因为如此，你可以在一列操作，并返回一个新的数据框反映这种变化。对于你首先创建一个 UserDefinedFunction 实施操作申请，然后有选择地应用该功能仅目标列。在Python： ..

发布时间：2016-05-22 15:14:03 python apache-spark pyspark apache-spark-sql spark-dataframe Python

apache-spark-sql相关内容