apache-spark-sql 第238页 - IT屋-程序员软件开发技术分享社区

如何使用星火与HiveContext

我是新来spark.I想使用HiveContext在sparkSQL访问窗口functions.But我给这个时候，进口org.apache.spark.sql.hive.HiveContext 我收到以下错误：错误：对象蜂巢不包org.apache.spark.sql成员我发现我需要在build.sbt文件以下相关解决方案。 libraryDependencies + =“ ..

发布时间：2016-05-22 15:46:08 apache-spark sbt apache-spark-sql spark-dataframe sbt-assembly 其他开发

＆QUOT; INSERT INTO ...＆QUOT;与SparkSQL HiveContext

我想用我的HiveContext运行一个INSERT语句，像这样的： hiveContext.sql（“插入my_table的（ID，得分）值（1,10）'）借助 1.5.2星火SQL文档不明确指出这是否是支持或不，尽管它的确支持“动态分区插入。” 这导致堆栈跟踪像 AnalysisException：不支持的语言功能的查询：插入my_table的（ID，得分）值（1，10） TOK_ ..

发布时间：2016-05-22 15:44:33 apache-spark apache-spark-sql pyspark apache-spark-1.5 hivecontext 其他开发

如何从列表中选择多个非contigous列到另一个蟒数据框

我的工作 IPython的和星火，我有一个 RDD 从中我形成了列表。现在，从这个列表我要形成一个数据帧有多个列从父列表，但这些列是不连续的。我写了这一点，但它似乎是工作错了： list1的= rdd.collect（） columns_num = [1,8,11,17,21,24] DF2 = [在columns_num列表[我]对于i] 以上code只选择6行，只有1列的数据，从父列表 ..

发布时间：2016-05-22 15:44:29 python apache-spark apache-spark-sql pyspark Python

在星火使用GROUPBY和获取回数据框

在与火花数据帧时使用Scala我有困难。如果我有，我想提取的唯一条目的列，当我使用一个数据帧 GROUPBY 我没有得到一个数据帧了。例如，我有一个数据帧称为日志有以下形式： machine_id |事件|其他的东西 34131231 |事情|东东 83423984 | notathing | notstuff 34131231 |事情| morestuff 和我想的唯一的机器I ..

发布时间：2016-05-22 15:42:25 scala apache-spark apache-spark-sql 其他开发

SparkSQL引用UDT的属性

我想实现一个自定义UDT并能够从星火SQL引用它（如星火SQL白皮书解释说，第4.4.2节）。真正的例子是必须使用原头儿，或类似的场外堆数据结构支持自定义UDT。有关这个帖子，我做了一个人为的例子。我知道我可以只使用Scala的case类，并没有做任何工作可言，但是这不是我的目标。例如，我有一个人包含一些属性，我希望能够 SELECT person.first_name从一个人。我跑入 ..

发布时间：2016-05-22 15:42:20 apache-spark apache-spark-sql user-defined-types spark-dataframe 其他开发

如何使用SQL星火与数据框flatMap？

发布时间：2016-05-22 15:39:38 scala apache-spark apache-spark-sql 其他开发

Upacking列表以选择火花数据帧多列

我有一个火花数据帧东风。有子的使用这些列的列表中选择一个几列的方式？斯卡拉＆GT; df.columns RES0：数组[字符串] =阵列（“A”，“B”，“C”，“D”）我知道我可以这样做 df.select（“B”，“C”）。但是假设我有一个包含一些列名的列表 VAL COLS =名单（“B”，“C”），有没有办法通过这df.select？ df.select（COLS）抛出一个错误 ..

发布时间：2016-05-22 15:38:09 apache-spark apache-spark-sql spark-dataframe 其他开发

如预期星火过滤ISIN不起作用

VAL项目=列表（“A”，“B”，“C”）sqlContext.sql（“选择表C1”） .filter（$“C1”.isin（项目））。搜集 .foreach（的println）上面的code抛出以下异常。异常螺纹“主”了java.lang.RuntimeException：不支持文本类型类scala.collection.i ..

发布时间：2016-05-22 15:37:36 scala apache-spark apache-spark-sql 其他开发

将集合函数某种类型的每一列

所以，我写了一篇关于如何在我的数据帧，平均每FloatType列像这样的基础上（即不工作）： VAL DESCRIPT = df.dtypes VAR decimalArr =新ListBuffer [字符串]（）为（ⅰ＆下; - 0到（descript.length - 1））{ 如果（DESCRIPT（我）._ 2 ==“FloatType”）{ dec ..

发布时间：2016-05-22 15:37:24 scala apache-spark apache-spark-sql 其他开发

保存数据框星火在蜂巢动态分区表

我有一个示例应用程序的工作从CSV文件读入数据帧。数据框可以使用方法来存储到一个蜂巢表格式的实木复合地板的 df.saveAsTable（表名，模式）的。以上code正常工作，但我每天这么多的数据，我想动态分区基础上，creationdate蜂箱表（表中的列）。有没有什么办法来动态分区数据框，并将其存储到仓库蜂房。要从硬编码使用INSERT语句的 hivesqlcontext.sql不 ..

发布时间：2016-05-22 15:37:09 hadoop apache-spark hive apache-spark-sql 其他开发

星火移除数据框重复行

假设我有像数据框： VAL JSON = sc.parallelize（SEQ（“”“{”一“：1，”B“：2，”C“：22，”D“：34}” “”，“”，“{”一“：3，”b“的：9，”C“：22，”D“：12}”，“”，“”“{”一“：1，”b“：4 ，“C”：23，“D”：12}“，”“）） VAL DF = sqlContext.read.json（JSON）我想删除列重复行“一 ..

发布时间：2016-05-22 15:36:31 scala apache-spark dataframe apache-spark-sql 其他开发

与MASTER =纱线集群中运行HiveFromSpark例子

我试图运行 ..

发布时间：2016-05-22 15:36:15 hadoop apache-spark amazon-emr apache-spark-sql 其他开发

在现有列数据帧的基础添加新列

我有datetime列csv文件：“2011-05-02T04：52：09 + 00：00”。我使用Scala，该文件被加载到火花数据框中，我可以使用jodas时间来解析日期： VAL sqlContext =新SQLContext（SC）进口sqlContext.implicits._ VAL DF =新SQLContext（SC）.load（“com.databricks.spark ..

发布时间：2016-05-22 15:36:12 scala apache-spark apache-spark-sql 其他开发

PySpark发现JDBC没有合适的驱动程序的：mysql：// DBHOST

我想我的数据框写入到一个MySQL表。我越来越没有合适的驱动程序找到了JDBC：MySQL的：当我尝试写// DBHOST 。由于preprocessing我从在同一数据库其他表读取并没有问题这样做的一部分。我能做到的全力奔跑和行保存到一个文件拼花所以它肯定是从MySQL数据库读取。我使用的提交：火花提交--conf spark.executor.extraClassPath = / ..

发布时间：2016-05-22 15:36:05 apache-spark apache-spark-sql pyspark 其他开发

所以我所知在星火数据框，对于多列可以具有相同的名称如下数据帧快照所示： [ 行（A = 107831，F = SparseVector（5，{0：0.0，1：0.0，2：0.0，3：0.0，4：0.0}），A = 107831，F = SparseVector（5，{0：0.0， 1：0.0，2：0.0，3：0.0，4：0.0}））行（A = 107831，F = SparseVector（ ..

发布时间：2016-05-22 15:35:43 python apache-spark apache-spark-sql pyspark spark-dataframe Python

值java.sql.SQLException：没有合适的驱动程序加载到数据帧星火SQL时发现

我想JDBC数据帧装入星火SQL击球的时候很奇怪的问题。我试过几个星火集群 - YARN，独立的集群和伪分布在我的笔记本电脑模式。这两个星火1.3.0和1.3.1重现性。在这两个出现该问题的火花壳和执行code时火花提交。我试过的MySQL和放大器; MS SQL JDBC驱动程序没有成功。请考虑下面的示例： VAL驱动程序=“com.mysql.jdbc.Driver” VAL URL ..

发布时间：2016-05-22 15:34:09 scala jdbc apache-spark apache-spark-sql 其他开发

pyspark的多个列拆分列没有大熊猫

我的问题是如何将一列拆分为多个列。我不知道为什么 df.toPandas（）不起作用。例如，我想改变'df_test'到'df_test2“。我看到了使用熊猫模块的例子很多。有另一种方式？谢谢你在前进。 df_test = sqlContext.createDataFrame（[ （1，'14 -Jul-15'），（2，'14 -Jun-15'），（3，'11 - 辛15 ..

发布时间：2016-05-22 15:33:09 python apache-spark pyspark apache-spark-sql Python

写RDD分区单独实木复合地板的文件在自己的目录

我与步骤，其中我想写每个RDD分区独立拼花文件，它自己的目录挣扎。例如将是：＆LT;根和GT; ＆LT;实体=使用实体＆GT; ＆LT;同期= 2015＆GT; ＆LT;周= 45＆GT; data_file.parquet 这种格式的优点是我可以在SparkSQL直接使用这个栏 ..

发布时间：2016-05-22 15:33:04 scala apache-spark apache-spark-sql rdd parquet 其他开发

在星火压扁行

我使用Scala做一些测试的火花。我们平时读的JSON文件，这需要像下面的例子来进行操作： test.json： {“一”：1，“B”：[2,3]} VAL测试= sqlContext.read.json（“test.json”）我怎样才能将其转换为以下格式： {“一”：1，“B”：2} {“一”：1，“B”：3} 感谢解决方案您可以使用爆炸功能：斯卡拉＆GT;进口o ..

发布时间：2016-05-22 15:32:38 scala apache-spark apache-spark-sql 其他开发

斯卡拉/星火应用与＆QUOT;无＆QUOT TypeTag;错误＆QUOT;高清主＆QUOT;风格的应用程序

我是新来斯卡拉/星火栈，我试图找出如何使用SparkSql到“地图”中TempTables，反之亦然RDDS测试我的基本技能。我有同样的code 2不同.scala文件：一个简单的对象（DEF主...）和扩展应用程序的对象在简单的对象就是我得到一个错误，由于连接到我的案例类日志“没有可用TypeTag” 对象计数器{ 高清主（参数：数组[字符串]）{ 。。。 VAL sql ..

发布时间：2016-05-22 15:32:17 scala types apache-spark apache-spark-sql 其他开发

apache-spark-sql相关内容