apache-spark-sql相关内容

" INSERT INTO ..​​."与SparkSQL HiveContext

我想用我的HiveContext运行一个INSERT语句,像这样的: hiveContext.sql(“插入my_table的(ID,得分)值(1,10)') 借助 1.5.2星火SQL文档不明确指出这是否是支持或不,尽管它的确支持“动态分区插入。” 这导致堆栈跟踪像 AnalysisException: 不支持的语言功能的查询:插入my_table的(ID,得分)值(1,10) TOK_ ..

如何从列表中选择多个非contigous列到另一个蟒数据框

我的工作 IPython的和星火,我有一个 RDD 从中我形成了列表。现在,从这个列表我要形成一个数据帧有多个列从父列表,但这些列是不连续的。我写了这一点,但它似乎是工作错了: list1的= rdd.collect() columns_num = [1,8,11,17,21,24] DF2 = [在columns_num列表[我]对于i] 以上code只选择6行,只有1列的数据,从父列表 ..
发布时间:2016-05-22 15:44:29 Python

在星火使用GROUPBY和获取回数据框

在与火花数据帧时使用Scala我有困难。如果我有,我想提取的唯一条目的列,当我使用一个数据帧 GROUPBY 我没有得到一个数据帧了。 例如,我有一个数据帧称为日志有以下形式: machine_id |事件|其他的东西 34131231 |事情|东东 83423984 | notathing | notstuff 34131231 |事情| morestuff 和我想的唯一的机器I ..
发布时间:2016-05-22 15:42:25 其他开发

SparkSQL引用UDT的属性

我想实现一个自定义UDT并能够从星火SQL引用它(如星火SQL白皮书解释说,第4.4.2节)。 真正的例子是必须使用原头儿,或类似的场外堆数据结构支持自定义UDT。 有关这个帖子,我做了一个人为的例子。我知道我可以只使用Scala的case类,并没有做任何工作可言,但是这不是我的目标。 例如,我有一个人包含一些属性,我希望能够 SELECT person.first_name从一个人。我跑入 ..

如何使用SQL星火与数据框flatMap?

我用的是星火Scala的API。我有一个Spark SQL数据框(从Avro的文件中读取)与下面的模式: 根 | - IDS:阵列(可为空=真) | | - 元素:地图(containsNull =真) | | | - 关键:整数 | | | - 值:字符串(valueContainsNull =真) | - 匹配:阵列(可为空=真) | | - 元素:整数(containsNul ..
发布时间:2016-05-22 15:39:38 其他开发

Upacking列表以选择火花数据帧多列

我有一个火花数据帧东风。有子的使用这些列的列表中选择一个几列的方式? 斯卡拉> df.columns RES0:数组[字符串] =阵列(“A”,“B”,“C”,“D”) 我知道我可以这样做 df.select(“B”,“C”)。但是假设我有一个包含一些列名的列表 VAL COLS =名单(“B”,“C”),有没有办法通过这df.select? df.select(COLS)抛出一个错误 ..
发布时间:2016-05-22 15:38:09 其他开发

如预期星火过滤ISIN不起作用

VAL项目=列表(“A”,“B”,“C”)sqlContext.sql(“选择表C1”) .filter($“C1”.isin(项目)) 。搜集 .foreach(的println) 上面的code抛出以下异常。异常螺纹“主”了java.lang.RuntimeException:不支持文本类型类scala.collection.i ..
发布时间:2016-05-22 15:37:36 其他开发

将集合函数某种类型的每一列

所以,我写了一篇关于如何在我的数据帧,平均每FloatType列像这样的基础上(即不工作): VAL DESCRIPT = df.dtypes VAR decimalArr =新ListBuffer [字符串]() 为(ⅰ&下; - 0到(descript.length - 1)){ 如果(DESCRIPT(我)._ 2 ==“FloatType”){ dec ..
发布时间:2016-05-22 15:37:24 其他开发

保存数据框星火在蜂巢动态分区表

我有一个示例应用程序的工作从CSV文件读入数据帧。数据框可以使用方法来存储到一个蜂巢表格式的实木复合地板 的 df.saveAsTable(表名,模式)的。 以上code正常工作,但我每天这么多的数据,我想动态分区基础上,creationdate蜂箱表(表中的列)。 有没有什么办法来动态分区数据框,并将其存储到仓库蜂房。要从硬编码使用INSERT语句的 hivesqlcontext.sql不 ..
发布时间:2016-05-22 15:37:09 其他开发

星火移除数据框重复行

假设我有像数据框: VAL JSON = sc.parallelize(SEQ(“”“{”一“:1,”B“:2,”C“:22,”D“:34}” “”,“”,“{”一“:3,”b“的:9,”C“:22,”D“:12}”,“”,“”“{”一“:1,”b“:4 ,“C”:23,“D”:12}“,”“)) VAL DF = sqlContext.read.json(JSON) 我想删除列重复行“一 ..
发布时间:2016-05-22 15:36:31 其他开发

在现有列数据帧的基础添加新列

我有datetime列csv文件:“2011-05-02T04:52:09 + 00:00”。 我使用Scala,该文件被加载到火花数据框中,我可以使用jodas时间来解析日期: VAL sqlContext =新SQLContext(SC) 进口sqlContext.implicits._ VAL DF =新SQLContext(SC).load(“com.databricks.spark ..
发布时间:2016-05-22 15:36:12 其他开发

PySpark发现JDBC没有合适的驱动程序的:mysql:// DBHOST

我想我的数据框写入到一个MySQL表。我越来越没有合适的驱动程序找到了JDBC:MySQL的:当我尝试写// DBHOST 。 由于preprocessing我从在同一数据库其他表读取并没有问题这样做的一部分。我能做到的全力奔跑和行保存到一个文件拼花所以它肯定是从MySQL数据库读取。 我使用的提交: 火花提交--conf spark.executor.extraClassPath = / ..
发布时间:2016-05-22 15:36:05 其他开发

值java.sql.SQLException:没有合适的驱动程序加载到数据帧星火SQL时发现

我想JDBC数据帧装入星火SQL击球的时候很奇怪的问题。 我试过几个星火集群 - YARN,独立的集群和伪分布在我的笔记本电脑模式。这两个星火1.3.0和1.3.1重现性。在这两个出现该问题的火花壳和执行code时火花提交。我试过的MySQL和放大器; MS SQL JDBC驱动程序没有成功。 请考虑下面的示例: VAL驱动程序=“com.mysql.jdbc.Driver” VAL URL ..
发布时间:2016-05-22 15:34:09 其他开发

pyspark的多个列拆分列没有大熊猫

我的问题是如何将一列拆分为多个列。 我不知道为什么 df.toPandas()不起作用。 例如,我想改变'df_test'到'df_test2“。 我看到了使用熊猫模块的例子很多。有另一种方式? 谢谢你在前进。 df_test = sqlContext.createDataFrame([ (1,'14 -Jul-15'), (2,'14 -Jun-15'), (3,'11 - 辛15 ..
发布时间:2016-05-22 15:33:09 Python

在星火压扁行

我使用Scala做一些测试的火花。我们平时读的JSON文件,这需要像下面的例子来进行操作: test.json: {“一”:1,“B”:[2,3]} VAL测试= sqlContext.read.json(“test.json”) 我怎样才能将其转换为以下格式: {“一”:1,“B”:2} {“一”:1,“B”:3} 感谢 解决方案 您可以使用爆炸功能:斯卡拉>进口o ..
发布时间:2016-05-22 15:32:38 其他开发

斯卡拉/星火应用与"无&QUOT TypeTag;错误"高清主"风格的应用程序

我是新来斯卡拉/星火栈,我试图找出如何使用SparkSql到“地图”中TempTables,反之亦然RDDS测试我的基本技能。 我有同样的code 2不同.scala文件:一个简单的对象(DEF主...)和扩展应用程序的对象 在简单的对象就是我得到一个错误,由于连接到我的案例类日志“没有可用TypeTag” 对象计数器{ 高清主(参数:数组[字符串]){ 。 。 。 VAL sql ..
发布时间:2016-05-22 15:32:17 其他开发