apache-spark 第498页 - IT屋-程序员软件开发技术分享社区

PySpark：withColumn（）有两个条件和三个结果

我正在使用Spark和PySpark。我试图达到相当于下面伪代码的结果： df = df.withColumn（'new_column'， if fruit1 == fruit2 THEN 1，ELSE 0. IF fruit1 IS NULL OR fruit2 IS NULL 3.）我试图在PySpark中做到这一点，但我不确定语法。任何指针？我查看了 expr（） ..

发布时间：2018-06-12 13:55:06 python apache-spark hive pyspark hiveql Python

Hive UDF用于选择除某些列外的所有内容

HiveQL中的常见查询构建模式（通常是SQL）是选择所有列（ SELECT * ）或显式指定的一组列（ SELECT A，B，C ）。 SQL没有内置机制来选择除指定的一组列之外的所有其他内容。有几种排除某些列的机制，如这个SO问题，但没有一个适用于HiveQL。（例如，使用 SELECT * 然后 ALTER TABLE DROP 创建一个临时表的想法在大数据环境中大肆破坏。） ..

发布时间：2018-06-12 13:54:50 apache-spark hive hiveql apache-spark-sql udf 其他开发

如何使用它的模式从Spark数据框创建配置单元表？

我想使用Spark数据框架构创建一个配置表格。我可以怎么做？对于固定列，我可以使用： val CreateTable_query =“Create Table my table（a string，b string，c double）” sparksession.sql（CreateTable_query）但是我的数据框中有很多列，所以有自动生成这样的查询的方法吗 ..

发布时间：2018-06-12 13:53:37 scala apache-spark hive 其他开发

远程连接apache spark与apache配置单元。

我可以从安装apache spark的同一群集中的hive服务器加载数据。但是，我怎么能从远程配置单元服务器加载数据到数据帧。是hive jdbc连接器的唯一选择吗？任何建议我该怎么做？解决方案您可以使用 org.apache.spark.sql.hive.HiveContext 在Hive表上执行SQL查询。您也可以将spark连接到实际存储数据的底层HDFS目录。这 ..

发布时间：2018-06-12 13:53:00 apache-spark jdbc hive apache-spark-sql 其他开发

HDFS上的root scratch dir：/ tmp / hive应该是可写的。目前的权限是：rwx ---------（在Linux上）

HDFS上的root scratch dir：/ tmp / hive应该是可写的。当前权限为：rwx -------- 嗨，以下Spark代码是我在CDH 5.8&获得以上RuntimeExeption pre $ public static void main（String [] args）{ final SparkConf sparkConf = new SparkConf（） ..

发布时间：2018-06-12 13:51:24 apache-spark hive apache-spark-sql spark-dataframe hiveql 其他开发

在yarn上使用spark sql hivesql时，获取java.lang.LinkageError：ClassCastException

这是我上传到yarn-cluster的驱动程序： package com.baidu.spark.forhivetest import org.apache.spark.sql._ import org.apache.spark.sql.types._ import org.apache.spark.sql.hive._ import org.apache.spark. ..

发布时间：2018-06-12 13:51:06 apache-spark hive apache-spark-sql 其他开发

无法使用Spark SQL中的现有Hive永久性UDF

我之前已经使用配置单元注册了UDF。它是永久的，不是 TEMPORARY 。它可以直线运行。 CREATE FUNCTION normaliseURL AS'com.example.hive.udfs.NormaliseURL'USING JAR'hdfs：/ /udfs/hive-udfs.jar'; 我的spark已配置为使用配置单元Metastore。配置工作，因为 ..

发布时间：2018-06-12 13:50:06 apache-spark hive apache-spark-sql udf 其他开发

使用Apache Spark查询多个Hive商店

我有一个Spark应用程序，它将成功连接到配置单元并使用Spark引擎在配置单元表上进行查询。为了构建这个，我只是将 hive-site.xml 添加到应用程序的类路径中，spark将读取 hive-site.xml 来连接到它的Metastore。这个方法是在spark的邮件列表中建议的。到目前为止这么好。现在我想连接到两个配置单元存储，我不认为在我的类路径中添加另一个 hive ..

发布时间：2018-06-12 13:48:28 apache-spark hive spark-hive 其他开发

如何使用spark将数据加载到配置单元外部表中？

我想尝试使用spark将数据加载到配置单元外部表中。请在此帮助我，如何使用scala代码或java将数据加载到配置单元中提前致谢解决方案假设已经使用类似的方法创建了hive外部表， CREATE EXTERNAL TABLE external_parquet（c1 INT，c2 STRING，c3 TIMESTAMP）作为PARQUET位置存储'/ user / ..

发布时间：2018-06-12 13:46:47 scala apache-spark hive 其他开发

在Pyspark HiveContext中，什么是SQL OFFSET的等价物？

或者一个更具体的问题是如何处理大量的数据，而这些数据一次不适合内存？用OFFSET我试图做hiveContext.sql（“select ... limit 10 offset 10”），同时递增偏移量以获取所有数据，但offset在hiveContext中似乎不是有效的。通常用于实现这一目标的替代方案是什么？对于某些情况，pyspark代码以 from pyspark.sql im ..

发布时间：2018-06-12 13:46:41 apache-spark hive pyspark 其他开发

Spark Hive报告pyspark.sql.utils.AnalysisException：u'Table未找到：XXX'在纱群上运行时

我尝试在访问Hive表的Cloud 4.2 Enterprise上的BigInsights上运行pyspark脚本。首先，我创建配置单元表： [biadmin @ bi4c-xxxxx-mastermanager〜] $ hive hive> CREATE TABLE pokes（foo INT，bar STRING）; 确定所需时间：2.147秒配置单元> LOAD DATA ..

发布时间：2018-06-12 13:45:40 apache-spark hive ibm-cloud yarn biginsights 其他开发

Spark Hive报告ClassNotFoundException：com.ibm.biginsights.bigsql.sync.BIEventListener

我尝试在访问Hive表的Cloud 4.2 Enterprise上的BigInsights上运行pyspark脚本。首先，我创建配置单元表： [biadmin @ bi4c-xxxxx-mastermanager〜] $ hive hive> CREATE TABLE pokes（foo INT，bar STRING）; 确定所需时间：2.147秒配置单元> LOAD DATA ..

发布时间：2018-06-12 13:45:35 apache-spark hive ibm-cloud yarn biginsights 其他开发

如何使用SparkR保持数据安全？

使用 SparkR 嵌套数组如何“爆炸”？我尝试过使用爆炸，例如： dat％ mutate（a = explode（元数据））％>％ head（）尽管上述不会引发异常，但它不会将元数据中的嵌套字段提升到顶层。基本上，我正在寻找与Hive的 LATERAL VIEW explode（）功能类似的行为，而不依赖于 HiveCon ..

发布时间：2018-06-12 13:44:05 r apache-spark hive sparkr 其他开发

配置单元错误：线程“main”中的异常java.lang.NoClassDefFoundError：scala / collection / Iterable

当我尝试在配置单元使用spark时查询配置单元中的表时，我遇到错误。例如，当我这样做时：从ma_table选择count（*）; 我得到这个：线程“main”中的异常java.lang.NoClassDefFoundError：scala / collection / Iterable at org.apache.hadoop.hive.ql.parse.s ..

发布时间：2018-06-12 13:43:56 scala apache-spark hive classpath 其他开发

只覆盖分区火花数据集中的一些分区

我们如何覆盖分区数据集，但只有我们要更改的分区？例如，重新计算上周每天的工作，并且只重写上周的数据。默认的Spark行为是覆盖整个表，即使只有一些分区将要写出来。解决方案自从Spark 2.3.0覆盖表格时，这是一个选项。要覆盖它，您需要将新的 spark.sql.sources.partitionOverwriteMode 设置设置为 dynamic ，数据集需要被分区，写模 ..

发布时间：2018-06-12 13:43:43 apache-spark hive apache-spark-dataset 其他开发

Spark中的累积总和

我想在Spark中做累积和。这里是注册表（输入）： + --------------- + ------------------- + ---- + ---- + ---- + | PRODUCT_ID | DATE_TIME | ACK | VAL1 |值2 | + --------------- + ------------------- + ---- + ---- + --- ..

发布时间：2018-06-12 13:42:13 sql scala apache-spark hive cumulative-sum 其他开发

我们能否使用多个sparksessions来访问两个不同的Hive服务器

我有一个场景来比较来自两个不同的远程hive服务器的两个不同的表源和目的地，我们可以使用两个 SparkSessions / p> val spark = SparkSession.builder（）。master（“local”） .appName（“spark remote”） .config（“javax.jdo.option.ConnectionURL”，“jdbc：mysq ..

发布时间：2018-06-12 13:42:02 scala apache-spark hive apache-spark-sql 其他开发

在数组中选择一系列元素spark sql

最近在spark-sql中加载了一个包含数组列的表。 $使用Spark-shell执行以下操作b $ b 以下是同样的ddl： create table test_emp_arr { dept_id string， dept_nm字符串， emp_details数组 } 数据看起来像这样 + ------- + ------- + ..

发布时间：2018-06-12 13:38:58 arrays scala apache-spark hive apache-spark-sql 其他开发

使用hive命令更改DF中的字符串并使用sparklyr进行变异

使用Hive命令 regexp_extract 我试图更改以下字符串： 201703170455 to 2017-03-17：04：55 p> 2017031704555675至2017-03-17：04：55.0010 我在sparklyr中尝试使用此代码与R中的gsub配合使用：以及此代码： pre $ ..

发布时间：2018-06-12 13:38:40 r apache-spark hive gsub sparklyr 其他开发

在Spark SQL的一个查询中使用多个collect_list

我有以下数据框： data ： root | - userId：string | - product：string | - rating：double 和以下查询： pre $ val result = sqlContext.sql（“select userId，collect_list（product ），collect_list（rat ..

发布时间：2018-06-12 13:38:20 scala apache-spark hive apache-spark-sql spark-dataframe 其他开发

apache-spark相关内容