apache-spark相关内容
我正在使用Spark和PySpark。我试图达到相当于下面伪代码的结果: df = df.withColumn('new_column', if fruit1 == fruit2 THEN 1,ELSE 0. IF fruit1 IS NULL OR fruit2 IS NULL 3.) 我试图在PySpark中做到这一点,但我不确定语法。任何指针?我查看了 expr()
..
HiveQL中的常见查询构建模式(通常是SQL)是选择所有列( SELECT * )或显式指定的一组列( SELECT A,B,C )。 SQL没有内置机制来选择除指定的一组列之外的所有其他内容。 有几种排除某些列的机制,如这个SO问题,但没有一个适用于HiveQL。 (例如,使用 SELECT * 然后 ALTER TABLE DROP 创建一个临时表的想法在大数据环境中大肆破坏。)
..
我想使用Spark数据框架构创建一个配置表格。我可以怎么做? 对于固定列,我可以使用: val CreateTable_query =“Create Table my table(a string,b string,c double)” sparksession.sql(CreateTable_query) 但是我的数据框中有很多列,所以有自动生成这样的查询的方法吗
..
我可以从安装apache spark的同一群集中的hive服务器加载数据。但是,我怎么能从远程配置单元服务器加载数据到数据帧。是hive jdbc连接器的唯一选择吗? 任何建议我该怎么做? 解决方案 您可以使用 org.apache.spark.sql.hive.HiveContext 在Hive表上执行SQL查询。 您也可以将spark连接到实际存储数据的底层HDFS目录。这
..
HDFS上的root scratch dir:/ tmp / hive应该是可写的。当前权限为:rwx -------- 嗨,以下Spark代码是我在CDH 5.8&获得以上RuntimeExeption pre $ public static void main(String [] args){ final SparkConf sparkConf = new SparkConf()
..
这是我上传到yarn-cluster的驱动程序: package com.baidu.spark.forhivetest import org.apache.spark.sql._ import org.apache.spark.sql.types._ import org.apache.spark.sql.hive._ import org.apache.spark.
..
我之前已经使用配置单元注册了UDF。它是永久的,不是 TEMPORARY 。它可以直线运行。 CREATE FUNCTION normaliseURL AS'com.example.hive.udfs.NormaliseURL'USING JAR'hdfs:/ /udfs/hive-udfs.jar'; 我的spark已配置为使用配置单元Metastore。配置工作,因为
..
我有一个Spark应用程序,它将成功连接到配置单元并使用Spark引擎在配置单元表上进行查询。 为了构建这个,我只是将 hive-site.xml 添加到应用程序的类路径中,spark将读取 hive-site.xml 来连接到它的Metastore。这个方法是在spark的邮件列表中建议的。 到目前为止这么好。现在我想连接到两个配置单元存储,我不认为在我的类路径中添加另一个 hive
..
我想尝试使用spark将数据加载到配置单元外部表中。 请在此帮助我,如何使用scala代码或java将数据加载到配置单元中 提前致谢 解决方案 假设已经使用类似的方法创建了hive外部表, CREATE EXTERNAL TABLE external_parquet(c1 INT,c2 STRING,c3 TIMESTAMP) 作为PARQUET位置存储'/ user /
..
或者一个更具体的问题是如何处理大量的数据,而这些数据一次不适合内存?用OFFSET我试图做hiveContext.sql(“select ... limit 10 offset 10”),同时递增偏移量以获取所有数据,但offset在hiveContext中似乎不是有效的。通常用于实现这一目标的替代方案是什么? 对于某些情况,pyspark代码以 from pyspark.sql im
..
我尝试在访问Hive表的Cloud 4.2 Enterprise上的BigInsights上运行pyspark脚本。首先,我创建配置单元表: [biadmin @ bi4c-xxxxx-mastermanager〜] $ hive hive> CREATE TABLE pokes(foo INT,bar STRING); 确定 所需时间:2.147秒 配置单元> LOAD DATA
..
我尝试在访问Hive表的Cloud 4.2 Enterprise上的BigInsights上运行pyspark脚本。首先,我创建配置单元表: [biadmin @ bi4c-xxxxx-mastermanager〜] $ hive hive> CREATE TABLE pokes(foo INT,bar STRING); 确定 所需时间:2.147秒 配置单元> LOAD DATA
..
使用 SparkR 嵌套数组如何“爆炸”?我尝试过使用爆炸,例如: dat% mutate(a = explode(元数据))%>% head() 尽管上述不会引发异常,但它不会将元数据中的嵌套字段提升到顶层。基本上,我正在寻找与Hive的 LATERAL VIEW explode()功能类似的行为,而不依赖于 HiveCon
..
当我尝试在配置单元使用spark时查询配置单元中的表时,我遇到错误。例如,当我这样做时: 从ma_table选择count(*); 我得到这个: 线程“main”中的异常java.lang.NoClassDefFoundError:scala / collection / Iterable at org.apache.hadoop.hive.ql.parse.s
..
我们如何覆盖分区数据集,但只有我们要更改的分区?例如,重新计算上周每天的工作,并且只重写上周的数据。 默认的Spark行为是覆盖整个表,即使只有一些分区将要写出来。 解决方案 自从Spark 2.3.0覆盖表格时,这是一个选项。要覆盖它,您需要将新的 spark.sql.sources.partitionOverwriteMode 设置设置为 dynamic ,数据集需要被分区,写模
..
我想在Spark中做累积和。这里是注册表(输入): + --------------- + ------------------- + ---- + ---- + ---- + | PRODUCT_ID | DATE_TIME | ACK | VAL1 |值2 | + --------------- + ------------------- + ---- + ---- + ---
..
我有一个场景来比较来自两个不同的远程hive服务器的两个不同的表源和目的地,我们可以使用两个 SparkSessions / p> val spark = SparkSession.builder()。master(“local”) .appName(“spark remote”) .config(“javax.jdo.option.ConnectionURL”,“jdbc:mysq
..
最近在spark-sql中加载了一个包含数组列的表。 $使用Spark-shell执行以下操作b $ b 以下是同样的ddl: create table test_emp_arr { dept_id string, dept_nm字符串, emp_details数组 } 数据看起来像这样 + ------- + ------- +
..
使用Hive命令 regexp_extract 我试图更改以下字符串: 201703170455 to 2017-03-17:04:55 p> 2017031704555675至2017-03-17:04:55.0010 我在sparklyr中尝试使用此代码与R中的gsub配合使用: 以及此代码: pre $
..
我有以下数据框: data : root | - userId:string | - product:string | - rating:double 和以下查询: pre $ val result = sqlContext.sql(“select userId,collect_list(product ),collect_list(rat
..