apache-spark-sql相关内容
我正在读取带有 Spark SQL 上下文的 CSV 文件. 代码: m.put("path", CSV_DIRECTORY+file.getOriginalFilename());m.put("inferSchema", "true");//默认自动推断数据类型 else stringm.put("header", "true");//使用所有文件的第一行作为标题m.put("分隔符",
..
在 Spark 中将 structType 转换为 MapType. 架构: event: struct (nullable = true)||event_category: 字符串 (nullable = true)||事件名称:字符串(可为空 = 真)||属性:结构(可为空=真)|||prop1:字符串(可为空=真)|||prop2:字符串(可为空=真) 示例数据: {“事件":{
..
我正在使用 Spark 对用户提交的数据调用函数. 如何将已存在的函数重命名为不同的名称,例如将 REGEXP_REPLACE 重命名为 REPLACE? 我尝试了以下代码: ss.udf.register("REPLACE", REGEXP_REPLACE)//这不起作用ss.udf.register("sum_in_all", sumInAll)ss.udf.register("
..
这是一段有效的代码,但在我尝试从不同的 scala 对象 创建 Sparksession 后突然无法工作 val b = a.filter { x =>(!x._2._1.isEmpty) &&(!x._2._2.isEmpty) }val primary_ke = b.map(rec => (rec._1.split(",")(0))).distinctfor (i
..
我正在尝试从 json 以镶木地板格式创建数据框.我收到以下异常, 线程“main"org.apache.spark.sql.AnalysisException 中的异常:属性名称“d?G?@4???[[l?~?N!^w1?X!8??ingSuccessful"包含" ,;{}()\n\t=" 中的无效字符.请使用别名重命名.; 我知道某些具有特殊字符的 json 键是上述异常的原因.
..
我有一个低于 Cols 的数据集. df.show();+--------+---------+---------+---------+---------+|列 1 |Col2 |花费1 |支出2 |花费3 |+--------+---------+---------+---------+---------+|值 1 |Cvalue1 |123 |2254 |22 ||值 1 |Cvalue2
..
如何使用 Spark 数据帧的特定格式将字符串转换为日期? 在 dplyr 中,我会这样做: df = data.frame(dt1 = c("22DEC16", "12JUN16"), x = c(10,20))df = df %>% mutate(dt2 = as.Date(dt1, "%d%b%y"))>dfdt1 x dt21 22DEC16 10 2016-12-222 12JU
..
为了将文件(以 | 分隔)保存到 DataFrame 中,我开发了下一个代码: val file = sc.textFile("path/file/")val rddFile = file.map(a => a.split("\\|")).map(x => ArchivoProcesar(x(0), x(1), x(2), x(3))val dfInsumos = rddFile.toDF()
..
我正在尝试使用 SBT 读取 XML 文件,但在编译时遇到问题. build.sbt name:= "First Spark"版本:=“1.0"组织:=“in.goai"斯卡拉版本:=“2.11.8"libraryDependencies += "org.apache.spark" %% "spark-core" % "2.0.0"libraryDependencies += "org.a
..
我有一个从 cassandra 中加载的数据集.加载此数据集后,我将从 cassandra 中删除一些项目,但我希望我的数据集作为下一个计算的第一个.我已经使用 persist(DISK_ONLY) 来解决它,但它似乎是尽力而为.如何强制 spark 避免重新计算? 示例: val dataset:Dataset[Int] = ???//来自 cassandra 的东西dataset.p
..
我有一个数据帧: +-----+--------+---------+|usn|log_type|item_code|+-----+--------+---------+|0|11|I0938||916|19|I0009||916|51|I1097||916|19|C0723||916|19|I0010||916|19|I0010||12331|19|C0117||12331|19|C0117|
..
我的设置是:Spark 2.1 在 160 GB、48 个 vcore 的 3 节点 YARN 集群上.动态分配开启.spark.executor.memory=6G, spark.executor.cores=6 首先,我正在阅读 hive 表:订单 (329MB) 和 lineitems (1.43GB) 和做左外连接.接下来,我根据加入的条件应用 7 种不同的过滤条件数据集(类似于 v
..
我有一个包含两列的数据框,listA 存储为 Seq[String] 和 valB 存储为 String>.我想创建第三列 valC,它将是 Int 类型,其值为 如果 valB 存在于 listA 中则为 1 否则为 0 我尝试执行以下操作: val dfWithAdditionalColumn = df.withColumn("valC", when($"listA".contain
..
我有一个如下所示的数据框. Scala>ds.show+----+----------+----------+-----+|键|属性1|属性2|值|+----+----------+----------+-----+|mac1|A1|B1|10||mac2|A2|B1|10||mac3|A2|B1|10||mac1|A1|B2|10||mac1|A1|B2|10||mac3|A1|B1|10|
..
我们有一个包含 275 个节点的 Hadoop 集群(55Tb 总内存,12000 个 VCore).这个集群与几个项目共享,我们有一个 YARN 队列分配给我们,但资源有限. 为了增强性能,我们正在考虑为我们的项目构建一个单独的 Spark 集群(在同一网络中的 Mesos 上)并访问 Hadoop 集群上的 HDFS 数据. 如 Spark 文档中所述:https://spark.
..
我正在尝试将 C3P0 (com.mchange.v2.c3p0.ComboPooledDataSource) 与 HiveDriver (org.apache.hive.jdbc.HiveDriver).我有一个例外: java.sql.SQLException:不支持方法在 org.apache.hive.jdbc.HiveConnection.getHoldability(HiveConn
..
我有一个带有日期类型的 start_date 列的 DataFrame.现在我必须为 column1 中的唯一值生成度量,并且 start_date 早于或等于.以下是输入数据帧 column1 column2 start_dateid1 val1 2018-03-12id1 val2 2018-03-12id2 val3 2018-03-12id3 val4 2018-03-12id4 val
..
我在 spark 中有这个数据集, val sales = Seq((“华沙",2016,“脸书",“分享",100),(“华沙",2017,“脸书",“喜欢",200),(“波士顿",2015,“推特",“分享",50),(“波士顿",2016 年,“facebook",“分享",150),(“多伦多",2017,“推特",“喜欢",50)).toDF("city", "year","medi
..
我有一个包含很多列的数据集,我想使用 Java 将所有列转换为字符串. 我尝试了以下步骤,我想知道是否有更好的方法来实现这一目标? 数据集ds = ...;JavaRDDstringArrRDD = ds.javaRDD().map(row->{int length = row.length();字符串[] 列 = 新字符串[长度];for(int i=0; i 解决方案 您可以遍历列
..
以下是 PySpark ETL 代码的最后两行: df_writer = DataFrameWriter(usage_fact)df_writer.partitionBy("data_date", "data_product").saveAsTable(usageWideFactTable, format=fileFormat,mode=writeMode,path=usageWideFactp
..