apache-spark-2.0相关内容
我有运行 Spark2 (v2.2) 的 Hortonworks HDP 2.6.3.我的测试用例很简单: 用一些随机值创建一个 Hive 表.Hive 在 10000 端口 在 10016 开启 Spark Thrift 服务器 运行pyspark并通过10016查询Hive表 但是,由于 NumberFormatException,我无法从 Spark 获取数据.
..
以下是我的 csv 文件中的内容: A1,B1,C1A2,B2,C2,D1A3,B3,C3,D2,E1A4,B4,C4,D3A5,B5,C5,,E2 所以,有 5 列,但第一行只有 3 个值. 我使用以下命令阅读它: val csvDF : DataFrame = spark.read.option("header", "false").option("分隔符", ",").optio
..
我有两个从两个 csv 文件中读取的数据框. +---+----------+----+|身份证|数量 |RECHARGE_AMOUNT|+---+-----------+-----------------+|1|9090909092|30||2|9090909093|30||3|9090909090|30||4|9090909094|30|+---+-----------+----------
..
我有类似的东西,其中 spark 是我的 sparkContext.我在我的 sparkContext 中导入了 implicits._ 所以我可以使用 $ 语法: val df = spark.createDataFrame(Seq(("a", 0L), ("b", 1L), ("c", 1L), ("d", 1L), ("e", 0L), ("f", 1L))).toDF("id", "fl
..
我正在尝试根据制造商列的内容将数据集拆分为不同的数据集.很慢 请提出改进代码的方法,使其执行得更快并减少Java代码的使用. Listlsts= countsByAge.collectAsList();for(Row lst:lsts){String man=lst.toString();man = man.replaceAll("[\\p{Ps}\\p{Pe}]", "");数据集
..
我们正在尝试使用 ThriftServer 从 spark 临时表中查询数据,在 spark 2.0.0 中. 首先,我们创建了启用 Hive 支持的 sparkSession.目前,我们使用 sqlContext 启动 ThriftServer,如下所示: HiveThriftServer2.startWithContext(spark.sqlContext()); 我们有带有注册临时
..
我有一个场景,我正在加载和处理 4TB 的数据,一个文件夹中大约有 15000 个 .csv 文件. 由于资源有限,我打算分两次处理批次,然后将它们联合起来. 我想知道我是否只能加载 50%(或第一个批处理 1 中的文件数和批处理 2 中的其余文件数)使用 spark.read.csv. 我不能使用正则表达式,因为这些文件是生成的来自多个来源并且它们的数量是奇数(来自某些来源很少,
..
我们正在尝试将一个 oracle 数据库复制到 hive 中.我们从 oracle 获取查询并在 hive 中运行它们.因此,我们以这种格式获取它们: INSERT INTO schema.table(col1,col2) VALUES ('val','val'); 虽然此查询直接在 Hive 中工作,但当我使用 spark.sql 时,出现以下错误: org.apache.spark.sq
..
我想将 SQL 字符串作为用户输入,然后在执行前对其进行转换.特别是,我想修改顶级投影(select 子句),注入要由查询检索的额外列. 我希望通过使用 sparkSession.experimental.extraOptimizations 连接到 Catalyst 来实现这一目标.我知道我正在尝试的不是严格意义上的优化(转换改变了 SQL 语句的语义),但 API 似乎仍然合适.但是,查
..
在 Spark-2.0 中,创建 Spark 会话的最佳方式是什么.因为在 Spark-2.0 和 Cassandra 中,API 都经过了重新设计,基本上弃用了 SqlContext(以及 CassandraSqlContext).因此,为了执行 SQL - 我要么创建一个 Cassandra 会话 (com.datastax.driver.core.Session) 并使用 execute("
..
我正在尝试在 Spark 中编写一些注重性能的代码,并想知道我是否应该编写一个 Aggregator 或 用户定义的聚合函数 (UDAF) 用于我对数据帧的汇总操作. 我无法在任何地方找到任何关于这些方法有多快以及您应该在 spark 2.0+ 中使用的数据. 解决方案 你应该写一个 Aggregator 而不是 UserDefinedAggregateFunction 作为 Use
..
我刚刚构建了带有 hive 支持的 Spark 2,并将其部署到带有 Hortonworks 2.3.4 的集群.但是我发现这个 Spark 2.0.3 比 HDP 2.3 附带的标准 spark 1.5.3 慢 当我检查 explain 时,似乎我的 Spark 2.0.3 没有使用钨.我是否需要创建特殊版本才能启用 Tungsten? Spark 1.5.3 解释 == 物理计划
..
我是 Spark 2.0 的新手,我在我们的代码库中使用了数据集.我有点注意到我需要在我们的代码中到处import spark.implicits._.例如: 文件AA类{定义作业(火花:SparkSession)= {导入 spark.implcits._//创建数据集dsval b = 新 B(火花)b.doSomething(ds)做某事(ds)}private def doSomethi
..
我有以下 Apache Spark 数据框: 父 - 子 A1 - A10 A1 - A2 A2 - A3 A3 - A4 A5 - A7 A7 - A6 A8 - A9 此 DataFrame 显示父子之间的连接.从逻辑上看,它看起来像这样: 主要目标是为每个孩子设置主根.这意味着我们应该有以下数据框: 父 - 子 A1 - A10 A1 - A2 A
..
我正在尝试对两个表进行相当简单的连接,并不复杂.加载两个表,进行连接并更新列,但它不断抛出异常. 我注意到任务卡在最后一个分区 199/200 并最终崩溃.我怀疑是数据倾斜导致所有数据都加载到最后一个分区199. SELECT COUNT(DISTINCT report_audit) FROM ReportDs = 150 万. 虽然 SELECT COUNT(*) FRO
..
我想处理一个巨大的订单 CSV 文件 (5GB),文件开头有一些元数据行.标题列在第 4 行(以“h,"开头)表示,后跟另一个元数据行,描述可选性.数据行以“d"开头, m,Version,v1.0米,类型,xxm,,h,Col1,Col2,Col3,Col4,Col5,........,Col100m,Mandatory,Optional,Optiona
..
我想处理一个巨大的订单 CSV 文件 (5GB),文件开头有一些元数据行.标题列在第 4 行(以“h,"开头)表示,后跟另一个元数据行,描述可选性.数据行以“d"开头, m,Version,v1.0米,类型,xxm,,h,Col1,Col2,Col3,Col4,Col5,........,Col100m,Mandatory,Optional,Optiona
..
我正在使用 Spark 2.0,并正在寻找一种在 Scala 中实现以下目标的方法: 需要两个 Data-frame 列值之间的时间戳差异(以毫秒为单位). Value_1 = 06/13/2017 16:44:20.044Value_2 = 06/13/2017 16:44:21.067 两者的数据类型都是时间戳. 注意:将函数 unix_timestamp(Column s)
..
我在使用 Spark 通过自定义 JDBC 读取数据时遇到问题.我将如何覆盖通过 jdbc url 推断的 sql 方言? 有问题的数据库是 vitess (https://github.com/youtube/vitess)它运行一个 mysql 变体,所以我想指定一个 mysql 方言.jdbc url 以 jdbc:vitess/ 开头 否则 DataFrameReader 会推断
..
我正在尝试创建一个 spark UDF,以从用户定义的案例类中提取(键、值)对的映射. scala 函数似乎工作正常,但是当我尝试在 spark2.0 中将其转换为 UDF 时,我遇到了“不支持任何类型的架构"错误. case class myType(c1: String, c2: Int)def getCaseClassParams(cc: Product): Map[String,
..