udf相关内容
我们在 BigQuery 中有一个简单的 UDF,它以某种方式抛出一个不断返回的错误 查询失败错误:发生内部错误,无法完成请求. 该查询只是尝试使用 UDF 来执行 SHA256. SELECT输入AS标题,input_sha256 AS title_sha256从SHA256(选择标题 AS 输入从[bigquery-public-data:hacker_news.stories]通过..
..
我知道我可以定义一个用户定义的函数 以执行一些自定义计算.我也知道我可以使用“开箱即用"聚合函数在使用 GROUP BY 子句时将一组值减少为单个值. 是否可以定义自定义的用户定义的聚合函数以与 GROUP BY 子句一起使用? 解决方案 事实证明这是可能的(只要我们寻求聚合的组在内存中具有合理的大小),只需一点“胶水" -即ARRAY_AGG函数 步骤如下: 使用 AR
..
我想知道是否有人知道在 BigQuery 中测量字符串相似度的方法. 似乎是一个很好的功能. 我的情况是我需要比较两个 url 的相似度,以确保它们引用同一篇文章. 我可以找到使用javascript的示例所以也许UDF是要走的路,但是我根本没有使用过 UDF(或 javascript :)) 只是想知道是否有使用现有正则表达式函数的方法,或者是否有人能让我开始将 java
..
我无法让 UDF 与 spark-submit 一起工作.我在使用 spark-shell 时没有任何问题. 请参见下面的错误信息、示例代码、build.sbt 和运行程序的命令 感谢所有帮助!- 问候,文基 错误消息:(第 20 行是定义 UDF 的地方) 线程“main"中的异常java.lang.NoSuchMethodError:scala.reflect.api.Ja
..
我想从两个已经运行的函数中构建一个 UDF.我正在尝试将 md5 哈希计算为现有 Spark 数据帧的新列. def md5(s: String): String = { toHex(MessageDigest.getInstance("MD5").digest(s.getBytes("UTF-8")))}def toHex(bytes: Array[Byte]): String = bytes
..
我有一个序列化的 blob 和一个将其转换为 java Map 的函数.我已将该函数注册为 UDF 并尝试在 Spark SQL 中使用它,如下所示: sqlCtx.udf.register("blobToMap", Utils.blobToMap)val df = sqlCtx.sql(""" SELECT mp['c1'] as c1, mp['c2'] as c2 FROM(SELECT
..
我想知道如何在 Spark SQL 中使用 JAVA 从特定领域语言 (DSL) 的函数中调用 UDF 函数. 我有 UDF 函数(只是举例): UDF2 equals = new UDF2() {@覆盖公共布尔调用(字符串第一,字符串第二)抛出异常{返回 first.equals(second);}}; 我已将其注册到 sqlContext sqlContext.udf().regi
..
HiveQL(以及一般的 SQL)中的常见查询构建模式是选择所有列 (SELECT *) 或明确指定的一组列 (SELECT A, B,C).除了一组指定的列之外,SQL 没有用于选择所有列的内置机制. 有多种机制可以排除某些列,如 this SO question 但没有一个自然适用于 HiveQL.(例如,使用 SELECT * 创建一个临时表然后 ALTER TABLE DROP 其某
..
我正在尝试从包含 scala 函数定义的字符串中定义 spark(2.0) 中的 udf.这是片段: val 宇宙:scala.reflect.runtime.universe.type = scala.reflect.runtime.universe导入宇宙._导入 scala.reflect.runtime.currentMirror导入 scala.tools.reflect.ToolBo
..
在项目的中间,我在我的 spark sql 查询中调用了一个函数后出现了以下错误 我编写了一个用户定义的函数,它将接受两个字符串并在连接后将它们连接起来,它将取最右边的子字符串长度为 5 取决于总字符串长度(sql server 的 right(string,integer) 的替代方法) from pyspark.sql.types import*def concatstring(xs
..
我之前已经在 hive 中注册了一个 UDF.它是永久性的,而不是 TEMPORARY.它在直线上工作. CREATE FUNCTION normaliseURL AS 'com.example.hive.udfs.NormaliseURL' USING JAR 'hdfs://udfs/hive-udfs.jar'; 我已将 spark 配置为使用 hive Metastore.配置正在工作
..
我正在尝试创建一个 spark UDF,以从用户定义的案例类中提取(键、值)对的映射. scala 函数似乎工作正常,但是当我尝试在 spark2.0 中将其转换为 UDF 时,我遇到了“不支持任何类型的架构"错误. case class myType(c1: String, c2: Int)def getCaseClassParams(cc: Product): Map[String,
..
是否是如文档中所示列出最多 22 个参数的唯一选项? https://spark.apache.org/docs/1.5.0/api/scala/index.html#org.apache.spark.sql.UDFRegistration 有人想出如何做类似的事情吗? sc.udf.register("func", (s: String*) => s...... (编写跳过空值的
..
我正在编写 java udf 函数来通过比较位置列来添加密码.这是我的代码. import java.io.IOException;导入 org.apache.pig.EvalFunc;导入 org.apache.pig.data.Tuple;导入 org.apache.commons.lang3.StringUtils;公共类 MB_pincodechennai 扩展了 EvalFunc{私
..
我有一个包含 10K 条记录的 master.txt,所以它的每一行都是一个元组 &整个相同的需要传递给python UDF.由于它有多个记录,因此在存储 p2preportmap 时会出现以下错误.请帮忙 错误如下: 无法打开别名 p2preportmap 的迭代器.后端错误:org.apache.pig.backend.executionengine.ExecException:
..
我想为我在 excel 上编写的公式创建一个 udf.公式如下: =INDEX('Pivot-LH'!$D$5:$D$1650,SMALL(IF(B93='Pivot-LH'!$A$5:'Pivot-LH'!$A$1650,ROW('Pivot-LH'!$A$5:'Pivot-LH'!$1650)-ROW('Pivot-LH'!$A$5)+2),1)) 基本上语法是通过 Pivot-LH 表上
..
我有以下 UDF,它需要遍历名为 Classes 的工作表上的所有数据,如果学生姓名显示在工作表的列表中,则返回学生姓名和班级名称(A 列和 B 列)称为时间表(此列表在单元格 BM3 到 BM21 中)并且课程发生在 UDF 中输入的日期和时间.目前它返回一个#Value 错误.我做错了什么? 函数 TTDisplay(Day As String, Time As Variant) As Va
..
我有一个列 name 的表格,它在名称前后有随机字符,即: 表 A: 名称-----------------asd4345JONlkj345.;lidDavidlksd$ 我在同一个数据库中有另一个表,其名称为: 表 B: 名称------大卫乔恩 对于 30k 行,这样继续下去,或者我只是快速地硬编码一些东西.我想在表 A 的“名称"列中的每个字符串中搜索表 B 中的每个
..
在项目的中间,我在我的 spark sql 查询中调用了一个函数后出现了波纹管错误 我编写了一个用户定义的函数,它将采用两个字符串并在连接后将它们连接起来,它将采用最右边的 5 个子字符串长度,具体取决于总字符串长度(sql server 的 right(string,integer) 的替代方法) from pyspark.sql.types import*def concatstri
..
我正在使用BigQuery尝试创建一个表,该表的字符串列名为"DATAUTILIZACAO",具有以下示例值: 02/11/16 12:19:08,000000 02/11/16 17:39:41,000000 文本的格式设置为"DD/MM/YY HH:mm:ss",我需要创建一个 DATETIME 类型的新列,其中包含 DATAUTILIZACAO 的值. 如何从 DAT
..