udf相关内容

BigQuery UDF 内部错误

我们在 BigQuery 中有一个简单的 UDF,它以某种方式抛出一个不断返回的错误 查询失败错误:发生内部错误,无法完成请求. 该查询只是尝试使用 UDF 来执行 SHA256. SELECT输入AS标题,input_sha256 AS title_sha256从SHA256(选择标题 AS 输入从[bigquery-public-data:hacker_news.stories]通过.. ..
发布时间:2021-12-30 23:30:39 其他开发

BigQuery 用户定义的聚合函数?

我知道我可以定义一个用户定义的函数 以执行一些自定义计算.我也知道我可以使用“开箱即用"聚合函数在使用 GROUP BY 子句时将一组值减少为单个值. 是否可以定义自定义的用户定义的聚合函数以与 GROUP BY 子句一起使用? 解决方案 事实证明这是可能的(只要我们寻求聚合的组在内存中具有合理的大小),只需一点“胶水" -即ARRAY_AGG函数 步骤如下: 使用 AR ..
发布时间:2021-12-30 23:05:12 其他开发

有没有办法在 Google BigQuery 中测量字符串相似度

我想知道是否有人知道在 BigQuery 中测量字符串相似度的方法. 似乎是一个很好的功能. 我的情况是我需要比较两个 url 的相似度,以确保它们引用同一篇文章. 我可以找到使用javascript的示例所以也许UDF是要走的路,但是我根本没有使用过 UDF(或 javascript :)) 只是想知道是否有使用现有正则表达式函数的方法,或者是否有人能让我开始将 java ..
发布时间:2021-12-30 22:40:31 前端开发

Hive UDF 用于选择除某些列之外的所有列

HiveQL(以及一般的 SQL)中的常见查询构建模式是选择所有列 (SELECT *) 或明确指定的一组列 (SELECT A, B,C).除了一组指定的列之外,SQL 没有用于选择所有列的内置机制. 有多种机制可以排除某些列,如 this SO question 但没有一个自然适用于 HiveQL.(例如,使用 SELECT * 创建一个临时表然后 ALTER TABLE DROP 其某 ..
发布时间:2021-11-14 22:29:09 其他开发

在 pyspark 中获取 OutofMemoryError-GC 开销限制超出

在项目的中间,我在我的 spark sql 查询中调用了一个函数后出现了以下错误 我编写了一个用户定义的函数,它将接受两个字符串并在连接后将它们连接起来,它将取最右边的子字符串长度为 5 取决于总字符串长度(sql server 的 right(string,integer) 的替代方法) from pyspark.sql.types import*def concatstring(xs ..
发布时间:2021-11-14 22:24:40 其他开发

不支持 Any 类型的架构

我正在尝试创建一个 spark UDF,以从用户定义的案例类中提取(键、值)对的映射. scala 函数似乎工作正常,但是当我尝试在 spark2.0 中将其转换为 UDF 时,我遇到了“不支持任何类型的架构"错误. case class myType(c1: String, c2: Int)def getCaseClassParams(cc: Product): Map[String, ..

带有可变参数的 Spark UDF

是否是如文档中所示列出最多 22 个参数的唯一选项? https://spark.apache.org/docs/1.5.0/api/scala/index.html#org.apache.spark.sql.UDFRegistration 有人想出如何做类似的事情吗? sc.udf.register("func", (s: String*) => s...... (编写跳过空值的 ..
发布时间:2021-11-12 05:40:09 其他开发

用于添加列的java udf

我正在编写 java udf 函数来通过比较位置列来添加密码.这是我的代码. import java.io.IOException;导入 org.apache.pig.EvalFunc;导入 org.apache.pig.data.Tuple;导入 org.apache.commons.lang3.StringUtils;公共类 MB_pincodechennai 扩展了 EvalFunc{私 ..
发布时间:2021-11-12 04:19:17 Java开发

无法将猪元组传递给 python UDF

我有一个包含 10K 条记录的 master.txt,所以它的每一行都是一个元组 &整个相同的需要传递给python UDF.由于它有多个记录,因此在存储 p2preportmap 时会出现以下错误.请帮忙 错误如下: 无法打开别名 p2preportmap 的迭代器.后端错误:org.apache.pig.backend.executionengine.ExecException: ..
发布时间:2021-11-12 04:04:10 Python

从宏创建的数组公式的 UDF

我想为我在 excel 上编写的公式创建一个 udf.公式如下: =INDEX('Pivot-LH'!$D$5:$D$1650,SMALL(IF(B93='Pivot-LH'!$A$5:'Pivot-LH'!$A$1650,ROW('Pivot-LH'!$A$5:'Pivot-LH'!$1650)-ROW('Pivot-LH'!$A$5)+2),1)) 基本上语法是通过 Pivot-LH 表上 ..
发布时间:2021-09-15 19:09:14 其他开发

VBA UDF 返回数组

我有以下 UDF,它需要遍历名为 Classes 的工作表上的所有数据,如果学生姓名显示在工作表的列表中,则返回学生姓名和班级名称(A 列和 B 列)称为时间表(此列表在单元格 BM3 到 BM21 中)并且课程发生在 UDF 中输入的日期和时间.目前它返回一个#Value 错误.我做错了什么? 函数 TTDisplay(Day As String, Time As Variant) As Va ..
发布时间:2021-09-15 19:09:11 其他开发

在 SQL Server 字符串中搜索另一个表中的值

我有一个列 name 的表格,它在名称前后有随机字符,即: 表 A: 名称-----------------asd4345JONlkj345.;lidDavidlksd$ 我在同一个数据库中有另一个表,其名称为: 表 B: 名称------大卫乔恩 对于 30k 行,这样继续下去,或者我只是快速地硬编码一些东西.我想在表 A 的“名称"列中的每个字符串中搜索表 B 中的每个 ..
发布时间:2021-09-01 18:48:19 数据库

在 pyspark 中获取 OutofMemoryError-GC 开销限制超出

在项目的中间,我在我的 spark sql 查询中调用了一个函数后出现了波纹管错误 我编写了一个用户定义的函数,它将采用两个字符串并在连接后将它们连接起来,它将采用最右边的 5 个子字符串长度,具体取决于总字符串长度(sql server 的 right(string,integer) 的替代方法) from pyspark.sql.types import*def concatstri ..
发布时间:2021-06-24 20:37:07 其他开发

BigQuery将字串转换为日期时间

我正在使用BigQuery尝试创建一个表,该表的字符串列名为"DATAUTILIZACAO",具有以下示例值: 02/11/16 12:19:08,000000 02/11/16 17:39:41,000000 文本的格式设置为"DD/MM/YY HH:mm:ss",我需要创建一个 DATETIME 类型的新列,其中包含 DATAUTILIZACAO 的值. 如何从 DAT ..
发布时间:2021-05-12 18:39:10 数据库