google-bigquery相关内容

如何在 BigQuery 中使用每个用户的线性插值来填充不规则缺失的时间序列值?

我的数据不规则地为每个用户丢失了时间序列值,我想要使用 BigQuery 标准 SQL 以特定间隔使用线性插值对其进行转换. +------+---------------------+-------+|姓名 |时间 |价值 |+------+---------------------+-------+|简|2020-11-14 09:01:00 |3 ||简|2020-11-14 09:05: ..
发布时间:2021-12-30 23:17:01 其他开发

在 Bigquery 中将 Unicode 解码为本地语言

我们在 Bigquery 中收到了一项调查网络钩子数据.本地语言的注释被捕获为 unicode,我们在该注释中确实有特殊字符. 示例 调查评论-“别老是晚点,现场补行李费太贵" 在 Bigquery 数据中评论-“\u522b\u8001\u662f\u665a\u70b9\uff0c\u73b0\u573a\u8865\u884c\u674e\u8d39\u592a\u8d35" ..
发布时间:2021-12-30 23:16:55 前端开发

Dataproc 上 Spark 的 BigQuery 连接器 - 无法使用服务帐户密钥文件进行身份验证

我已遵循 将 BigQuery 连接器与 Spark 结合使用 从公开可用的数据集中成功获取数据.我现在需要访问一个由我们的一个客户拥有的 bigquery 数据集,我已经为其提供了一个服务帐户密钥文件(我知道服务帐户密钥文件是有效的,因为我可以使用它来使用 conf=conf) 文件“/usr/lib/spark/python/lib/pyspark.zip/pyspark/context.p ..
发布时间:2021-12-30 23:16:48 其他开发

描述如何在 SQL 中内联定义 Javascript UDF 函数的 BigQuery 文档在哪里(而不是在 UDF 编辑器或单独的文件中)?

在另一个问题 https://stackoverflow.com/a/36145155/2259571 中,发布了一个代码示例内联定义 Javascript UDF 函数,不在 BigQuery UI UDF 编辑器中,不在 bq 命令行 --udf_resource 选项中,而是直接从 SQL 查询的文本中加载. 我可以在 BigQuery 文档的何处找到有关如何完成此操作的更多信息? ..
发布时间:2021-12-30 23:16:43 其他开发

Google Cloud DataFlow 随机化 WritetoBigQuery

我已成功实现了一个写入 BigQuery 的数据流管道.此管道正在转换 Cloud ML Engine 作业的数据.但是,我注意到已写入的行按我的数据标签排序(或至少分组).我的意思是,它们在视觉上似乎是以某种方式组织起来的(不是完全随机的).然后,当我将表导出到 GCS 中的分片 .csv 时,每个分片 .csv 基本上都是有序的.这意味着数据不能随机输入到 TensorFlow 中,因为 TF ..

如何在 BigQuery 上以与 CSV 相同的顺序加载数据

是否可以按照与原始输入 CSV 文件相同的行顺序加载数据?这些文件没有按任何特定顺序或任何特定列排序.看起来 BigQuery 加载是分布式的,顺序是不可预测的,但倾向于先对空值进行分组. 解决方案 鉴于 BigQuery 在幕后的工作方式,实现这一目标的唯一方法是向 csv 添加一个额外的列来定义所需的顺序.BigQuery 在后台混洗数据以优化存储和查询速度,因此不可能依赖任何顺序. ..
发布时间:2021-12-30 23:16:25 其他开发

大查询中的原子插入

当我加载超过 1 个 csv 文件时,大查询如何处理错误? bq 加载 --max_bad_record=30 dbname.finalsep20xyzgs://sep20new/abc.csv.gz,gs://sep20new/xyzcsv.gz 批处理作业中有一些文件可能无法加载,因为预期的列数不匹配.我想加载其余的文件.如果文件 abc.csv 失败 xyz.csv 文件会被执行 ..
发布时间:2021-12-30 23:15:58 其他开发

如何使用 BigQuery 计算 DAU/MAU(参与度)

DAU 和 MAU(日活跃用户和月活跃用户)是衡量用户参与度的既定方法. 如何使用 SQL 和 Google BigQuery 获取这些数字? 解决方案 2019标准SQL更新: https://stackoverflow.com/a/49866033/132438 (要了解 DAU/MAU 的效用,请参阅诸如 http 之类的文章://blog.compariscope ..
发布时间:2021-12-30 23:15:51 其他开发

尝试从 Scrapy 管道将抓取数据写入 Bigquery 时,请求的身份验证范围不足 (403)

我正在尝试构建 Scrapy 爬虫:spider 将抓取数据,然后在 pipeline.py 中,数据将保存到 Bigquery.我通过 docker 构建它,设置 crontab 作业并推送到谷歌云服务器以日常运行. 问题是当crontab 执行scrapy crawler 时,它得到“google.api_core.exceptions.Forbidden: 403 GET https: ..
发布时间:2021-12-30 23:15:44 Python

BigQuery 检查数组重叠

所以我正在编写一个 BigQuery 查询,基本上只需要能够检查是否有许多字符串中的任何一个作为元素存在于表的一列中,其中关心的列本身包含数组字符串.仅就上下文而言,我将查询作为一个小型自动化 Python 作业的一部分编写,并且使用的是标准 SQL. 我在这里找不到任何可以明确检查数组包含的内容:https://cloud.google.com/bigquery/docs/referenc ..

BigQuery:使用标准 SQL 过滤重复字段

我有下表: row |查询参数 |查询值1 foo 酒吧参数值2 foo baz JSON: {"query_params" : [ "foo", "param"],"query_values" : [ "bar", "val" ]}, {"query_params" : [ "foo" ],“查询值":[“baz"]} 使用标准 SQL 我想过滤重复字段的值,比如 SELECT * F ..
发布时间:2021-12-30 23:15:24 其他开发

使用 bq 将空值加载到 bigquery

当我使用 https://developers.google.com/bigquery/docs/reference/v2/tables/insert#try-it 上传一个 JSON 文件,其中没有插入所有列中的所有字段,它被接受并且我的数据中出现空值. 当我使用 bq load 并在可能丢失的列上使用模式为 null 的模式时,同一文件被拒绝,因为列数与模式中的列数不同. 如果我将 ..
发布时间:2021-12-30 23:15:17 其他开发

UNNEST(hit.eCommerceAction)、Google Bigquery

我使用相同的逻辑来取消嵌套 hit.eCommerceAction,但它不像其他字段那样工作.对这个问题有什么帮助吗?此外, max(if()) 函数是否是用于获取两个 hits.customeDimenison.value 的正确函数? SELECT日期,计数(不同的完整访问者ID), product.v2ProductCategory,max(if(customDimensions.inde ..
发布时间:2021-12-30 23:15:09 其他开发

在 Google BigQuery 中使用 regexp_extract 提取数据

我正在尝试从具有多个字符的列中提取数据,我只对从输入字符串中获取特定字符串感兴趣.我的示例输入和输出如下.我如何使用 regexp_extract 函数来实现这一点.如果你在 GBQ 上工作过,有人可以分享他们对此的想法吗?谢谢. ** SQL:- ** SELECT request.url AS url来自 [xyz.abc]WHERE regexp_extract(inp ..
发布时间:2021-12-30 23:14:58 其他开发

BigQuery 中不同元素的数组连接

假设在每一行中我有一个 id 和两个数组 array_1 和 array_2,如下所示 SELECT 'a' id, [1,2,3,4,5] array_1, [2,2,2,3,6] array_2 UNION ALLSELECT 'b', [2,3,4,5,6], [7,7,8,6,9] 联合所有选择 'c', [], [1,4,5] 我想连接这两个数组,只保留新数组中的唯一元素.我想要的输 ..
发布时间:2021-12-30 23:14:39 其他开发

BigQuery 试运行返回什么?

BigQuery 文档说: “在表的较小分区而不是一张大表上测试您的查询.如果使用 API,请验证查询的语法并使用 dryRun 标志获取数据处理统计信息." 但他们也说,对于dryRun: "如果设置,则不实际运行查询.有效查询将返回空响应,而无效查询将返回与非试运行相同的错误.默认值为 false." 这些似乎是矛盾的,还是我遗漏了什么? 解决方案 我看到这些有 ..
发布时间:2021-12-30 23:14:29 其他开发

如何在bigquery标准sql中展平结构?

使用下面的标准 sql 查询,我可以在 BigQuery 中返回一个结构表,其中包含来自 a 和 b 的所有字段. SELECT a, bFROM first_table aJOIN second_table bON a.key = b.key; 结果表模式将 a 作为 RECORD,b 作为 RECORD,包括 a.field1、a.field2、b.field1、b.field2 等. 都 ..
发布时间:2021-12-30 23:14:19 其他开发