google-bigquery相关内容

在数据流中使用 `fromTable` 和 `fromQuery("SELECT * ...")` 时,`BigQueryIO` 是否有区别?

当您需要在数据流作业中从 bigquery 的一个或多个表中读取所有数据时,我会说有两种方法.第一种方法是将 BigQueryIO 与 from 结合使用,后者读取有问题的表,第二种方法是使用 fromQuery 在其中指定一个从同一个表中读取所有数据的查询.所以我的问题是: 使用其中一种是否有任何成本或性能优势? 我在文档中没有找到任何关于此的内容,但我真的很想知道.我想也许 rea ..
发布时间:2021-12-30 23:14:10 其他开发

如何将多个 csv 文件(不同的架构)加载到 bigquery

我有 6,500 个 csv 文件,其中包含大约 250 个不同的架构.即这些文件来自 F.D.I.C(美国银行监管机构)数据集.它们已上传到谷歌云存储桶: 每个财务季度都有大约 250 个不同的 csv.一个财政季度内的每个 csv 都有不同的架构: 有大约 250 个独特的模式.每个财政季度,模式都会重复.csv 文件可以追溯到 1992 年的 100 个财务季度: 具有相同 ..
发布时间:2021-12-30 23:13:48 其他开发

使用 bigquery 将字符串拆分为多列

我在 BigQuery 中有一个包含数百万行的表,我想将 adx_catg_id 列拆分为多个新列.请注意,adx_catg_id 列包含由空格分隔的任意数量的单词. 如果字符串仅包含少于五个单词,则下面的查询示例可以将 adx_catg_id 拆分为多列.我可以扩展它以支持更多的单词,但我需要自动化. SELECTTS、str0、str2、str4、str6、str7从(选择 REGEX ..
发布时间:2021-12-30 23:13:32 其他开发

获取 BigQuery 中最新行的属性?

我在 BigQuery 工作.我有一个表 t1,其中包含地址、邮政编码、价格和日期字段.我想按地址和邮政编码对其进行分组,找到每个地址的最新行的价格. 如何在 BigQuery 中执行此操作?我知道如何获取地址、邮政编码和最近的日期: SELECT地址,邮政编码,最大(日期)从[我的桌子]通过...分组地址,邮政编码 但我不知道如何获得与这些字段匹配的这些行的价格.这是我最好的猜测,它确 ..
发布时间:2021-12-30 23:13:17 其他开发

BigQuery Data Studio 自定义查询

我正在尝试将 BigQuery 中的自定义查询与数据洞察连接起来.我已阅读此处的指南:https://support.google.com/360suite/datastudio/answer/6370296?hl=zh-CN&ref_topic=6370347 但我还有几个问题. 我的查询应该提取过去 7 天的漏斗流数据,因此在 Data Studio 中使用自定义查询时,如果可能,我该如 ..
发布时间:2021-12-30 23:13:06 其他开发

复制记录以填补 Google BigQuery 中的日期间隔

所以我找到了类似的资源来解决如何在 SQL 中执行此操作,如下所示:复制记录以填补日期间隔 我知道 BigQuery 可能不是执行此操作的最佳场所,因此我正在尝试查看是否可行.在尝试运行上面链接中的某些方法时,我遇到了困难,因为 BigQuery 不支持某些功能. 如果一个表的数据结构如下: MODIFY_DATE SKU STORE STOCK_ON_HAND08/01/2016 ..
发布时间:2021-12-30 23:12:56 其他开发

通过在没有导入/导出的情况下加入 Google BigQuery 上的 2 个表来删除/更新表条目

我们有一个用例,其中一个表中有数亿个条目,但在将其进一步拆分时遇到了问题.99% 的操作都是附加的.但是,我们偶尔会进行更新和删除,Google 本身表示只有通过删除表格并使用最新数据创建新表格才能进行更新和删除. 因为数据量很大,我们希望在 30 秒左右的时间内更新表格,所以我们考虑了将原始表格与刷新表格连接起来的可能性> 以某种方式,我们只有出现在原始表中而不出现在刷新表中的条目(删除的 ..
发布时间:2021-12-30 23:12:46 其他开发

BigQuery 错误“响应太大而无法返回"使用 COUNT(DISTINCT ...) 时

我有一个大约有 20M 行的数据集,我正在观察以下行为. 下面的查询返回错误“响应太大而无法返回".'id' 字段在多个记录之间共享,并且 'field' 字段对每条记录都有一些任意值.我希望结果集应该只包含 10 行,远低于查询响应限制. SELECT id, COUNT(DISTINCT field)来自 [my.dataset]按 ID 分组限制 10 但是,当从 COUNT 聚合 ..
发布时间:2021-12-30 23:12:37 其他开发

如何在 Apache Airflow 中查询 Google Big Query 并将结果作为 Pandas Dataframe 返回?

我正在尝试将 bigquery 查询保存到自定义 Airflow 运算符中的数据帧. 我尝试过使用airflow.contrib.hooks.bigquery_hook 和get_pandas_df 方法.任务卡在身份验证上,因为它希望我手动访问 url 进行身份验证. 因此,我对身份验证进行了硬编码.这有效,但绝对不理想. 工作但不理想(凭证是硬编码的): def execu ..
发布时间:2021-12-30 23:12:30 其他开发

为每个具有最新时间戳的唯一 ID 选择一个

我在 Big Query 中有一个表,其中包含唯一 ID、时间戳和距离,我想通过具有最新时间戳的 ID 选择一条记录. 例如桌子看起来像 ID|时间戳|距离A|100|2A|90|3乙|110|5D|100|4A|80|2乙|10|2 查询应该返回如下内容: A|100|2乙|110|5D|100|4 PostgreSQL 中的工作查询看起来像这样,但 bigquery 中没有“di ..
发布时间:2021-12-30 23:12:21 其他开发

BigQuery 通过查询获取表架构

是否可以通过查询获取 BigQuery 表架构信息?(类似于 TABLES 但用于架构).对 cli 方法不感兴趣. 我想要实现的是在基于 1 个“键"列的具有相同结构的 2 个 BQ 表(比方说登台和生产)之间执行“增量"更新,但使用自动创建方式键和其余的散列基于所有其他列. 在 MySQL/mariadb 中会是这样.从 information_schema.columns 中获取 ..
发布时间:2021-12-30 23:12:01 其他开发

需要帮助仅用 1 个捕获组重写正则表达式

以下正则表达式提取了我需要的内容,但在 BigQuery 中出现此错误: “传递给 REGEXP_EXTRACT_ALL 的正则表达式不能有超过 1 个捕获组" 我试图摆脱第二个捕获组,但不知道如何获得相同的结果.预期结果是: ["split.attribute1": "off","split.attribute2": "20off","split.attribute3": "e ..
发布时间:2021-12-30 23:11:51 其他开发

是否可以使用服务帐户在 BigQuery 中安排查询“Schedule Query"?特征 ?

我们正在使用 BigQuery 的 Beta 计划查询功能.详细信息:https://cloud.google.com/bigquery/docs/scheduling-queries 我们几乎没有在夜间运行 ETL 计划查询来优化聚合并降低查询成本.它运作良好,没有太多问题. 当使用自己的凭据安排查询的人员离开组织时,就会出现问题.我知道在这种情况下我们可以“更新凭证". 我通 ..
发布时间:2021-12-30 23:11:40 其他开发

Firebase 用户参与度计算

我正在努力思考 Firebase 用户参与度计算.我现在正在做很多调试视图测试,正如在线文档所述(https://support.google.com/firebase/answer/6317485),默认情况下,Firebase 会在应用处于前台时在会话中定期触发 user_engagement 事件. 到目前为止,我所看到的是 user_engagement 在参与的开始和结束时被非常可 ..
发布时间:2021-12-30 23:11:34 其他开发

BigQuery 等效于“CREATE TABLE my_table (LIKE your_table)";

我想创建一个表,其架构与另一个表完全相同.在其他 SQL 引擎中,我想我可以使用“CREATE TABLE my_table (LIKE your_table)"或一些变体. 我还没有在 BigQuery 中找到等价物.这可能以某种方式实现吗? 解决方案 使用这个表格: CREATE TABLE dataset.new_table AS选择 *FROM dataset.existi ..
发布时间:2021-12-30 23:11:10 其他开发

BigQuery 异步查询作业 - fetch_results() 方法返回错误数量的值

我正在使用 BigQuery Client API 编写 Python 代码,并尝试使用异步查询代码(作为代码示例在任何地方编写),但在 fetch_data() 方法调用中失败.Python 错误提示: ValueError: 解包的值太多 因此,这 3 个返回值(rows、total_count、page_token)似乎是不正确的返回值数量.但是,除了仅显示这 3 个返回结果的大 ..
发布时间:2021-12-30 23:11:03 Python

上个月的最后一天 - BigQuery

我正在尝试选择时间戳字段 recdate 的日期值直到并包含该月最后一天完成的行.例如,由于这是 2016 年 7 月,我希望日期值不超过 31-06-2016 的所有行.这曾经在 T-SQL 中工作正常,我会使用以下内容并将其分配给 @today 并将其放在我的 WHERE 中: DECLARE @today DATETIME SELECT @today = CONVERT(VARCHAR(2 ..
发布时间:2021-12-30 23:10:51 其他开发

“超出配额:为此项目扫描的免费查询字节过多"在 Google BigQuery 中

在使用 JasperReports Server 试用 Google BigQuery 后,我从昨天开始收到上述错误.我找不到这方面的任何信息,因为前 100GB 应该是免费的,而 BigQuery 访问报告说: API 项目的 BigQuery 资源使用情况数据分析2013 年 1 月 31 日 – 2013 年 2 月 27 日 每天处理的数据0 MB 峰值 0.00 MB 平均值 ..
发布时间:2021-12-30 23:10:40 其他开发