google-bigquery相关内容

数据流BigQuery-BigQuery管道对较小的数据执行,但不对大型生产数据集执行

这里的数据流有点新手,但已经成功地创建了一个工作良好的管道。 管道从BigQuery读取查询,应用Pardo(NLP函数),然后将数据写入新的BigQuery表。 我尝试处理的数据集大约为500 GB,包含46M条记录。 当我使用相同数据的子集(大约300k记录)尝试此操作时,它工作得很好,而且速度很快,请参见下面的内容: 当我尝试使用完整的数据集运行它时,它启动得非常快, ..

阿帕奇光束到BigQuery

我正在Google Cloud数据流中构建一个流程,该流程将使用发布/订阅中的消息,并基于一个键的值将它们写入BQ或GCS。我能够拆分消息,但我不确定如何将数据写入BigQuery。我已尝试使用beam.io.gcp.bigquery.WriteToBigQuery,但没有成功。 我的完整代码在这里:https://pastebin.com/4W9Vu4Km 基本上我的问题是我不知道如 ..

Teradata中的DBC.Columns与BigQuery中的INFORMATION_SCHEMA.COLUMNS

有人能建议一下,如何在BigQuery中利用列名查找对象名称吗? 在Teradata中,我们可以通过使用DBC.Columnsv获取对象(在所有数据库中),其中使用了特定的列。 我们可以使用BigQuery中的Dataset.INFORMATION_SCHEMA.COLUMNS来查找这样的对象列表。但是,它将给出属于某个特定数据库的对象名称。因此,我的问题是如何在所有数据库中查找BigQue ..

如何将堆栈驱动程序日志导入BigQuery

有没有办法将日志从应用引擎加载到Google Cloud平台上的BigQuery? 我正在尝试使用联合查询来加载云存储中的StackDrive日志文件。但是,BigQuery无法加载StackDriver编写的某些字段名。 日志文件是换行符分隔的JSON,其记录看起来像 { "insertId":"j594356785jpk", "labels":{ ..

BigQuery计算值与多列之间的重叠百分比

我对SQL和BigQuery相当陌生,现在正在处理一个大约有140万行的数据集。 我当前感兴趣的值是CATEGORY_NAME(字符串)、ITEM_ID(字符串)。我感兴趣的是计算CATEGORY_NAME中每个值的不同Item_id(此列总共有269个不同的值)。基本上,在我的基本数据集中,每行数据都包含一个Item_id实例,其中它显示在单个CATEGORY_NAME中,其中Item_ID每 ..
发布时间:2022-03-03 23:13:40 其他开发

在SQL中对分类数据应用模式操作

我希望基于滑动窗口处理BigQuery数据库中的分类日志数据。我要在大小为3或5的窗口上应用模式操作,以便丢弃一次性事件或类别更改。 |SysDT | Power_State | Target | | -------- | -------- | -------- | |2021-07-01 09:03:57+00:00| EDC | EDC | |2021-07-01 09:08:57+ ..
发布时间:2022-03-02 22:46:22 其他开发

如何在BigQuery中比较具有记录类型列的两个表

我有两个嵌套表,一个是源表,另一个是目标表。我想比较源表和目标表的嵌套列。我正在比较两个表,以检查源表中的天气数据是否正在更新。BigQuery中是否有SQL可以实现同样的功能? 以下是我以前比较具有嵌套记录的两个表的方法: 1.这是第一种方法: SELECT to_json_string(info) FROM database.nested_table_source excep ..

使用LIKE RETURNS";UPDATE/MERGE的BigQuery UPDATE表对于每个目标行&Quot;最多只能匹配一个源行

我有两个表,希望使用LIKE语句用表2(映射表)中的数据更新表1(原始数据表)。 但是,对于所有不同的尝试,我总是收到错误消息: 查询错误:每个更新/合并最多只能匹配一个源行 目标行 表1(数据表) textWithFoundItemInIt | foundItem --------------------------------- hallo Adam ..
发布时间:2022-02-26 11:38:32 其他开发

使用Airflow BigqueryOperator向BigQuery表添加标签

我必须向BigQuery表添加标签。我知道可以通过BigQuery UI完成此操作,但如何通过气流操作符完成此操作。 使用案例:用于计费和搜索。由于多个团队在同一项目和数据集下工作,因此我们需要将各自团队创建的所有表组合在一起。由于每个团队对表有不同的标签,因此标签对我们是必需的。 bq_query = BigQueryOperator(bql=sql, ..

在大型查询中参数化数据类型的目的是什么?

在BigQuery中,您可以参数化某些数据类型(reference)。例如: DECLARE x STRING(10); DECLARE y STRING; 这些参数不会传播,但会在插入/分配期间进行检查。 我现在正在将数据从PostgreSQL数据库推送到BigQuery。我有一个PSQL模式,其中所有字符串都有一个设置的最大长度。这些最大长度从大约1(对于类似枚举的值)到100 ..
发布时间:2022-02-22 11:37:00 其他开发

使用GROUP BY ROLLUP透视表数据

[注意:这里可以使用任何支持ROLLUP的SQL数据库。我在示例中使用了BigQuery。] 我希望在Excel中获取以下数据透视表的所有数据: 应该有36个数据单元格。到目前为止,我拥有的BigQuery查询如下: SELECT Year, Quarter, ProductGroup, Product, SUM(Revenue) AS SumOfRevenue, SUM(Uni ..
发布时间:2022-02-22 11:32:55 其他开发