google-bigquery相关内容

如何使用 python API 在 bigquery 中创建新视图?

我有一些代码可以自动生成一堆不同的 SQL 查询,我想将这些查询插入到 bigquery 中以生成视图,尽管我遇到的问题之一是这些视图需要每晚动态生成,因为数据性质的变化.所以我希望能够做的是使用 google bigquery api for python 来创建视图.我了解如何使用“bq"命令行工具执行此操作,但我希望能够将其直接内置到代码中,而不是使用 shell 来运行 bq.我玩过 提 ..
发布时间:2021-12-30 23:10:31 Python

BigQuery 中 count(*) 的值是如何确定的?

我通过内连接将一个大约 70000 行的表与一个稍大的第二个表连接起来.现在 count(a.business_column) 和 count(*) 给出不同的结果.前者正确报告了 ~70000,而后者给出了 ~200000.但这仅在我单独选择 count(*) 时发生,当我一起选择它们时,它们会给出相同的结果(~70000).这怎么可能? 选择数数(*)/*,计数(a.business_col ..
发布时间:2021-12-30 23:10:22 其他开发

使用联接表中的引用在 BigQuery 中查询分区表

我想运行一个查询,使用表 B 中的值对表 A 进行分区.例如: #标准 SQL选择 A.user_id来自 my_project.xxx A内连接 my_project.yyy B在 A._partitiontime = 时间戳(B.date)其中 B.date = '2018-01-01' 此查询将扫描表 A 中的所有分区,并且不会考虑我在 where 子句中指定的日期(用于分区目的).我尝 ..
发布时间:2021-12-30 23:10:15 其他开发

如何使用 BigQuery 补丁?

在 BigQuery API 文档中,有一个称为 patch 的方法.我希望我可以使用它来更改现有表的架构.不幸的是,bq 不支持它.但是根据他们的网站,您可以在 https://developers 上试用.google.com/bigquery/docs/reference/v2/tables/patch.但是,当我尝试发送以下请求时: PATCH https://www.googleapi ..
发布时间:2021-12-30 23:09:58 其他开发

将 Google Cloud SQL 数据导入 BigQuery 的最佳方式

我在 Cloud SQL 实例中有一个数据库.我想将其内容复制到 BigQuery 中以进行分析.我不需要不断更新 BigQuery 数据集.导出一次就可以了. 实现这一目标的最佳方法是什么? “创建表"BigQuery 界面不允许我从 Cloud SQL(仅限文件、云存储、云端硬盘或 BigTable)导入. 解决方案 到目前为止,还没有将数据从 Cloud SQL 导入 B ..
发布时间:2021-12-30 23:09:51 其他开发

日表与时间分区上的通配符

我试图了解以下之间的大查询(例如在成本或请求的可能性方面)是否存在差异: 每天创建一张表(如 my_table_2018_02_06) 创建一个时间分区表(my-table with time partition by day). 谢谢! 解决方案 简短说明:当 BigQuery 没有可用的分区机制时,建议使用通配符表查询多个表.自然演变是包括分区表的功能,目前有一个包含基于 ..
发布时间:2021-12-30 23:09:45 其他开发

如何最好地处理存储在 Google BigQuery 中不同位置的数据?

我目前在 BigQuery 中的工作流程如下: (1) 查询公共存储库中的数据(存储在美国),(2) 将其写入我存储库中的表中,(3) 将 csv 导出到云存储桶中,以及 (4) 将 csv 下载到我在服务器上工作并且 (5) 在服务器上使用它. 我现在的问题是我工作的服务器位于欧盟.因此,我必须支付相当多的费用才能在我的美国存储桶和我的欧盟服务器之间传输数据.我现在可以继续在欧盟找到 ..

分页 BigQuery

我正在尝试创建类似于 Google 的 BigQuery 仪表板的内容,但具有预定义的查询/视图.我遇到的问题是对数据进行分页. tabledata 端点支持分页,您可以指定开始索引或使用页面标记,允许我做这样的事情: query_reply = table_data_job.list(projectId=settings.PROJECT_ID,datasetId=settings.DAT ..
发布时间:2021-12-30 23:09:23 Python

BigQuery - 将多行连接成一行

我有一个包含 2 列的 BigQuery 表: id|name1|约翰1|汤姆1|鲍勃2|杰克2|蒂姆 预期输出:连接按 id 分组的名称 id|文本1|约翰、汤姆、鲍勃2|杰克,蒂姆 解决方案 对于 BigQuery Standard SQL: #standardSQL--with yourTable AS (-- SELECT 1 AS id, 'John' AS name UNI ..
发布时间:2021-12-30 23:09:12 其他开发

错误:未找到:在美国位置未找到数据集 my-project-name:domain_public

我需要查询一个公共项目提供的数据集.我创建了自己的项目并将他们的数据集添加到我的项目中.有一个名为:domain_public 的表.当我查询此表时,出现此错误: 查询失败错误:未找到:在美国位置未找到数据集 my-project-name:domain_public作业 ID:我的项目名称:US.bquijob_xxxx 我来自非美国国家.请问这是什么问题,如何解决? 编辑 1:我将 ..
发布时间:2021-12-30 23:08:52 其他开发

将新的 Google 表格数据附加到 BigQuery 表中

所以我对所有这些都是新手,BigQuery 和 AppScript(一般编码..)并且我正在学习,所以对于某些人来说,我的问题可能看起来很愚蠢.请听我说完. 我创建了一个脚本,可将 10 个最新数据点从我的 BigQuery 表之一加载到 Google 表格文档中.现在,当我手动将新数据点添加到此表的底部时,我希望运行加载脚本,将新数据上传回 BigQuery,并将其附加到我的原始表中.我在 ..
发布时间:2021-12-30 23:08:46 前端开发

BigQuery 中的递归/分层查询

我有一个递归/层次结构问题,我想在 BigQuery 中解决这个问题. 我有一个员工列表,每个员工都有一个经理 ID.我需要能够输入一个 Employee_ID 并返回他们下面的每个人的数组. 创建表 p_RLS.testHeirarchy(员工 ID INT64,员工_姓名 STRING,位置STRING,Line_Manager_ID INT64);INSERT INTO p_RLS. ..
发布时间:2021-12-30 23:08:35 其他开发

获取 BigQuery 项目中所有 BigQuery 表的上次访问日期

我知道如何获取表上次修改但未访问的日期.是否有可能获得最后一次读取表的时间?是否有查询或 API 来获取此信息? 解决方案 如果您有 审计日志 在 BigQuery 中,您可以编写这样的查询: WITH 表 AS (SELECT FORMAT("%s.%s.%s", table.projectId, table.datasetId, table.tableId) 表, MAX(times ..
发布时间:2021-12-30 23:08:27 其他开发

BigQuery Streaming API 引发的常见 503 错误

将数据流式传输到 BigQuery 一直失败,原因是以下错误,最近更频繁地发生: com.google.api.client.googleapis.json.GoogleJsonResponseException:503 服务不可用{“代码":503,“错误":[{“域":“全局","message": "连接错误,请重试.",“原因":“后端错误"}],"message" : "连接错误.请重 ..
发布时间:2021-12-30 23:08:05 其他开发

BigQuery 支持哪些 JsonPath 表达式?

我阅读了 BigQuery 文档,它支持 JsonPath 表达式语言的子集.但是我找不到实际支持的 JsonPath 的哪些部分?例如,当我在控制台中尝试时,我似乎无法在 BigQuery 的 JsonPath 表达式中使用通配符或过滤器. 是否可以在 BigQuery 的 JsonPath 表达式中使用通配符和过滤器? 是否有参考文档或其他文档描述 BigQuery 中的完整 Json ..
发布时间:2021-12-30 23:07:57 其他开发

查找要插入 BigQuery 的列名

我正在尝试执行“插入表"并看到我们需要明确指定列名.有没有办法在无需手动输入的情况下获取这些数据?我正在 BigQuery 上执行此操作. 解决方案 这是一个从表中获取列名(不产生成本)并同时构建 INSERT 列表的示例时间: WITH EmptyReference AS (选择 *从`bigquery-public-data.samples.shakespeare`限制 0)选择康卡 ..
发布时间:2021-12-30 23:07:39 其他开发

Google BigQuery 无法处理更大的结果集,出现“响应太大而无法返回"或“查询执行期间超出资源";

我目前正在 C# 应用程序中处理大表(~105M 记录). 使用“Order by"或“Order Each by"子句查询表时,出现“查询执行期间资源超出"错误. 如果我删除“Order by"或“Order Each by"子句,那么我收到的响应太大而无法返回错误. 这里是两个场景的示例查询(我使用的是维基百科公共表) SELECT Id,Title,Count(*) ..
发布时间:2021-12-30 23:07:32 其他开发