google-bigquery相关内容

我可以安全地查询被WRITE_TRUNCATE替换的BigQuery表吗?

如果 配置。 load.writeDisposition 在加载作业期间设置为 WRITE_TRUNCATE ,是否有一段时间查询表会引发错误? 作业被标记为 PENDING 和/或 RUNNING 在加载作业结束时替换表的一小段时间 会有什么错误? status.errors []。reason =>“notFound”? 解决方案 WRITE_TRUNCATE是原子的,在 ..
发布时间:2018-05-07 17:35:24 其他开发

IGNORE CASE查询将问题保存到表中并使用“允许大量结果”

我的查询需要不区分大小写,所以我找到了 IGNORE CASE ,它在针对浏览器的查询(我正在谈论BQ Web UI)中使用时非常出色。如果我选择一个目标表(绝对必须适用于我)并选择允许大型结果(未选中展平结果)然后我得到一个像这样的神秘错误: $ b 错误:意外的LIMIT子句在:2.200 - 2.206 即使官方的Google BigQuery问题和功能请求跟踪器帖子似乎也提到 ..
发布时间:2018-05-07 17:35:17 其他开发

BigQuery是否有谷歌支持的JDBC驱动程序?

我们正在寻求通过第三方sql客户端访问BigQuery,例如。 RazorSql。我遇到了StarSchema JDBC驱动程序,我无法使它与Razorsql一起工作,并且在网页上说它已经存档。所以,不知道它应该工作。任何建议吗? 我试图将它与RazoeSql一起使用时遇到的错误是: java.io.IOException:toDerInputStream拒绝标签类型123 ..
发布时间:2018-05-07 17:35:14 其他开发

有没有办法确定或指定BigQuery存储数据的地理区域?

有没有办法确定哪些地区( like these )BigQuery将我的数据存储在?更重要的是,有没有一种方法可以指定将数据发送到BigQuery时的存储位置?如果它很重要,我同时使用POST方法批量加载数据和流。 如果这两个答案都是“否”,其中不存在 BQ存储数据?它只是在美国,其他地方......还是传播到全球各地? 解决方案 注意:这篇文章中的所有内容都应该被视为指南,而不是保 ..
发布时间:2018-05-07 17:35:12 其他开发

从BigQuery中移除停用词?

我有一个来自reddit的大量评论。这些字符串被拆分为单词,标点符号和量化值,以显示特定的subreddit上最常用的单词: SELECT word, COUNT(*)as num_words FROM(FLATTEN(( SELECT SPLIT(LOWER(REGEXP_REPLACE(body,r'[\\\\“,* :()\ [\] / | \ n]','')),'')word ..
发布时间:2018-05-07 17:35:09 其他开发

从Select BigQuery中创建一个表

Select * into new_table 你好我可以在MSSQL或Oracle中使用sql创建一个表,来自old_table; 是否可以在BigQuery中执行此操作?在控制台中输入时出现错误:“Error:Encountered”“INTO”“INTO”“in line 2,column 1. was expected:”。 我有一个内联用户定义函数的选择。我 ..
发布时间:2018-05-07 17:35:02 C#/.NET

在Bigquery json_extract()函数中转义字符

使用 Google的BigQuery 时,有函数,它可以使用jsonPath从json字符串中提取元素。例如: $ b $ pre $ SELECT JSON_EXTRACT(data,“$ .key.value”)AS特性FROM表名 code> 当json键本身包含一个点时, {“key.value”:“value”} 目前尚不清楚如何正确转义。 此jsonpath 留言板问题 ..
发布时间:2018-05-07 17:34:55 其他开发

当使用GROUP BY选择到表中时,BigQuery即使使用“noflatten_results”国旗上

我有一张有重复记录的表格。我想删除它们。我创建了一个名为“hash_code”的列,它只是所有列的sha1哈希值。重复的行将具有相同的哈希码。除了当我尝试使用包含GROUP BY的查询创建新表时,一切都很好。我的表具有RECORD数据类型,但即使指定了不平坦的表格,也会创建新表格。看起来像GROUP BY,并且“-noflatten_results”标志不会很好。 以下是我运行的命令行示例: ..
发布时间:2018-05-07 17:34:51 其他开发

BigQuery通过查询获取表模式

是否可以通过查询获取BigQuery表模式信息? (类似于 TABLES ,但是用于模式)。 我试图实现的是在2个BQ表(让我们说分期和制作)之间进行“增量”更新这个结构基于1个“key”列,但是有一种自动方式来创建密钥,其余的哈希基于所有其他列。 在MySQL / mariadb会是这样的。根据COLUMN_TYPE =“PRI”获取来自information_schema.colu ..
发布时间:2018-05-07 17:34:48 其他开发

可以创建BigQuery Table / Schema而不填充数据?

是否可以创建一个Table模式,而无需先用数据填充它?最好使用Google的python客户端。 Google的文档似乎没有提供明确的或不是答案。他们建议使用查询创建表格 ,但这既非直观,再次,没有高度记录: 解决方案 在python中,您可以在表API API端点上运行插入作业,表中记载了此处您需要提供 TableResource project_id = dat ..
发布时间:2018-05-07 17:34:46 Python

移动N天活动用户(BigQuery)

我有一个由2列组成的“事件”表: userId | eventDate ------- + ------------------- s234124 | 2015-01-01 a2s3166 | 2015-01-02 c216782 | 2015-01-03 z312235 | 2015-01-04 userId是用户ID。 eventDate表示该用 ..
发布时间:2018-05-07 17:34:38 其他开发

LAG()函数错误在BigQuery SQL中;无法返回滞后的hits.page.pagePath

我目前正在尝试在BigQuery表格中创建一个只包含hits.page.pagePath的滞后值的列。对于这个例子,假设我的匹配时间值为0,513,518,762,991。这些值对应于我创建的unique_visit_id。每天有数千次访问,每次访问都有不同的时间值和行号。 为了帮助进行各种计算,我希望在数据框中添加一列,该列仅包含hits.page.pagePath列中所有行的滞后值(当h ..
发布时间:2018-05-07 17:34:33 其他开发

可以并行化每个BY

我一次又一次地碰到了这个障碍...... > 是否有最佳做法或建议如何使用窗口函数(Over())与超大数据集无法在单个节点上处理? 碎片化我的数据并使用不同的过滤器运行相同的查询可以工作,但它非常有限,花费大量时间(和手工劳动)并且代价高昂(对同一数据运行相同的查询设置30次,而不是一次)。 提到Jeremy的答案: 更好,但仍然无法正常工作。 如果我拿出我的原始查询 ..
发布时间:2018-05-07 17:34:31 其他开发

BigQuery日期分区视图

BigQuery允许您创建日期分区表: https ://cloud.google.com/bigquery/docs/creating-partitioned-tables 我希望能够在顶部创建视图日期分区表,理想情况下仍然可以获得性能优势。我读过的所有东西都表明这是不可能的? 有没有人有过其他方面的运气? 解决方案 定义您的视图以公开分区伪列,如下所示: SELECT ..
发布时间:2018-05-07 17:34:26 其他开发