google-cloud-bigtable相关内容

数据流中的流水线到Bigtable Python

我想要读取pubSub主题,并使用用Python编写的数据流代码将数据写入BigTable。我可以在Java中找到样例代码,但在Python中找不到。 如何将一行中的列从pubSub分配给不同的列族并将数据写入BigTable? 推荐答案 要在数据流管道中写入大表,您需要创建直接行并将它们传递给WriteToBigTabledoFn。下面是一个简短的示例,它只是传入行键,并为每个键添加 ..

如何从 Google BigQuery 将数据加载到 Google Cloud Bigtable

我需要将数据填充到 Google Cloud Bigtable 中,数据源将是 Google BigQuery. 作为练习,我可以从 BigQuery 读取数据 作为一个单独的练习,我能够也将数据写入 Bigtable. 现在我必须将这 2 个操作合并到一个 Google Cloud Dataflow 作业中.任何示例都会有很大帮助. 解决方案 您可以只使用这些示例中所示的转换 ..

将 Google Cloud Storage 数据加载到 bigtable

是否有一种简单的方法或示例可以将 Google Cloud Storage 数据加载到 bigtable 中? 我有很多由 pyspark 生成的 json 文件,我希望将数据加载到 bigtable. 但我找不到一种简单的方法来做到这一点! 我已经尝试了 google 的 python 代码-cloud-python 并且它工作正常,但它只是将数据逐行读取到 bigtable ..
发布时间:2021-12-20 19:24:01 Python

用于存储大量事件的 Google Bigtable 与 BigQuery

背景 我们想将不可变事件存储在(最好)托管服务中.一个事件的平均大小小于 1 Kb,我们每秒有 1-5 个事件.存储这些事件的主要原因是,一旦我们创建可能对这些事件感兴趣的未来服务,就能够重放它们(可能使用表扫描).由于我们在 Google Cloud 中,我们显然将 Google 的服务视为首选. 我怀疑 Bigtable 会很适合这个,但根据 ..

由于 hbase 客户端 jar 中的硬编码 managed=true,无法连接到 Bigtable 以扫描 HTable 数据

我正在研究自定义加载函数,以使用 Dataproc 上的 Pig 从 Bigtable 加载数据.我使用从 Dataproc 获取的以下 jar 文件列表编译我的 java 代码.当我运行以下 Pig 脚本时,它在尝试与 Bigtable 建立连接时失败. 错误信息是: Bigtable 不支持托管连接. 问题: 是否有解决此问题的方法? 这是一个已知问题吗?是否有修复或调整计划 ..

ValueProvider 类型参数在模板执行时没有得到遵守

我试图在执行时传递在 TemplateOption 类中定义为 ValueProvider 的 BigTable tableId、instanceId 和 projectId,因为它们是运行时值,但它们没有得到新值的尊重.管道使用构建管道时定义的旧值执行.我应该进行哪些更改才能在运行时尊重值? Pipeline p = Pipeline.create(options);com.google.cl ..

ValueProvider 类型参数在模板执行时没有得到遵守

我试图在执行时传递在 TemplateOption 类中定义为 ValueProvider 的 BigTable tableId、instanceId 和 projectId,因为它们是运行时值,但它们没有得到新值的尊重.管道使用构建管道时定义的旧值执行.我应该进行哪些更改才能在运行时尊重值? Pipeline p = Pipeline.create(options);com.google.cl ..

从 DynamoDB 迁移到 Spanner/BigTable

我有一个用例,我需要将 70 TB 的数据从 DynamoDB 迁移到 BigTable 和 Spanner.具有单个索引的表将转到 BigTable,否则它们将转到 Spanner. 通过将数据导出到 S3 --> GCS --> Spanner/BigTable,我可以轻松处理历史负载.但具有挑战性的部分是处理 DynamoDB 上同时发生的增量流负载.DynamoDB 中有 300 个 ..

为什么 Dataflow-BigTable 连接器不支持增量?

我们在流模式中有一个用例,我们希望在需要增量操作的管道中跟踪 BigTable 上的计数器(某些 #items 已完成处理).从查看 https://cloud.google.com/bigtable/docs/dataflow-hbase,我看到此客户端不支持 HBase API 的追加/增量操作.陈述的原因是批处理模式下的重试逻辑,但如果 Dataflow 保证恰好一次,为什么支持它是一个坏主 ..

Bigtable(来自Go)返回“服务器关闭流而不发送预告片"

我们正在使用Google Cloud Bigtable,并使用 Go库从GCE实例访问它访问它.对于某些ReadRow查询,我们得到以下错误: rpc错误:代码= 13 desc =“服务器关闭了流而没有发送预告片" 值得注意的是,这些是一致的.换句话说,如果我们重试相同的查询(两次尝试之间等待约15分钟),我们(几乎?)总是会再次遇到相同的错误.因此, not 似乎根本不是一个暂时性错误 ..
发布时间:2021-05-13 19:53:02 其他开发

由于hbase客户端jar中的硬编码Managed = true,因此无法连接到Bigtable来扫描HTable数据

我正在使用自定义加载功能,以便在Dataproc上使用Pig来从Bigtable加载数据.我使用从Dataproc抓取的jar文件的以下列表来编译Java代码.当我运行以下Pig脚本时,尝试与Bigtable建立连接时失败. 错误消息是: Bigtable不支持托管连接. 问题: 是否可以解决此问题? 这是一个已知问题吗,有计划修复或调整吗? 是否有另一种方法可以将多次扫描 ..

Spark-HBase-GCP模板(1/3)-如何在本地打包Hortonworks连接器?

我正在尝试在GCP上下文中测试Spark-HBase连接器,并尝试遵循[1],它要求使用适用于Spark 2.4的Maven(我尝试过Maven 3.6.3)在本地打包连接器[2],并导致以下问题. 错误"branch-2.4": [错误]无法在项目shc-core上执行目标net.alchim31.maven:scala-maven-plugin:3.2.2:compile(scal ..

Spark-HBase-GCP模板(2/3)-json4s的版本问题?

我正在尝试在GCP上下文中测试Spark-HBase连接器,并尝试遵循 1 ,该请求会在本地使用Maven(我尝试过Maven 3.6.3)为Spark 2.4打包连接器[2],并在完成[3]后在 Dataproc 上提交作业时出现以下错误. 有什么主意吗? 感谢您的支持 参考 1 (HBaseRelation.scala:84)位于org.apache.spark.sql ..

Spark HBase/BigTable-宽/稀疏数据帧持久性

我想在BigTable上保留一个非常稀疏的Spark Dataframe(> 100,000列)(其中99%的值为空),同时仅保留非null值(以避免存储成本). 是否有一种方法可以在Spark中指定在写入时忽略空值? 谢谢! 解决方案 可能(未对其进行测试),在将Spark DataFrame写入HBase/BigTable之前,您可以通过使用以下方法滤除每行中具有空值的列来 ..

如何在Google Cloud Bigtable中设置将来的插入日期?尝试使用TTL计算

我的表只有一个列族,此列的TTL为172800秒(2天),我需要在截止日期之前删除一些数据.如果我希望该值在5分钟后过期,我将计算过期时间并将插入日期设置为过期时间之前的5分钟. 我正在使用Java的HBase客户端来完成此操作. 但是该值似乎没有过期.有什么建议吗? 我使用cbt创建表: cbt createtable my_table families=cf1:maxa ..