google-cloud-bigtable - IT屋-程序员软件开发技术分享社区

数据流中的流水线到Bigtable Python

我想要读取pubSub主题，并使用用Python编写的数据流代码将数据写入BigTable。我可以在Java中找到样例代码，但在Python中找不到。如何将一行中的列从pubSub分配给不同的列族并将数据写入BigTable？推荐答案要在数据流管道中写入大表，您需要创建直接行并将它们传递给WriteToBigTabledoFn。下面是一个简短的示例，它只是传入行键，并为每个键添加 ..

发布时间：2022-04-06 11:58:03 python-3.x google-cloud-dataflow google-cloud-bigtable 其他开发

如何从 Google BigQuery 将数据加载到 Google Cloud Bigtable

我需要将数据填充到 Google Cloud Bigtable 中，数据源将是 Google BigQuery. 作为练习，我可以从 BigQuery 读取数据作为一个单独的练习，我能够也将数据写入 Bigtable. 现在我必须将这 2 个操作合并到一个 Google Cloud Dataflow 作业中.任何示例都会有很大帮助. 解决方案您可以只使用这些示例中所示的转换 ..

发布时间：2021-12-30 23:22:17 google-bigquery google-cloud-dataflow google-cloud-bigtable 其他开发

将 Google Cloud Storage 数据加载到 bigtable

是否有一种简单的方法或示例可以将 Google Cloud Storage 数据加载到 bigtable 中? 我有很多由 pyspark 生成的 json 文件，我希望将数据加载到 bigtable. 但我找不到一种简单的方法来做到这一点！我已经尝试了 google 的 python 代码-cloud-python 并且它工作正常，但它只是将数据逐行读取到 bigtable ..

发布时间：2021-12-20 19:24:01 python google-cloud-platform google-cloud-bigtable Python

Spark-HBase - GCP 模板 (3/3) - 缺少库?

我正在尝试在 GCP 上下文中测试 Spark-HBase 连接器并尝试遵循指令，要求本地打包连接器，并且在 Dataproc 上提交作业时出现以下错误(在完成这些步骤). 命令 (base) gcloud dataproc 作业提交 spark --cluster $SPARK_CLUSTER --class com.example.bigtable.spark.shc.Bigta ..

发布时间：2021-12-20 18:56:31 apache-spark google-cloud-platform hbase google-cloud-bigtable 其他开发

用于存储大量事件的 Google Bigtable 与 BigQuery

背景我们想将不可变事件存储在(最好)托管服务中.一个事件的平均大小小于 1 Kb，我们每秒有 1-5 个事件.存储这些事件的主要原因是，一旦我们创建可能对这些事件感兴趣的未来服务，就能够重放它们(可能使用表扫描).由于我们在 Google Cloud 中，我们显然将 Google 的服务视为首选. 我怀疑 Bigtable 会很适合这个，但根据 ..

发布时间：2021-12-14 23:16:42 google-app-engine google-bigquery bigtable google-cloud-bigtable 其他开发

Google Cloud Bigtable 与 Google Cloud Datastore

Google Cloud Bigtable 之间有什么区别和 Google Cloud Datastore/App Engine 数据存储区，主要的实际优势/劣势是什么?AFAIK Cloud Datastore 建立在 Bigtable 之上. 解决方案基于使用 Datastore 和阅读 Bigtable 的经验 docs，主要区别是: Bigtable 最初是为与 HBase ..

发布时间：2021-12-14 23:08:34 google-app-engine google-cloud-platform google-cloud-datastore google-cloud-bigtable 其他开发

由于 hbase 客户端 jar 中的硬编码 managed=true，无法连接到 Bigtable 以扫描 HTable 数据

我正在研究自定义加载函数，以使用 Dataproc 上的 Pig 从 Bigtable 加载数据.我使用从 Dataproc 获取的以下 jar 文件列表编译我的 java 代码.当我运行以下 Pig 脚本时，它在尝试与 Bigtable 建立连接时失败. 错误信息是: Bigtable 不支持托管连接. 问题: 是否有解决此问题的方法? 这是一个已知问题吗?是否有修复或调整计划 ..

发布时间：2021-11-12 04:16:43 hadoop apache-pig google-cloud-dataproc google-cloud-bigtable hbase-client 其他开发

ValueProvider 类型参数在模板执行时没有得到遵守

我试图在执行时传递在 TemplateOption 类中定义为 ValueProvider 的 BigTable tableId、instanceId 和 projectId，因为它们是运行时值，但它们没有得到新值的尊重.管道使用构建管道时定义的旧值执行.我应该进行哪些更改才能在运行时尊重值? Pipeline p = Pipeline.create(options);com.google.cl ..

发布时间：2021-11-11 22:46:13 google-cloud-dataflow apache-beam google-cloud-bigtable 其他开发

ValueProvider 类型参数在模板执行时没有得到遵守

我试图在执行时传递在 TemplateOption 类中定义为 ValueProvider 的 BigTable tableId、instanceId 和 projectId，因为它们是运行时值，但它们没有得到新值的尊重.管道使用构建管道时定义的旧值执行.我应该进行哪些更改才能在运行时尊重值? Pipeline p = Pipeline.create(options);com.google.cl ..

发布时间：2021-11-11 22:45:31 google-cloud-dataflow apache-beam google-cloud-bigtable 其他开发

Avro 到 BigTable - 架构问题?

我正在尝试使用 Dataflow 模板 [1] 将 Avro 文件(由 Spark 3.0 生成)摄取到 BigTable 中，并得到以下错误. 注意这个文件可以在 Spark 和 Python avro 库中读取，没有明显问题. 有什么想法吗? 感谢您的支持！错误(简短) Caused by: org.apache.avro.AvroTypeException: Fo ..

发布时间：2021-11-11 22:35:02 google-cloud-platform apache-beam gcloud avro google-cloud-bigtable 其他开发

从 DynamoDB 迁移到 Spanner/BigTable

我有一个用例，我需要将 70 TB 的数据从 DynamoDB 迁移到 BigTable 和 Spanner.具有单个索引的表将转到 BigTable，否则它们将转到 Spanner. 通过将数据导出到 S3 --> GCS --> Spanner/BigTable，我可以轻松处理历史负载.但具有挑战性的部分是处理 DynamoDB 上同时发生的增量流负载.DynamoDB 中有 300 个 ..

发布时间：2021-11-11 22:33:47 amazon-dynamodb google-cloud-dataflow apache-beam google-cloud-bigtable google-cloud-spanner 其他开发

为什么 Dataflow-BigTable 连接器不支持增量?

我们在流模式中有一个用例，我们希望在需要增量操作的管道中跟踪 BigTable 上的计数器(某些 #items 已完成处理).从查看 https://cloud.google.com/bigtable/docs/dataflow-hbase，我看到此客户端不支持 HBase API 的追加/增量操作.陈述的原因是批处理模式下的重试逻辑，但如果 Dataflow 保证恰好一次，为什么支持它是一个坏主 ..

发布时间：2021-11-11 22:29:40 google-cloud-dataflow google-cloud-bigtable apache-beam apache-beam-io 其他开发

如何使用气流将 bigquery 导出到 bigtable?模式问题

我正在使用 Airflow 以 Avro 格式将 BigQuery 行提取到 Google Cloud Storage. with models.DAG(“bigquery_to_bigtable"，default_args=default_args，schedule_interval=无，start_date=datetime.now(),追赶=假，标签=[“测试"]，) 作为 dag:dat ..

发布时间：2021-10-26 18:03:17 google-bigquery dataflow google-cloud-bigtable airflow 其他开发

Bigtable(来自Go)返回“服务器关闭流而不发送预告片"

我们正在使用Google Cloud Bigtable，并使用 Go库从GCE实例访问它访问它.对于某些ReadRow查询，我们得到以下错误: rpc错误:代码= 13 desc =“服务器关闭了流而没有发送预告片" 值得注意的是，这些是一致的.换句话说，如果我们重试相同的查询(两次尝试之间等待约15分钟)，我们(几乎?)总是会再次遇到相同的错误.因此， not 似乎根本不是一个暂时性错误 ..

发布时间：2021-05-13 19:53:02 grpc google-cloud-bigtable 其他开发

由于hbase客户端jar中的硬编码Managed = true，因此无法连接到Bigtable来扫描HTable数据

我正在使用自定义加载功能，以便在Dataproc上使用Pig来从Bigtable加载数据.我使用从Dataproc抓取的jar文件的以下列表来编译Java代码.当我运行以下Pig脚本时，尝试与Bigtable建立连接时失败. 错误消息是: Bigtable不支持托管连接. 问题: 是否可以解决此问题? 这是一个已知问题吗，有计划修复或调整吗? 是否有另一种方法可以将多次扫描 ..

发布时间：2021-05-12 19:21:06 hadoop apache-pig google-cloud-dataproc google-cloud-bigtable hbase-client 其他开发

Spark-HBase-GCP模板(1/3)-如何在本地打包Hortonworks连接器?

我正在尝试在GCP上下文中测试Spark-HBase连接器，并尝试遵循[1]，它要求使用适用于Spark 2.4的Maven(我尝试过Maven 3.6.3)在本地打包连接器[2]，并导致以下问题. 错误"branch-2.4": [错误]无法在项目shc-core上执行目标net.alchim31.maven:scala-maven-plugin:3.2.2:compile(scal ..

发布时间：2021-04-08 19:30:56 apache-spark google-cloud-platform hbase cloudera google-cloud-bigtable 其他开发

Spark-HBase-GCP模板(2/3)-json4s的版本问题?

我正在尝试在GCP上下文中测试Spark-HBase连接器，并尝试遵循 1 ，该请求会在本地使用Maven(我尝试过Maven 3.6.3)为Spark 2.4打包连接器[2]，并在完成[3]后在 Dataproc 上提交作业时出现以下错误. 有什么主意吗? 感谢您的支持参考 1 (HBaseRelation.scala:84)位于org.apache.spark.sql ..

发布时间：2021-04-08 19:28:21 apache-spark google-cloud-platform hbase google-cloud-bigtable 其他开发

Spark HBase/BigTable-宽/稀疏数据帧持久性

我想在BigTable上保留一个非常稀疏的Spark Dataframe(> 100,000列)(其中99％的值为空)，同时仅保留非null值(以避免存储成本). 是否有一种方法可以在Spark中指定在写入时忽略空值? 谢谢！解决方案可能(未对其进行测试)，在将Spark DataFrame写入HBase/BigTable之前，您可以通过使用以下方法滤除每行中具有空值的列来 ..

发布时间：2021-04-08 19:27:06 apache-spark hbase sparse-matrix google-cloud-dataproc google-cloud-bigtable 其他开发

Spark-HBase-GCP模板(3/3)-缺少库?

我正在尝试在GCP上下文中测试Spark-HBase连接器，并尝试遵循连接器，并且在 Dataproc 上提交作业时收到以下错误(完成 @ jccampanero 获取指导！ libraryDependencies + ="org.apache.hbase"；％"hbase-common"％"2.0.2"libraryDependencies + ="org.apache.hbase"％"hb ..

发布时间：2021-04-08 19:23:47 apache-spark google-cloud-platform hbase google-cloud-bigtable 其他开发

如何在Google Cloud Bigtable中设置将来的插入日期?尝试使用TTL计算

我的表只有一个列族，此列的TTL为172800秒(2天)，我需要在截止日期之前删除一些数据.如果我希望该值在5分钟后过期，我将计算过期时间并将插入日期设置为过期时间之前的5分钟. 我正在使用Java的HBase客户端来完成此操作. 但是该值似乎没有过期.有什么建议吗? 我使用cbt创建表: cbt createtable my_table families=cf1:maxa ..

发布时间：2020-11-18 21:32:52 google-cloud-platform bigtable google-cloud-bigtable 其他开发

google-cloud-bigtable相关内容