google-cloud-bigtable相关内容
我想要读取pubSub主题,并使用用Python编写的数据流代码将数据写入BigTable。我可以在Java中找到样例代码,但在Python中找不到。 如何将一行中的列从pubSub分配给不同的列族并将数据写入BigTable? 推荐答案 要在数据流管道中写入大表,您需要创建直接行并将它们传递给WriteToBigTabledoFn。下面是一个简短的示例,它只是传入行键,并为每个键添加
..
我需要将数据填充到 Google Cloud Bigtable 中,数据源将是 Google BigQuery. 作为练习,我可以从 BigQuery 读取数据 作为一个单独的练习,我能够也将数据写入 Bigtable. 现在我必须将这 2 个操作合并到一个 Google Cloud Dataflow 作业中.任何示例都会有很大帮助. 解决方案 您可以只使用这些示例中所示的转换
..
是否有一种简单的方法或示例可以将 Google Cloud Storage 数据加载到 bigtable 中? 我有很多由 pyspark 生成的 json 文件,我希望将数据加载到 bigtable. 但我找不到一种简单的方法来做到这一点! 我已经尝试了 google 的 python 代码-cloud-python 并且它工作正常,但它只是将数据逐行读取到 bigtable
..
我正在尝试在 GCP 上下文中测试 Spark-HBase 连接器并尝试遵循 指令,要求本地打包 连接器,并且在 Dataproc 上提交作业时出现以下错误(在完成 这些步骤). 命令 (base) gcloud dataproc 作业提交 spark --cluster $SPARK_CLUSTER --class com.example.bigtable.spark.shc.Bigta
..
背景 我们想将不可变事件存储在(最好)托管服务中.一个事件的平均大小小于 1 Kb,我们每秒有 1-5 个事件.存储这些事件的主要原因是,一旦我们创建可能对这些事件感兴趣的未来服务,就能够重放它们(可能使用表扫描).由于我们在 Google Cloud 中,我们显然将 Google 的服务视为首选. 我怀疑 Bigtable 会很适合这个,但根据
..
Google Cloud Bigtable 之间有什么区别和 Google Cloud Datastore/App Engine 数据存储区,主要的实际优势/劣势是什么?AFAIK Cloud Datastore 建立在 Bigtable 之上. 解决方案 基于使用 Datastore 和阅读 Bigtable 的经验 docs,主要区别是: Bigtable 最初是为与 HBase
..
我正在研究自定义加载函数,以使用 Dataproc 上的 Pig 从 Bigtable 加载数据.我使用从 Dataproc 获取的以下 jar 文件列表编译我的 java 代码.当我运行以下 Pig 脚本时,它在尝试与 Bigtable 建立连接时失败. 错误信息是: Bigtable 不支持托管连接. 问题: 是否有解决此问题的方法? 这是一个已知问题吗?是否有修复或调整计划
..
我试图在执行时传递在 TemplateOption 类中定义为 ValueProvider 的 BigTable tableId、instanceId 和 projectId,因为它们是运行时值,但它们没有得到新值的尊重.管道使用构建管道时定义的旧值执行.我应该进行哪些更改才能在运行时尊重值? Pipeline p = Pipeline.create(options);com.google.cl
..
我试图在执行时传递在 TemplateOption 类中定义为 ValueProvider 的 BigTable tableId、instanceId 和 projectId,因为它们是运行时值,但它们没有得到新值的尊重.管道使用构建管道时定义的旧值执行.我应该进行哪些更改才能在运行时尊重值? Pipeline p = Pipeline.create(options);com.google.cl
..
我正在尝试使用 Dataflow 模板 [1] 将 Avro 文件(由 Spark 3.0 生成)摄取到 BigTable 中,并得到以下错误. 注意这个文件可以在 Spark 和 Python avro 库中读取,没有明显问题. 有什么想法吗? 感谢您的支持! 错误(简短) Caused by: org.apache.avro.AvroTypeException: Fo
..
我有一个用例,我需要将 70 TB 的数据从 DynamoDB 迁移到 BigTable 和 Spanner.具有单个索引的表将转到 BigTable,否则它们将转到 Spanner. 通过将数据导出到 S3 --> GCS --> Spanner/BigTable,我可以轻松处理历史负载.但具有挑战性的部分是处理 DynamoDB 上同时发生的增量流负载.DynamoDB 中有 300 个
..
我们在流模式中有一个用例,我们希望在需要增量操作的管道中跟踪 BigTable 上的计数器(某些 #items 已完成处理).从查看 https://cloud.google.com/bigtable/docs/dataflow-hbase,我看到此客户端不支持 HBase API 的追加/增量操作.陈述的原因是批处理模式下的重试逻辑,但如果 Dataflow 保证恰好一次,为什么支持它是一个坏主
..
我正在使用 Airflow 以 Avro 格式将 BigQuery 行提取到 Google Cloud Storage. with models.DAG(“bigquery_to_bigtable",default_args=default_args,schedule_interval=无,start_date=datetime.now(),追赶=假,标签=[“测试"],) 作为 dag:dat
..
我们正在使用Google Cloud Bigtable,并使用 Go库从GCE实例访问它访问它.对于某些ReadRow查询,我们得到以下错误: rpc错误:代码= 13 desc =“服务器关闭了流而没有发送预告片" 值得注意的是,这些是一致的.换句话说,如果我们重试相同的查询(两次尝试之间等待约15分钟),我们(几乎?)总是会再次遇到相同的错误.因此, not 似乎根本不是一个暂时性错误
..
我正在使用自定义加载功能,以便在Dataproc上使用Pig来从Bigtable加载数据.我使用从Dataproc抓取的jar文件的以下列表来编译Java代码.当我运行以下Pig脚本时,尝试与Bigtable建立连接时失败. 错误消息是: Bigtable不支持托管连接. 问题: 是否可以解决此问题? 这是一个已知问题吗,有计划修复或调整吗? 是否有另一种方法可以将多次扫描
..
我正在尝试在GCP上下文中测试Spark-HBase连接器,并尝试遵循[1],它要求使用适用于Spark 2.4的Maven(我尝试过Maven 3.6.3)在本地打包连接器[2],并导致以下问题. 错误"branch-2.4": [错误]无法在项目shc-core上执行目标net.alchim31.maven:scala-maven-plugin:3.2.2:compile(scal
..
我正在尝试在GCP上下文中测试Spark-HBase连接器,并尝试遵循 1 ,该请求会在本地使用Maven(我尝试过Maven 3.6.3)为Spark 2.4打包连接器[2],并在完成[3]后在 Dataproc 上提交作业时出现以下错误. 有什么主意吗? 感谢您的支持 参考 1 (HBaseRelation.scala:84)位于org.apache.spark.sql
..
我想在BigTable上保留一个非常稀疏的Spark Dataframe(> 100,000列)(其中99%的值为空),同时仅保留非null值(以避免存储成本). 是否有一种方法可以在Spark中指定在写入时忽略空值? 谢谢! 解决方案 可能(未对其进行测试),在将Spark DataFrame写入HBase/BigTable之前,您可以通过使用以下方法滤除每行中具有空值的列来
..
我正在尝试在GCP上下文中测试Spark-HBase连接器,并尝试遵循连接器,并且在 Dataproc 上提交作业时收到以下错误(完成 @ jccampanero 获取指导! libraryDependencies + ="org.apache.hbase";%"hbase-common"%"2.0.2"libraryDependencies + ="org.apache.hbase"%"hb
..
我的表只有一个列族,此列的TTL为172800秒(2天),我需要在截止日期之前删除一些数据.如果我希望该值在5分钟后过期,我将计算过期时间并将插入日期设置为过期时间之前的5分钟. 我正在使用Java的HBase客户端来完成此操作. 但是该值似乎没有过期.有什么建议吗? 我使用cbt创建表: cbt createtable my_table families=cf1:maxa
..