data-pipeline相关内容

如何使用Azure数据工厂动态添加HTTP端点将数据加载到Azure数据湖中,并通过Cookie认证REST API

我正在尝试基于某些触发器/事件动态添加/更新链接服务REST,以使用要使用提供遥测数据的Cookie进行身份验证的RESP API。此遥测数据将存储在第二代数据湖中,然后将使用数据块移动到辅助数据存储/SQL Server。 有人试过这个吗?添加链接服务REST时找不到基于Cookie的身份验证选项。 另外,如何动态创建数据管道或使REST API的参数动态? Azure ..

将 .npy(numpy 文件)输入 tensorflow 数据管道

Tensorflow 似乎缺少“.npy"文件的阅读器.如何将我的数据文件读入新的 tensorflow.data.Dataset 管道?我的数据不适合内存. 每个对象都保存在单独的“.npy"文件中.每个文件包含 2 个不同的 ndarray 作为特征和一个标量作为它们的标签. 解决方案 你的数据适合内存吗?如果是这样,您可以按照文档的 Consuming NumPy Arrays ..
发布时间:2022-01-21 12:42:42 Python

带有python flex模板的数据流 - 启动器超时

我正在尝试使用 flex 模板运行我的 python 数据流作业.当我使用直接运行器(没有 flex 模板)运行时,作业在本地运行良好,但是当我尝试使用 flex 模板运行它时,作业卡在“排队"中状态一段时间,然后超时失败. 这是我在 GCE 控制台中找到的一些日志: INFO:apache_beam.runners.portability.stager:执行命令:['/usr/local ..

使用Azure数据工厂将压缩的XML文件从HTTP链接源复制和提取到Azure Blob存储

我正在尝试建立Azure Data Factory复制数据管道.源是开放的HTTP链接源(网址参考: https://clinicaltrials.gov/AllPublicXML.zip).因此,基本上,源包含一个包含许多XML文件的压缩文件夹.我想使用Azure Data Factory解压缩提取的XML文件并将其保存在Azure Blob存储中.我试图遵循此处提到的配置:如何在Azure D ..

带有python flex模板的数据流-启动器超时

我正在尝试使用flex模板运行python数据流作业.当我使用直接运行程序(没有Flex模板)运行时,该作业在本地工作正常,但是当我尝试使用Flex模板运行时,作业卡在“排队"中.状态一会儿,然后由于超时而失败. 以下是我在GCE控制台中找到的一些日志: INFO:apache_beam.runners.portability.stager:执行命令:['/usr/local/bin/p ..

Google数据融合执行错误"INVALID_ARGUMENT:'DISKS_TOTAL_GB'配额不足.请求3000.0,可用2048.0.

我正在尝试使用Google Data Fusion Free版本将简单CSV文件从GCS加载到BQ.管道因错误而失败.它显示为 com.google.api.gax.rpc.InvalidArgumentException: io.grpc.StatusRuntimeException: INVALID_ARGUMENT: Insufficient 'DISKS_TOTAL_GB' quot ..

有没有办法将数据从Azure Blob连续传输到BigQuery?

我在Azure Blob存储中有一堆文件,并且它一直在不断更新.我想知道是否有办法让我先将Blob中拥有的所有数据移至BigQuery,然后保持脚本或某些作业运行,以便在那里的所有新数据都移交给BigQuery? 解决方案 BigQuery支持直接从以下外部数据源查询数据: Google Cloud Bigtable , Google Cloud Storage , Google云端硬盘.不包 ..

截断DynamoDb或通过数据管道重写数据

可以通过数据管道转储DynamoDb,也可以在DynamoDb中导入数据。导入进展顺利,但是所有时间数据始终附加到DynamoDb中已经存在的数据中。 目前,我发现了一些工作示例,这些示例扫描DynamoDb并逐个或逐个删除项目批量。但是无论如何对于大量数据来说,它都不是很好的选择。 此外,还可以删除表并创建它。 因此,最好的方法是通过Data Pipeline导入覆盖Dynam ..

将.npy(numpy文件)馈入tensorflow数据管道

Tensorflow似乎缺少用于".npy"文件的阅读器. 如何将我的数据文件读入新的tensorflow.data.Dataset点线中? 我的数据无法容纳在内存中. 每个对象都保存在单独的".npy"文件中.每个文件都包含2个不同的ndarray作为特征,并包含一个标量作为其标签. 解决方案 您的数据是否适合内存?如果是这样,您可以按照文档使用NumPy数组部分中的说明进行操作. ..
发布时间:2020-05-18 19:21:20 Python