data-pipeline - IT屋-程序员软件开发技术分享社区

如何使用Azure数据工厂动态添加HTTP端点将数据加载到Azure数据湖中，并通过Cookie认证REST API

我正在尝试基于某些触发器/事件动态添加/更新链接服务REST，以使用要使用提供遥测数据的Cookie进行身份验证的RESP API。此遥测数据将存储在第二代数据湖中，然后将使用数据块移动到辅助数据存储/SQL Server。有人试过这个吗？添加链接服务REST时找不到基于Cookie的身份验证选项。另外，如何动态创建数据管道或使REST API的参数动态？ Azure ..

发布时间：2022-08-10 20:40:02 azure rest session-cookies azure-data-factory-2 data-pipeline 其他开发

将 .npy(numpy 文件)输入 tensorflow 数据管道

Tensorflow 似乎缺少“.npy"文件的阅读器.如何将我的数据文件读入新的 tensorflow.data.Dataset 管道?我的数据不适合内存. 每个对象都保存在单独的“.npy"文件中.每个文件包含 2 个不同的 ndarray 作为特征和一个标量作为它们的标签. 解决方案你的数据适合内存吗?如果是这样，您可以按照文档的 Consuming NumPy Arrays ..

发布时间：2022-01-21 12:42:42 numpy tensorflow dataset data-pipeline Python

带有python flex模板的数据流 - 启动器超时

我正在尝试使用 flex 模板运行我的 python 数据流作业.当我使用直接运行器(没有 flex 模板)运行时，作业在本地运行良好，但是当我尝试使用 flex 模板运行它时，作业卡在“排队"中状态一段时间，然后超时失败. 这是我在 GCE 控制台中找到的一些日志: INFO:apache_beam.runners.portability.stager:执行命令:['/usr/local ..

发布时间：2021-11-11 22:36:25 google-cloud-platform google-cloud-dataflow apache-beam data-pipeline 其他开发

使用Azure数据工厂将压缩的XML文件从HTTP链接源复制和提取到Azure Blob存储

我正在尝试建立Azure Data Factory复制数据管道.源是开放的HTTP链接源(网址参考: https://clinicaltrials.gov/AllPublicXML.zip).因此，基本上，源包含一个包含许多XML文件的压缩文件夹.我想使用Azure Data Factory解压缩提取的XML文件并将其保存在Azure Blob存储中.我试图遵循此处提到的配置:如何在Azure D ..

发布时间：2021-04-13 20:26:13 azure azure-data-factory azure-data-factory-2 azure-data-lake data-pipeline 其他开发

带有python flex模板的数据流-启动器超时

我正在尝试使用flex模板运行python数据流作业.当我使用直接运行程序(没有Flex模板)运行时，该作业在本地工作正常，但是当我尝试使用Flex模板运行时，作业卡在“排队"中.状态一会儿，然后由于超时而失败. 以下是我在GCE控制台中找到的一些日志: INFO:apache_beam.runners.portability.stager:执行命令:['/usr/local/bin/p ..

发布时间：2021-04-07 20:56:24 google-cloud-platform google-cloud-dataflow apache-beam data-pipeline 其他开发

Google数据融合执行错误"INVALID_ARGUMENT:'DISKS_TOTAL_GB'配额不足.请求3000.0，可用2048.0.

我正在尝试使用Google Data Fusion Free版本将简单CSV文件从GCS加载到BQ.管道因错误而失败.它显示为 com.google.api.gax.rpc.InvalidArgumentException: io.grpc.StatusRuntimeException: INVALID_ARGUMENT: Insufficient 'DISKS_TOTAL_GB' quot ..

发布时间：2020-07-21 02:32:15 google-cloud-platform data-processing data-ingestion google-cloud-data-fusion data-pipeline 其他开发

有没有办法将数据从Azure Blob连续传输到BigQuery?

我在Azure Blob存储中有一堆文件，并且它一直在不断更新.我想知道是否有办法让我先将Blob中拥有的所有数据移至BigQuery，然后保持脚本或某些作业运行，以便在那里的所有新数据都移交给BigQuery? 解决方案 BigQuery支持直接从以下外部数据源查询数据: Google Cloud Bigtable ， Google Cloud Storage ， Google云端硬盘.不包 ..

发布时间：2020-07-21 02:32:11 azure google-bigquery azure-storage-blobs data-pipeline 其他开发

截断DynamoDb或通过数据管道重写数据

可以通过数据管道转储DynamoDb，也可以在DynamoDb中导入数据。导入进展顺利，但是所有时间数据始终附加到DynamoDb中已经存在的数据中。目前，我发现了一些工作示例，这些示例扫描DynamoDb并逐个或逐个删除项目批量。但是无论如何对于大量数据来说，它都不是很好的选择。此外，还可以删除表并创建它。因此，最好的方法是通过Data Pipeline导入覆盖Dynam ..

发布时间：2020-06-04 00:27:35 amazon-dynamodb truncate amazon-data-pipeline data-pipeline 其他开发

如何从Airflow SimpleHttpOperator GET请求访问响应

我正在学习Airflow，有一个简单的问题。下面是我的DAG，称为 dog_retriever 进口气流从airflow从airflow.operators.http_operator导入DAG 从airflow.operators.sensors导入SimpleHttpOperator 从datetime导入datetime，timedelta 导入HttpSensor jso ..

发布时间：2020-06-02 21:24:46 airflow apache-airflow data-pipeline 其他开发

将.npy(numpy文件)馈入tensorflow数据管道

Tensorflow似乎缺少用于".npy"文件的阅读器. 如何将我的数据文件读入新的tensorflow.data.Dataset点线中? 我的数据无法容纳在内存中. 每个对象都保存在单独的".npy"文件中.每个文件都包含2个不同的ndarray作为特征，并包含一个标量作为其标签. 解决方案您的数据是否适合内存?如果是这样，您可以按照文档使用NumPy数组部分中的说明进行操作. ..

发布时间：2020-05-18 19:21:20 numpy tensorflow dataset data-pipeline Python

data-pipeline相关内容