azure-data-factory-2相关内容
在Azure数据工厂内部,我通过REST复制活动对Microsoft图进行了调用,利用其余活动来获取对该服务的访问令牌.Graph api返回最多200个结果,因此我对使用可在源代码中创建的分页规则感兴趣.在邮递员中,我可以看到我的回复结构是 {"@ odata.context":“值":[
..
是否可以将状态显示为App Insights的ADF管道运行事件发布? 解决方案 据我所知,您可以在执行主要活动后使用ADF中的Web活动来调用Application Insights REST API(或使用执行管道活动来执行您的根管道并获取其状态或输出).然后将其发送到App Insights REST API. 更多详细信息,请参阅此文档: https://www.ben-mo
..
我从Web API下载json文件,并使用“复制数据"活动和二进制副本将它们存储在blob存储中.接下来,我想使用另一个“复制数据"活动从blob容器中的每个json文件中提取一个值,并将该值及其ID存储在数据库中.ID是文件名的一部分,但是有什么方法可以提取文件名? 解决方案 您可以执行以下活动: 1)一个GetMetadata活动,配置一个指向blob文件夹的数据集,并将“子项"
..
我有一个json文件,它包含开始日期和结束日期.我需要使用azure数据工厂foreach活动遍历此开始日期和结束日期.据我所知,foreach期望项目(集合/数组).但就我而言,我只有两项,即开始日期和结束日期.我想运行数据工厂来处理一些历史数据.我没有日期集合,那么如何用开始日期和结束日期进行迭代呢?如果有人可以帮助我解决问题,那就太好了. 解决方案 我的建议是使用
..
我正在尝试建立Azure Data Factory复制数据管道.源是开放的HTTP链接源(网址参考: https://clinicaltrials.gov/AllPublicXML.zip).因此,基本上,源包含一个包含许多XML文件的压缩文件夹.我想使用Azure Data Factory解压缩提取的XML文件并将其保存在Azure Blob存储中.我试图遵循此处提到的配置:如何在Azure D
..
我已经在数据工厂管道中链接了azure函数,该函数将文本文件写入blob存储单独执行时,azure函数可以正常工作,并将文件写入blob存储但是当我从数据工厂运行azure函数时,我面临以下提到的错误 {"errorCode":"3600","message":“调用端点时出错.","failureType":"UserError","target":"Azure Function1"}
..
我的来源(ADLS中的CSV文件)具有标头记录(3列),详细记录(5列)和尾部记录(2列).标题记录的列数少于详细信息记录的列数.当我尝试将此csv文件转换为镶木地板时,我在ADF中使用复制活动获取列数错误.因此,我尝试使用数据流进行映射,但仍仅考虑三列,而忽略了详细记录中的其他两列.因此,请让我知道如何使用数据流或任何其他Azure服务来实现这一目标. 样本数据 1 |〜文件名|〜30
..
当在Blob容器内的文件夹中创建新文件/blob时,我通过基于事件的触发器调用ADF V2管道. Blob容器结构: BlobContainer-> FolderName-> -> File1.csv -> File2.csv -> File3.csv 我使用以下配置创建了触发器: 容器名称: BlobContainer Blob路径以: Folde
..
我在ADLS中有十个文件(.txt).我在Azure SQL数据库中有他们的元数据.我的元数据看起来像这样: 我正在尝试使用Mapping Data流将固定宽度的文件转换为带有标头的定界文件.Microsoft对此主题的唯一参考是 https://docs.microsoft.com/zh-CN/azure/data-factory/how-to-fixed-width . 但是我有多
..
我正在尝试使用“执行管道"来调用具有ForEach活动的管道.我收到错误消息. 用于执行管道的Json: [{"name":"pipeline3",“特性": {“活动": [{"name":"Test_invoke1","type":"ExecutePipeline",“取决于": [],"userProperties":[],"typeProperties":{“管道":{"re
..
我的任务是将数百万个JSON文件转换并整合为BIG CSV文件. 使用复制活动并映射模式,操作将非常简单,我已经测试过,问题在于大量文件具有错误的JSON格式. 我知道这是什么错误,而且修复也非常简单,我认为我可以使用Python Data Brick活动修复字符串,然后将输出传递给copy活动,该活动可以将记录合并为大CSV文件. 我有这样的想法,我不确定这是否是解决此任务的正
..
我正在使用azure数据流将定界文件(csv/txt)转换为json.但是我想根据最大行数5,000动态地分离文件,因为我不会每次都知道行数.因此,如果我有一个具有10,000行的csv文件,则管道将输出两个相等的json文件,分别为file1.json和file2.json.在Azure数据工厂中根据行数实际获取源行数和正确的n个分区的最佳方法是什么? 解决方案 一种方法是使用mod或%
..
我正在azure数据工厂中运行管道,并且正在使用自定义单元来运行azure批处理活动. 我运行的天蓝色批处理作业确实很大,我想监视我处于该作业的哪个阶段.在远程VM上,我通常使用 python 中的 logging 模块执行此操作. 完成后,我可以获取作业的状态(即所有日志记录信息),但是我想在运行作业时获取它. 我该怎么做? 解决方案 批处理会自动将stdout/std
..
我正在Data-Factory中使用Azure Dataflow.我有一个Azure SQL数据库作为源.下面是示例: 名字姓氏年龄手机唐·博斯科56 34578970 134643455亚伯拉罕·林肯87 56789065 246643556 下面是数据流: 源->接收器(JSON Blob存储) 在接收器中,我得到一个文件,输出如下: {“名字":"Don",“姓氏":Bosc
..
我正在Azure数据工厂中实现AzureureOps. 我的开发环境ADF已集成到git存储库中. 我创建了一个构建管道,用于在adf_publish分支发生更改时构建构件. 下一步是将ARM模板工件部署到PROD环境. 假设在将DEV更改部署到PROD时,PROD环境中有许多触发的管道,并且PROD env中正在运行的管道很少. 我的问题是: 如何将更改从De
..
我已在Azure数据工厂上启用了Git.我也创建了我的Git存储库.当我要创建新管道时,会显示以下消息: 您已在数据工厂中启用了GIT.禁用以“数据工厂"模式发布.请切换回GIT模式进行进一步更改.当我想选择GitHub时,会弹出“您无权访问存储库" 如何授予对存储库的访问权限? 解决方案 我遇到了同样的问题.我所做的是删除GIT连接,然后再次添加它.然后一切正常! 创建
..
我过去两周的Azure经验中的 .我想根据大小分割文件.例如,有一个具有200k行的表,我想设置一个参数以将该表拆分为多个文件,每个文件限制为100Mb(如果有意义).它将返回 N 个文件,具体取决于表的大小.像这样: my.file_1ofN.csv 我正在浏览文档,博客和视频,并可以使用个人帐户中的python脚本使用Azure Functions,Azure Batch和Dat
..
这是场景-我们正在使用Azure DataFactoryV2运行一系列管道,这些管道从本地数据源获取帐户数据,进行转换并将其上传到Salesforce. 当前,我们要导入一个帐户并将其与另一个帐户相关联.帐户具有标准的父/子关系(例如,转销商帐户和子帐户),并且使用内部Salesforce ID. 我们还使用外部ID进行Upserting,并且该ID对于每条记录都是唯一的. 根据
..
我不希望我在ADF管道中的复制数据活动覆盖blob文件,而是将新数据附加到该文件中.但是ADF仅支持Blockblob,是否可以将数据追加到现有文件中? 解决方案 您可以使用 请注意,主体只能支持JSON对象或JSON值,JSON数组是固定的,但不支持非JSON值.对于这种解决方法,您可以使用Azure函数作为终结点,可以在其中附加文件或任何所需的内容.
..
我需要设计一个ADF管道,以将在名为“当前"的特定Blob存储文件夹路径上创建的CSV文件复制到SQL表.成功复制后,我将不得不将文件移动到存档文件夹. 我已经完成的事情:我正在使用“复制数据活动",该活动可以复制CSV文件并将其加载到我的SQL表中.成功后,另一个复制数据活动会将CSV文件从“当前"文件夹复制到“存档",此后,我将执行删除活动,将其从当前文件夹中删除. 问题:如果一次
..