azure-data-lake相关内容

使用Azure函数处理Azure Datalake存储文件

我会定期获取Azure Datalake存储中特定文件夹中的文件.一旦文件出现,我想使用Azure函数进一步处理它.那可能吗? 解决方案 更新:使用已知问题和差异,已记录. 由于这些差异,我相信我们不能使用可用于Blob存储或事件网格的现有绑定. 但是,例如,您仍然可以具有由计时器触发的功能,并使用 HDInsight , SQL数据仓库. ..
发布时间:2021-04-13 20:28:44 其他开发

直接在Azure Datalake中将Python Dataframe写入CSV文件

我已将一个excel文件导入到pandas数据框中,并已完成数据探索和清理过程. 我现在想将清理后的数据帧写到csv文件中,再回到Azure DataLake,而不必先将其保存为本地文件.我正在使用熊猫3. 我的代码如下: 令牌= lib.auth(tenant_id =``,client_secret ='',client_id ='')adl = core.AzureDLFile ..
发布时间:2021-04-13 20:28:35 Python

Azure数据工厂-从Data Lake Gen 2 JSON文件提取信息

我有一个ADF管道将原始日志数据作为JSON文件加载到Data Lake Gen 2容器中. 我们现在想从这些JSON文件中提取信息,而我正在尝试找到从所述文件中获取信息的最佳方法.我发现Azure Data Lake Analytics和U-SQL脚本功能强大且价格便宜,但它们需要陡峭的学习曲线. 是否有推荐的方法来解析JSON文件并从中提取信息?Data Lake表是否足以存储此提 ..

Azure数据工厂:设置限制以使用“复制"活动复制文件数

我的管道中有一个复制活动,用于从第2代Azure数据中复制文件.源位置可能有1000个文件,并且文件需要复制,但是我们需要设置所需文件数的限制被复制.ADF中是否有任何选项可以实现相同的限制自定义活动? 例如:我在Data Lake中有2000个文件,但是在运行管道时,我应该能够传递一个参数以仅复制500个文件. 关于,桑迪普 解决方案 我认为您可以将lookup活动与for每 ..

通过REST API将数据追加到Azure Data Lake存储中的现有文件

我已经设置了从REST API提取数据并将其放入ADLS存储gen1的管道,我还看到了生成的文件 REST API> ADF管道(获取承载令牌+复制活动)> ADLS 但是当从该API传入新数据时,数据将替换该文件中的当前内容,而不是每次都在最后一行附加 我需要提供任何动态操作或其他方法吗?有人可以让我朝正确的方向前进吗. 注意:我可以看到文件中的内容,完全没有错误 ..
发布时间:2021-04-13 20:27:36 其他开发

将具有Gen1属性的文件从Gen1 Azur湖复制到Azur Gen2湖(如上次更新)

我需要将所有数据从Azur数据第1代湖迁移到第2代湖.在我的湖中,我们混合了不同类型的文件(.txt,.zip,.json和许多其他文件).我们想将它们原样移动到GEN2湖.除此之外,我们还希望维护所有文件的最新更新时间,即GEN1 lake. 我一直在考虑将ADF用于此用例.但是为此,我们需要定义数据集,并定义数据集,我们必须定义数据格式(Avro,json,xml,二进制等).由于混合了 ..

使用Azure数据工厂将压缩的XML文件从HTTP链接源复制和提取到Azure Blob存储

我正在尝试建立Azure Data Factory复制数据管道.源是开放的HTTP链接源(网址参考: https://clinicaltrials.gov/AllPublicXML.zip).因此,基本上,源包含一个包含许多XML文件的压缩文件夹.我想使用Azure Data Factory解压缩提取的XML文件并将其保存在Azure Blob存储中.我试图遵循此处提到的配置:如何在Azure D ..

有什么方法可以对Azure数据流中不同数量的列进行自定义动态映射,或者可以通过其他任何方法来实现此目的?

我的来源(ADLS中的CSV文件)具有标头记录(3列),详细记录(5列)和尾部记录(2列).标题记录的列数少于详细信息记录的列数.当我尝试将此csv文件转换为镶木地板时,我在ADF中使用复制活动获取列数错误.因此,我尝试使用数据流进行映射,但仍仅考虑三列,而忽略了详细记录中的其他两列.因此,请让我知道如何使用数据流或任何其他Azure服务来实现这一目标. 样本数据 1 |〜文件名|〜30 ..

在Azure Databricks中读取日期范围之间的镶木地板文件的有效方法

我想知道下面的伪代码是否是从PySpark(Azure Databricks)读取存储在Azure Data Lake中的日期范围之间的多个实木复合地板文件的有效方法.注意:实木复合地板文件不会按日期分区. 我正在使用uat/EntityName/2019/01/01/EntityName_2019_01_01_HHMMSS.parquet约定将数据存储在ADL中,如Nathan Marz在 ..
发布时间:2021-04-13 20:25:44 其他开发

如何在Azure数据工厂管道中添加验证以检查文件大小?

我有多个数据源,我想在加载到表中之前在azure数据工厂中添加一个验证,它应该检查文件大小,以便它不为空.因此,如果文件大小超过10 kb,或者文件大小不为空,则应开始加载;如果文件为空,则应不开始加载.我在Azure数据工厂中检查了验证活动,但未显示文件夹中多个文件的大小.如果我可以添加任何python笔记本进行此验证,基本上任何赞赏的建议也都可以. 解决方案 下面的GIF显示了有关如何 ..

使用自动加载器从AWS S3加载到Azure Datalake时的增量表事务保证

尝试使用自动加载器,其中AWS S3是源,而Delta Lake在Azure Datalake Gen中.当我尝试读取文件时,出现以下错误 从非AWS写入AWS上的Delta表在提供交易担保方面是不安全的.如果可以保证没有其他人会同时修改同一个Delta表,则可以通过设置SparkConf来关闭此检查:启动集群时为false. 尝试在集群级别设置设置,并且工作正常.我的问题是,有什么方 ..

Azure数据湖的Azure函数绑定(Python)

我有一个需求,例如我想从Azure函数连接到我的Azure数据湖v2(ADLS),读取文件,使用python(pyspark)处理它,然后再次将其写入Azure数据湖.因此,我的输入和输出绑定将是ADLS.python中是否有用于Azure函数的ADLS绑定?有人可以对此提出任何建议吗? 谢谢,安藤D 解决方案 更新: 1,当我们读取数据时,可以使用blob输入绑定. 2 ..
发布时间:2021-04-13 19:47:08 Python

如何在Databricks工作区中使用python获取Azure Datalake存储中存在的每个文件的最后修改时间?

我正在尝试获取蔚蓝数据湖中每个文件的最后修改时间. 文件= dbutils.fs.ls('/mnt/blob') 文件中的fi:打印(FI) 输出:-FileInfo(路径='dbfs:/mnt/blob/rule_sheet_recon.xlsx',名称='rule_sheet_recon.xlsx',大小= 10843) 在这里,我无法获取文件的最后修改时间.有没有办法 ..
发布时间:2021-04-13 19:07:51 Python

如何结合不同的模式

我正在使用自定义输出从我的“平面数据"生成XML,如下所示: SELECT *.. OUTPUT @all_data TO "/patient/{ID}.tsv" USING new Microsoft.Analytics.Samples.Formats.Xml.XmlOutputter("Patient"); 哪个会生成如下所示的单个文件: 5 ..
发布时间:2020-09-17 00:08:56 其他开发

Azure的CDN - 原产地主机时产地型号选择不显示的是存储

当我尝试将“原始类型"配置为“存储"时,Azure数据湖存储主机名未显示在下拉菜单中 解决方案 Azure CDN配置文件的来源类型为:存储,Web App,云服务和自定义来源.当前没有Azure Data Lake.而且Azure Data Lake Store仍在预览中.如果您有任何功能要求,请在 Azure反馈论坛中提交. ..
发布时间:2020-09-17 00:08:52 其他开发