azure-data-lake 第2页 - IT屋-程序员软件开发技术分享社区

使用Azure函数处理Azure Datalake存储文件

我会定期获取Azure Datalake存储中特定文件夹中的文件.一旦文件出现，我想使用Azure函数进一步处理它.那可能吗? 解决方案更新:使用已知问题和差异，已记录. 由于这些差异，我相信我们不能使用可用于Blob存储或事件网格的现有绑定. 但是，例如，您仍然可以具有由计时器触发的功能，并使用 HDInsight ， SQL数据仓库. ..

发布时间：2021-04-13 20:28:44 azure-functions azure-data-lake 其他开发

如何将Azure机器学习批量评分结果写入Data Lake?

我正在尝试将批评分的输出写入datalake: parallel_step_name ="batchscoring-"+ datetime.now().strftime(“％Y％m％d％H％M")output_dir = PipelineData(name =“分数"，datastore = def_ADL_store，output_mode =“上传"，output_path_on_comp ..

发布时间：2021-04-13 20:28:42 azure-data-lake azure-machine-learning-service 其他开发

适用于Azure Service Bus的EventGridTrigger主题

我基于EventGrid触发器创建了一个Azure函数.每当有新消息到达服务总线主题时，就会触发该触发器.下面是生成的功能模板使用Newtonsoft.Json;使用Newtonsoft.Json.Linq;公共静态无效运行(JObject eventGridEvent，TraceWriter日志){log.Info(eventGridEvent.ToString(Formatting.Ind ..

发布时间：2021-04-13 20:28:38 azure-functions azure-data-lake azure-servicebus-topics azure-eventgrid 其他开发

直接在Azure Datalake中将Python Dataframe写入CSV文件

我已将一个excel文件导入到pandas数据框中，并已完成数据探索和清理过程. 我现在想将清理后的数据帧写到csv文件中，再回到Azure DataLake，而不必先将其保存为本地文件.我正在使用熊猫3. 我的代码如下: 令牌= lib.auth(tenant_id =``，client_secret =''，client_id ='')adl = core.AzureDLFile ..

发布时间：2021-04-13 20:28:35 python azure-data-lake Python

Azure数据工厂-从Data Lake Gen 2 JSON文件提取信息

我有一个ADF管道将原始日志数据作为JSON文件加载到Data Lake Gen 2容器中. 我们现在想从这些JSON文件中提取信息，而我正在尝试找到从所述文件中获取信息的最佳方法.我发现Azure Data Lake Analytics和U-SQL脚本功能强大且价格便宜，但它们需要陡峭的学习曲线. 是否有推荐的方法来解析JSON文件并从中提取信息?Data Lake表是否足以存储此提 ..

发布时间：2021-04-13 20:28:10 json azure-data-factory-2 azure-data-lake azure-data-lake-gen2 其他开发

Azure数据工厂:设置限制以使用“复制"活动复制文件数

我的管道中有一个复制活动，用于从第2代Azure数据中复制文件.源位置可能有1000个文件，并且文件需要复制，但是我们需要设置所需文件数的限制被复制.ADF中是否有任何选项可以实现相同的限制自定义活动? 例如:我在Data Lake中有2000个文件，但是在运行管道时，我应该能够传递一个参数以仅复制500个文件. 关于，桑迪普解决方案我认为您可以将lookup活动与for每 ..

发布时间：2021-04-13 20:27:48 azure-data-factory azure-data-lake azure-data-factory-2 其他开发

通过REST API将数据追加到Azure Data Lake存储中的现有文件

我已经设置了从REST API提取数据并将其放入ADLS存储gen1的管道，我还看到了生成的文件 REST API> ADF管道(获取承载令牌+复制活动)> ADLS 但是当从该API传入新数据时，数据将替换该文件中的当前内容，而不是每次都在最后一行附加我需要提供任何动态操作或其他方法吗?有人可以让我朝正确的方向前进吗. 注意:我可以看到文件中的内容，完全没有错误 ..

发布时间：2021-04-13 20:27:36 rest azure-data-factory azure-data-lake 其他开发

将具有Gen1属性的文件从Gen1 Azur湖复制到Azur Gen2湖(如上次更新)

我需要将所有数据从Azur数据第1代湖迁移到第2代湖.在我的湖中，我们混合了不同类型的文件(.txt，.zip，.json和许多其他文件).我们想将它们原样移动到GEN2湖.除此之外，我们还希望维护所有文件的最新更新时间，即GEN1 lake. 我一直在考虑将ADF用于此用例.但是为此，我们需要定义数据集，并定义数据集，我们必须定义数据格式(Avro，json，xml，二进制等).由于混合了 ..

发布时间：2021-04-13 20:26:57 azure azure-data-factory azure-data-lake azure-data-factory-2 azure-data-lake-gen2 其他开发

使用Azure数据工厂将压缩的XML文件从HTTP链接源复制和提取到Azure Blob存储

我正在尝试建立Azure Data Factory复制数据管道.源是开放的HTTP链接源(网址参考: https://clinicaltrials.gov/AllPublicXML.zip).因此，基本上，源包含一个包含许多XML文件的压缩文件夹.我想使用Azure Data Factory解压缩提取的XML文件并将其保存在Azure Blob存储中.我试图遵循此处提到的配置:如何在Azure D ..

发布时间：2021-04-13 20:26:13 azure azure-data-factory azure-data-factory-2 azure-data-lake data-pipeline 其他开发

有什么方法可以对Azure数据流中不同数量的列进行自定义动态映射，或者可以通过其他任何方法来实现此目的?

我的来源(ADLS中的CSV文件)具有标头记录(3列)，详细记录(5列)和尾部记录(2列).标题记录的列数少于详细信息记录的列数.当我尝试将此csv文件转换为镶木地板时，我在ADF中使用复制活动获取列数错误.因此，我尝试使用数据流进行映射，但仍仅考虑三列，而忽略了详细记录中的其他两列.因此，请让我知道如何使用数据流或任何其他Azure服务来实现这一目标. 样本数据 1 |〜文件名|〜30 ..

发布时间：2021-04-13 20:25:53 azure-data-factory azure-data-factory-2 azure-data-lake azure-databricks 其他开发

在Azure Databricks中读取日期范围之间的镶木地板文件的有效方法

我想知道下面的伪代码是否是从PySpark(Azure Databricks)读取存储在Azure Data Lake中的日期范围之间的多个实木复合地板文件的有效方法.注意:实木复合地板文件不会按日期分区. 我正在使用uat/EntityName/2019/01/01/EntityName_2019_01_01_HHMMSS.parquet约定将数据存储在ADL中，如Nathan Marz在 ..

发布时间：2021-04-13 20:25:44 azure-data-lake databricks azure-databricks 其他开发

如何在Azure数据工厂管道中添加验证以检查文件大小?

我有多个数据源，我想在加载到表中之前在azure数据工厂中添加一个验证，它应该检查文件大小，以便它不为空.因此，如果文件大小超过10 kb，或者文件大小不为空，则应开始加载；如果文件为空，则应不开始加载.我在Azure数据工厂中检查了验证活动，但未显示文件夹中多个文件的大小.如果我可以添加任何python笔记本进行此验证，基本上任何赞赏的建议也都可以. 解决方案下面的GIF显示了有关如何 ..

发布时间：2021-04-13 20:25:29 azure pyspark azure-data-factory azure-data-lake azure-databricks 其他开发

使用自动加载器从AWS S3加载到Azure Datalake时的增量表事务保证

尝试使用自动加载器，其中AWS S3是源，而Delta Lake在Azure Datalake Gen中.当我尝试读取文件时，出现以下错误从非AWS写入AWS上的Delta表在提供交易担保方面是不安全的.如果可以保证没有其他人会同时修改同一个Delta表，则可以通过设置SparkConf来关闭此检查:启动集群时为false. 尝试在集群级别设置设置，并且工作正常.我的问题是，有什么方 ..

发布时间：2021-04-13 20:25:26 amazon-s3 databricks azure-databricks azure-data-lake delta-lake 其他开发

如何重命名Azure中保存在数据湖上的文件

我尝试使用数据砖中的scala在Datalake中合并两个文件，并使用以下代码将其保存回Datalake: val df = sqlContext.read.format("com.databricks.spark.csv").option("header"，"true").option("inferSchema"，"true").load("adl://xxxxxxxx/Test/CSV") ..

发布时间：2021-04-13 20:25:23 scala azure-data-lake azure-databricks 其他开发

Azure数据湖的Azure函数绑定(Python)

我有一个需求，例如我想从Azure函数连接到我的Azure数据湖v2(ADLS)，读取文件，使用python(pyspark)处理它，然后再次将其写入Azure数据湖.因此，我的输入和输出绑定将是ADLS.python中是否有用于Azure函数的ADLS绑定?有人可以对此提出任何建议吗? 谢谢，安藤D 解决方案更新: 1，当我们读取数据时，可以使用blob输入绑定. 2 ..

发布时间：2021-04-13 19:47:08 python azure azure-functions azure-data-lake Python

如何在Databricks工作区中使用python获取Azure Datalake存储中存在的每个文件的最后修改时间?

我正在尝试获取蔚蓝数据湖中每个文件的最后修改时间. 文件= dbutils.fs.ls('/mnt/blob') 文件中的fi:打印(FI) 输出:-FileInfo(路径='dbfs:/mnt/blob/rule_sheet_recon.xlsx'，名称='rule_sheet_recon.xlsx'，大小= 10843) 在这里，我无法获取文件的最后修改时间.有没有办法 ..

发布时间：2021-04-13 19:07:51 python azure azure-data-lake azure-databricks Python

用于访问Azure Data Lake Store的Python代码

我正在查看Microsoft文档此处和 https://docs.microsoft.com/zh-CN/azure/data-lake-store/data-lake-store-service-to-service-service-authenticate-using-active-directory#create-an-active-directory-application 来自azure ..

发布时间：2021-04-13 18:59:07 python azure azure-active-directory azure-data-lake Python

使用U-SQL查询JSON嵌套对象

我正在尝试从下面获取国家和类别. 我可以获取国家/地区信息，而不是类别. 示例输入: [{ "context": { "location": { "clientip": "0.0.0.0", "continent": "Asia", "country": "Singapore" ..

发布时间：2020-09-17 00:10:05 azure azure-data-lake u-sql 其他开发

如何结合不同的模式

我正在使用自定义输出从我的“平面数据"生成XML，如下所示: SELECT *.. OUTPUT @all_data TO "/patient/{ID}.tsv" USING new Microsoft.Analytics.Samples.Formats.Xml.XmlOutputter("Patient"); 哪个会生成如下所示的单个文件: 5 ..

发布时间：2020-09-17 00:08:56 azure-data-lake u-sql 其他开发

Azure的CDN - 原产地主机时产地型号选择不显示的是存储

当我尝试将“原始类型"配置为“存储"时，Azure数据湖存储主机名未显示在下拉菜单中解决方案 Azure CDN配置文件的来源类型为:存储，Web App，云服务和自定义来源.当前没有Azure Data Lake.而且Azure Data Lake Store仍在预览中.如果您有任何功能要求，请在 Azure反馈论坛中提交. ..

发布时间：2020-09-17 00:08:52 azure azure-storage azure-cdn azure-data-lake 其他开发

azure-data-lake相关内容