azure-data-lake相关内容

在数据库中使用Python日志记录模块将日志写入Azure数据记录不起作用

我正在尝试将我自己的日志文件写入到数据库中的Python-Notebook中的Azure Datalake Gen 2。我正试图通过使用Python日志记录模块来实现这一点。 不幸的是,我无法让它工作。不会引发错误,也不会创建文件夹,但不会创建包含日志记录内容的文件。即使文件存在,也不会写入任何内容。 本地Python脚本运行正常,但我无法使其在Databricks中运行。 以下 ..
发布时间:2022-09-04 20:58:53 Python

Databricks dBFS是否支持文件元数据,如文件/文件夹创建日期或修改日期

我试图在Databricks笔记本中的一个目录中爬行,以查找最新的拼花地板文件。Dbfsutils.fs.ls似乎不支持有关文件或文件夹的任何元数据。在Python中有没有其他方法可以做到这一点?这些数据存储在装载到dBFS的“/mnt/foo”下的一个蔚蓝数据湖中。如有任何帮助或指示,我们将不胜感激。 推荐答案 据我所知,在Azure数据库上,dBFS路径dbfs:/mnt/foo与 ..
发布时间:2022-08-11 19:05:51 Python

逻辑应用程序Azure数据湖上载文件操作-大文件无法上载,状态代码为413

我正在尝试使用逻辑应用程序的Azure数据湖上载文件操作将文件上载到Azure数据湖。对于大约20MB的小文件,它工作得很好。但28 MB或更大的文件失败,状态代码为413-请求实体太大。 我还在上载文件操作中启用了分块。有什么解决方案吗? 推荐答案 感谢您的回复。 我有一个变通办法。我的场景涉及从SharePoint Online获取文件并上传到Azure Data La ..
发布时间:2022-05-18 21:46:39 其他开发

如何配置虚拟机以将其事件日志提供给App Insights或数据湖?

我们希望将Azure云计算审核日志添加到Data Lake。对于虚拟机,这些将是事件日志,并且包括一次历史记录和持续记录。我们希望这样做是为了进行审计。我们是否可以为此启用一个选项?我们正在努力避免手动输入这些数据,提取数据,然后自己加载数据。因此,如果有合适的选项,那将是最理想的!! 我研究了ETW Events的可能性,但这不是只在应用程序级别有用而不是在VM级别有用吗? 我还查看 ..

从REST API获取数据并将其存储在Azure Data Lake中

从rest API获取数据并将其作为JSON存储在Azure数据湖中有意义吗?还是应该将数据直接存储到Azure SQL中? 我已经尝试了这两种方法,但不清楚在哪种情况下将数据保存到Azure Data Lake是值得的。 推荐答案 是的,这是一种非常正常的模式,特别是在收集大量数据时。写入数据库是很棒的但至少有两个方面需要考虑: 写入时架构-您必须在写入数据库之前知道架构 ..
发布时间:2022-04-04 18:55:43 其他开发

如何在Azure Data Factory中的复制活动中向文件名添加日期?

我正在从Azure Data Factory的SFTP中提取文件夹,此文件夹将始终具有相同的名称,因此我在复制活动中明确指定了它,但我正在尝试如何将其被复制的日期添加到当前文件名中。该文件夹从SFTP中取出并存储在ADLS Gen2中。下面附加的是拷贝活动和源数据集。 推荐答案 在接收器数据集中,您可以在文件名中使用类似以下内容: @concat('EmailTrackingEx ..
发布时间:2022-04-04 18:09:08 其他开发

如何使用映射数据流扁平化数据湖中JSON字符串列的层次结构

我在data Lake的容器中有CSV文件,我正在尝试将文件中的属性列(在json中)转换为多个列。当我尝试使用数据流来执行此操作时,它将属性列识别为字符串,并且我无法将其更改为数组,以便我可以对其进行展平或从中创建派生列。我是不是做错了什么 CSV文件格式: ID 名称 属性 123 测试 {";Referrer URL&Quot;:空,&Quot;查询参数&Quot;:&Quo ..

获取文件夹中最新添加的文件[Azure Data Factory]

在数据湖里,我们有一个文件夹,基本上包含了每天由外部来源推送的文件。但是,我们只想处理该文件夹中最新添加的文件。 使用Azure Data Factory有什么方法可以实现这一点吗? 推荐答案 您可以设置modifiedDatetimeStart and modifiedDatetimeEnd在复制活动中使用ADLS连接器时筛选文件夹中的文件。 可能有两种情况: 1.数据是 ..

将设置变量活动的输出传输到json文件[Azure数据工厂]

在数据工厂中,是否可以将‘Set Variable’活动的输出记录为JSON文件? 推荐答案 据我所知,没有满足您需要的内置简单方法。 两种变通办法: 1.使用ADF中的EnableAzure Monitor diagnostic log将数据以JSON文件的形式记录到Azure Blob存储中。并且每个活动的execution details(contains outpu ..

如何将复制数据后的文件名/路径传递到ADF中的Azure函数

在当前管道中有一个复制数据步骤,该步骤将文件从sftp服务器复制到数据湖。 第二步是使用Azure函数处理新复制的数据。 因此,将文件名或文件路径传递给azure函数会更好。以便它可以从数据湖中读取/打开文件,并最终将处理后的数据存储在PostgreSQL中(在vNet内)。 例如,如何在正文中嵌入文件名或文件路径? 还有另一个选项使用BLOB存储/数据湖上的触发器。我稍微倾向于传递路 ..

在 python 中的 Azure Function 中从 Azure Blob 存储读取数据

当我启动我的函数应用程序时,如何从我的 Azure 存储帐户中读取数据.我需要在运行时为我的机器学习模型读取保存的权重.我想直接从存储帐户读取模型,因为模型预计每天都会更新,并且不想手动重新部署模型. 谢谢 解决方案 对于这个需求,你可以先进入你的存储 blob,然后点击“Generate SAS";生成“Blob SAS URL"(您还可以定义 url 的开始日期和到期日期). ..

在 python 中从 Azure Function 中的 Azure blob 存储读取数据

当我启动我的函数应用程序时,我如何从我的 Azure 存储帐户中读取数据.我需要在运行时读取为我的机器学习模型保存的权重.我想直接从存储帐户中读取模型,因为模型预计每天都会更新,并且不想手动重新部署模型. 谢谢 解决方案 对于此要求,您可以先转到存储 blob,然后单击“生成 SAS";生成“Blob SAS URL";(您还可以定义 url 的开始日期和到期日期). 启动函数 ..

Azure 数据湖中的 U-SQL 输出

如果我不知道表包含多少个不同的键值,是否可以根据列值自动将表拆分为多个文件?是否可以将键值放入文件名中? 解决方案 这是我们的 top ask(之前已经也在 stackoverflow 上询问 :).我们目前正在研究它,希望能在夏天推出. 在那之前,您必须编写一个脚本生成器.我倾向于使用 U-SQL 来生成脚本,但您可以使用 Powershell 或 T4 等来完成. 这是一个例子 ..
发布时间:2021-12-06 18:07:25 其他开发

Azure 数据湖的 Spark 谓词下推、过滤和分区修剪

我一直在阅读有关 Spark 谓词下推和分区修剪的信息,以了解读取的数据量.我有以下与此相关的疑问 假设我有一个包含列的数据集(年份:Int,SchoolName:String,StudentId:Int,SubjectEnrolled:String)其中磁盘上存储的数据按 Year 和 SchoolName 进行分区,并以 parquet 格式存储在 azure 数据湖存储中. 1) ..

如何配置flink来理解Azure Data Lake文件系统?

我正在使用flink从Azure数据湖读取数据.但是flink无法找到Azure数据湖文件系统.如何配置flink以了解Azure Data Lake文件系统.有人可以指导我吗? 解决方案 Flink 能够连接到任何 Hadoop 兼容的文件系统(即实现 org.apache.hadoop.fs.FileSystem).请参阅此处的说明:https://ci.apache.org/proj ..
发布时间:2021-11-12 01:17:24 其他开发

如何使用java azure-storage-file-datalake复制Azure存储文件/目录

我使用 azure-storage-file-datalake对于Java在我的Azure存储帐户上进行文件系统操作,我可以打开文件,删除甚至重命名/移动文件或目录. 我找不到将文件/文件夹复制到其他位置的任何方法. 这就是我重命名/移动文件/目录的方式: DataLakeServiceClient storageClient = new DataLakeServiceClient ..

在U-SQL中将数据附加到现有文件中

我们可以在U-SQL的现有文件中追加数据吗?我已经在U-SQL中创建了一个CSV文件作为输出.我正在编写另一个U-SQL查询,我想将该查询的输出附加到现有文件中.有可能吗? 解决方案 不支持它,并且与健壮,分布式,幂等大数据系统的设计背道而驰(尽管您可以通过读取先前的输出来实现该行为:行集并执行UNION ALL. 处理此问题的最佳方法是正确使用分区,例如,为每个执行创建一个或多个新 ..
发布时间:2021-04-13 20:28:50 其他开发

如何在U-SQL中引发错误或引发异常?

在U-Sql脚本中引发错误或异常的机制是什么?我有一个正在处理CSV文件的场景,如果发现重复文件,则需要放弃处理. 在SQL中,我可以执行 raiseerror ,它在U-Sql中的等效方法是什么? 解决方案 创建一个c#函数以引发自定义错误(或输出到文件): DECLARE @RaiseError Func=(错误)=>{抛出新的异常(错误);返回0; ..
发布时间:2021-04-13 20:28:47 其他开发