azure-data-lake - IT屋-程序员软件开发技术分享社区

在数据库中使用Python日志记录模块将日志写入Azure数据记录不起作用

我正在尝试将我自己的日志文件写入到数据库中的Python-Notebook中的Azure Datalake Gen 2。我正试图通过使用Python日志记录模块来实现这一点。不幸的是，我无法让它工作。不会引发错误，也不会创建文件夹，但不会创建包含日志记录内容的文件。即使文件存在，也不会写入任何内容。本地Python脚本运行正常，但我无法使其在Databricks中运行。以下 ..

发布时间：2022-09-04 20:58:53 python azure logging azure-data-lake azure-databricks Python

Databricks dBFS是否支持文件元数据，如文件/文件夹创建日期或修改日期

我试图在Databricks笔记本中的一个目录中爬行，以查找最新的拼花地板文件。Dbfsutils.fs.ls似乎不支持有关文件或文件夹的任何元数据。在Python中有没有其他方法可以做到这一点？这些数据存储在装载到dBFS的“/mnt/foo”下的一个蔚蓝数据湖中。如有任何帮助或指示，我们将不胜感激。推荐答案据我所知，在Azure数据库上，dBFS路径dbfs:/mnt/foo与 ..

发布时间：2022-08-11 19:05:51 python databricks azure-data-lake Python

Azure Data Lake Gen2是否提供WebHDFS REST API？

如果没有，是否可以使用HDInsight中的WebHDFS API与第二代ADL连接？推荐答案遗憾的是，第二代ADLS不提供WebHDFS REST API。 Azure Data Lake Gen1具有与WebHDFS兼容的REST API，其中Azure Data Lake Gen2具有Azure Blob Service REST API。引用：ADLS Gen ..

发布时间：2022-07-01 17:38:15 azure azure-storage azure-data-lake azure-hdinsight 其他开发

逻辑应用程序Azure数据湖上载文件操作-大文件无法上载，状态代码为413

我正在尝试使用逻辑应用程序的Azure数据湖上载文件操作将文件上载到Azure数据湖。对于大约20MB的小文件，它工作得很好。但28 MB或更大的文件失败，状态代码为413-请求实体太大。我还在上载文件操作中启用了分块。有什么解决方案吗？推荐答案感谢您的回复。我有一个变通办法。我的场景涉及从SharePoint Online获取文件并上传到Azure Data La ..

发布时间：2022-05-18 21:46:39 azure azure-logic-apps azure-data-lake 其他开发

如何配置虚拟机以将其事件日志提供给App Insights或数据湖？

我们希望将Azure云计算审核日志添加到Data Lake。对于虚拟机，这些将是事件日志，并且包括一次历史记录和持续记录。我们希望这样做是为了进行审计。我们是否可以为此启用一个选项？我们正在努力避免手动输入这些数据，提取数据，然后自己加载数据。因此，如果有合适的选项，那将是最理想的！！我研究了ETW Events的可能性，但这不是只在应用程序级别有用而不是在VM级别有用吗？我还查看 ..

发布时间：2022-05-09 16:20:14 azure-application-insights azure-virtual-machine azure-data-lake event-log azure-data-lake-gen2 其他开发

从REST API获取数据并将其存储在Azure Data Lake中

从rest API获取数据并将其作为JSON存储在Azure数据湖中有意义吗？还是应该将数据直接存储到Azure SQL中？我已经尝试了这两种方法，但不清楚在哪种情况下将数据保存到Azure Data Lake是值得的。推荐答案是的，这是一种非常正常的模式，特别是在收集大量数据时。写入数据库是很棒的但至少有两个方面需要考虑：写入时架构-您必须在写入数据库之前知道架构 ..

发布时间：2022-04-04 18:55:43 azure-data-factory azure-data-lake 其他开发

如何在Azure Data Factory中的复制活动中向文件名添加日期？

我正在从Azure Data Factory的SFTP中提取文件夹，此文件夹将始终具有相同的名称，因此我在复制活动中明确指定了它，但我正在尝试如何将其被复制的日期添加到当前文件名中。该文件夹从SFTP中取出并存储在ADLS Gen2中。下面附加的是拷贝活动和源数据集。推荐答案在接收器数据集中，您可以在文件名中使用类似以下内容： @concat('EmailTrackingEx ..

发布时间：2022-04-04 18:09:08 azure azure-data-factory azure-data-lake 其他开发

如何使用映射数据流扁平化数据湖中JSON字符串列的层次结构

我在data Lake的容器中有CSV文件，我正在尝试将文件中的属性列(在json中)转换为多个列。当我尝试使用数据流来执行此操作时，它将属性列识别为字符串，并且我无法将其更改为数组，以便我可以对其进行展平或从中创建派生列。我是不是做错了什么 CSV文件格式： ID 名称属性 123 测试 {"；Referrer URL&Quot；：空，&Quot；查询参数&Quot；：&Quo ..

发布时间：2022-04-04 17:48:16 azure-data-factory azure-data-lake azure-data-lake-gen2 其他开发

获取文件夹中最新添加的文件[Azure Data Factory]

在数据湖里，我们有一个文件夹，基本上包含了每天由外部来源推送的文件。但是，我们只想处理该文件夹中最新添加的文件。使用Azure Data Factory有什么方法可以实现这一点吗？推荐答案您可以设置modifiedDatetimeStart and modifiedDatetimeEnd在复制活动中使用ADLS连接器时筛选文件夹中的文件。可能有两种情况： 1.数据是 ..

发布时间：2022-04-04 16:45:27 azure azure-data-factory azure-data-lake last-modified 其他开发

将设置变量活动的输出传输到json文件[Azure数据工厂]

在数据工厂中，是否可以将‘Set Variable’活动的输出记录为JSON文件？推荐答案据我所知，没有满足您需要的内置简单方法。两种变通办法： 1.使用ADF中的EnableAzure Monitor diagnostic log将数据以JSON文件的形式记录到Azure Blob存储中。并且每个活动的execution details(contains outpu ..

发布时间：2022-04-04 16:40:36 json azure-data-factory azure-data-lake azure-data-factory-2 其他开发

如何将复制数据后的文件名/路径传递到ADF中的Azure函数

在当前管道中有一个复制数据步骤，该步骤将文件从sftp服务器复制到数据湖。第二步是使用Azure函数处理新复制的数据。因此，将文件名或文件路径传递给azure函数会更好。以便它可以从数据湖中读取/打开文件，并最终将处理后的数据存储在PostgreSQL中(在vNet内)。例如，如何在正文中嵌入文件名或文件路径？还有另一个选项使用BLOB存储/数据湖上的触发器。我稍微倾向于传递路 ..

发布时间：2022-03-31 12:24:27 azure azure-functions etl azure-data-factory azure-data-lake 其他开发

在 python 中的 Azure Function 中从 Azure Blob 存储读取数据

当我启动我的函数应用程序时，如何从我的 Azure 存储帐户中读取数据.我需要在运行时为我的机器学习模型读取保存的权重.我想直接从存储帐户读取模型，因为模型预计每天都会更新，并且不想手动重新部署模型. 谢谢解决方案对于这个需求，你可以先进入你的存储 blob，然后点击“Generate SAS"；生成“Blob SAS URL"(您还可以定义 url 的开始日期和到期日期). ..

发布时间：2022-01-17 16:04:54 azure-devops azure-functions azure-data-lake azure-blob-storage azure-function-app 其他开发

用于访问 Azure Data Lake Store 的 Python 代码

我正在查看 Microsoft 文档这里和这里，我在 Azure Active Directory 中创建了 Web 应用程序来访问 Data Lake Store 在 Web 应用中，我有 Object ID、Application ID 和 Key 查看我看到的文档: adlCreds = lib.auth(tenant_id = 'FILL-IN-HERE', clien ..

发布时间：2022-01-08 19:41:56 python azure azure-active-directory azure-data-lake Python

在 python 中从 Azure Function 中的 Azure blob 存储读取数据

当我启动我的函数应用程序时，我如何从我的 Azure 存储帐户中读取数据.我需要在运行时读取为我的机器学习模型保存的权重.我想直接从存储帐户中读取模型，因为模型预计每天都会更新，并且不想手动重新部署模型. 谢谢解决方案对于此要求，您可以先转到存储 blob，然后单击“生成 SAS"；生成“Blob SAS URL"；(您还可以定义 url 的开始日期和到期日期). 启动函数 ..

发布时间：2021-12-26 17:50:32 azure-devops azure-functions azure-data-lake azure-blob-storage azure-function-app 其他开发

Azure 数据湖中的 U-SQL 输出

如果我不知道表包含多少个不同的键值，是否可以根据列值自动将表拆分为多个文件?是否可以将键值放入文件名中? 解决方案这是我们的 top ask(之前已经也在 stackoverflow 上询问 :).我们目前正在研究它，希望能在夏天推出. 在那之前，您必须编写一个脚本生成器.我倾向于使用 U-SQL 来生成脚本，但您可以使用 Powershell 或 T4 等来完成. 这是一个例子 ..

发布时间：2021-12-06 18:07:25 azure output azure-data-lake u-sql data-partitioning 其他开发

Azure 数据湖的 Spark 谓词下推、过滤和分区修剪

我一直在阅读有关 Spark 谓词下推和分区修剪的信息，以了解读取的数据量.我有以下与此相关的疑问假设我有一个包含列的数据集(年份:Int，SchoolName:String，StudentId:Int，SubjectEnrolled:String)其中磁盘上存储的数据按 Year 和 SchoolName 进行分区，并以 parquet 格式存储在 azure 数据湖存储中. 1) ..

发布时间：2021-11-14 22:00:32 azure apache-spark apache-spark-sql azure-data-lake apache-spark-dataset 其他开发

如何配置flink来理解Azure Data Lake文件系统?

我正在使用flink从Azure数据湖读取数据.但是flink无法找到Azure数据湖文件系统.如何配置flink以了解Azure Data Lake文件系统.有人可以指导我吗? 解决方案 Flink 能够连接到任何 Hadoop 兼容的文件系统(即实现 org.apache.hadoop.fs.FileSystem).请参阅此处的说明:https://ci.apache.org/proj ..

发布时间：2021-11-12 01:17:24 apache-flink azure-data-lake 其他开发

如何使用java azure-storage-file-datalake复制Azure存储文件/目录

我使用 azure-storage-file-datalake对于Java在我的Azure存储帐户上进行文件系统操作，我可以打开文件，删除甚至重命名/移动文件或目录. 我找不到将文件/文件夹复制到其他位置的任何方法. 这就是我重命名/移动文件/目录的方式: DataLakeServiceClient storageClient = new DataLakeServiceClient ..

发布时间：2021-04-13 20:28:53 java azure azure-storage azure-data-lake azure-storage-files Java开发

在U-SQL中将数据附加到现有文件中

我们可以在U-SQL的现有文件中追加数据吗?我已经在U-SQL中创建了一个CSV文件作为输出.我正在编写另一个U-SQL查询，我想将该查询的输出附加到现有文件中.有可能吗? 解决方案不支持它，并且与健壮，分布式，幂等大数据系统的设计背道而驰(尽管您可以通过读取先前的输出来实现该行为:行集并执行UNION ALL. 处理此问题的最佳方法是正确使用分区，例如，为每个执行创建一个或多个新 ..

发布时间：2021-04-13 20:28:50 azure-data-lake u-sql 其他开发

如何在U-SQL中引发错误或引发异常?

在U-Sql脚本中引发错误或异常的机制是什么?我有一个正在处理CSV文件的场景，如果发现重复文件，则需要放弃处理. 在SQL中，我可以执行 raiseerror ，它在U-Sql中的等效方法是什么? 解决方案创建一个c#函数以引发自定义错误(或输出到文件): DECLARE @RaiseError Func=(错误)=>{抛出新的异常(错误)；返回0; ..

发布时间：2021-04-13 20:28:47 azure-data-lake u-sql 其他开发

azure-data-lake相关内容