azure-data-lake相关内容
我正在尝试将我自己的日志文件写入到数据库中的Python-Notebook中的Azure Datalake Gen 2。我正试图通过使用Python日志记录模块来实现这一点。 不幸的是,我无法让它工作。不会引发错误,也不会创建文件夹,但不会创建包含日志记录内容的文件。即使文件存在,也不会写入任何内容。 本地Python脚本运行正常,但我无法使其在Databricks中运行。 以下
..
我试图在Databricks笔记本中的一个目录中爬行,以查找最新的拼花地板文件。Dbfsutils.fs.ls似乎不支持有关文件或文件夹的任何元数据。在Python中有没有其他方法可以做到这一点?这些数据存储在装载到dBFS的“/mnt/foo”下的一个蔚蓝数据湖中。如有任何帮助或指示,我们将不胜感激。 推荐答案 据我所知,在Azure数据库上,dBFS路径dbfs:/mnt/foo与
..
如果没有,是否可以使用HDInsight中的WebHDFS API与第二代ADL连接? 推荐答案 遗憾的是,第二代ADLS不提供WebHDFS REST API。 Azure Data Lake Gen1具有与WebHDFS兼容的REST API,其中Azure Data Lake Gen2具有Azure Blob Service REST API。 引用:ADLS Gen
..
我正在尝试使用逻辑应用程序的Azure数据湖上载文件操作将文件上载到Azure数据湖。对于大约20MB的小文件,它工作得很好。但28 MB或更大的文件失败,状态代码为413-请求实体太大。 我还在上载文件操作中启用了分块。有什么解决方案吗? 推荐答案 感谢您的回复。 我有一个变通办法。我的场景涉及从SharePoint Online获取文件并上传到Azure Data La
..
我们希望将Azure云计算审核日志添加到Data Lake。对于虚拟机,这些将是事件日志,并且包括一次历史记录和持续记录。我们希望这样做是为了进行审计。我们是否可以为此启用一个选项?我们正在努力避免手动输入这些数据,提取数据,然后自己加载数据。因此,如果有合适的选项,那将是最理想的!! 我研究了ETW Events的可能性,但这不是只在应用程序级别有用而不是在VM级别有用吗? 我还查看
..
从rest API获取数据并将其作为JSON存储在Azure数据湖中有意义吗?还是应该将数据直接存储到Azure SQL中? 我已经尝试了这两种方法,但不清楚在哪种情况下将数据保存到Azure Data Lake是值得的。 推荐答案 是的,这是一种非常正常的模式,特别是在收集大量数据时。写入数据库是很棒的但至少有两个方面需要考虑: 写入时架构-您必须在写入数据库之前知道架构
..
我正在从Azure Data Factory的SFTP中提取文件夹,此文件夹将始终具有相同的名称,因此我在复制活动中明确指定了它,但我正在尝试如何将其被复制的日期添加到当前文件名中。该文件夹从SFTP中取出并存储在ADLS Gen2中。下面附加的是拷贝活动和源数据集。 推荐答案 在接收器数据集中,您可以在文件名中使用类似以下内容: @concat('EmailTrackingEx
..
我在data Lake的容器中有CSV文件,我正在尝试将文件中的属性列(在json中)转换为多个列。当我尝试使用数据流来执行此操作时,它将属性列识别为字符串,并且我无法将其更改为数组,以便我可以对其进行展平或从中创建派生列。我是不是做错了什么 CSV文件格式: ID 名称 属性 123 测试 {";Referrer URL&Quot;:空,&Quot;查询参数&Quot;:&Quo
..
在数据湖里,我们有一个文件夹,基本上包含了每天由外部来源推送的文件。但是,我们只想处理该文件夹中最新添加的文件。 使用Azure Data Factory有什么方法可以实现这一点吗? 推荐答案 您可以设置modifiedDatetimeStart and modifiedDatetimeEnd在复制活动中使用ADLS连接器时筛选文件夹中的文件。 可能有两种情况: 1.数据是
..
在数据工厂中,是否可以将‘Set Variable’活动的输出记录为JSON文件? 推荐答案 据我所知,没有满足您需要的内置简单方法。 两种变通办法: 1.使用ADF中的EnableAzure Monitor diagnostic log将数据以JSON文件的形式记录到Azure Blob存储中。并且每个活动的execution details(contains outpu
..
在当前管道中有一个复制数据步骤,该步骤将文件从sftp服务器复制到数据湖。 第二步是使用Azure函数处理新复制的数据。 因此,将文件名或文件路径传递给azure函数会更好。以便它可以从数据湖中读取/打开文件,并最终将处理后的数据存储在PostgreSQL中(在vNet内)。 例如,如何在正文中嵌入文件名或文件路径? 还有另一个选项使用BLOB存储/数据湖上的触发器。我稍微倾向于传递路
..
当我启动我的函数应用程序时,如何从我的 Azure 存储帐户中读取数据.我需要在运行时为我的机器学习模型读取保存的权重.我想直接从存储帐户读取模型,因为模型预计每天都会更新,并且不想手动重新部署模型. 谢谢 解决方案 对于这个需求,你可以先进入你的存储 blob,然后点击“Generate SAS";生成“Blob SAS URL"(您还可以定义 url 的开始日期和到期日期).
..
我正在查看 Microsoft 文档 这里 和 这里,我在 Azure Active Directory 中创建了 Web 应用程序来访问 Data Lake Store 在 Web 应用中,我有 Object ID、Application ID 和 Key 查看我看到的文档: adlCreds = lib.auth(tenant_id = 'FILL-IN-HERE', clien
..
当我启动我的函数应用程序时,我如何从我的 Azure 存储帐户中读取数据.我需要在运行时读取为我的机器学习模型保存的权重.我想直接从存储帐户中读取模型,因为模型预计每天都会更新,并且不想手动重新部署模型. 谢谢 解决方案 对于此要求,您可以先转到存储 blob,然后单击“生成 SAS";生成“Blob SAS URL";(您还可以定义 url 的开始日期和到期日期). 启动函数
..
如果我不知道表包含多少个不同的键值,是否可以根据列值自动将表拆分为多个文件?是否可以将键值放入文件名中? 解决方案 这是我们的 top ask(之前已经也在 stackoverflow 上询问 :).我们目前正在研究它,希望能在夏天推出. 在那之前,您必须编写一个脚本生成器.我倾向于使用 U-SQL 来生成脚本,但您可以使用 Powershell 或 T4 等来完成. 这是一个例子
..
我一直在阅读有关 Spark 谓词下推和分区修剪的信息,以了解读取的数据量.我有以下与此相关的疑问 假设我有一个包含列的数据集(年份:Int,SchoolName:String,StudentId:Int,SubjectEnrolled:String)其中磁盘上存储的数据按 Year 和 SchoolName 进行分区,并以 parquet 格式存储在 azure 数据湖存储中. 1)
..
我正在使用flink从Azure数据湖读取数据.但是flink无法找到Azure数据湖文件系统.如何配置flink以了解Azure Data Lake文件系统.有人可以指导我吗? 解决方案 Flink 能够连接到任何 Hadoop 兼容的文件系统(即实现 org.apache.hadoop.fs.FileSystem).请参阅此处的说明:https://ci.apache.org/proj
..
我使用 azure-storage-file-datalake对于Java在我的Azure存储帐户上进行文件系统操作,我可以打开文件,删除甚至重命名/移动文件或目录. 我找不到将文件/文件夹复制到其他位置的任何方法. 这就是我重命名/移动文件/目录的方式: DataLakeServiceClient storageClient = new DataLakeServiceClient
..
我们可以在U-SQL的现有文件中追加数据吗?我已经在U-SQL中创建了一个CSV文件作为输出.我正在编写另一个U-SQL查询,我想将该查询的输出附加到现有文件中.有可能吗? 解决方案 不支持它,并且与健壮,分布式,幂等大数据系统的设计背道而驰(尽管您可以通过读取先前的输出来实现该行为:行集并执行UNION ALL. 处理此问题的最佳方法是正确使用分区,例如,为每个执行创建一个或多个新
..
在U-Sql脚本中引发错误或异常的机制是什么?我有一个正在处理CSV文件的场景,如果发现重复文件,则需要放弃处理. 在SQL中,我可以执行 raiseerror ,它在U-Sql中的等效方法是什么? 解决方案 创建一个c#函数以引发自定义错误(或输出到文件): DECLARE @RaiseError Func=(错误)=>{抛出新的异常(错误);返回0;
..