azure-data-lake-gen2 - IT屋-程序员软件开发技术分享社区

在Azure数据工厂管道中处理空值

我已在Azure中创建了一条管道，并将数据从CSV导入到SQL表。当CSV中有Null/空值时，转换数据时出现异常。我尝试将验证放在连接的空值文本框中，但它不起作用。有没有人能帮忙推荐答案处理Azure数据工厂中的null值创建派生列并使用iifNull({ColumnName}, 'Unknown')表达式具体步骤如下第一步：创建数据流，如下所示步 ..

发布时间：2022-09-22 16:46:25 azure null azure-data-factory-2 azure-synapse azure-data-lake-gen2 其他开发

如何配置虚拟机以将其事件日志提供给App Insights或数据湖？

我们希望将Azure云计算审核日志添加到Data Lake。对于虚拟机，这些将是事件日志，并且包括一次历史记录和持续记录。我们希望这样做是为了进行审计。我们是否可以为此启用一个选项？我们正在努力避免手动输入这些数据，提取数据，然后自己加载数据。因此，如果有合适的选项，那将是最理想的！！我研究了ETW Events的可能性，但这不是只在应用程序级别有用而不是在VM级别有用吗？我还查看 ..

发布时间：2022-05-09 16:20:14 azure-application-insights azure-virtual-machine azure-data-lake event-log azure-data-lake-gen2 其他开发

如何使用映射数据流扁平化数据湖中JSON字符串列的层次结构

我在data Lake的容器中有CSV文件，我正在尝试将文件中的属性列(在json中)转换为多个列。当我尝试使用数据流来执行此操作时，它将属性列识别为字符串，并且我无法将其更改为数组，以便我可以对其进行展平或从中创建派生列。我是不是做错了什么 CSV文件格式： ID 名称属性 123 测试 {"；Referrer URL&Quot；：空，&Quot；查询参数&Quot；：&Quo ..

发布时间：2022-04-04 17:48:16 azure-data-factory azure-data-lake azure-data-lake-gen2 其他开发

如何在Azure Synapse或数据工厂管道中设置和获取变量值

我已使用Copy Activity在Azure Synapse Analytics工作区中创建了一个管道，将以下JSON加载到Azure Data Lake存储第二代(ADLSGen2)，并将REST Api和Sink(目标)作为ADLSGen2。Ref。 MyJsonFile.json(存储在ADLSGen2中) {"file_url":"https://files.testwebs ..

发布时间：2022-04-04 16:54:39 azure azure-data-factory azure-synapse azure-data-lake-gen2 其他开发

在大量分区上处理 upsert 不够快

问题我们在 ADLS Gen2 之上有一个 Delta Lake 设置，其中包含下表: bronze.DeviceData:按到达日期划分(Partition_Date) silver.DeviceData:按事件日期和时间分区(Partition_Date 和 Partition_Hour) 我们从事件中心摄取大量数据(每天超过 6 亿条记录)到 bronze.Device ..

发布时间：2021-07-15 20:35:22 scala apache-spark databricks delta-lake azure-data-lake-gen2 其他开发

使用附加列刷新 powerBI 数据

我使用来自 Datalake Gen2 的数据源构建了一个 powerBI 仪表板.我正在尝试将新列添加到我的原始数据源中.如何在没有太多问题的情况下从 PowerBI 端刷新或最好的方法是什么? 解决方案您可以在新数据源中添加该列，当 Power BI 针对数据集刷新时，您将不会在报表设计器中看到它.您必须进入查询编辑器，选择数据集 &刷新预览.然后它将选取新列.它现在将显示在报表设计 ..

发布时间：2021-06-19 18:54:38 azure powerbi azure-data-lake-gen2 其他开发

我需要使用DataLakeFileClient从Azure下载一个大文件，并在下载过程中显示一个进度条，例如tqdm.下面是我尝试使用的较小测试文件的代码. #下载文件test_file = DataLakeFileClient.from_connection_string(my_conn_str，file_system_name = fs_name，file_path ="161263.tmp ..

发布时间：2021-05-02 20:33:37 download progress-bar chunks tqdm azure-data-lake-gen2 其他开发

从Azure Databricks中的Azure Datalake Gen2读取.nc文件

尝试读取Azure Databricks中的.nc(netCDF4)文件. 从未使用过.nc文件所有必需的.nc文件都在Azure Datalake Gen2中将上述文件安装到"/mnt/eco_dailyRain "处的Databricks中可以使用 dbutils.fs.ls("/mnt/eco_dailyRain")列出安装的内容输出: Out [76]:[Fi ..

发布时间：2021-04-28 20:44:34 python databricks netcdf netcdf4 azure-data-lake-gen2 Python

Azure数据工厂-从Data Lake Gen 2 JSON文件提取信息

我有一个ADF管道将原始日志数据作为JSON文件加载到Data Lake Gen 2容器中. 我们现在想从这些JSON文件中提取信息，而我正在尝试找到从所述文件中获取信息的最佳方法.我发现Azure Data Lake Analytics和U-SQL脚本功能强大且价格便宜，但它们需要陡峭的学习曲线. 是否有推荐的方法来解析JSON文件并从中提取信息?Data Lake表是否足以存储此提 ..

发布时间：2021-04-13 20:28:10 json azure-data-factory-2 azure-data-lake azure-data-lake-gen2 其他开发

将具有Gen1属性的文件从Gen1 Azur湖复制到Azur Gen2湖(如上次更新)

我需要将所有数据从Azur数据第1代湖迁移到第2代湖.在我的湖中，我们混合了不同类型的文件(.txt，.zip，.json和许多其他文件).我们想将它们原样移动到GEN2湖.除此之外，我们还希望维护所有文件的最新更新时间，即GEN1 lake. 我一直在考虑将ADF用于此用例.但是为此，我们需要定义数据集，并定义数据集，我们必须定义数据格式(Avro，json，xml，二进制等).由于混合了 ..

发布时间：2021-04-13 20:26:57 azure azure-data-factory azure-data-lake azure-data-factory-2 azure-data-lake-gen2 其他开发

按列值进行数据流分区时不会向每个文件夹写入唯一的列值

我正在读取一个SQL DB作为源，它输出下表. 我的意图是使用数据流将每个唯一类型保存到可能命名为特定类型的数据湖文件夹分区中. 我设法创建了单个文件夹，但是我的数据流将所有类型的整个表保存到每个文件夹中. 我的数据流来源窗口水槽请注意，请勿在水槽侧再次设置优化. 我们可以获得的输出文件夹架构: 就目前而言，Data Factory D ..

发布时间：2021-04-13 20:26:55 azure-data-factory azure-data-lake-gen2 azure-data-flow expressionbuilder 其他开发

仅通过ACL授予对Azure Data Lake Gen2访问的访问权限(无RBAC)

我的目标是在目录级别上限制对Azure Data Lake Gen 2存储的访问(根据微软的承诺，这应该是可能的). 我在data lake gen 2容器中有两个目录 data 和 sensitive .对于特定用户，我想授予对目录 data 的读取访问权限，并阻止对目录 sensitive 的任何访问. 沿文档我删除了该用户的所有RBAC分配(在存储帐户以及数据湖容器上)，因此我在 ..

发布时间：2021-04-13 19:32:00 azure azure-rbac azure-data-lake-gen2 其他开发

无法看到ADLS Gen2的“生命周期管理"选项

我已经创建了ADLS(Azure数据湖存储)Gen2资源(启用了分层名称空间的StorageV2).我在其中创建资源的区域是美国中部，性能/访问层是Standard/Hot，复制是LRS.但是对于此资源，我在门户上看不到“生命周期管理"选项. ADLS Gen2只是一个启用了分层名称空间的StorageV2帐户，并且由于Microsoft文档提供了StorageV2的生命周期管理选项，因此它应该可 ..

发布时间：2020-09-16 23:58:30 azure-storage azure-storage-blobs azure-data-lake azure-hdinsight azure-data-lake-gen2 其他开发

带有Azure Datalake Storage Gen 2的Azure Datalake Analytics U-SQL

问题:将ADLA(U-SQL)与ADLS(Gen2)结合使用的前进方向是什么? 现在我在美国东部2一直通过Azure数据工厂(ADF v2)和Azure数据湖商店第1代来运行Azure数据湖分析(U-SQL)作业我正计划部署另一个实例来迎合加拿大客户，并希望设置Azure Data Lake Store Generation 1 我尝试过的事情: 我无法在加拿大中部(或任 ..

发布时间：2020-09-16 23:50:00 azure-data-lake azure-data-factory-2 u-sql azure-data-lake-gen2 其他开发

从ADLS2转移到Compute Target速度非常慢的Azure机器学习

在计算目标上执行的训练脚本期间，我们正尝试从ADLS2数据存储区下载注册的数据集.问题在于，使用以下方法，需要小时的时间才能将〜1.5Gb(分割成〜8500个文件)下载到计算目标: from azureml.core import Datastore, Dataset, Run, Workspace # Retrieve the run context to get Workspace R ..

发布时间：2020-07-07 19:01:48 python azure azure-data-lake azure-machine-learning-service azure-data-lake-gen2 Python

azure-data-lake-gen2相关内容