azure-data-lake 第6页 - IT屋-程序员软件开发技术分享社区

如何从Azure数据工厂运行PowerShell

我有PowerShell脚本，该脚本每1000条记录将一个复杂的CSV文件拆分为一个较小的CSV文件.这是代码: $i=0;Get-Content C:\Users\dell\Desktop\Powershell\Input\bigsizeFile.csv -ReadCount 1000 | %{$i++; $_ | Out-File C:\Users\dell\Desktop\Powers ..

发布时间：2020-09-16 23:33:01 powershell azure-data-factory azure-powershell azure-data-lake 其他开发

将数据从U-SQL托管表传输到Azure SQL数据库表

我有一个U-SQL托管表，其中包含已模式化的结构化数据. CREATE TABLE [AdlaDb].[dbo].[User] ( UserGuid Guid, Postcode string, Age int? DateOfBirth DateTime?, ) 还有一个Azure SQL数据库表. CREATE TABLE [SqlDb].[dbo ..

发布时间：2020-09-16 23:31:45 azure-data-factory azure-data-lake u-sql 其他开发

Azure数据流耗时几分钟触发下一个管道

Azure数据工厂在10毫秒内以Db格式传输数据，但我遇到的问题是等待下几分钟触发下一个管道，最后结果是40分钟，所有管道都在不到20毫秒的时间内传输数据.但是不知何故，它要等待几分钟才能触发下一个. 因此将数据传输到数据库需要7秒钟，但它等待了6分钟:(检查下面的图片解决方案本文档请注意，您可以在总体性能计算中假设1分钟的群集作业执行设置时间，如果使用默认的Azure集成运 ..

发布时间：2020-09-16 23:27:53 azure azure-data-factory azure-data-lake azure-data-factory-2 其他开发

从文件流上传到ADLS

我正在ADF中进行自定义活动，其中涉及从Azure存储Blob读取多个文件，对其进行一些工作，然后最终将结果文件写入Azure Data Lake Store. 最后一步是我停止的地方，因为据我所知，.NET SDK仅允许从本地文件上传. 有什么方法可以(以编程方式)将文件上传到ADL Store中，而该文件不是本地文件中的吗?可能是Blob或流.如果没有，有什么解决方法吗? 解决方 ..

发布时间：2020-09-16 23:23:37 c# azure-data-factory azure-data-lake C#/.NET

U- SQL无法从JSON文件提取数据

我试图使用USQL从JSON文件中提取数据.查询成功运行而不产生任何输出数据，或者导致“顶点失败快速错误". JSON文件如下: { "results": [ { "name": "Sales/Account", "id": "7367e3f2-e1a5-11e5-80e8-0933ecd4cd8c", "deviceName": "HP ..

发布时间：2020-09-16 23:16:05 azure-data-factory azure-data-lake u-sql 其他开发

从cosmosdb复制数据时如何提高性能?

我现在正尝试通过数据工厂将cosmosdb中的数据复制到Data Lake存储中. 但是，性能很差，大约为100KB/s，数据量为100+ GB，并且还在不断增加.完成将需要10天以上的时间，这是不可接受的. Microsoft文档 https://docs.microsoft.com/en-us/azure/data-factory/data-factory-copy-activit ..

发布时间：2020-09-16 22:43:55 azure-cosmosdb azure-data-factory azure-data-lake u-sql 其他开发

使用Python或Java从本地将数据上传到Azure ADLS Gen2

我有一个Data Lake Gen2的Azure存储帐户.我想使用Python(或Java)将数据从本地上传到Lake Gen2文件系统. 我找到了示例 “存储"帐户中的“文件共享"，但我仍无法找到如何上传到Lake(而不是“文件共享")的方法.我还发现了针对Gen1 Lakes的方法此处，但除已关闭的内容请求表示第二代. 我的问题是，到今天为止，是否可以用Python做到这一点?或者 ..

发布时间：2020-09-16 01:55:53 java python azure azure-storage azure-data-lake Java开发

如何在Azure Data Lake存储上预处理和解压缩.gz文件?

USQL是否支持压缩和解压缩文件? 我想解压缩压缩文件以执行一些验证，一旦通过验证，就想将数据压缩到新文件. 解决方案此外，在OUTPUT上执行自动压缩也在路线图上.请将您的投票添加到 https://feedback.azure.com/forums/327234-data-lake/suggestions/13418367-support-gzip-on-output-as-w ..

发布时间：2020-09-16 01:19:15 azure azure-data-lake u-sql 其他开发

USQL查询从Json数据创建表

我有一个像[{}, {}, {}]的json，即可以有多行，并且每一行都有许多属性-值对，每一行保持不变. @json = EXTRACT MainId string, Details string FROM @INPUT_FILE USING new Microsoft.Analytics.Samples.Formats.Json.JsonExtractor(); ..

发布时间：2020-09-16 01:19:09 c# sql azure azure-data-lake u-sql C#/.NET

使用DataLakeStoreFileSystemManagementClient上载到Azure DataLake的30Mb限制

使用时出现错误 _adlsFileSystemClient.FileSystem.Create(_adlsAccountName, destFilePath, stream, overwrite) 将文件上传到Datalake.超过30Mb的文件会出现错误.对于较小的文件，它可以正常工作. 错误是: 在 Microsoft.Azure.Management.DataLake. ..

发布时间：2020-09-16 01:13:53 c# azure azure-data-lake C#/.NET

适用于Azure Data Lake的Spark谓词下推，筛选和分区修剪

我一直在阅读有关火花谓词下推和分区修剪的信息，以了解读取的数据量.我对此有以下疑问假设我有一个包含列的数据集 (年份:国际，学校名称:字符串，学生ID:国际，已注册学科:字符串) 其中存储在磁盘上的数据按Year和SchoolName进行分区，并以拼花格式存储在例如Azure Data Lake存储器中. 1)如果我发出read spark.read(container).filte ..

发布时间：2020-09-04 07:31:22 azure apache-spark apache-spark-sql azure-data-lake apache-spark-dataset 其他开发

如何配置flink来了解Azure Data Lake文件系统?

我正在使用flink从Azure数据湖中读取数据.但是flink无法找到Azure数据湖文件系统.如何配置flink以了解Azure Data Lake文件系统.有人可以在这方面指导我吗? 解决方案 Flink可以连接到任何与Hadoop兼容的文件系统(即实现org.apache.hadoop.fs.FileSystem的文件系统).有关说明，请参见此处: https://ci. apac ..

发布时间：2020-09-03 07:40:01 apache-flink azure-data-lake 其他开发

Datalake解析联接

我有2张桌子.我想要表[Activite_Site]中的机密URL我已经尝试了下面的查询，但是它不起作用...任何人都知道. 预先谢谢你 Table [Categorie] URL CAT http//www.site.com/business B2B http//www.site.com/office B2B http//www.site ..

发布时间：2020-08-24 05:01:26 analytics azure-data-lake 其他开发

列命名中的U-SQL错误

我有一个JSON，其中字段的顺序不固定. 即我可以有[A, B, C] or [B, C, A] 所有A，B，C都是json对象，其形式为{名称:x，值:y}. 因此，当我使用USQL提取JSON(我不知道它们的顺序)并将其放入CSV(为此我需要列名称)时: @output = SELECT A["Value"] ?? "0" AS CAST ### ..

发布时间：2020-08-24 04:55:48 azure analytics azure-data-lake u-sql 其他开发

如何从Azure数据湖分析文件(txt和CSV之类的文件)中获取记录计数

adl://rs06ipadl01.azuredatalakestore.net/FIA/RDS/old/BANNER/2018/06/15/old_Banner.csv 我需要从上面的文件中获取记录. 解决方案您可以使用诸如.Csv和.Text之类的内置提取器来获取文件内容，然后使用COUNT来对记录进行计数.一个简单的例子: DECLARE @inputFile stri ..

发布时间：2020-08-24 04:55:31 analytics azure-data-lake 其他开发

使用Databricks将Google Api的结果写入数据湖

我正在通过Databricks上的Python SDK从Google管理员报告用户使用情况Api中获取用户使用情况数据.每天的数据量大约为10万条记录，我通过一个批处理过程做了一个晚上. api返回的最大页面大小为1000，因此我大致将其称为1000，以获取当天所需的数据.一切正常. 我的最终目标是将原始格式的数据存储在数据湖中(Azure Gen2，但与该问题无关).稍后，我将使用Data ..

发布时间：2020-07-23 03:31:37 python apache-spark azure-data-lake databricks google-api-python-client Python

从ADLS2转移到Compute Target速度非常慢的Azure机器学习

在计算目标上执行的训练脚本期间，我们正尝试从ADLS2数据存储区下载注册的数据集.问题在于，使用以下方法，需要小时的时间才能将〜1.5Gb(分割成〜8500个文件)下载到计算目标: from azureml.core import Datastore, Dataset, Run, Workspace # Retrieve the run context to get Workspace R ..

发布时间：2020-07-07 19:01:48 python azure azure-data-lake azure-machine-learning-service azure-data-lake-gen2 Python

U-SQL根据文件中的不同值将CSV文件拆分为多个文件

我在Azure Data Lake Store中存储了数据，并且正在使用带有U-SQL的Azure Data Analytic Job处理那里存在的数据.我有几个包含空间数据的CSV文件，类似于此: File_20170301.csv longtitude| lattitude | date | hour | value1 ----------+---- ..

发布时间：2020-05-22 20:16:49 azure output azure-data-lake u-sql data-partitioning 其他开发

Azure Data Lake中的U-SQL输出

如果我不知道该表包含多少个不同的键值，是否可以根据列值将一个表自动分为几个文件? 可以将键值放入文件名吗? 解决方案这是我们的也在stackoverflow上询问 :).我们目前正在研究它，并希望在夏天之前提供它. 在此之前，您必须编写脚本生成器.我倾向于使用U-SQL生成脚本，但是您可以使用Powershell或T4等来实现. 这里是一个例子: 假设您要为下表/行集@ ..

发布时间：2020-05-22 20:14:50 azure output azure-data-lake u-sql data-partitioning 其他开发

Azure Data Lake Analytics:使用U-SQL合并重叠的持续时间

我想使用U-SQL从放置在Azure Data Lake Store中的CSV数据中删除重叠的持续时间，并合并这些行.数据集包含开始时间和结束时间，以及每个记录的其他几个属性.这是一个示例: Start Time - End Time - Usar Name 5:00 AM - 6:00 AM - ABC 5:00 AM - 6:00 AM - XYZ 8:00 AM - 9:00 AM - ..

发布时间：2020-05-03 08:55:15 c# logic cortana-intelligence azure-data-lake u-sql C#/.NET

azure-data-lake相关内容