azure-data-lake相关内容

Azure数据流耗时几分钟触发下一个管道

Azure数据工厂在10毫秒内以Db格式传输数据,但我遇到的问题是等待下几分钟触发下一个管道,最后结果是40分钟,所有管道都在不到20毫秒的时间内传输数据.但是不知何故,它要等待几分钟才能触发下一个. 因此将数据传输到数据库需要7秒钟,但它等待了6分钟:(检查下面的图片 解决方案 本文档 请注意,您可以在总体性能计算中假设1分钟的群集作业执行设置时间,如果使用默认的Azure集成运 ..

从文件流上传到ADLS

我正在ADF中进行自定义活动,其中涉及从Azure存储Blob读取多个文件,对其进行一些工作,然后最终将结果文件写入Azure Data Lake Store. 最后一步是我停止的地方,因为据我所知,.NET SDK仅允许从本地文件上传. 有什么方法可以(以编程方式)将文件上传到ADL Store中,而该文件不是本地文件中的 吗?可能是Blob或流.如果没有,有什么解决方法吗? 解决方 ..
发布时间:2020-09-16 23:23:37 C#/.NET

使用Python或Java从本地将数据上传到Azure ADLS Gen2

我有一个Data Lake Gen2的Azure存储帐户.我想使用Python(或Java)将数据从本地上传到Lake Gen2文件系统. 我找到了示例 “存储"帐户中的“文件共享",但我仍无法找到如何上传到Lake(而不是“文件共享")的方法.我还发现了针对Gen1 Lakes的方法此处,但除已关闭的内容请求表示第二代. 我的问题是,到今天为止,是否可以用Python做到这一点?或者 ..
发布时间:2020-09-16 01:55:53 Java开发

USQL查询从Json数据创建表

我有一个像[{}, {}, {}]的json,即可以有多行,并且每一行都有许多属性-值对,每一行保持不变. @json = EXTRACT MainId string, Details string FROM @INPUT_FILE USING new Microsoft.Analytics.Samples.Formats.Json.JsonExtractor(); ..
发布时间:2020-09-16 01:19:09 C#/.NET

适用于Azure Data Lake的Spark谓词下推,筛选和分区修剪

我一直在阅读有关火花谓词下推和分区修剪的信息,以了解读取的数据量.我对此有以下疑问 假设我有一个包含列的数据集 (年份:国际,学校名称:字符串,学生ID:国际,已注册学科:字符串) 其中存储在磁盘上的数据按Year和SchoolName进行分区,并以拼花格式存储在例如Azure Data Lake存储器中. 1)如果我发出read spark.read(container).filte ..

如何配置flink来了解Azure Data Lake文件系统?

我正在使用flink从Azure数据湖中读取数据.但是flink无法找到Azure数据湖文件系统.如何配置flink以了解Azure Data Lake文件系统.有人可以在这方面指导我吗? 解决方案 Flink可以连接到任何与Hadoop兼容的文件系统(即实现org.apache.hadoop.fs.FileSystem的文件系统).有关说明,请参见此处: https://ci. apac ..
发布时间:2020-09-03 07:40:01 其他开发

Datalake解析联接

我有2张桌子.我想要表[Activite_Site]中的机密URL我已经尝试了下面的查询,但是它不起作用...任何人都知道. 预先谢谢你 Table [Categorie] URL CAT http//www.site.com/business B2B http//www.site.com/office B2B http//www.site ..
发布时间:2020-08-24 05:01:26 其他开发

列命名中的U-SQL错误

我有一个JSON,其中字段的顺序不固定. 即我可以有[A, B, C] or [B, C, A] 所有A,B,C都是json对象,其形式为{名称:x,值:y}. 因此,当我使用USQL提取JSON(我不知道它们的顺序)并将其放入CSV(为此我需要列名称)时: @output = SELECT A["Value"] ?? "0" AS CAST ### ..
发布时间:2020-08-24 04:55:48 其他开发

使用Databricks将Google Api的结果写入数据湖

我正在通过Databricks上的Python SDK从Google管理员报告用户使用情况Api中获取用户使用情况数据.每天的数据量大约为10万条记录,我通过一个批处理过程做了一个晚上. api返回的最大页面大小为1000,因此我大致将其称为1000,以获取当天所需的数据.一切正常. 我的最终目标是将原始格式的数据存储在数据湖中(Azure Gen2,但与该问题无关).稍后,我将使用Data ..

从ADLS2转移到Compute Target速度非常慢的Azure机器学习

在计算目标上执行的训练脚本期间,我们正尝试从ADLS2数据存储区下载注册的数据集.问题在于,使用以下方法,需要小时的时间才能将〜1.5Gb(分割成〜8500个文件)下载到计算目标: from azureml.core import Datastore, Dataset, Run, Workspace # Retrieve the run context to get Workspace R ..

Azure Data Lake中的U-SQL输出

如果我不知道该表包含多少个不同的键值,是否可以根据列值将一个表自动分为几个文件? 可以将键值放入文件名吗? 解决方案 这是我们的也在stackoverflow上询问 :).我们目前正在研究它,并希望在夏天之前提供它. 在此之前,您必须编写脚本生成器.我倾向于使用U-SQL生成脚本,但是您可以使用Powershell或T4等来实现. 这里是一个例子: 假设您要为下表/行集@ ..
发布时间:2020-05-22 20:14:50 其他开发