azure-data-lake相关内容

使用mapPartitions时,binaryFiles何时加载到内存中?

我正在使用PySpark将训练有素的深度学习模型应用于图像,并担心内存使用率如何随着我当前的方法扩展.由于训练后的模型需要一段时间才能加载,因此我使用类似于以下代码的代码在每个工作人员上处理大量图像: def run_eval(file_generator): trained_model = load_model() results = [] for file in ..
发布时间:2020-09-17 00:02:32 其他开发

如何从U-SQL读取加密和压缩的Blob数据

我想从先压缩(gz)然后加密的Blob读取文件.将文件上传到Blob时,使用Azure SDK完成加密(BlobEncryptionPolicy传递到 CloudBlockBlob .UploadFromStreamAsync 方法). 该blob文件具有.gz扩展名,因此U-SQL尝试解压缩,但由于对该文件进行了加密而失败. 是否可以将我的u-sql脚本设置为与Azure SDK一样 ..
发布时间:2020-09-17 00:02:24 其他开发

从Azure Data Lake Store .NET SDK创建文件

我在文档中找不到关于此的任何参考.我的问题很简单,如何从.net sdk在数据湖存储中创建文件(例如,在路径/Test/test.csv中创建test.csv).有没有办法做到这一点,或者从字节或字符串内容(其他上传参数类,其第一个参数不是源文件的路径,而是我要发送到数据湖存储的内容)中创建文件. 解决方案 以下是解释如何创建文件的参考文章:如果您尚未看到它,那么这是.NET SDK的一个 ..
发布时间:2020-09-17 00:02:20 其他开发

将CSV从Azure Data Lake(Gen 2)加载到Azure SQL数据库

我有一个带有多个容器的Azure Data Lake Storage(第2代)帐户.我想将salesorderdetail.csv文件从Sales容器导入到Azure SQL数据库中. 我已经使用Azure数据工厂成功构建了相同的过程,但是我现在想尝试仅通过标准T-SQL语句来使它正常工作. CREATE MASTER KEY ENCRYPTION BY PASSWORD = 'Xxx ..

在USQL中编写自定义提取器以跳过存在编码问题的行

我有大量的数据,涵盖了数百个文件.显然,其中存在一些编码问题(主要是UTF-8,但显然有些字符无效).根据 https://msdn.microsoft.com/en-us/library/azure/mt764098.aspx 如果存在编码错误,则无论将silent标志设置为true(只是跳过错误行的目的),都会发生运行时错误. 因此,我需要编写一个自定义提取器.我在 https://bl ..
发布时间:2020-09-17 00:01:10 其他开发

USQL-如何在USQL中选择两个字符串行之间的所有行

这是我完整的任务说明: 我必须使用u-sql从多个文件中提取数据并将其输出到csv文件中.每个输入文件都包含基于某些字符串行的多个报告("START OF ..."和"END OF ..."用作报告分隔符).这是单个源(输入)文件的示例(数据格式): START OF DAILY ACCOUNT some data 1 some data 2 some data 3 some data ..
发布时间:2020-09-17 00:01:07 C#/.NET

我们能否使用Azure CLI将文件上传到Azure Data Lake Storage Gen2

我要做的就是使用Azure CLI(通过`命令)将文件从原始文件上传到Azure Data Lake Storage Gen2 ,但是出现连接错误! 我可以使用Azure CLI来做到这一点吗?还是我必须使用其他工具? PS:我无法使用Azure数据工厂,我希望我的工作从最初开始而不是从云开始! ks. azure.datalake.store.exceptions.DatalakeREST ..
发布时间:2020-09-17 00:01:02 其他开发

使用C#代码从Data Lake Store读取文件的内容

我正在尝试从Azure Data Lake Store文件中读取内容.但是,在连接/打开连接时,连接本身将失败&抛出异常 var stream = _adlsFileSystemClient.FileSystem.Open(_adlsAccountName, "/folder1/"+file.PathSuffix); 通过以下方式获取异常 : Exception of type ' ..
发布时间:2020-09-17 00:01:00 C#/.NET

我可以在USQL中使用正则表达式吗?

是否可以在USQL中编写正则表达式比较? 例如,我不是使用多个"LIKE"语句来搜索各种食品的名称,而是要使用单个Regex表达式对多个食品进行比较. 解决方案 您可以内联创建一个新的Regex对象,然后使用IsMatch()方法. 如果Offer_Desc列中包含单词“培根",“牛角包"或“帕尼尼",则下面的示例返回"Y". @output = SELECT ..
发布时间:2020-09-16 23:59:56 其他开发

完成后是否应该删除DataLake Analytic Job?

我们非常频繁地提交U-SQL作业,我们看到以前在ADLA中提交的作业列表. 我们看到Data Lake存储的总存储利用率正在逐日增加.我们提交的所有作业仅更新一个输出文件,大小约为10 MB. Data Lake存储的当前存储利用率为9.3 GB.我们认为这是由于先前的作业资源仍保存在Data Lake中.我们应该照顾这个问题还是应该在这里做些事情? 解决方案 我认为工作数据会 ..
发布时间:2020-09-16 23:59:51 其他开发

Data Lake Analytics U-SQL EXTRACT速度(本地与Azure)

曾经考虑使用Azure Data Lake Analytics功能来尝试操纵一些我存储在Azure Blob存储中的Gzip xml数据,但是我遇到了一个有趣的问题.本质上,当在本地使用U-SQL处理500个这些xml文件时,处理时间非常快,在本地使用1个AU大约需要40秒(这似乎是限制).但是,当我们使用5 AU在Azure内部运行此功能时,处理过程将花费17分钟以上. 我们最终希望将其扩 ..
发布时间:2020-09-16 23:59:36 其他开发

将Azure事件中心与Data Lake Store连接

将数据从事件中心发送到Data Lake Store的最佳方法是什么? 解决方案 我假设您希望定期将数据从EventHubs提取到Data Lake Store.就像Nava所说的那样,您可以使用Azure流分析将数据从EventHub获取到Azure存储Blob.之后,您可以使用Azure数据工厂(ADF)定期将数据从Blob复制到Azure数据湖存储.有关使用ADF的更多详细信息,请参 ..
发布时间:2020-09-16 23:58:33 其他开发

无法看到ADLS Gen2的“生命周期管理"选项

我已经创建了ADLS(Azure数据湖存储)Gen2资源(启用了分层名称空间的StorageV2).我在其中创建资源的区域是美国中部,性能/访问层是Standard/Hot,复制是LRS.但是对于此资源,我在门户上看不到“生命周期管理"选项. ADLS Gen2只是一个启用了分层名称空间的StorageV2帐户,并且由于Microsoft文档提供了StorageV2的生命周期管理选项,因此它应该可 ..