azure-hdinsight相关内容

如何在PySpark中读取大型JSON数组文件

问题 我最近在Azure Data Lake Analytics遇到了一个挑战,当时我试图读入一个大型的UTF-8 JSON数组文件,并切换到HDInsight PySpark(v2.x,而不是3)来处理该文件。该文件大小约为110G,具有约150M个JSON对象。 HDInsight PySpark似乎不支持数组的JSON文件格式的输入,所以我被卡住了。另外,我还有“许多”这样的文件 ..
发布时间:2022-04-13 20:00:52 其他开发

如何将 Hive 连接到 asp.net 项目

嗨,我对 Hadoop 很陌生. 我已将 Microsoft HDInsight 安装到我的本地系统.现在我想连接到 hive 和 HBase 但用于 HIVE 连接我必须指定连接字符串、端口、用户名、密码. 但我不知道如何获得这个值.我曾尝试使用 localhost 和 8085 作为端口,但这不起作用.我也通过提供本地主机 IP 和我的系统 IP 来完成它. 请帮忙解决这个问 ..
发布时间:2021-12-28 23:53:35 C#/.NET

插入到 hive 中不存在的地方

我需要 ansi sql 中此等效项的 hive 语法 插入表格(ID)选择身份证来自tableb其中 id 不在(从 tablea 中选择 id) 因此 tablea 不包含重复项,并且只插入了 tableb 中的新 ID. 解决方案 使用左外连接和 tableA.id 为空的过滤器: insert overwrite into tableA (id)select b.id fro ..
发布时间:2021-12-28 23:51:39 其他开发

Azure Block Blob 和 Page Blob 的区别?

当我最近开始使用 Windows Azure 时,我遇到了一种情况,在 Block Blob 和页面 Blob.我目前正在将一些文本、csv 或 dat 文件上传到 blob 存储,然后使用我的 C# 程序为其执行 MapReduce 程序.是的,我已经阅读了一篇文章. 但无法从他们那里得到一个明确的想法.简而言之,Block Blob vs Page Blob.任何帮助将不胜感激. ..

Azure Storm 与 A​​zure 流分析

想要对事件流进行实时指标计算,Azure 中什么是好的选择?流分析还是风暴?我对 SQL 或 Java 都很满意,所以想知道其他的区别是什么. 解决方案 这取决于您的需要和要求.我将尝试列出两者的优势和优势.在设置方面,Stream Analytics 比 Storm 更胜一筹.如果您需要经常问很多不同的问题,流分析非常有用.流分析也只能处理 CSV 或 JSON 类型的数据.流分析也只能 ..

在 AZURE hdinsights 中将 12 个嵌套级别的 json 文件读入 hive

我尝试手动为 json 文件创建架构并尝试创建 Hive 表,但我得到了列类型名称长度 10888 超过了最大允许长度 2000. 我猜我必须更改 Metastore 详细信息,但我不确定 azure Hdinsights 中的配置在哪里. 我尝试过的其他方式是我从 spark 数据框中获得了架构,并尝试从视图中创建表,但仍然遇到相同的错误. 这是我在 spark 中尝试的步骤 ..

如何以自定义格式加载带有时间戳的 CSV?

我在使用 spark csv 库加载到数据帧的 csv 文件中有一个时间戳字段.同一段代码在我的本地机器上使用 Spark 2.0 版本运行,但在 Azure Hortonworks HDP 3.5 和 3.6 上引发错误. 我已经检查过,Azure HDInsight 3.5 也在使用相同的 Spark 版本,所以我认为这不是 Spark 版本的问题. import org.apache ..

替换猪中的字符

我的数据格式如下.. {"Foo":"ABC","Bar":"20090101100000","Quux":"{\"QuuxId\":1234,\"QuuxName\":\"Sam\"}"} 我需要它采用这种格式: {"Foo":"ABC","Bar":"20090101100000","Quux":{"QuuxId":1234,"QuuxName":"Sam"}} 我正在尝试使用 Pig ..
发布时间:2021-11-12 04:18:41 其他开发

通过远程 Spark 作业出错:java.lang.IllegalAccessError:class org.apache.hadoop.hdfs.web.HftpFileSystem

问题 我正在尝试使用 Spark HDInsight 集群 (HDI 4.0) 通过 IntelliJ 运行远程 Spark 作业.在我的 Spark 应用程序中,我尝试使用内置 readStream 函数的 Spark 结构化流从 Azure blob 存储中的镶木地板文件文件夹读取输入流. 当我在连接到 HDInsight 群集的 Zeppelin 笔记本上运行代码时,该代码按预期 ..

优化配置单元查询.java.lang.OutOfMemoryError:超出了Java堆空间/GC开销限制

由于不断遇到此OOM错误,如何优化这种形式的查询?还是想出一个更好的执行计划?如果我删除了substring子句,查询将正常工作,表明这会占用大量内存. 当作业失败时,直线输出将显示OOM Java堆空间.在线阅读建议我增加 export HADOOP_HEAPSIZE ,但这仍然会导致错误.我尝试的另一件事是增加 hive.tez.container.size 和 hive.tez.jav ..
发布时间:2021-05-14 19:08:30 其他开发

正在使用的订阅超出了cpu核心配额

当我尝试建立一个新的HDInsight HBase群集时,我不断收到上述消息. 但是,我仅尝试在新群集中使用1个内核,并且根据Azure门户(当我转到“设置-用法"(请参见下面的屏幕截图)时,我使用的是40个内核中的0%. 有人知道如何解决这个问题吗? 解决方案 HDInsight核心限制是与“设置-使用"选项卡中显示的核心分开计算的.如果单击现有的HDInsight群集之一, ..
发布时间:2021-04-13 19:36:51 其他开发

将大量数据从SQL Server传输和转换到Azure SQL Server的最佳方法.Azure数据工厂,HDInsight等

我想找到将20 GB的SQL数据从安装在客户现场服务器Client上的SQL Server数据库传输到我们的Azure SQL Server Source(在S4上具有200 该表显示了基于内部测试在一次复制活动中针对给定的源对和宿对以MBps为单位的复制吞吐数量. 如果希望通过使用Azure数据工厂复制活动更快地传输数据,Azure提供了三种方法来实现更高的吞吐量: 数据集成单位.数 ..

使用按需HD Insight群集从Azure Datafactory V2访问Datalake

我正在尝试使用Azure数据工厂从点播HD Insight群集中执行Spark作业. 文档清楚地表明,ADF(v2)不支持针对点播HD洞察集群的datalake链接服务,因此必须从复制活动中将数据复制到blob上,然后再执行该作业.但是,如果在一个数据湖上有十亿个文件,这种解决方案似乎是非常昂贵的资源.是否有任何有效的方法可以通过执行spark作业的python脚本访问datalake文件, ..

无法看到ADLS Gen2的“生命周期管理"选项

我已经创建了ADLS(Azure数据湖存储)Gen2资源(启用了分层名称空间的StorageV2).我在其中创建资源的区域是美国中部,性能/访问层是Standard/Hot,复制是LRS.但是对于此资源,我在门户上看不到“生命周期管理"选项. ADLS Gen2只是一个启用了分层名称空间的StorageV2帐户,并且由于Microsoft文档提供了StorageV2的生命周期管理选项,因此它应该可 ..

如何避免在Azure数据工厂中按需进行hdinsight每次创建新容器

在azure数据工厂中按需使用hdinsight时,它将在每次运行时创建一个新的blob容器.我想将其指向现有的Blob存储,或者至少阻止它在每次运行时创建新的Blob存储.我可以这样做吗? 解决方案 Sreedhar-对于ADF中的HDInsight On Demand功能,这是一个大问题.我试图每隔1小时运行一次HDInsightOnDemand,它正在创建很多容器. ..
发布时间:2020-09-16 23:47:47 其他开发