azure-hdinsight - IT屋-程序员软件开发技术分享社区

Azure Data Lake Gen2是否提供WebHDFS REST API？

如果没有，是否可以使用HDInsight中的WebHDFS API与第二代ADL连接？推荐答案遗憾的是，第二代ADLS不提供WebHDFS REST API。 Azure Data Lake Gen1具有与WebHDFS兼容的REST API，其中Azure Data Lake Gen2具有Azure Blob Service REST API。引用：ADLS Gen ..

发布时间：2022-07-01 17:38:15 azure azure-storage azure-data-lake azure-hdinsight 其他开发

如何在PySpark中读取大型JSON数组文件

问题我最近在Azure Data Lake Analytics遇到了一个挑战，当时我试图读入一个大型的UTF-8 JSON数组文件，并切换到HDInsight PySpark(v2.x，而不是3)来处理该文件。该文件大小约为110G，具有约150M个JSON对象。 HDInsight PySpark似乎不支持数组的JSON文件格式的输入，所以我被卡住了。另外，我还有“许多”这样的文件 ..

发布时间：2022-04-13 20:00:52 json azure pyspark rdd azure-hdinsight 其他开发

如何将 Hive 连接到 asp.net 项目

嗨，我对 Hadoop 很陌生. 我已将 Microsoft HDInsight 安装到我的本地系统.现在我想连接到 hive 和 HBase 但用于 HIVE 连接我必须指定连接字符串、端口、用户名、密码. 但我不知道如何获得这个值.我曾尝试使用 localhost 和 8085 作为端口，但这不起作用.我也通过提供本地主机 IP 和我的系统 IP 来完成它. 请帮忙解决这个问 ..

发布时间：2021-12-28 23:53:35 c# hadoop hbase hive azure-hdinsight C#/.NET

插入到 hive 中不存在的地方

我需要 ansi sql 中此等效项的 hive 语法插入表格(ID)选择身份证来自tableb其中 id 不在(从 tablea 中选择 id) 因此 tablea 不包含重复项，并且只插入了 tableb 中的新 ID. 解决方案使用左外连接和 tableA.id 为空的过滤器: insert overwrite into tableA (id)select b.id fro ..

发布时间：2021-12-28 23:51:39 hadoop hive azure-hdinsight 其他开发

Azure Block Blob 和 Page Blob 的区别?

当我最近开始使用 Windows Azure 时，我遇到了一种情况，在 Block Blob 和页面 Blob.我目前正在将一些文本、csv 或 dat 文件上传到 blob 存储，然后使用我的 C# 程序为其执行 MapReduce 程序.是的，我已经阅读了一篇文章. 但无法从他们那里得到一个明确的想法.简而言之，Block Blob vs Page Blob.任何帮助将不胜感激. ..

发布时间：2021-12-06 18:18:00 azure azure-storage azure-blob-storage azure-hdinsight 其他开发

Azure Storm 与 Azure 流分析

想要对事件流进行实时指标计算，Azure 中什么是好的选择?流分析还是风暴?我对 SQL 或 Java 都很满意，所以想知道其他的区别是什么. 解决方案这取决于您的需要和要求.我将尝试列出两者的优势和优势.在设置方面，Stream Analytics 比 Storm 更胜一筹.如果您需要经常问很多不同的问题，流分析非常有用.流分析也只能处理 CSV 或 JSON 类型的数据.流分析也只能 ..

发布时间：2021-11-14 23:39:21 azure apache-storm azure-hdinsight azure-stream-analytics 其他开发

在 AZURE hdinsights 中将 12 个嵌套级别的 json 文件读入 hive

我尝试手动为 json 文件创建架构并尝试创建 Hive 表，但我得到了列类型名称长度 10888 超过了最大允许长度 2000. 我猜我必须更改 Metastore 详细信息，但我不确定 azure Hdinsights 中的配置在哪里. 我尝试过的其他方式是我从 spark 数据框中获得了架构，并尝试从视图中创建表，但仍然遇到相同的错误. 这是我在 spark 中尝试的步骤 ..

发布时间：2021-11-14 23:00:03 json hive apache-spark-sql spark-dataframe azure-hdinsight 其他开发

如何以自定义格式加载带有时间戳的 CSV?

我在使用 spark csv 库加载到数据帧的 csv 文件中有一个时间戳字段.同一段代码在我的本地机器上使用 Spark 2.0 版本运行，但在 Azure Hortonworks HDP 3.5 和 3.6 上引发错误. 我已经检查过，Azure HDInsight 3.5 也在使用相同的 Spark 版本，所以我认为这不是 Spark 版本的问题. import org.apache ..

发布时间：2021-11-14 21:36:25 apache-spark apache-spark-sql hortonworks-data-platform azure-hdinsight 其他开发

替换猪中的字符

我的数据格式如下.. {"Foo":"ABC","Bar":"20090101100000","Quux":"{\"QuuxId\":1234,\"QuuxName\":\"Sam\"}"} 我需要它采用这种格式: {"Foo":"ABC","Bar":"20090101100000","Quux":{"QuuxId":1234,"QuuxName":"Sam"}} 我正在尝试使用 Pig ..

发布时间：2021-11-12 04:18:41 hadoop apache-pig azure-hdinsight 其他开发

通过远程 Spark 作业出错:java.lang.IllegalAccessError:class org.apache.hadoop.hdfs.web.HftpFileSystem

问题我正在尝试使用 Spark HDInsight 集群 (HDI 4.0) 通过 IntelliJ 运行远程 Spark 作业.在我的 Spark 应用程序中，我尝试使用内置 readStream 函数的 Spark 结构化流从 Azure blob 存储中的镶木地板文件文件夹读取输入流. 当我在连接到 HDInsight 群集的 Zeppelin 笔记本上运行代码时，该代码按预期 ..

发布时间：2021-07-15 19:38:15 scala apache-spark hadoop spark-structured-streaming azure-hdinsight 其他开发

优化配置单元查询.java.lang.OutOfMemoryError:超出了Java堆空间/GC开销限制

由于不断遇到此OOM错误，如何优化这种形式的查询?还是想出一个更好的执行计划?如果我删除了substring子句，查询将正常工作，表明这会占用大量内存. 当作业失败时，直线输出将显示OOM Java堆空间.在线阅读建议我增加 export HADOOP_HEAPSIZE ，但这仍然会导致错误.我尝试的另一件事是增加 hive.tez.container.size 和 hive.tez.jav ..

发布时间：2021-05-14 19:08:30 sql hive out-of-memory azure-hdinsight beeline 其他开发

正在使用的订阅超出了cpu核心配额

当我尝试建立一个新的HDInsight HBase群集时，我不断收到上述消息. 但是，我仅尝试在新群集中使用1个内核，并且根据Azure门户(当我转到“设置-用法"(请参见下面的屏幕截图)时，我使用的是40个内核中的0％. 有人知道如何解决这个问题吗? 解决方案 HDInsight核心限制是与“设置-使用"选项卡中显示的核心分开计算的.如果单击现有的HDInsight群集之一， ..

发布时间：2021-04-13 19:36:51 azure azure-hdinsight 其他开发

在Azure HDIinsight群集中指定--files时，Spark提交在纱线群集模式下失败

在纱线簇模式下火花提交失败，但在客户端模式下成功提交火花提交: spark-submit--master纱线--deploy-mode集群\--py-files packages.zip，deps2.zip \--files/home/sshsanjeev/git/pyspark-example-demo/configs/etl_config.json \职位/etl_job.py错误 ..

发布时间：2021-04-08 19:55:39 apache-spark pyspark azure-hdinsight 其他开发

将大量数据从SQL Server传输和转换到Azure SQL Server的最佳方法.Azure数据工厂，HDInsight等

我想找到将20 GB的SQL数据从安装在客户现场服务器Client上的SQL Server数据库传输到我们的Azure SQL Server Source(在S4上具有200 该表显示了基于内部测试在一次复制活动中针对给定的源对和宿对以MBps为单位的复制吞吐数量. 如果希望通过使用Azure数据工厂复制活动更快地传输数据，Azure提供了三种方法来实现更高的吞吐量: 数据集成单位.数 ..

发布时间：2021-04-08 19:48:04 apache-spark hadoop azure-sql-database azure-hdinsight azure-data-factory-2 其他开发

在Hive中，仅当该列不存在时才如何添加该列?

我想向表中添加新列，但前提是该列尚不存在. 如果该列不存在，这将起作用: ALTER TABLE MyTable ADD COLUMNS (mycolumn string); 但是当我第二次执行它时，我得到一个错误. Column 'mycolumn' exists 当我尝试使用CREATE TABLE和ADD PARTITION支持的"IF NOT EXISTS"语法时 ..

发布时间：2020-11-22 02:24:25 hadoop hive azure-hdinsight 其他开发

使用PySpark从Azure Blob存储中读取CSV文件

我正在尝试使用Microsoft Azure上的PySpark HDInsight群集来做一个机器学习项目.要在群集上运行，请使用Jupyter笔记本.另外，我将数据(一个csv文件)存储在Azure Blob存储中. 根据文档，我文件路径的语法为: path = 'wasb[s]://springboard@6zpbt6muaorgs.blob.core.windows.net/mo ..

发布时间：2020-09-17 22:14:45 azure apache-spark pyspark azure-storage azure-hdinsight 其他开发

使用Powershell创建HDCluster

我正在尝试使用Powershell创建集群.这是我正在执行的脚本: $containerName = "hdfiles" $location = "Southeast Asia" $clusterNodes = 2 $userName = "HDUser" #Generate random password $rand = New-Object System.Random $pass = ..

发布时间：2020-09-17 18:52:00 azure azure-hdinsight azure-powershell 其他开发

使用按需HD Insight群集从Azure Datafactory V2访问Datalake

我正在尝试使用Azure数据工厂从点播HD Insight群集中执行Spark作业. 文档清楚地表明，ADF(v2)不支持针对点播HD洞察集群的datalake链接服务，因此必须从复制活动中将数据复制到blob上，然后再执行该作业.但是，如果在一个数据湖上有十亿个文件，这种解决方案似乎是非常昂贵的资源.是否有任何有效的方法可以通过执行spark作业的python脚本访问datalake文件， ..

发布时间：2020-09-17 00:05:01 python pyspark azure-hdinsight azure-data-factory azure-data-lake Python

无法看到ADLS Gen2的“生命周期管理"选项

我已经创建了ADLS(Azure数据湖存储)Gen2资源(启用了分层名称空间的StorageV2).我在其中创建资源的区域是美国中部，性能/访问层是Standard/Hot，复制是LRS.但是对于此资源，我在门户上看不到“生命周期管理"选项. ADLS Gen2只是一个启用了分层名称空间的StorageV2帐户，并且由于Microsoft文档提供了StorageV2的生命周期管理选项，因此它应该可 ..

发布时间：2020-09-16 23:58:30 azure-storage azure-storage-blobs azure-data-lake azure-hdinsight azure-data-lake-gen2 其他开发

如何避免在Azure数据工厂中按需进行hdinsight每次创建新容器

在azure数据工厂中按需使用hdinsight时，它将在每次运行时创建一个新的blob容器.我想将其指向现有的Blob存储，或者至少阻止它在每次运行时创建新的Blob存储.我可以这样做吗? 解决方案 Sreedhar-对于ADF中的HDInsight On Demand功能，这是一个大问题.我试图每隔1小时运行一次HDInsightOnDemand，它正在创建很多容器. ..

发布时间：2020-09-16 23:47:47 azure azure-hdinsight azure-data-factory 其他开发

azure-hdinsight相关内容