azure-hdinsight相关内容
如果没有,是否可以使用HDInsight中的WebHDFS API与第二代ADL连接? 推荐答案 遗憾的是,第二代ADLS不提供WebHDFS REST API。 Azure Data Lake Gen1具有与WebHDFS兼容的REST API,其中Azure Data Lake Gen2具有Azure Blob Service REST API。 引用:ADLS Gen
..
问题 我最近在Azure Data Lake Analytics遇到了一个挑战,当时我试图读入一个大型的UTF-8 JSON数组文件,并切换到HDInsight PySpark(v2.x,而不是3)来处理该文件。该文件大小约为110G,具有约150M个JSON对象。 HDInsight PySpark似乎不支持数组的JSON文件格式的输入,所以我被卡住了。另外,我还有“许多”这样的文件
..
嗨,我对 Hadoop 很陌生. 我已将 Microsoft HDInsight 安装到我的本地系统.现在我想连接到 hive 和 HBase 但用于 HIVE 连接我必须指定连接字符串、端口、用户名、密码. 但我不知道如何获得这个值.我曾尝试使用 localhost 和 8085 作为端口,但这不起作用.我也通过提供本地主机 IP 和我的系统 IP 来完成它. 请帮忙解决这个问
..
我需要 ansi sql 中此等效项的 hive 语法 插入表格(ID)选择身份证来自tableb其中 id 不在(从 tablea 中选择 id) 因此 tablea 不包含重复项,并且只插入了 tableb 中的新 ID. 解决方案 使用左外连接和 tableA.id 为空的过滤器: insert overwrite into tableA (id)select b.id fro
..
当我最近开始使用 Windows Azure 时,我遇到了一种情况,在 Block Blob 和页面 Blob.我目前正在将一些文本、csv 或 dat 文件上传到 blob 存储,然后使用我的 C# 程序为其执行 MapReduce 程序.是的,我已经阅读了一篇文章. 但无法从他们那里得到一个明确的想法.简而言之,Block Blob vs Page Blob.任何帮助将不胜感激.
..
想要对事件流进行实时指标计算,Azure 中什么是好的选择?流分析还是风暴?我对 SQL 或 Java 都很满意,所以想知道其他的区别是什么. 解决方案 这取决于您的需要和要求.我将尝试列出两者的优势和优势.在设置方面,Stream Analytics 比 Storm 更胜一筹.如果您需要经常问很多不同的问题,流分析非常有用.流分析也只能处理 CSV 或 JSON 类型的数据.流分析也只能
..
我尝试手动为 json 文件创建架构并尝试创建 Hive 表,但我得到了列类型名称长度 10888 超过了最大允许长度 2000. 我猜我必须更改 Metastore 详细信息,但我不确定 azure Hdinsights 中的配置在哪里. 我尝试过的其他方式是我从 spark 数据框中获得了架构,并尝试从视图中创建表,但仍然遇到相同的错误. 这是我在 spark 中尝试的步骤
..
我在使用 spark csv 库加载到数据帧的 csv 文件中有一个时间戳字段.同一段代码在我的本地机器上使用 Spark 2.0 版本运行,但在 Azure Hortonworks HDP 3.5 和 3.6 上引发错误. 我已经检查过,Azure HDInsight 3.5 也在使用相同的 Spark 版本,所以我认为这不是 Spark 版本的问题. import org.apache
..
我的数据格式如下.. {"Foo":"ABC","Bar":"20090101100000","Quux":"{\"QuuxId\":1234,\"QuuxName\":\"Sam\"}"} 我需要它采用这种格式: {"Foo":"ABC","Bar":"20090101100000","Quux":{"QuuxId":1234,"QuuxName":"Sam"}} 我正在尝试使用 Pig
..
问题 我正在尝试使用 Spark HDInsight 集群 (HDI 4.0) 通过 IntelliJ 运行远程 Spark 作业.在我的 Spark 应用程序中,我尝试使用内置 readStream 函数的 Spark 结构化流从 Azure blob 存储中的镶木地板文件文件夹读取输入流. 当我在连接到 HDInsight 群集的 Zeppelin 笔记本上运行代码时,该代码按预期
..
由于不断遇到此OOM错误,如何优化这种形式的查询?还是想出一个更好的执行计划?如果我删除了substring子句,查询将正常工作,表明这会占用大量内存. 当作业失败时,直线输出将显示OOM Java堆空间.在线阅读建议我增加 export HADOOP_HEAPSIZE ,但这仍然会导致错误.我尝试的另一件事是增加 hive.tez.container.size 和 hive.tez.jav
..
当我尝试建立一个新的HDInsight HBase群集时,我不断收到上述消息. 但是,我仅尝试在新群集中使用1个内核,并且根据Azure门户(当我转到“设置-用法"(请参见下面的屏幕截图)时,我使用的是40个内核中的0%. 有人知道如何解决这个问题吗? 解决方案 HDInsight核心限制是与“设置-使用"选项卡中显示的核心分开计算的.如果单击现有的HDInsight群集之一,
..
在纱线簇模式下火花提交失败,但在客户端模式下成功提交 火花提交: spark-submit--master纱线--deploy-mode集群\--py-files packages.zip,deps2.zip \--files/home/sshsanjeev/git/pyspark-example-demo/configs/etl_config.json \职位/etl_job.py错误
..
我想找到将20 GB的SQL数据从安装在客户现场服务器Client上的SQL Server数据库传输到我们的Azure SQL Server Source(在S4上具有200 该表显示了基于内部测试在一次复制活动中针对给定的源对和宿对以MBps为单位的复制吞吐数量. 如果希望通过使用Azure数据工厂复制活动更快地传输数据,Azure提供了三种方法来实现更高的吞吐量: 数据集成单位.数
..
我想向表中添加新列,但前提是该列尚不存在. 如果该列不存在,这将起作用: ALTER TABLE MyTable ADD COLUMNS (mycolumn string); 但是当我第二次执行它时,我得到一个错误. Column 'mycolumn' exists 当我尝试使用CREATE TABLE和ADD PARTITION支持的"IF NOT EXISTS"语法时
..
我正在尝试使用Microsoft Azure上的PySpark HDInsight群集来做一个机器学习项目.要在群集上运行,请使用Jupyter笔记本.另外,我将数据(一个csv文件)存储在Azure Blob存储中. 根据文档,我文件路径的语法为: path = 'wasb[s]://springboard@6zpbt6muaorgs.blob.core.windows.net/mo
..
我正在尝试使用Powershell创建集群.这是我正在执行的脚本: $containerName = "hdfiles" $location = "Southeast Asia" $clusterNodes = 2 $userName = "HDUser" #Generate random password $rand = New-Object System.Random $pass =
..
我正在尝试使用Azure数据工厂从点播HD Insight群集中执行Spark作业. 文档清楚地表明,ADF(v2)不支持针对点播HD洞察集群的datalake链接服务,因此必须从复制活动中将数据复制到blob上,然后再执行该作业.但是,如果在一个数据湖上有十亿个文件,这种解决方案似乎是非常昂贵的资源.是否有任何有效的方法可以通过执行spark作业的python脚本访问datalake文件,
..
我已经创建了ADLS(Azure数据湖存储)Gen2资源(启用了分层名称空间的StorageV2).我在其中创建资源的区域是美国中部,性能/访问层是Standard/Hot,复制是LRS.但是对于此资源,我在门户上看不到“生命周期管理"选项. ADLS Gen2只是一个启用了分层名称空间的StorageV2帐户,并且由于Microsoft文档提供了StorageV2的生命周期管理选项,因此它应该可
..
在azure数据工厂中按需使用hdinsight时,它将在每次运行时创建一个新的blob容器.我想将其指向现有的Blob存储,或者至少阻止它在每次运行时创建新的Blob存储.我可以这样做吗? 解决方案 Sreedhar-对于ADF中的HDInsight On Demand功能,这是一个大问题.我试图每隔1小时运行一次HDInsightOnDemand,它正在创建很多容器.
..