yarn相关内容
这是我如何通过配置单元jdbc运行查询 Class.forName(DRIVER); Connection = DriverManager.getConnection(CONNECTION_URL,USERNAME,PASSWORD); Response = Connection.createStatement(); ResultSet = Response.executeQu
..
我试图让Spark 2.1.0上的Hive 2.1.1在单个实例上工作。我不确定这是否正确。目前我只有一个实例,因此我无法构建集群。 当我在配置单元中运行任何插入查询时,出现错误: hive>插入到mcus(id,name)值(1,'ARM'); 查询ID = server_20170223121333_416506b4-13ba-45a4-a0a2-8417b187e8cc 共
..
我想在Hive-Tez上运行查询后获得Map-Reduce日志的解释? INFO之后的内容:传达的是什么? 在这里,我附上了一个示例 INFO:Session已经打开 INFO:Dag name:SELECT a.Model ...) 信息:Tez会话已关闭。重新开启... 信息:会话重新建立。 INFO: 信息:状态:正在运行(在应用程序ID为application_14708
..
我尝试在访问Hive表的Cloud 4.2 Enterprise上的BigInsights上运行pyspark脚本。首先,我创建配置单元表: [biadmin @ bi4c-xxxxx-mastermanager〜] $ hive hive> CREATE TABLE pokes(foo INT,bar STRING); 确定 所需时间:2.147秒 配置单元> LOAD DATA
..
我尝试在访问Hive表的Cloud 4.2 Enterprise上的BigInsights上运行pyspark脚本。首先,我创建配置单元表: [biadmin @ bi4c-xxxxx-mastermanager〜] $ hive hive> CREATE TABLE pokes(foo INT,bar STRING); 确定 所需时间:2.147秒 配置单元> LOAD DATA
..
当我尝试运行下面的命令时: #sqoop import --connect jdbc:mysql:// IP地址/数据库 - 用户名root - 密码PASSWORD - 表table_name - m 1 从mysql数据库到HDFS的数据,我收到错误: auxService:mapreduce_shuffle不存在。 搜索并浏
..
我想在我的程序中创建一个文件。然而,我不希望这个文件写在HDFS上,而是写在执行 map 操作的datanode文件系统中。 我尝试了以下方法: pre $ public void map(Object key,Text value,Context context) 抛出IOException,InterruptedException { //做一些hadoop的东西,比如计算单词
..
我正在编写一个简单的Spark应用程序,它使用一些输入RDD,通过管道将其发送到外部脚本,并将该脚本的输出写入文件。驱动程序代码如下所示: val input = args(0) val scriptPath = args(1) val output = args(2) val sc = getSparkContext if(args.length == 4){ //在这里我传
..
任何人都可以让我知道必须具有Core-site.xml,hdfs-site.xml,mapred-site.xml和yarn-site.xml的属性,但没有这些属性,hadoop无法启动? 解决方案 以下设置适用于独立和伪节点设置的Hadoop 2.xx。 核心-site.xml fs.default.name
..
我听说有一种方法可以在Hadoop 2.7纱线中添加32个核心,或者将核心添加到1个容器中。 这是可能的吗?有一个示例配置,我需要更改以实现此目的? 测试将是terasort,将我的40个内核添加到1个容器作业中。 解决方案 对于vCore,以下是配置: $ b yarn.scheduler.maximum- allocation-vcores - 为每个容器请求指定vCo
..
我在hdfs上安装了文件夹 / user / test / year = 2016 / month = 04 / dt = 25 / 000000_0 需要将此分区路径添加到测试表。 命令: ALTER TABLE测试ADD IF NOT EXISTS PARTITION(year = 2016,month = 04,dt = 25) 但是这个添加分区命令
..
已解决 我们需要将validation.jar放在hadoop / share / hadoop / common / lib /中(从 https://mvnrepository.com/artifact/javax.validation/validation-api *)。 结合doc与doc的内容:在你的Druid的索引任务json中将“mapreduce.job.classlo
..
我正在尝试运行简单的单一项目纱线应用程序,详细此处 。我将应用程序作为jar文件部署到我们的hadoop集群。试图运行时,我收到了一个异常,下面是堆栈跟踪: [2015-06-04 14:10:45.866 ]引导 - 13669 ERROR [主] --- SpringApplication:应用程序启动失败 java.lang.IllegalStateException:未能执行在
..
我的Hadoop集群中有7个节点[8GB RAM和4VCPU到每个节点],1个Namenode + 6 datanodes。 EDIT-1 @ ARNON :我遵循链接,根据我的节点上的硬件配置疯狂计算,并在我的问题中添加了更新mapred-site和yarn-site.xml文件。我的应用程序崩溃时使用了相同的缓存 我的mapreduce应用程序有34个输入拆分,块大小为128MB。
..
我知道我可以通过将其打包到JAR中来提交级联作业,详见Cascading用户指南。然后,如果使用 hadoop jar CLI命令手动提交它,那么这个作业将运行在我的群集上。原始Hadoop 1 Cascading版本,可以通过在Hadoop JobConf 上设置特定属性来向集群提交作业。设置 fs.defaultFS 和 mapred.job.tracker 导致本地Hadoop库自动尝试将作
..
我在Ubuntu 16.04上安装了Hadoop 2.7.4。我试图在伪模式下运行它。 我为所有的hadoop文件,NameNode和DataNode文件装载了'/ hadoop'分区。 我的core-site.xml是: fs.defaultFS hdfs:// localhost:
..
我目前在群集中拥有高功率(cpu / ram)主机,我们正在考虑添加一些优质存储,但是低功耗主机。 我担心的是会降低工作表现。来自新的(较弱的)主机的Map / Reducers将运行得更慢,而更强大的主机将只需等待结果。 有没有办法配置这个在纱线?也许可以为主机设置优先级,或根据每台机器上的内核数量来分配映射器/缩减器。 谢谢, Horatiu 解决方案 在YARN中
..
我从Hortonworks发行版运行Hadoop 2.4.0,Oozie 4.0.0,Hive 0.13.0。 我有多个Oozie协调器作业可以启动工作流程大约在同一时间。协调器作业每个都监视不同的目录,当_SUCCESS文件显示在这些目录中时,工作流将启动。 工作流运行Hive操作,从外部目录读取并复制东西。 SET hive.exec.dynamic.partition =
..
我是Hive Querying的新手,我正在寻找从Hive表中检索数据的最佳实践。我们已经启用了TeZ的执行引擎并启用了向量化。 我们希望从Hive表格中进行报告,我从TEZ文档中读取它可以用于实时报告。场景来自我的WEB应用程序,我想在UI上显示Hive Query Select *从Hive表中的结果,但对于任何查询,在hive命令提示符下最少需要20-60秒,即使hive表有60 GB
..
我使用源代码中最新的hadoop 3.0.0版本。我的时间轴服务已启动并运行,并已配置hadoop将其用于作业历史记录。但是当我点击resoucemanager UI中的历史记录时,出现以下错误: - HTTP错误404 问题访问/ jobhistory / job / job_1444395439959_0001。原因: NOT_FOUND 有人可以指出我在
..