从星火Accesing HDFS提供TokenCache错误无法获取主Kerberos主要用作新生 [英] Accesing Hdfs from Spark gives TokenCache error Can't get Master Kerberos principal for use as renewer

查看：1704 发布时间：2016/5/22 16:01:26 authentication hadoop kerberos apache-spark

本文介绍了从星火Accesing HDFS提供TokenCache错误无法获取主Kerberos主要用作新生的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我试图以星火连接到Hadoop的运行测试的Spark脚本。
剧本是以下

I'm trying to run a test Spark script in order to connect Spark to hadoop. The script is the following

from pyspark import SparkContext

sc = SparkContext("local", "Simple App")
file = sc.textFile("hdfs://hadoop_node.place:9000/errs.txt")
errors = file.filter(lambda line: "ERROR" in line)
errors.count()

当我pyspark运行它，我得到

When I run it with pyspark I get

py4j.protocol.Py4JJavaError：在调用时发生错误
  o21.collect。：java.io.IOException异常：无法获得主Kerberos
  主要用作新生
          在org.apache.hadoop.ma$p$pduce.security.TokenCache.obtainTokensForNamenodesInternal(TokenCache.java:116)
          在org.apache.hadoop.ma$p$pduce.security.TokenCache.obtainTokensForNamenodesInternal(TokenCache.java:100)
          在org.apache.hadoop.ma preduce.security.TokenCache.obtainTokensForNamenodes（TokenCache.java:80）
          在org.apache.hadoop.ma pred.FileInputFormat.listStatus（FileInputFormat.java:187）
          在org.apache.hadoop.ma pred.FileInputFormat.getSplits（FileInputFormat.java:251）
          在org.apache.spark.rdd.HadoopRDD.getPartitions（HadoopRDD.scala：140）
          在org.apache.spark.rdd.RDD $$ anonfun $ $分区2.适用（RDD.scala：207）
          在org.apache.spark.rdd.RDD $$ anonfun $ $分区2.适用（RDD.scala：205）
          在scala.Option.getOrElse（Option.scala：120）
          在org.apache.spark.rdd.RDD.partitions（RDD.scala：205）
          在org.apache.spark.rdd.MappedRDD.getPartitions（MappedRDD.scala：28）
          在org.apache.spark.rdd.RDD $$ anonfun $ $分区2.适用（RDD.scala：207）
          在org.apache.spark.rdd.RDD $$ anonfun $ $分区2.适用（RDD.scala：205）
          在scala.Option.getOrElse（Option.scala：120）
          在org.apache.spark.rdd.RDD.partitions（RDD.scala：205）
          在org.apache.spark.api.python.PythonRDD.getPartitions（PythonRDD.scala：46）
          在org.apache.spark.rdd.RDD $$ anonfun $ $分区2.适用（RDD.scala：207）
          在org.apache.spark.rdd.RDD $$ anonfun $ $分区2.适用（RDD.scala：205）
          在scala.Option.getOrElse（Option.scala：120）
          在org.apache.spark.rdd.RDD.partitions（RDD.scala：205）
          在org.apache.spark.SparkContext.runJob（SparkContext.scala：898）
          在org.apache.spark.rdd.RDD.collect（RDD.scala：608）
          在org.apache.spark.api.java.JavaRDDLike $ class.collect（JavaRDDLike.scala：243）
          在org.apache.spark.api.java.JavaRDD.collect（JavaRDD.scala：27）
          在sun.reflect.NativeMethodAccessorImpl.invoke0（本机方法）
          在sun.reflect.NativeMethodAccessorImpl.invoke（NativeMethodAccessorImpl.java:57）
          在sun.reflect.DelegatingMethodAccessorImpl.invoke（DelegatingMethodAccessorImpl.java:43）
          在java.lang.reflect.Method.invoke（Method.java:606）
          在py4j.reflection.MethodInvoker.invoke（MethodInvoker.java:231）
          在py4j.reflection.ReflectionEngine.invoke（ReflectionEngine.java:379）
          在py4j.Gateway.invoke（Gateway.java:259）
          在py4j.commands.AbstractCommand.invokeMethod（AbstractCommand.java:132）
          在py4j.commands.CallCommand.execute（CallCommand.java:79）
          在py4j.GatewayConnection.run（GatewayConnection.java:207）
          在java.lang.Thread.run（Thread.java:744）

py4j.protocol.Py4JJavaError: An error occurred while calling o21.collect. : java.io.IOException: Can't get Master Kerberos principal for use as renewer at org.apache.hadoop.mapreduce.security.TokenCache.obtainTokensForNamenodesInternal(TokenCache.java:116) at org.apache.hadoop.mapreduce.security.TokenCache.obtainTokensForNamenodesInternal(TokenCache.java:100) at org.apache.hadoop.mapreduce.security.TokenCache.obtainTokensForNamenodes(TokenCache.java:80) at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:187) at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:251) at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:140) at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:207) at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:205) at scala.Option.getOrElse(Option.scala:120) at org.apache.spark.rdd.RDD.partitions(RDD.scala:205) at org.apache.spark.rdd.MappedRDD.getPartitions(MappedRDD.scala:28) at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:207) at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:205) at scala.Option.getOrElse(Option.scala:120) at org.apache.spark.rdd.RDD.partitions(RDD.scala:205) at org.apache.spark.api.python.PythonRDD.getPartitions(PythonRDD.scala:46) at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:207) at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:205) at scala.Option.getOrElse(Option.scala:120) at org.apache.spark.rdd.RDD.partitions(RDD.scala:205) at org.apache.spark.SparkContext.runJob(SparkContext.scala:898) at org.apache.spark.rdd.RDD.collect(RDD.scala:608) at org.apache.spark.api.java.JavaRDDLike$class.collect(JavaRDDLike.scala:243) at org.apache.spark.api.java.JavaRDD.collect(JavaRDD.scala:27) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:606) at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:231) at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:379) at py4j.Gateway.invoke(Gateway.java:259) at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132) at py4j.commands.CallCommand.execute(CallCommand.java:79) at py4j.GatewayConnection.run(GatewayConnection.java:207) at java.lang.Thread.run(Thread.java:744)

这会发生，尽管事实

我已经做了的kinit和klist的显示我有正确的标记

当我发出./bin/hadoop FS -ls HDFS：//hadoop_node.place：9000 / errs.txt
它显示了文件

无论是本地的Hadoop客户端和火花具有相同的配置文件

核心-site.xml中火花/ conf目录和Hadoop / conf目录文件夹是以下
（从Hadoop的节点之一得到了它）

The core-site.xml in the spark/conf and hadoop/conf folders is the following (got it from one of the hadoop nodes)

<configuration>
    <property>

        <name>hadoop.security.auth_to_local</name>
        <value>
            RULE:[1:$1](.*@place)s/@place//
            RULE:[2:$1/$2@$0](.*/node1.place@place)s/^([a-zA-Z]*).*/$1/
            RULE:[2:$1/$2@$0](.*/node2.place@place)s/^([a-zA-Z]*).*/$1/
            RULE:[2:$1/$2@$0](.*/node3.place@place)s/^([a-zA-Z]*).*/$1/
            RULE:[2:$1/$2@$0](.*/node4.place@place)s/^([a-zA-Z]*).*/$1/
            RULE:[2:$1/$2@$0](.*/node5.place@place)s/^([a-zA-Z]*).*/$1/
            RULE:[2:$1/$2@$0](.*/node6.place@place)s/^([a-zA-Z]*).*/$1/
            RULE:[2:$1/$2@$0](.*/node7.place@place)s/^([a-zA-Z]*).*/$1/
            RULE:[2:nobody]
            DEFAULT
        </value>
    </property>
    <property>
        <name>net.topology.node.switch.mapping.impl</name>
        <value>org.apache.hadoop.net.TableMapping</value>
    </property>
    <property>
        <name>net.topology.table.file.name</name>
        <value>/etc/hadoop/conf/topology.table.file</value>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://server.place:9000/</value>
    </property>
    <property>
      <name>hadoop.security.authentication</name>
      <value>kerberos</value>
    </property>

    <property>
      <name>hadoop.security.authorization</name>
      <value>true</value>
    </property>

    <property>
      <name>hadoop.proxyuser.hive.hosts</name>
      <value>*</value>
    </property>

    <property>
      <name>hadoop.proxyuser.hive.groups</name>
      <value>*</value>
    </property>

</configuration>

有人能指出我错过了什么？

Can someone point out what am I missing?

从星火Accesing HDFS提供TokenCache错误无法获取主Kerberos主要用作新生 [英] Accesing Hdfs from Spark gives TokenCache error Can't get Master Kerberos principal for use as renewer

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

从星火Accesing HDFS提供TokenCache错误无法获取主Kerberos主要用作新生 [英] Accesing Hdfs from Spark gives TokenCache error Can&#39;t get Master Kerberos principal for use as renewer

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

从星火Accesing HDFS提供TokenCache错误无法获取主Kerberos主要用作新生 [英] Accesing Hdfs from Spark gives TokenCache error Can't get Master Kerberos principal for use as renewer

登录关闭