使用HADOOP mapreduce pgm对XML中的每个Text值进行计数 [英] Count each Text value in XML using HADOOP mapreduce pgm

查看:103
本文介绍了使用HADOOP mapreduce pgm对XML中的每个Text值进行计数的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我是Hadoop的新手。我需要使用java中的mapreduce程序来解析一个小的xml文件。我正在使用hadoop 1.0.4
表示我的xml文件是

 < configuration> 
<属性>
<名称> adv< / name>
<值> a< /值>
< dup>学校< / dup>
< / property>
<属性>
<名称> aghy< /名称>
<值> a< /值>
< dup> bk< / dup>
< / property>
< / configuration>

我需要像这样的输出
adv 1 a 2 aghy 1 school 1 bk 1



如何编辑代码 https://github.com/studhadoop/xmlparsing-hadoop/blob/master/XmlParser11.java 。任何工作理念。
帮助我。

解决方案

您需要一些东西:


  • 处理XML文件的输入格式,建议您查看 Mahout的 XMLInputFormat

  • 传递给映射器(SAX或DOM)的XML字符串的解析器,可以定义一些JAXB对象绑定到



  • 以及一些有用的链接:


    I am new to Hadoop. I need to parse a small xml file using mapreduce program in java. I am using hadoop 1.0.4 say my xml file is

    <configuration>
    <property>
     <name>adv</name>
     <value>a</value>
     <dup>school</dup>
    </property>
    <property>
     <name>aghy</name>
     <value>a</value>
     <dup>bk</dup>
    </property>
    </configuration>
    

    i need an output like this adv 1 a 2 aghy 1 school 1 bk 1

    how can i edit the code https://github.com/studhadoop/xmlparsing-hadoop/blob/master/XmlParser11.java .Any working idea. pls help me out.

    解决方案

    You'll need a couple of things:

    • An input format for processing XML Files, suggest you look at Mahout's XMLInputFormat
    • A Parser for the XML String passed to the mapper (SAX or DOM), maybe define some JAXB objects to bind to

    And some useful links:

    这篇关于使用HADOOP mapreduce pgm对XML中的每个Text值进行计数的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆