使用HADOOP mapreduce pgm对XML中的每个Text值进行计数 [英] Count each Text value in XML using HADOOP mapreduce pgm
本文介绍了使用HADOOP mapreduce pgm对XML中的每个Text值进行计数的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我是Hadoop的新手。我需要使用java中的mapreduce程序来解析一个小的xml文件。我正在使用hadoop 1.0.4
表示我的xml文件是
< configuration>
<属性>
<名称> adv< / name>
<值> a< /值>
< dup>学校< / dup>
< / property>
<属性>
<名称> aghy< /名称>
<值> a< /值>
< dup> bk< / dup>
< / property>
< / configuration>
我需要像这样的输出
adv 1 a 2 aghy 1 school 1 bk 1
如何编辑代码 https://github.com/studhadoop/xmlparsing-hadoop/blob/master/XmlParser11.java 。任何工作理念。
帮助我。
解决方案
您需要一些东西:
- 处理XML文件的输入格式,建议您查看 Mahout的 XMLInputFormat
- 传递给映射器(SAX或DOM)的XML字符串的解析器,可以定义一些JAXB对象绑定到
以及一些有用的链接:
I am new to Hadoop. I need to parse a small xml file using mapreduce program in java. I am using hadoop 1.0.4 say my xml file is
<configuration>
<property>
<name>adv</name>
<value>a</value>
<dup>school</dup>
</property>
<property>
<name>aghy</name>
<value>a</value>
<dup>bk</dup>
</property>
</configuration>
i need an output like this adv 1 a 2 aghy 1 school 1 bk 1
how can i edit the code https://github.com/studhadoop/xmlparsing-hadoop/blob/master/XmlParser11.java .Any working idea. pls help me out.
解决方案
You'll need a couple of things:
- An input format for processing XML Files, suggest you look at Mahout's XMLInputFormat
- A Parser for the XML String passed to the mapper (SAX or DOM), maybe define some JAXB objects to bind to
And some useful links:
这篇关于使用HADOOP mapreduce pgm对XML中的每个Text值进行计数的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文