矢量Apache中亨利马乌 [英] Vectorization in Apache Mahout

查看:143
本文介绍了矢量Apache中亨利马乌的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我是新来亨利马乌。我要的文本文件转换为分类的矢量后期的要求。

I am new to Mahout. I have a requirement to convert a text file to a vector for classification in later stage.

能的人提供一些线索就这些问题在下面?

Could anybody of of shed some light on these below questions?


  1. 如何将文本文件转换为Mahout的载体?
    文件格式是这样用户名|关于商品评论|等级

  2. 中的数据将是几TB的。因此,我可以用我猜想载体使用的算法实现的分类建立?

谢谢,
阿伦

推荐答案

您可以检查这些两个例子也有点做/解释如何使用序列文件API。 <一href=\"http://stackoverflow.com/questions/11645294/how-can-i-use-mahouts-sequencefile-api-$c$c/11645430#11645430\">Here和这里

You can check these 2 examples that also somewhat do/explain how to use the Sequence File API. Here and here

和你一定要阅读本<一个href=\"https://cwiki.apache.org/MAHOUT/quick-tour-of-text-analysis-using-the-mahout-command-line.html\"相对=nofollow> 简介 文本分析

And you should definitely read this intro to text analysis

这篇关于矢量Apache中亨利马乌的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆