pyspark:如何在 spark 1.6.3 上使用法语配置 StopWordsRemover [英] pyspark : how to configure StopWordsRemover with french language on spark 1.6.3

查看:55
本文介绍了pyspark:如何在 spark 1.6.3 上使用法语配置 StopWordsRemover的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我想知道如何在 spark 1.6.3 中使用法语配置 stopwordsremover.

I would like to know how to configure stopwordsremover with french language in spark 1.6.3.

我目前正在使用 pyspark.

I'm currently using pyspark.

感谢您的帮助.

最好的问候,

推荐答案

看看 nltk

我用它来表示葡萄牙语单词:

I use it for portuguese words:

from pyspark.ml.feature import StopWordsRemover
import nltk
nltk.download("stopwords")

...

stopwordList = nltk.corpus.stopwords.words('portuguese')
remover = StopWordsRemover(inputCol=tokenizer.getOutputCol(), outputCol="stopWordsRem", stopWords=stopwordList)

希望能帮到你

这篇关于pyspark:如何在 spark 1.6.3 上使用法语配置 StopWordsRemover的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆