如何在pyspark中使用filter（）删除空的tweets？ [英] How do I remove the empty tweets using filter() in pyspark?

查看：658 发布时间：2017/11/8 20:42:04 mongodb filter pyspark tweets

本文介绍了如何在pyspark中使用filter（）删除空的tweets？的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

如何在pyspark中使用 filter（）删除空的tweets？我已经完成了以下工作：
$ b $ pre $ t $ c $ tweets =

结果给我13995.然而当我从mongodb导入数据时，它显示了11186

我似乎无法应用 filter（）命令来删除空的tweets。如果你的数据像这样

 
解决方案
 >  tweets = sc.parallelize（[title1，，title2，title3，]）

您可以使用 len（x）作为过滤条件：

  tweets.filter（lambda x：len（x）> 0）.count（）

How do I remove the empty tweets using filter() in pyspark? I have done the following

tweets = sc.textFile(.....)
tweets.count()

the result gives me 13995. However when I imported the data from mongodb, it showed 11186

I can't seem to apply the filter() command for removing the empty tweets. Help please.

解决方案

If your data like this

tweets = sc.parallelize(["title1", "", "title2", "title3", ""])

you can use len(x) as the filter condition:

tweets.filter(lambda x: len(x) > 0).count()

这篇关于如何在pyspark中使用filter（）删除空的tweets？的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文