如何在pyspark中使用filter()删除空的tweets? [英] How do I remove the empty tweets using filter() in pyspark?

查看:658
本文介绍了如何在pyspark中使用filter()删除空的tweets?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

如何在pyspark中使用 filter()删除空的tweets?我已经完成了以下工作:
$ b $ pre $ t $ c $ tweets =

结果给我13995.然而当我从mongodb导入数据时,它显示了11186



我似乎无法应用 filter()命令来删除空的tweets。如果你的数据像这样

 

解决方案

> tweets = sc.parallelize([title1,,title2,title3,])

您可以使用 len(x)作为过滤条件:

  tweets.filter(lambda x:len(x)> 0).count()


How do I remove the empty tweets using filter() in pyspark? I have done the following

tweets = sc.textFile(.....)
tweets.count()

the result gives me 13995. However when I imported the data from mongodb, it showed 11186

I can't seem to apply the filter() command for removing the empty tweets. Help please.

解决方案

If your data like this

tweets = sc.parallelize(["title1", "", "title2", "title3", ""])

you can use len(x) as the filter condition:

tweets.filter(lambda x: len(x) > 0).count()

这篇关于如何在pyspark中使用filter()删除空的tweets?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆