在PySpark Dataframe中拆分String列的内容 [英] Split Contents of String column in PySpark Dataframe

查看：284 发布时间：2020/9/4 0:55:14 apache-spark pyspark spark-dataframe apache-spark-mllib

本文介绍了在PySpark Dataframe中拆分String列的内容的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我有一个pyspark数据框，其中有一列包含字符串.我想将此列拆分为单词

I have a pyspark data frame whih has a column containing strings. I want to split this column into words

代码:

>>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', header='true', inferSchema='true')
>>> sentenceData.show(truncate=False)
+---+---------------------------+
|key|desc                       |
+---+---------------------------+
|1  |Virat is good batsman      |
|2  |sachin was good            |
|3  |but modi sucks big big time|
|4  |I love the formulas        |
+---+---------------------------+


Expected Output
---------------

>>> sentenceData.show(truncate=False)
+---+-------------------------------------+
|key|desc                                 |
+---+-------------------------------------+
|1  |[Virat,is,good,batsman]              |
|2  |[sachin,was,good]                    |
|3  |....                                 |
|4  |...                                  |
+---+-------------------------------------+

我该如何实现?

在PySpark Dataframe中拆分String列的内容 [英] Split Contents of String column in PySpark Dataframe

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

在PySpark Dataframe中拆分String列的内容 [英] Split Contents of String column in PySpark Dataframe

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭