apache-spark-mllib相关内容

如何用新列覆盖 Spark 数据框中的整个现有列?

我想用一个新的二进制标志列覆盖一个火花列. 我尝试直接覆盖 id2 列,但为什么它不像 Pandas 中的就地操作那样工作? 如何做到不使用 withcolumn() 创建新列和 drop() 删除旧列? 我知道 spark 数据框是不可变的,是因为没有使用 withcolumn() & 的原因或有不同的覆盖方式.drop()? df2 = spark.createDataF ..

如何使用 DataFrame 在 Spark 中构建 CoordinateMatrix?

我正在尝试将 ALS 算法的 Spark 实现用于推荐系统,因此我构建了如下所示的 DataFrame 作为训练数据: |--------------|--------------|--------------||用户 ID |项目编号 |评级 ||--------------|--------------|--------------| 现在,我想创建一个稀疏矩阵来表示每个用户和每个项目之间 ..

Spark 中使用 PCA 进行异常检测

我阅读了以下文章 在文章中是这样写的: • PCA 算法基本上将数据读数从现有坐标系转换为新坐标系. • 数据读数越靠近新坐标系的中心,这些读数就越接近最佳值. • 异常分数是使用读数与所有读数的平均值之间的马哈拉诺比斯距离计算得出的,平均值是转换坐标系的中心. 谁能更详细地描述我使用 PCA(使用 PCA 分数和马氏距离)进行异常检测?我很困惑,因为 PCA 的定义 ..

Spark 如何跟踪 randomSplit 中的拆分?

这个问题解释了 Spark 的随机拆分是如何工作的,Sparks RDD.randomSplit 如何实际拆分 RDD,但我不明白 spark 如何跟踪哪些值进入一个拆分,以便这些相同的值不会进入第二个拆分. 如果我们看一下 randomSplit 的实现: def randomSplit(weights: Array[Double], seed: Long): Array[DataFra ..

如何将带有 SparseVector 列的 RDD 转换为带有列作为向量的 DataFrame

我有一个带有值元组(String、SparseVector)的 RDD,我想使用 RDD 创建一个 DataFrame.获取 (label:string, features:vector) DataFrame 这是大多数 ml 算法库所需的 Schema.我知道可以这样做,因为 HashingTF ml 库在给定 DataFrame 的特征列时输出一个向量. temp_df = sqlConte ..

比较两个数组并获得 PySpark 中的差异

我在一个数据框中有两个数组字段. 我需要比较这两个数组并在同一数据框中将差异作为数组(新列)获取. 预期输出为: B 列是 A 列的子集.此外,两个数组中的单词顺序相同. 有人可以帮我找到解决方案吗? 解决方案 您可以使用用户定义的函数.我的示例数据帧与您的略有不同,但代码应该可以正常工作: 将pandas导入为pd从 pyspark.sql.types 导入 * ..

RDD 到 LabeledPoint 的转换

如果我有一个大约有 500 列和 2 亿行的 RDD,并且 RDD.columns.indexOf("target", 0) 显示 Int = 77我的目标因变量在第 77 列.但我对如何选择所需的(部分)列作为特征没有足够的知识(比如我想要从 23 到 59、111 到 357、399 到 489 的列).我想知道我是否可以申请这样的: val data = rdd.map(col => ne ..

将 spark 作为 java web 应用程序运行

我使用了 Spark ML 并且能够在预测我的业务问题时获得合理的准确性 数据并不大,我能够使用 stanford NLP 转换输入(基本上是一个 csv 文件)并在我的本地机器上运行朴素贝叶斯进行预测. 我想像一个简单的 java 主程序或一个简单的 MVC Web 应用程序一样运行这个预测服务 目前我使用 spark-submit 命令运行我的预测?相反,我可以从我的 ser ..
发布时间:2021-11-14 21:43:17 其他开发

如何将数据从 DataFrame 准备成 LibSVM 格式?

我想制作libsvm格式,所以我将dataframe制作成想要的格式,但是我不知道如何转换为libsvm格式.格式如图所示.我希望所需的 libsvm 类型是 user item:rating .如果您知道在当前情况下该怎么做: val ratings = sc.textFile(new File("/user/ubuntu/kang/0829/rawRatings.csv").toString ..

Spark SQL 删除空格

我有一个简单的 Spark 程序,它读取一个 JSON 文件并发出一个 CSV 文件.在 JSON 数据中,值包含前导和尾随空格,当我发出 CSV 时,前导和尾随空格消失了.有没有办法可以保留这些空间.我尝试了很多选项,例如 ignoreTrailingWhiteSpace 、 ignoreLeadingWhiteSpace 但没有运气 input.json {"key" : "k1", ..

Spark/Python 中的前向填充缺失值

我试图用之前的非空值(如果存在)填充 Spark 数据框中的缺失值.我已经在 Python/Pandas 中完成了这种类型的事情,但是我的数据对于 Pandas 来说太大了(在一个小集群上)而且我是 Spark noob.这是 Spark 可以做的吗?它可以为多列做吗?如果是这样,如何?如果没有,对 who Hadoop 工具套件中的替代方法有什么建议吗? 谢谢! 解决方案 我找到了 ..