apache-spark-mllib相关内容

Apache Spark 中的 Jaro-Winkler 分数计算

我们需要在 Apache Spark Dataset 中实现跨字符串的 Jaro-Winkler 距离计算.我们是 Spark 的新手,在网上搜索后我们找不到太多东西.如果您能指导我们,那就太好了.我们想过使用 flatMap 然后意识到它无济于事,然后我们尝试使用几个 foreach 循环但无法弄清楚如何继续.因为每个字符串都必须与所有字符串进行比较.就像下面的数据集一样. RowFactor ..

如何在Master上存储文本文件?

我使用独立集群来运行 ALS 算法.使用以下方法将预测存储到文本文件中: saveAsTextFile(path) 但是文本文件被存储在集群上.我想将文本文件存储在 Master 上. 解决方案 这是预期的行为.path 在它的机器上解析被处决了,奴隶.我建议要么使用集群 FS(例如 HDFS)或 .collect() 您的数据,以便您可以将它们保存在本地大师.如果您的数据很大,请注意 ..
发布时间:2021-11-14 21:11:22 其他开发

文本分类 - 如何处理

我会尽量描述我的想法. MS SQL 数据库中存储了文本内容.内容每天都以流的形式出现.有些人每天都会浏览内容,如果内容符合某些标准,则将其标记为已验证.只有一个类别.它要么“有效",要么无效. 我想要的是基于已经验证的内容创建一个模型,保存它并使用这个模型来“预验证"或标记新的传入内容.也偶尔根据新验证的内容更新模型.希望我解释清楚了. 我正在考虑根据创建的模型使用 Spark ..

如何为 setInputCol() 提供多列

我对 Spark 机器学习非常陌生,我想将多个列传递给功能,在下面的代码中,我只将日期列传递给功能,但现在我想将用户 ID 和日期列传递给功能.我尝试使用 Vector,但它只支持 Double 数据类型,但在我的情况下,我有 Int 和 String 如果有人提供任何建议/解决方案或任何代码示例来满足我的要求,我将不胜感激 代码: case class LabeledDocume ..

Spark:将 RDD 元素拆分成块

我在 Scala 中编写了一个相对简单的 Spark 作业,它从 S3 读取一些数据,执行一些转换和聚合,最后将结果存储到存储库中. 在最后阶段,我有我的域模型的 RDD,我想将它们分组为元素块,以便我可以在我的存储库中进行一些批量插入. 我使用了 RDDFunctions.sliding 方法来实现这一点,它几乎可以正常工作.这是我的代码的简化版本: val 处理元素:RDD[Do ..
发布时间:2021-11-14 21:11:09 其他开发

pyspark OneHotEncoded 向量似乎缺少类别?

在尝试使用 pyspark 的 OneHotEncoder (https://spark.apache.org/docs/2.1.0/ml-features.html#onehotencoder) 看起来像是 onehot向量缺少某些类别(或者显示时格式可能很奇怪?). 现在回答这个问题(或提供一个答案)后,似乎下面的细节与理解问题并不完全相关 有表单的数据集 1.妻子的年龄(数字) ..
发布时间:2021-11-14 21:11:06 其他开发

LDA 模型预测不一致

我训练了一个 LDA 模型并将其加载到环境中以转换新数据: from pyspark.ml.clustering import LocalLDAModellda = LocalLDAModel.load(path)df = lda.transform(文本) 模型将添加一个名为 topicDistribution 的新列.在我看来,对于相同的输入,这个分布应该是相同的,否则这个模型是不一致的. ..

是否可以使用带有 spark mllib 的 GradientBoostedTrees 获得类概率?

我目前正在使用 spark mllib. 我使用 GradientBoosting 算法和 GradientBoostedTrees 类创建了一个文本分类器: 梯度提升树 目前我获得了知道新元素类别的预测,但我想获得类别概率(硬决策之前的输出值). 在逻辑回归等其他 mllib 算法中,您可以从分类器中删除阈值以获得类概率,但我找不到使用 GradientBosstedTr ..
发布时间:2021-11-14 21:10:47 其他开发

K均值||用于 Spark 上的情感分析

我正在尝试编写基于 Spark 的情感分析程序.为此,我使用 word2vec 和 KMeans 聚类.从 word2Vec 中,我在 100 维空间中有 20k 个词/向量集合,现在我正在尝试对这个向量空间进行聚类.当我使用默认并行实现运行 KMeans 时,算法工作了 3 个小时!但是使用随机初始化策略,它就像 8 分钟.我究竟做错了什么?我有一台配备 4 个内核处理器和 16 GB 内存的 ..