apache-spark-mllib 第8页 - IT屋-程序员软件开发技术分享社区

Spark - MLlib 线性回归截距和权重 NaN

我尝试使用一些自定义数据在 Spark 上构建回归模型，截距和权重始终为 nan.这是我的数据: data = [LabeledPoint(0.0, [27022.0]), LabeledPoint(1.0, [27077.0]), LabeledPoint(2.0, [27327.0]), LabeledPoint(3.0, [27127.0])] 输出: (weights=[nan],i ..

发布时间：2021-11-14 21:08:17 apache-spark apache-spark-mllib 其他开发

为什么 ALS.trainImplicit 可以为显式评分提供更好的预测?

编辑:我尝试了一个独立的 Spark 应用程序(而不是 PredictionIO)，我的观察结果是一样的.所以这不是 PredictionIO 问题，但仍然令人困惑. 我正在使用 PredictionIO 0.9.6 和 Recommendation 模板协同过滤.我的数据集中的评分是 1 到 10 之间的数字.当我第一次使用模板中的默认值训练模型时(使用 ALS.train)，预测很糟糕， ..

发布时间：2021-11-14 21:08:14 machine-learning apache-spark-mllib recommendation-engine collaborative-filtering AI人工智能

带有 DataFrame API 的 Apache Spark MLlib 在 createDataFrame() 或 read().csv(...) 时给出 java.net.URISyntaxException

在独立应用程序中(在 java8、Windows 10 上运行，使用 spark-xxx_2.11:2.0.0 作为 jar 依赖项)下一个代码给出错误: /* 这个:*/数据集logData = spark_session.createDataFrame(Arrays.asList(new LabeledPoint(1.0, Vectors.dense(4.9,3,1.4,0.2)),new ..

发布时间：2021-11-14 21:08:10 java apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml Java开发

如何在 pyspark 的 LogisticRegressionWithLBFGS 中打印预测概率

我使用的是 Spark 1.5.1 并且，在pyspark中，在我使用以下方法拟合模型后: model = LogisticRegressionWithLBFGS.train(parsedData) 我可以使用以下方法打印预测: model.predict(p.features) 是否有同时打印概率分数和预测的函数? 解决方案你必须首先清除阈值，这仅适用于二进制分类: fro ..

发布时间：2021-11-14 21:08:07 apache-spark machine-learning pyspark apache-spark-mllib logistic-regression AI人工智能

当 DataFrame 有列时，如何使用 Java Apache Spark MLlib?

所以我是 Apache Spark 的新手，我有一个如下所示的文件: 名称大小记录文件 1 1,000 104,370档案 2 950 91,780文件 3 1,500 109,123档案 4 2,170 113,888档案 5 2,000 111,974档案 6 1,820 110,666档案 7 1,200 106,771档案 8 1,500 108,991档案 9 1,000 104,00 ..

发布时间：2021-11-14 21:08:04 java apache-spark machine-learning apache-spark-mllib Java开发

ChiSqSelector - 真实功能 - Spark

我正在使用 Spark 1.6 构建一个 NB 模型，并使用 ChiSqSelector 来识别主要特征.我总共有 7 个特征并寻找前 3 个特征.虽然过程运行良好，但我将如何识别被评为顶级特征的实际特征.由于数据已分类，我无法将输出映射到实际输入列. val chidata = cat_recs.map(r => (r.getDouble(targetInd), Vectors.dense(f ..

发布时间：2021-11-14 21:07:54 scala apache-spark apache-spark-mllib 其他开发

应用 pyspark ALS 的“recommendProductsForUsers"时出现 StackOverflow 错误；(尽管可用集群> 300GB Ram)

寻求专业知识来指导我解决以下问题. 背景: 我正在尝试使用受这个例子作为部署基础架构，我使用 Google Cloud Dataproc 集群. 我的代码中的基石是记录了“recommendProductsForUsers"功能here 返回模型中所有用户的前 X 个产品我遇到的问题 ALS.Train 脚本在 GCP 上运行流畅且扩展性良好(轻松超过 100 万 ..

发布时间：2021-11-14 21:07:51 pyspark apache-spark-mllib recommendation-engine google-cloud-dataproc gcp 其他开发

如何单独构建 Spark Mllib 子模块

我修改了 Spark 中的 mllib，想在其他项目中使用自定义的 mllib jar.当我使用以下方法构建 spark 时它会起作用: build/mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests 干净的包从位于 http://spark 的 Spark 文档中学习.apache.org/docs/latest/build ..

发布时间：2021-11-14 21:07:48 maven apache-spark build apache-spark-mllib 其他开发

如何在 PySpark ALS 中使用长用户 ID

我试图在 PySpark MLlib (1.3.1) 的 ALS 模型中使用长用户/产品 ID，但遇到了问题.此处给出了代码的简化版本: from pyspark import SparkContext从 pyspark.mllib.recommendation 导入 ALS，评级sc = SparkContext("","test")# 加载并解析数据d = [ "3661636574,1,1 ..

发布时间：2021-11-14 21:07:45 apache-spark pyspark apache-spark-mllib 其他开发

在 Spark 中将列标记为分类

我目前正在使用 StringIndexer 将许多列转换为唯一的整数，以便在 RandomForestModel 中进行分类.我也在为 ML 过程使用管道. 有些查询是 RandomForestModel 如何知道哪些列是分类的.StringIndexer 将非数字转换为数字，但它是否添加了某种元数据以表明它是一个分类列?在 mllib.tree.RF 中，有参数调用 categori ..

发布时间：2021-11-14 21:07:42 scala apache-spark random-forest apache-spark-mllib apache-spark-ml 其他开发

将稀疏特征向量分解为单独的列

在我的 spark DataFrame 中，有一列包含 CountVectoriser 转换的输出 - 它采用稀疏矢量格式.我想要做的是再次将这一列“分解"成一个密集的向量，然后它是组成行(这样它就可以被外部模型用于评分). 我知道该列中有 40 个功能，因此遵循这个例子，我试过: import org.apache.spark.sql.functions.udf导入 org.apach ..

发布时间：2021-11-14 21:07:39 scala apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml 其他开发

在 columnSimilarties() Spark scala 之后获取列名

我正在尝试使用 spark 中的 columnSimilarities() 构建基于项目的协同过滤模型.使用 columnsSimilarities() 后，我想将原始列名分配回 Spark scala 中的结果. 在数据框上计算 columnSimilarities() 的可运行代码. 数据 //rddval rowsRdd: RDD[Row] = sc.parallelize(序 ..

发布时间：2021-11-14 21:07:36 scala apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml 其他开发

MLlib:计算多个阈值的精度和召回率

在将逻辑回归的阈值用于评分之前，我将其设置为 0.5.我现在想获得该值的精度、召回率和 f1 分数.不幸的是，当我尝试这样做时，我看到的唯一阈值是 1.0 和 0.0.如何获取除 0 和 1 以外的阈值的指标. 例如这里是 o/p: 阈值为:1.0，精度为:0.85 阈值为:0.0，精度为:0.312641 我没有得到阈值 0.5 的精度.这是相关的代码. //我在这 ..

发布时间：2021-11-14 21:07:33 scala apache-spark apache-spark-mllib 其他开发

在 Apache Spark 上训练逻辑回归模型时出错.SPARK-5063

我正在尝试使用 Apache Spark 构建逻辑回归模型.这是代码. parsedData = raw_data.map(mapper) # mapper 是一个函数，它生成一对标签和特征向量作为 LabeledPoint 对象featureVectors = parsedData.map(lambda point: point.features) # 从解析数据中获取特征向量scaler = ..

发布时间：2021-11-14 21:07:30 python apache-spark pyspark apache-spark-mllib logistic-regression Python

如何使用 CrossValidator 在不同模型之间进行选择

我知道我可以使用 CrossValidator 调整单个模型.但是，相互评估不同模型的建议方法是什么?例如，假设我想评估一个 LogisticRegression 分类器针对 LinearSVC 分类器使用 CrossValidator. 解决方案在熟悉了 API 之后，我通过实现一个自定义的 Estimator 包装两个或多个它可以委派给的估算器，其中选定的估算器由单个 Param[I ..

发布时间：2021-11-14 21:07:26 scala apache-spark apache-spark-mllib cross-validation 其他开发

如何使用java中的eclipse在Windows上本地运行Spark

我正在尝试测试 Mllib 的 SVM 实现.我想使用 eclipse 在 Windows 上本地运行他们的 java 示例.我已经下载了为 Hadoop 2.6 预先构建的 Spark 1.3.1 .当我尝试运行示例代码时，我得到: 15/06/11 16:17:09 ERROR Shell:无法在 hadoop 二进制路径中找到 winutils 二进制文件java.io.IOExcepti ..

发布时间：2021-11-14 21:07:23 hadoop apache-spark apache-spark-mllib 其他开发

将 JavaPairRDD 转换为 JavaRDD

我正在使用 ElasticSearch-Hadoop 库从 ElsticSearch 获取数据. JavaPairRDD>esRDD = JavaEsSpark.esRDD(sc); 现在我有了 JavaPairRDD.我想在这个 RDD 上使用来自 MLLib 的随机森林.所以我将它转换为 JavaPairRDD.toRDD(esRDD) 这会给我 RDD.使用 RDD 我再次转换为 Jav ..

发布时间：2021-11-14 21:07:20 java elasticsearch apache-spark rdd apache-spark-mllib Java开发

在 spark 中为 LDA 准备数据

我正在努力实现 Spark LDA 模型(通过 Scala API)，但在为我的数据执行必要的格式化步骤时遇到了问题.我的原始数据(存储在文本文件中)采用以下格式，本质上是令牌列表及其对应的文档.一个简化的例子: doc XXXXX 术语 XXXXX1 x 'a' x1 x 'a' x1 x 'b' x2 x 'b' x2 x 'd' x... XXXXX 列是我不关心的垃圾数据.我意识到这是 ..

发布时间：2021-11-14 21:07:17 scala apache-spark apache-spark-mllib lda 其他开发

构建 ClassDict 的预期零参数(用于 pyspark.ml.linalg.SparseVector)

我正在努力创建 LDA 模型. 这是我到目前为止所做的 - 创建了一个 unigram 并根据这篇文章. 代码如下: countVectors = CountVectorizer(inputCol="unigrams", outputCol="features", vocabSize=3, minDF=2.0)模型 = countVectors.fit(res)结果 = 模型.tr ..

发布时间：2021-11-14 21:07:14 python apache-spark pyspark apache-spark-mllib lda Python

apache-spark-mllib相关内容