apache-spark-mllib相关内容
我尝试使用一些自定义数据在 Spark 上构建回归模型,截距和权重始终为 nan.这是我的数据: data = [LabeledPoint(0.0, [27022.0]), LabeledPoint(1.0, [27077.0]), LabeledPoint(2.0, [27327.0]), LabeledPoint(3.0, [27127.0])] 输出: (weights=[nan],i
..
编辑:我尝试了一个独立的 Spark 应用程序(而不是 PredictionIO),我的观察结果是一样的.所以这不是 PredictionIO 问题,但仍然令人困惑. 我正在使用 PredictionIO 0.9.6 和 Recommendation 模板协同过滤.我的数据集中的评分是 1 到 10 之间的数字.当我第一次使用模板中的默认值训练模型时(使用 ALS.train),预测很糟糕,
..
在独立应用程序中(在 java8、Windows 10 上运行,使用 spark-xxx_2.11:2.0.0 作为 jar 依赖项)下一个代码给出错误: /* 这个:*/数据集logData = spark_session.createDataFrame(Arrays.asList(new LabeledPoint(1.0, Vectors.dense(4.9,3,1.4,0.2)),new
..
我使用的是 Spark 1.5.1 并且,在pyspark中,在我使用以下方法拟合模型后: model = LogisticRegressionWithLBFGS.train(parsedData) 我可以使用以下方法打印预测: model.predict(p.features) 是否有同时打印概率分数和预测的函数? 解决方案 你必须首先清除阈值,这仅适用于二进制分类: fro
..
所以我是 Apache Spark 的新手,我有一个如下所示的文件: 名称大小记录文件 1 1,000 104,370档案 2 950 91,780文件 3 1,500 109,123档案 4 2,170 113,888档案 5 2,000 111,974档案 6 1,820 110,666档案 7 1,200 106,771档案 8 1,500 108,991档案 9 1,000 104,00
..
我有一个包含 Userid、ItemID、Ratings 的 Spark 数据框.我正在构建一个推荐系统. 数据如下: originalDF.show(5)+----+----+----+|用户|项目|评级|+----+----+----+|353|0|1||353|1|1||353|2|1||354|3|1||354|4|1|+----+----+----+ 它拥有 56K 独立用户和
..
我正在使用 Spark 1.6 构建一个 NB 模型,并使用 ChiSqSelector 来识别主要特征.我总共有 7 个特征并寻找前 3 个特征.虽然过程运行良好,但我将如何识别被评为顶级特征的实际特征.由于数据已分类,我无法将输出映射到实际输入列. val chidata = cat_recs.map(r => (r.getDouble(targetInd), Vectors.dense(f
..
寻求专业知识来指导我解决以下问题. 背景: 我正在尝试使用受 这个例子 作为部署基础架构,我使用 Google Cloud Dataproc 集群. 我的代码中的基石是记录了“recommendProductsForUsers"功能here 返回模型中所有用户的前 X 个产品 我遇到的问题 ALS.Train 脚本在 GCP 上运行流畅且扩展性良好(轻松超过 100 万
..
我修改了 Spark 中的 mllib,想在其他项目中使用自定义的 mllib jar.当我使用以下方法构建 spark 时它会起作用: build/mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests 干净的包 从位于 http://spark 的 Spark 文档中学习.apache.org/docs/latest/build
..
我试图在 PySpark MLlib (1.3.1) 的 ALS 模型中使用长用户/产品 ID,但遇到了问题.此处给出了代码的简化版本: from pyspark import SparkContext从 pyspark.mllib.recommendation 导入 ALS,评级sc = SparkContext("","test")# 加载并解析数据d = [ "3661636574,1,1
..
我目前正在使用 StringIndexer 将许多列转换为唯一的整数,以便在 RandomForestModel 中进行分类.我也在为 ML 过程使用管道. 有些查询是 RandomForestModel 如何知道哪些列是分类的.StringIndexer 将非数字转换为数字,但它是否添加了某种元数据以表明它是一个分类列?在 mllib.tree.RF 中,有参数调用 categori
..
在我的 spark DataFrame 中,有一列包含 CountVectoriser 转换的输出 - 它采用稀疏矢量格式.我想要做的是再次将这一列“分解"成一个密集的向量,然后它是组成行(这样它就可以被外部模型用于评分). 我知道该列中有 40 个功能,因此遵循 这个例子,我试过: import org.apache.spark.sql.functions.udf导入 org.apach
..
我正在尝试使用 spark 中的 columnSimilarities() 构建基于项目的协同过滤模型.使用 columnsSimilarities() 后,我想将原始列名分配回 Spark scala 中的结果. 在数据框上计算 columnSimilarities() 的可运行代码. 数据 //rddval rowsRdd: RDD[Row] = sc.parallelize(序
..
在将逻辑回归的阈值用于评分之前,我将其设置为 0.5.我现在想获得该值的精度、召回率和 f1 分数.不幸的是,当我尝试这样做时,我看到的唯一阈值是 1.0 和 0.0.如何获取除 0 和 1 以外的阈值的指标. 例如这里是 o/p: 阈值为:1.0,精度为:0.85 阈值为:0.0,精度为:0.312641 我没有得到阈值 0.5 的精度.这是相关的代码. //我在这
..
我正在尝试使用 Apache Spark 构建逻辑回归模型.这是代码. parsedData = raw_data.map(mapper) # mapper 是一个函数,它生成一对标签和特征向量作为 LabeledPoint 对象featureVectors = parsedData.map(lambda point: point.features) # 从解析数据中获取特征向量scaler =
..
我知道我可以使用 CrossValidator 调整单个模型.但是,相互评估不同模型的建议方法是什么?例如,假设我想评估一个 LogisticRegression 分类器针对 LinearSVC 分类器使用 CrossValidator. 解决方案 在熟悉了 API 之后,我通过实现一个自定义的 Estimator 包装两个或多个它可以委派给的估算器,其中选定的估算器由单个 Param[I
..
我正在尝试测试 Mllib 的 SVM 实现.我想使用 eclipse 在 Windows 上本地运行他们的 java 示例.我已经下载了为 Hadoop 2.6 预先构建的 Spark 1.3.1 .当我尝试运行示例代码时,我得到: 15/06/11 16:17:09 ERROR Shell:无法在 hadoop 二进制路径中找到 winutils 二进制文件java.io.IOExcepti
..
我正在使用 ElasticSearch-Hadoop 库从 ElsticSearch 获取数据. JavaPairRDD>esRDD = JavaEsSpark.esRDD(sc); 现在我有了 JavaPairRDD.我想在这个 RDD 上使用来自 MLLib 的随机森林.所以我将它转换为 JavaPairRDD.toRDD(esRDD) 这会给我 RDD.使用 RDD 我再次转换为 Jav
..
我正在努力实现 Spark LDA 模型(通过 Scala API),但在为我的数据执行必要的格式化步骤时遇到了问题.我的原始数据(存储在文本文件中)采用以下格式,本质上是令牌列表及其对应的文档.一个简化的例子: doc XXXXX 术语 XXXXX1 x 'a' x1 x 'a' x1 x 'b' x2 x 'b' x2 x 'd' x... XXXXX 列是我不关心的垃圾数据.我意识到这是
..
我正在努力创建 LDA 模型. 这是我到目前为止所做的 - 创建了一个 unigram 并根据 这篇文章. 代码如下: countVectors = CountVectorizer(inputCol="unigrams", outputCol="features", vocabSize=3, minDF=2.0)模型 = countVectors.fit(res)结果 = 模型.tr
..