apache-spark-mllib 第3页 - IT屋-程序员软件开发技术分享社区

列变换后的 Pyspark 随机森林特征重要性映射

我试图用列名绘制某些基于树的模型的特征重要性.我正在使用 Pyspark. 因为我也有文本分类变量和数字变量，所以我不得不使用类似这样的管道方法 - 使用字符串索引器来索引字符串列对所有列使用一个热编码器使用vectorassembler创建包含特征向量的特征列来自 docs 步骤 1,2,3 - from pyspark.ml import Pipeline从 ..

发布时间：2021-11-14 21:35:34 apache-spark pyspark apache-spark-sql apache-spark-mllib 其他开发

拆分 PySpark 数据框中字符串列的内容

我有一个 pyspark 数据框，其中有一列包含字符串.我想将此列拆分为单词代码: >>>sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', header='true', inferSchema='true')>>>句子数据.show(截断=假)+---+ ..

发布时间：2021-11-14 21:31:15 apache-spark pyspark spark-dataframe apache-spark-mllib 其他开发

我有一个如下所示的 DataFrame: +-----------+-----+------------+|用户ID|组|特点|+------------+-----+------------+|12462563356|1|[5.0,43.0]||12462563701|2|[1.0,8.0]||12462563701|1|[2.0,12.0]||12462564356|1|[1.0,1.0]| ..

发布时间：2021-11-14 21:31:09 apache-spark spark-dataframe apache-spark-mllib apache-spark-ml 其他开发

带点火花的列名

我正在尝试从 DataFrame 中获取列并将其转换为 RDD[Vector]. 问题是我的名称中有一个“点"的列作为以下数据集: "col0.1","col1.2","col2.3","col3.4"1、2、3、410、12、15、31、12、10、5 这就是我正在做的: val df = spark.read.format("csv").options(Map("header" - ..

发布时间：2021-11-14 21:30:52 scala apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml 其他开发

如何在 Spark ML 中为分类创建正确的数据框

我正在尝试使用 Spark ML api 但我在创建正确的数据框输入到管道时遇到问题. 这是示例数据: age,hours_per_week,education,sex,salaryRange38,40,"hs-grad","男","A"28,40,"单身汉","女性","A"52,45,"hs-grad","男","B"31,50,"大师","女","B"42,40,"单身汉","男", ..

发布时间：2021-11-14 21:28:31 scala apache-spark apache-spark-sql apache-spark-mllib 其他开发

计算余弦相似度 Spark 数据框

我使用 Spark Scala 来计算 Dataframe 行之间的余弦相似度. 数据帧格式如下 root|-- SKU: double (nullable = true)|-- 特征:向量(可为空 = 真) 下面的数据框示例 +-------+--------------------+|SKU|特点|+-------+--------------------+|9970.0|[4. ..

发布时间：2021-11-14 21:24:31 scala apache-spark apache-spark-sql apache-spark-mllib 其他开发

当 udf 函数不接受足够大的输入变量时 Spark DataFrames

我正在准备一个带有 id 和特征向量的 DataFrame，稍后将用于进行预测.我在我的数据框上做了一个 groupBy，在我的 groupBy 中，我将几列作为列表合并到一个新列中: def mergeFunction(...)//有 14 个输入变量val myudffunction( mergeFunction )//Spark 不支持这个df.groupBy("id").agg(coll ..

发布时间：2021-11-14 21:23:15 scala apache-spark dataframe apache-spark-sql apache-spark-mllib 其他开发

访问 Spark 2.0 中的向量列时出现 MatchError

我正在尝试在 JSON 文件上创建 LDA 模型. 使用 JSON 文件创建 spark 上下文: import org.apache.spark.sql.SparkSessionval sparkSession = SparkSession.builder.master("本地").appName("my-spark-app").config("spark.some.config.opt ..

发布时间：2021-11-14 21:18:31 scala apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml 其他开发

AttributeError: 'DataFrame' 对象没有属性 'map'

我想使用以下代码转换要添加的 spark 数据框: from pyspark.mllib.clustering import KMeansspark_df = sqlContext.createDataFrame(pandas_df)rdd = spark_df.map(lambda 数据:Vectors.dense([float(c) for c in data]))模型 = KMeans.t ..

发布时间：2021-11-14 21:17:36 python apache-spark pyspark spark-dataframe apache-spark-mllib Python

在 PySpark 中编码和组装多个功能

我有一个 Python 类，用于在 Spark 中加载和处理一些数据.在我需要做的各种事情中，我正在生成一个从 Spark 数据帧中的各个列派生的虚拟变量列表.我的问题是我不确定如何正确定义用户定义的函数来完成我需要的功能. 我确实目前有一个方法，当映射到底层数据帧 RDD 时，解决了一半的问题(请记住，这是一个更大的 data_processor 类中的方法): def build_fe ..

发布时间：2021-11-14 21:15:31 python apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml Python

如何使用 Spark 的 MLLib 对推文进行矢量化处理?

我想将推文转换为用于机器学习的向量，以便我可以使用 Spark 的 K-Means 聚类基于内容对它们进行分类.例如，所有与亚马逊相关的推文都归入一个类别. 我曾尝试将推文拆分为单词并使用 HashingTF 创建向量，但效果不佳. 还有其他方法可以对推文进行矢量化处理吗? 解决方案你可以试试这个管道: 首先，标记输入推文(位于 text 列中).基本上，它会创建一个新 ..

发布时间：2021-11-14 21:13:09 apache-spark vector twitter k-means apache-spark-mllib 其他开发

如何在apache spark中将文本和数字数据的混合转换为特征数据

我有一个包含文本和数字数据的 CSV.我需要将其转换为 Spark 中的特征向量数据(双值).有没有办法做到这一点? 我看到一些例如每个关键字都映射到一些双值并使用它进行转换的地方.但是如果有多个关键字，就很难做到这一点. 还有其他出路吗?我看到 Spark 提供了可转换为特征向量的提取器.有人可以举个例子吗? 48, Private, 105808, 9th, 5, Widowed ..

发布时间：2021-11-14 21:13:06 apache-spark apache-spark-mllib feature-selection 其他开发

在 apache spark ml 中使用 VectorAssembler 的异常

我正在尝试创建一个 vectorAssembler 来创建逻辑回归的输入并使用以下代码: //导入导入 org.apache.spark.ml.feature.VectorAssembler导入 org.apache.spark.mllib.linalg.{Vector, Vectors, VectorUDT}1 val 汇编程序 = new VectorAssembler()2 .setInp ..

发布时间：2021-11-14 21:13:02 apache-spark apache-spark-mllib apache-spark-ml 其他开发

在贝叶斯分类之前使用 PCA

我正在尝试在贝叶斯分类之前使用 PCA，但它说 Native Bayes 需要非负特征值，使用的训练数据是非负的，但使用 PCA 变成负值，我该如何解决，感谢回答我的问题解决方案如果您想减少输入的维度，可以改用非负矩阵分解.在Spark中，此方法在mllib.recommendation.ALS中，然后将非负参数设置为True. ..

发布时间：2021-11-14 21:12:59 scala apache-spark apache-spark-mllib 其他开发

pyspark 添加带有数据框行号的新列字段

嘿，我正在尝试用 Spark 构建一个推荐系统我有一个包含用户电子邮件和电影评级的数据框. df = pd.DataFrame(np.array([["aa@gmail.com",2,3],["aa@gmail.com",5,5],["bb@gmail.com",8,2],["cc@gmail.com",9,3]]), columns=['user','movie','rating']) ..

发布时间：2021-11-14 21:12:56 python apache-spark pyspark apache-spark-mllib apache-spark-ml Python

无法为数据源加载类:Spark ML pyspark/scala 中的 Libsvm

当我尝试使用 "sqlContext.read.format("libsvm").load" 在 pyspark/scala 中导入 libsvm 文件时，出现以下错误 - “无法为数据源加载类:Libsvm." 同时，如果我使用 "MLUtils.loadLibSVMFile" 它工作得很好.我需要同时使用 Spark ML(获取类别概率)和 MLlib 进行评估.附上错误截图. ..

发布时间：2021-11-14 21:12:53 apache-spark pyspark mapr apache-spark-mllib apache-spark-ml 其他开发

Apache Spark 的 RDD[Vector] 不变性问题

我知道 RDD 是不可变的，因此它们的值不能改变，但我看到以下行为: 我为 FuzzyCMeans (https://github.com/salexln/FinalProject_FCM) 算法编写了一个实现现在我正在测试它，所以我运行以下示例: import org.apache.spark.mllib.clustering.FuzzyCMeans导入 org.apache.spark ..

发布时间：2021-11-14 21:12:50 scala apache-spark rdd apache-spark-mllib 其他开发

Spark-Shell--- 错误:对象 jblas 不是包 org 的成员 (Windows)

我在 windows 的 spark shell 中运行代码 import org.jblas.DoubleMatrix 我得到的错误是错误:对象 jblas 不是包 org 的成员我研究过 stackoverflow，但答案仅适用于 Linux 系统. 任何帮助将不胜感激. 亲切的问候，无辜的解决方案你应该在启动 spark-shell 时将 jblas 添加 ..

发布时间：2021-11-14 21:12:47 scala apache-spark apache-spark-mllib 其他开发

Spark mllib:如何将字符串分类特征转换为 int 以供评级接受

我想使用 spark mllib 和协同过滤技术中的 ALS 算法构建一个推荐应用程序.我的数据集具有字符串形式的用户和产品特征，例如: [{"user":"StringName1", "product":"StringProduct1", "rating":1},{"user":"StringName2", "product":"StringProduct2", "rating":2},{"u ..

发布时间：2021-11-14 21:12:44 scala apache-spark apache-spark-mllib collaborative-filtering 其他开发

如何将 RDD[Row] 转换为 RDD[Vector]

我正在尝试使用 Scala 实现 k-means 方法.我创建了一个类似这样的 RDD val df = sc.parallelize(data).groupByKey().collect().map((chunk)=>{sc.parallelize(chunk._2.toSeq).toDF()})val 示例 = df.map(dataframe =>{dataframe.selectExpr ..

发布时间：2021-11-14 21:12:41 scala apache-spark-mllib 其他开发

apache-spark-mllib相关内容