apache-spark-mllib相关内容
我试图用列名绘制某些基于树的模型的特征重要性.我正在使用 Pyspark. 因为我也有文本分类变量和数字变量,所以我不得不使用类似这样的管道方法 - 使用字符串索引器来索引字符串列 对所有列使用一个热编码器 使用vectorassembler创建包含特征向量的特征列 来自 docs 步骤 1,2,3 - from pyspark.ml import Pipeline从
..
我有一个 pyspark 数据框,其中有一列包含字符串.我想将此列拆分为单词 代码: >>>sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', header='true', inferSchema='true')>>>句子数据.show(截断=假)+---+
..
我有一个如下所示的 DataFrame: +-----------+-----+------------+|用户ID|组|特点|+------------+-----+------------+|12462563356|1|[5.0,43.0]||12462563701|2|[1.0,8.0]||12462563701|1|[2.0,12.0]||12462564356|1|[1.0,1.0]|
..
我正在尝试从 DataFrame 中获取列并将其转换为 RDD[Vector]. 问题是我的名称中有一个“点"的列作为以下数据集: "col0.1","col1.2","col2.3","col3.4"1、2、3、410、12、15、31、12、10、5 这就是我正在做的: val df = spark.read.format("csv").options(Map("header" -
..
我正在尝试使用 Spark ML api 但我在创建正确的数据框输入到管道时遇到问题. 这是示例数据: age,hours_per_week,education,sex,salaryRange38,40,"hs-grad","男","A"28,40,"单身汉","女性","A"52,45,"hs-grad","男","B"31,50,"大师","女","B"42,40,"单身汉","男",
..
我使用 Spark Scala 来计算 Dataframe 行之间的余弦相似度. 数据帧格式如下 root|-- SKU: double (nullable = true)|-- 特征:向量(可为空 = 真) 下面的数据框示例 +-------+--------------------+|SKU|特点|+-------+--------------------+|9970.0|[4.
..
我正在准备一个带有 id 和特征向量的 DataFrame,稍后将用于进行预测.我在我的数据框上做了一个 groupBy,在我的 groupBy 中,我将几列作为列表合并到一个新列中: def mergeFunction(...)//有 14 个输入变量val myudffunction( mergeFunction )//Spark 不支持这个df.groupBy("id").agg(coll
..
我正在尝试在 JSON 文件上创建 LDA 模型. 使用 JSON 文件创建 spark 上下文: import org.apache.spark.sql.SparkSessionval sparkSession = SparkSession.builder.master("本地").appName("my-spark-app").config("spark.some.config.opt
..
我想使用以下代码转换要添加的 spark 数据框: from pyspark.mllib.clustering import KMeansspark_df = sqlContext.createDataFrame(pandas_df)rdd = spark_df.map(lambda 数据:Vectors.dense([float(c) for c in data]))模型 = KMeans.t
..
我有一个 Python 类,用于在 Spark 中加载和处理一些数据.在我需要做的各种事情中,我正在生成一个从 Spark 数据帧中的各个列派生的虚拟变量列表.我的问题是我不确定如何正确定义用户定义的函数来完成我需要的功能. 我确实目前有一个方法,当映射到底层数据帧 RDD 时,解决了一半的问题(请记住,这是一个更大的 data_processor 类中的方法): def build_fe
..
我想将推文转换为用于机器学习的向量,以便我可以使用 Spark 的 K-Means 聚类基于内容对它们进行分类.例如,所有与亚马逊相关的推文都归入一个类别. 我曾尝试将推文拆分为单词并使用 HashingTF 创建向量,但效果不佳. 还有其他方法可以对推文进行矢量化处理吗? 解决方案 你可以试试这个管道: 首先,标记输入推文(位于 text 列中).基本上,它会创建一个新
..
我有一个包含文本和数字数据的 CSV.我需要将其转换为 Spark 中的特征向量数据(双值).有没有办法做到这一点? 我看到一些例如每个关键字都映射到一些双值并使用它进行转换的地方.但是如果有多个关键字,就很难做到这一点. 还有其他出路吗?我看到 Spark 提供了可转换为特征向量的提取器.有人可以举个例子吗? 48, Private, 105808, 9th, 5, Widowed
..
我正在尝试创建一个 vectorAssembler 来创建逻辑回归的输入并使用以下代码: //导入导入 org.apache.spark.ml.feature.VectorAssembler导入 org.apache.spark.mllib.linalg.{Vector, Vectors, VectorUDT}1 val 汇编程序 = new VectorAssembler()2 .setInp
..
我正在尝试在贝叶斯分类之前使用 PCA,但它说 Native Bayes 需要非负特征值,使用的训练数据是非负的,但使用 PCA 变成负值,我该如何解决,感谢回答我的问题 解决方案 如果您想减少输入的维度,可以改用非负矩阵分解.在Spark中,此方法在mllib.recommendation.ALS中,然后将非负参数设置为True.
..
嘿,我正在尝试用 Spark 构建一个推荐系统 我有一个包含用户电子邮件和电影评级的数据框. df = pd.DataFrame(np.array([["aa@gmail.com",2,3],["aa@gmail.com",5,5],["bb@gmail.com",8,2],["cc@gmail.com",9,3]]), columns=['user','movie','rating'])
..
当我尝试使用 "sqlContext.read.format("libsvm").load" 在 pyspark/scala 中导入 libsvm 文件时,出现以下错误 - “无法为数据源加载类:Libsvm." 同时,如果我使用 "MLUtils.loadLibSVMFile" 它工作得很好.我需要同时使用 Spark ML(获取类别概率)和 MLlib 进行评估.附上错误截图.
..
我知道 RDD 是不可变的,因此它们的值不能改变,但我看到以下行为: 我为 FuzzyCMeans (https://github.com/salexln/FinalProject_FCM) 算法编写了一个实现现在我正在测试它,所以我运行以下示例: import org.apache.spark.mllib.clustering.FuzzyCMeans导入 org.apache.spark
..
我在 windows 的 spark shell 中运行代码 import org.jblas.DoubleMatrix 我得到的错误是 错误:对象 jblas 不是包 org 的成员 我研究过 stackoverflow,但答案仅适用于 Linux 系统. 任何帮助将不胜感激. 亲切的问候,无辜的 解决方案 你应该在启动 spark-shell 时将 jblas 添加
..
我想使用 spark mllib 和协同过滤技术中的 ALS 算法构建一个推荐应用程序.我的数据集具有字符串形式的用户和产品特征,例如: [{"user":"StringName1", "product":"StringProduct1", "rating":1},{"user":"StringName2", "product":"StringProduct2", "rating":2},{"u
..
我正在尝试使用 Scala 实现 k-means 方法.我创建了一个类似这样的 RDD val df = sc.parallelize(data).groupByKey().collect().map((chunk)=>{sc.parallelize(chunk._2.toSeq).toDF()})val 示例 = df.map(dataframe =>{dataframe.selectExpr
..