apache-spark-ml相关内容
我正在使用带有 pyspark 的 PCA 模型降低 Spark DataFrame 的维度(使用 spark ml库)如下: pca = PCA(k=3, inputCol=“features", outputCol=“pca_features")模型 = pca.fit(数据) 其中 data 是一个 Spark DataFrame,其中一列标记为 features,它是一个 3 维的 D
..
问题的简短版本! 考虑以下代码段(假设 spark 已经设置为某个 SparkSession): from pyspark.sql import Row源数据 = [行(城市=“芝加哥",温度=[-1.0,-2.0,-3.0]),行(城市=“纽约",温度=[-7.0,-7.0,-5.0]),]df = spark.createDataFrame(source_data) 请注意,温度字段
..
我通过调用instances.groupBy(instances.col("property_name"))创建了一个RelationalGroupedDataset: val x = instances.groupBy(instances.col("property_name")) 我如何编写 用户定义的聚合函数 来执行Statistics.colStats().mean 每组? 谢谢
..
我正在准备一个玩具 spark.ml 示例.Spark 1.6.0 版,运行在 Oracle JDK 1.8.0_65 版、pyspark、ipython notebook 之上. 首先,它几乎与 Spark、ML、StringIndexer:处理看不见的标签.将管道拟合到数据集时抛出异常,而不是转换它.在这里抑制异常可能不是解决方案,因为恐怕在这种情况下数据集会变得非常糟糕. 我的数
..
我有一个两列的 DataFrame,Int 类型的 ID 和 Vector 类型的 Vec(org.apache.spark.mllib.linalg.Vector). DataFrame 如下所示: ID,Vec1,[0,0,5]1,[4,0,1]1,[1,2,1]2,[7,5,0]2,[3,3,4]3,[0,8,1]3,[0,0,1]3,[7,7,7].... 我想做一个 group
..
我正在尝试在 JSON 文件上创建 LDA 模型. 使用 JSON 文件创建 spark 上下文: import org.apache.spark.sql.SparkSessionval sparkSession = SparkSession.builder.master("本地").appName("my-spark-app").config("spark.some.config.opt
..
我有一个带有架构的 DataFrame root|-- 标签:字符串(可为空 = 真)|-- 特征:结构(可为空 = 真)||-- feat1: string (nullable = true)||-- feat2: string (nullable = true)||-- feat3: string (nullable = true) 虽然,我可以使用 过滤数据框 val data =
..
我有一个数据框 df,其中有一个名为 features 的 VectorUDT 列.如何获取列的元素,比如说第一个元素? 我尝试过以下操作 from pyspark.sql.functions import udffirst_elem_udf = udf(lambda 行:row.values[0])df.select(first_elem_udf(df.features)).show()
..
我有一个 Python 类,用于在 Spark 中加载和处理一些数据.在我需要做的各种事情中,我正在生成一个从 Spark 数据帧中的各个列派生的虚拟变量列表.我的问题是我不确定如何正确定义用户定义的函数来完成我需要的功能. 我确实目前有一个方法,当映射到底层数据帧 RDD 时,解决了一半的问题(请记住,这是一个更大的 data_processor 类中的方法): def build_fe
..
我刚刚使用 Standard Scaler 为 ML 应用程序规范了我的功能.选择缩放特征后,我想将其转换回双精度数据帧,尽管我的向量的长度是任意的.我知道如何使用 来针对特定的 3 个功能执行此操作 myDF.map{case Row(v: Vector) =>(v(0), v(1), v(2))}.toDF("f1", "f2", "f3") 但不适用于任意数量的特征.有没有简单的方法可
..
上下文:我有一个 DataFrame 有 2 列:词和向量.其中“vector"的列类型是VectorUDT. 一个例子: word |向量断言|[435,323,324,212...] 我想得到这个: word |v1 |v2 |v3 |v4 |v5 |v6 ......断言|第435话5435|698|356|.... 问题: 如何使用 PySpark 将具有向量的列拆分为
..
我正在尝试创建一个 vectorAssembler 来创建逻辑回归的输入并使用以下代码: //导入导入 org.apache.spark.ml.feature.VectorAssembler导入 org.apache.spark.mllib.linalg.{Vector, Vectors, VectorUDT}1 val 汇编程序 = new VectorAssembler()2 .setInp
..
嘿,我正在尝试用 Spark 构建一个推荐系统 我有一个包含用户电子邮件和电影评级的数据框. df = pd.DataFrame(np.array([["aa@gmail.com",2,3],["aa@gmail.com",5,5],["bb@gmail.com",8,2],["cc@gmail.com",9,3]]), columns=['user','movie','rating'])
..
当我尝试使用 "sqlContext.read.format("libsvm").load" 在 pyspark/scala 中导入 libsvm 文件时,出现以下错误 - “无法为数据源加载类:Libsvm." 同时,如果我使用 "MLUtils.loadLibSVMFile" 它工作得很好.我需要同时使用 Spark ML(获取类别概率)和 MLlib 进行评估.附上错误截图.
..
我目前正在使用 scikit-learn 库提供的 SGDClassifier.当我使用 fit 方法时,我可以设置 sample_weight 参数: 应用于单个样本的权重.如果没有提供,统一假设权重.这些权重将乘以class_weight(通过构造函数传递)如果 class_weight 是指定 我想切换到 PySpark 并使用 LogisticRegression 类.无论如何
..
我目前正在使用 scikit-learn 库提供的 SGDClassifier.当我使用 fit 方法时,我可以设置 sample_weight 参数: 应用于单个样本的权重.如果没有提供,统一假设权重.这些权重将乘以class_weight(通过构造函数传递)如果 class_weight 是指定 我想切换到 PySpark 并使用 LogisticRegression 类.无论如何
..
我尝试加载 KmeansModel,然后从中取出标签: 这是我写的代码: val kMeansModel = KMeansModel.load(trainedMlModel.mlModelFilePath)val arrayOfElements = measurePoint.measurements.map(a => a._2).toSeqprintln(s"ArrayOfELement
..
我们需要在 Apache Spark Dataset 中实现跨字符串的 Jaro-Winkler 距离计算.我们是 Spark 的新手,在网上搜索后我们找不到太多东西.如果您能指导我们,那就太好了.我们想过使用 flatMap 然后意识到它无济于事,然后我们尝试使用几个 foreach 循环但无法弄清楚如何继续.因为每个字符串都必须与所有字符串进行比较.就像下面的数据集一样. RowFactor
..
我会尽量描述我的想法. MS SQL 数据库中存储了文本内容.内容每天都以流的形式出现.有些人每天都会浏览内容,如果内容符合某些标准,则将其标记为已验证.只有一个类别.它要么“有效",要么无效. 我想要的是基于已经验证的内容创建一个模型,保存它并使用这个模型来“预验证"或标记新的传入内容.也偶尔根据新验证的内容更新模型.希望我解释清楚了. 我正在考虑根据创建的模型使用 Spark
..
我对 Spark 机器学习非常陌生,我想将多个列传递给功能,在下面的代码中,我只将日期列传递给功能,但现在我想将用户 ID 和日期列传递给功能.我尝试使用 Vector,但它只支持 Double 数据类型,但在我的情况下,我有 Int 和 String 如果有人提供任何建议/解决方案或任何代码示例来满足我的要求,我将不胜感激 代码: case class LabeledDocume
..