apache-spark-ml相关内容
你们知道我在哪里可以找到 Spark 中多类分类的示例.我花了很多时间在书籍和网络上搜索,到目前为止,我只知道根据文档从最新版本开始是可能的. 解决方案 ML (在 Spark 2.0+ 中推荐) 我们将使用与下面 MLlib 中相同的数据.有两个基本选项.如果 Estimator 支持开箱即用的多类分类(例如随机森林),您可以直接使用它: val trainRawDf =
..
我使用 python 中的什么 .map() 函数从 spark 数据帧创建一组 labeledPoints ?如果标签/结果不是第一列,但我可以参考其列名“状态",则表示法是什么? 我用这个 .map() 函数创建了 Python 数据框: def parsePoint(line):listmp = list(line.split('\t'))数据帧 = pd.DataFrame(pd.
..
所以我几天来一直在尝试在 Spark 的映射函数中运行 ML 算法.我发布了一个更具体的问题但引用Spark 的 ML 算法给了我以下错误: AttributeError: 无法从 SparkContext 加载 _jvm.SparkContext 是否已初始化? 显然我不能在 apply_classifier 函数中引用 SparkContext.我的代码类似于我在上一个问题中提出的建议,但
..
我在尝试构建 ML Pipeline 时遇到以下错误: pyspark.sql.utils.IllegalArgumentException:“要求失败:列特征必须是 org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7 类型,但实际上是 ArrayType(DoubleType,true)." My features 列包含一个浮点值数组.听起来我需要将
..
我修改了 OneHotEncoder 示例以实际训练 LogisticRegression.我的问题是如何将生成的权重映射回分类变量? def oneHotEncoderExample(sqlContext: SQLContext): Unit = {val df = sqlContext.createDataFrame(Seq((0, "a", 1.0),(1, "b", 1.0),(2, "
..
我正在修改 PySpark 文档中的一些交叉验证代码,并试图让 PySpark 告诉我选择了什么模型: from pyspark.ml.classification import LogisticRegression从 pyspark.ml.evaluation 导入 BinaryClassificationEvaluator从 pyspark.mllib.linalg 导入向量从 pyspar
..
我想制作libsvm格式,所以我将dataframe制作成想要的格式,但是我不知道如何转换为libsvm格式.格式如图所示.我希望所需的 libsvm 类型是 user item:rating .如果您知道在当前情况下该怎么做: val ratings = sc.textFile(new File("/user/ubuntu/kang/0829/rawRatings.csv").toString
..
我必须获取数据类型并进行大小写匹配并将其转换为某种所需的格式.但是 org.apache.spark.ml.linalg.VectorUDT 的用法显示 VectorUDT 是 private.另外我特别需要使用 org.apache.spark.ml.linalg.VectorUDT 而不是 org.apache.spark.mllib.linalg.VectorUDT.有人可以建议如何解决这个
..
我注意到 ml StandardScaler 没有将元数据附加到输出列: import org.apache.spark.ml.Pipeline导入 org.apache.spark.ml.feature._val df = spark.read.option("header", true).option("inferSchema", true).csv("/path/to/cars.data"
..
在我使用 VectorAssembler() 来整合一些 OneHotEncoded 分类特征之前...我的数据框看起来像这样: |数字|热编码1|热编码2|14460.0|(44,[5],[1.0])|(3,[0],[1.0])||14460.0|(44,[9],[1.0])|(3,[0],[1.0])||15181.0|(44,[1],[1.0])|(3,[0],[1.0])| 第一列是数
..
我正在重构我的代码以利用 DataFrames, Estimators和管道.我最初在 MLlib Multiclass LogisticRegressionWithLBFGS 上使用 代码>RDD[LabeledPoint].我很享受学习和使用新 API,但我不确定如何保存我的新模型并将其应用于新数据. 目前,LogisticRegression 的 ML 实现仅支持二进制分类.我是,而不
..
我有一个 DenseVector RDD 像这样 >>>frequencyDenseVectors.collect()[DenseVector([1.0, 0.0, 1.0, 1.0, 0.0, 0.0, 1.0, 0.0, 1.0, 1.0, 1.0, 0.0, 1.0]), DenseVector([1.0, 1.0, 1.0, ., 0.0.0.0], 0.0, 0.0, 0.0, 0.0
..
试图理解 Spark 的归一化算法.我的小测试集包含 5 个向量: {0.95, 0.018, 0.0, 24.0, 24.0, 14.4, 70000.0},{1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 70000.0},{-1.0, -1.0, -1.0, -1.0, -1.0, -1.0, 70000.0},{-0.95, 0.018, 0.0, 24.0, 24.0, 1
..
我想评估一个正在接受某些数据训练的随机森林.Apache Spark 中是否有任何实用程序可以执行相同操作,还是我必须手动执行交叉验证? 解决方案 ML 提供 CrossValidator 类,可用于执行交叉验证和参数搜索.假设您的数据已经过预处理,您可以按如下方式添加交叉验证: import org.apache.spark.ml.Pipeline导入 org.apache.spark
..
我有一个包含许多列的 spark 数据框“mydataframe".我试图仅在两列上运行 kmeans:纬度和经度(纬度和经度),将它们用作简单值).我想仅基于那 2 列提取 7 个集群,然后我想将集群分配附加到我的原始数据帧.我试过了: from numpy import array从数学导入 sqrt从 pyspark.mllib.clustering 导入 KMeans, KMeansMo
..
我有一个如下所示的 DataFrame: +-----------+-----+------------+|用户ID|组|特点|+------------+-----+------------+|12462563356|1|[5.0,43.0]||12462563701|2|[1.0,8.0]||12462563701|1|[2.0,12.0]||12462564356|1|[1.0,1.0]|
..
我正在尝试从 DataFrame 中获取列并将其转换为 RDD[Vector]. 问题是我的名称中有一个“点"的列作为以下数据集: "col0.1","col1.2","col2.3","col3.4"1、2、3、410、12、15、31、12、10、5 这就是我正在做的: val df = spark.read.format("csv").options(Map("header" -
..
背景:我有一个包含两列的数据框:标签和特征. org.apache.spark.sql.DataFrame = [label: int, features: vector] 其中 features 是使用 VectorAssembler 构建的数字类型的 mllib.linalg.VectorUDT. 问题:有没有办法为特征向量分配模式?我想跟踪每个功能的名称. 目前尝试过: v
..
有一个带有一些分类字符串值的 DataFrame(例如 uuid|url|browser). 我想将其转换为双精度以执行接受双矩阵的 ML 算法. 作为转换方法,我使用 StringIndexer (spark 1.4) 将我的字符串值映射到双精度值,所以我定义了一个这样的函数: def str(arg: String, df:DataFrame) : DataFrame =(val
..
我遇到了 VectorAssembler 的一个非常奇怪的行为,我想知道是否有其他人看到过这个. 我的场景非常简单.我从 CSV 文件中解析数据,其中有一些标准的 Int 和 Double 字段,我还计算了一些额外的列.我的解析函数返回: val connected = countPerChannel ++ countPerSource//两个双打数组加入(label, orderNo,
..