apache-spark-mllib相关内容
我有一个数据框gi_man_df,其中组可以是n: +------------------+-----------------+--------+--------------+|组|数字|rand_int|rand_double|+-----------------+-----------------+--------+--------------+|'GI_MAN'|7|3|124.2||'G
..
我想用一个新的二进制标志列覆盖一个火花列. 我尝试直接覆盖 id2 列,但为什么它不像 Pandas 中的就地操作那样工作? 如何做到不使用 withcolumn() 创建新列和 drop() 删除旧列? 我知道 spark 数据框是不可变的,是因为没有使用 withcolumn() & 的原因或有不同的覆盖方式.drop()? df2 = spark.createDataF
..
我正在尝试将 ALS 算法的 Spark 实现用于推荐系统,因此我构建了如下所示的 DataFrame 作为训练数据: |--------------|--------------|--------------||用户 ID |项目编号 |评级 ||--------------|--------------|--------------| 现在,我想创建一个稀疏矩阵来表示每个用户和每个项目之间
..
我有一个由 sql 查询产生的数据框 df1 = sqlContext.sql("select * from table_test") 我需要将此数据帧转换为 libsvm 格式,以便将其作为输入提供给 pyspark.ml.classification.LogisticRegression 我尝试执行以下操作.但是,这导致了以下错误,因为我使用的是 spark 1.5.2 df1.wr
..
我在 Spark 中有一个 RandomForestClassifierModel.使用 .toDebugString() 输出以下内容 树 0(权重 1.0):如果({1.0,2.0,3.0} 中的特征 0)如果({2.0,3.0} 中的功能 3)如果(特征 8 我想查看模型中的实际数据,例如 树 0(权重 1.0):如果({1.0,2.0,3.0} 中的特征 0) 60%如果({2.0
..
我阅读了以下文章 在文章中是这样写的: • PCA 算法基本上将数据读数从现有坐标系转换为新坐标系. • 数据读数越靠近新坐标系的中心,这些读数就越接近最佳值. • 异常分数是使用读数与所有读数的平均值之间的马哈拉诺比斯距离计算得出的,平均值是转换坐标系的中心. 谁能更详细地描述我使用 PCA(使用 PCA 分数和马氏距离)进行异常检测?我很困惑,因为 PCA 的定义
..
这个问题解释了 Spark 的随机拆分是如何工作的,Sparks RDD.randomSplit 如何实际拆分 RDD,但我不明白 spark 如何跟踪哪些值进入一个拆分,以便这些相同的值不会进入第二个拆分. 如果我们看一下 randomSplit 的实现: def randomSplit(weights: Array[Double], seed: Long): Array[DataFra
..
使用: http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html Python 代码: from pyspark.mllib.fpm import FPGrowth模型 = FPGrowth.train(dataframe,0.01,10) 斯卡拉: import org.apache.spark.
..
这是我第一次使用 PySpark(Spark 2),我正在尝试为 Logit 模型创建一个玩具数据框.我成功运行了教程,并希望通过我的自己的数据进去. 我已经试过了: %pyspark将 numpy 导入为 np从 pyspark.ml.linalg 导入 Vectors, VectorUDT从 pyspark.mllib.regression 导入 LabeledPointdf = np
..
我对 Spark 和 Scala 比较陌生. 我从以下数据框开始(由密集的双精度向量组成的单列): scala>val scaledDataOnly_pruned = scaledDataOnly.select("features")scaledDataOnly_pruned: org.apache.spark.sql.DataFrame = [features: vector]标度>sc
..
当我尝试将 df2 提供给 kmeans 时,出现以下错误 clusters = KMeans.train(df2, 10, maxIterations=30,运行= 10,初始化模式=“随机") 我得到的错误: 无法转换类型进入向量 df2 是一个创建如下的数据框: df = sqlContext.read.json("data/ALS3.json")df2 = df.select('
..
我有一个带有值元组(String、SparseVector)的 RDD,我想使用 RDD 创建一个 DataFrame.获取 (label:string, features:vector) DataFrame 这是大多数 ml 算法库所需的 Schema.我知道可以这样做,因为 HashingTF ml 库在给定 DataFrame 的特征列时输出一个向量. temp_df = sqlConte
..
带有 YARN 的 Spark 作业中 spark.yarn.executor.memoryOverhead 的值应该分配给 App 还是只是最大值? 解决方案 spark.yarn.executor.memoryOverhead 只是最大值.目标是将 OVERHEAD 计算为实际执行器内存的百分比,如 RDD 和 DataFrames 使用的那样 --executor-memory/
..
我在一个数据框中有两个数组字段. 我需要比较这两个数组并在同一数据框中将差异作为数组(新列)获取. 预期输出为: B 列是 A 列的子集.此外,两个数组中的单词顺序相同. 有人可以帮我找到解决方案吗? 解决方案 您可以使用用户定义的函数.我的示例数据帧与您的略有不同,但代码应该可以正常工作: 将pandas导入为pd从 pyspark.sql.types 导入 *
..
如果我有一个大约有 500 列和 2 亿行的 RDD,并且 RDD.columns.indexOf("target", 0) 显示 Int = 77我的目标因变量在第 77 列.但我对如何选择所需的(部分)列作为特征没有足够的知识(比如我想要从 23 到 59、111 到 357、399 到 489 的列).我想知道我是否可以申请这样的: val data = rdd.map(col => ne
..
我使用了 Spark ML 并且能够在预测我的业务问题时获得合理的准确性 数据并不大,我能够使用 stanford NLP 转换输入(基本上是一个 csv 文件)并在我的本地机器上运行朴素贝叶斯进行预测. 我想像一个简单的 java 主程序或一个简单的 MVC Web 应用程序一样运行这个预测服务 目前我使用 spark-submit 命令运行我的预测?相反,我可以从我的 ser
..
我想制作libsvm格式,所以我将dataframe制作成想要的格式,但是我不知道如何转换为libsvm格式.格式如图所示.我希望所需的 libsvm 类型是 user item:rating .如果您知道在当前情况下该怎么做: val ratings = sc.textFile(new File("/user/ubuntu/kang/0829/rawRatings.csv").toString
..
我有一个简单的 Spark 程序,它读取一个 JSON 文件并发出一个 CSV 文件.在 JSON 数据中,值包含前导和尾随空格,当我发出 CSV 时,前导和尾随空格消失了.有没有办法可以保留这些空间.我尝试了很多选项,例如 ignoreTrailingWhiteSpace 、 ignoreLeadingWhiteSpace 但没有运气 input.json {"key" : "k1",
..
在我使用 VectorAssembler() 来整合一些 OneHotEncoded 分类特征之前...我的数据框看起来像这样: |数字|热编码1|热编码2|14460.0|(44,[5],[1.0])|(3,[0],[1.0])||14460.0|(44,[9],[1.0])|(3,[0],[1.0])||15181.0|(44,[1],[1.0])|(3,[0],[1.0])| 第一列是数
..
我试图用之前的非空值(如果存在)填充 Spark 数据框中的缺失值.我已经在 Python/Pandas 中完成了这种类型的事情,但是我的数据对于 Pandas 来说太大了(在一个小集群上)而且我是 Spark noob.这是 Spark 可以做的吗?它可以为多列做吗?如果是这样,如何?如果没有,对 who Hadoop 工具套件中的替代方法有什么建议吗? 谢谢! 解决方案 我找到了
..