apache-spark-mllib 第2页 - IT屋-程序员软件开发技术分享社区

从 Pyspark Dataframe 中提取 numpy 数组

我有一个数据框gi_man_df，其中组可以是n: +------------------+-----------------+--------+--------------+|组|数字|rand_int|rand_double|+-----------------+-----------------+--------+--------------+|'GI_MAN'|7|3|124.2||'G ..

发布时间：2021-11-14 22:28:35 numpy apache-spark pyspark spark-dataframe apache-spark-mllib Python

如何用新列覆盖 Spark 数据框中的整个现有列?

我想用一个新的二进制标志列覆盖一个火花列. 我尝试直接覆盖 id2 列，但为什么它不像 Pandas 中的就地操作那样工作? 如何做到不使用 withcolumn() 创建新列和 drop() 删除旧列? 我知道 spark 数据框是不可变的，是因为没有使用 withcolumn() & 的原因或有不同的覆盖方式.drop()? df2 = spark.createDataF ..

发布时间：2021-11-14 22:23:45 apache-spark dataframe pyspark apache-spark-sql apache-spark-mllib 其他开发

如何使用 DataFrame 在 Spark 中构建 CoordinateMatrix?

我正在尝试将 ALS 算法的 Spark 实现用于推荐系统，因此我构建了如下所示的 DataFrame 作为训练数据: |--------------|--------------|--------------||用户 ID |项目编号 |评级 ||--------------|--------------|--------------| 现在，我想创建一个稀疏矩阵来表示每个用户和每个项目之间 ..

发布时间：2021-11-14 22:22:31 pyspark spark-dataframe apache-spark-mllib collaborative-filtering 其他开发

将数据帧转换为 libsvm 格式

我有一个由 sql 查询产生的数据框 df1 = sqlContext.sql("select * from table_test") 我需要将此数据帧转换为 libsvm 格式，以便将其作为输入提供给 pyspark.ml.classification.LogisticRegression 我尝试执行以下操作.但是，这导致了以下错误，因为我使用的是 spark 1.5.2 df1.wr ..

发布时间：2021-11-14 22:20:04 apache-spark pyspark apache-spark-sql spark-dataframe apache-spark-mllib 其他开发

如何在 Spark (scala) 中查看随机森林统计信息

我在 Spark 中有一个 RandomForestClassifierModel.使用 .toDebugString() 输出以下内容树 0(权重 1.0):如果({1.0,2.0,3.0} 中的特征 0)如果({2.0,3.0} 中的功能 3)如果(特征 8 我想查看模型中的实际数据，例如树 0(权重 1.0):如果({1.0,2.0,3.0} 中的特征 0) 60%如果({2.0 ..

发布时间：2021-11-14 22:15:05 scala apache-spark apache-spark-sql spark-dataframe apache-spark-mllib 其他开发

Spark 中使用 PCA 进行异常检测

我阅读了以下文章在文章中是这样写的: • PCA 算法基本上将数据读数从现有坐标系转换为新坐标系. • 数据读数越靠近新坐标系的中心，这些读数就越接近最佳值. • 异常分数是使用读数与所有读数的平均值之间的马哈拉诺比斯距离计算得出的，平均值是转换坐标系的中心. 谁能更详细地描述我使用 PCA(使用 PCA 分数和马氏距离)进行异常检测?我很困惑，因为 PCA 的定义 ..

发布时间：2021-11-14 22:10:27 apache-spark apache-spark-sql apache-spark-mllib pca anomaly-detection 其他开发

Spark 如何跟踪 randomSplit 中的拆分?

这个问题解释了 Spark 的随机拆分是如何工作的，Sparks RDD.randomSplit 如何实际拆分 RDD，但我不明白 spark 如何跟踪哪些值进入一个拆分，以便这些相同的值不会进入第二个拆分. 如果我们看一下 randomSplit 的实现: def randomSplit(weights: Array[Double], seed: Long): Array[DataFra ..

发布时间：2021-11-14 22:10:09 apache-spark apache-spark-sql spark-dataframe apache-spark-mllib 其他开发

pyspark 与 scala 中的 FPgrowth 计算关联

使用: http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html Python 代码: from pyspark.mllib.fpm import FPGrowth模型 = FPGrowth.train(dataframe,0.01,10) 斯卡拉: import org.apache.spark. ..

发布时间：2021-11-14 22:09:23 scala apache-spark pyspark apache-spark-sql apache-spark-mllib 其他开发

从 numpy 矩阵创建 Spark 数据帧

这是我第一次使用 PySpark(Spark 2)，我正在尝试为 Logit 模型创建一个玩具数据框.我成功运行了教程，并希望通过我的自己的数据进去. 我已经试过了: %pyspark将 numpy 导入为 np从 pyspark.ml.linalg 导入 Vectors, VectorUDT从 pyspark.mllib.regression 导入 LabeledPointdf = np ..

发布时间：2021-11-14 22:07:22 numpy apache-spark pyspark apache-spark-sql apache-spark-mllib Python

将 RDD[org.apache.spark.sql.Row] 转换为 RDD[org.apache.spark.mllib.linalg.Vector]

我对 Spark 和 Scala 比较陌生. 我从以下数据框开始(由密集的双精度向量组成的单列): scala>val scaledDataOnly_pruned = scaledDataOnly.select("features")scaledDataOnly_pruned: org.apache.spark.sql.DataFrame = [features: vector]标度>sc ..

发布时间：2021-11-14 22:01:48 scala apache-spark rdd spark-dataframe apache-spark-mllib 其他开发

如何将类型 Row 转换为 Vector 以提供给 KMeans

当我尝试将 df2 提供给 kmeans 时，出现以下错误 clusters = KMeans.train(df2, 10, maxIterations=30,运行= 10，初始化模式=“随机") 我得到的错误: 无法转换类型进入向量 df2 是一个创建如下的数据框: df = sqlContext.read.json("data/ALS3.json")df2 = df.select(' ..

发布时间：2021-11-14 21:52:09 apache-spark pyspark k-means apache-spark-mllib pyspark-sql 其他开发

如何将带有 SparseVector 列的 RDD 转换为带有列作为向量的 DataFrame

我有一个带有值元组(String、SparseVector)的 RDD，我想使用 RDD 创建一个 DataFrame.获取 (label:string, features:vector) DataFrame 这是大多数 ml 算法库所需的 Schema.我知道可以这样做，因为 HashingTF ml 库在给定 DataFrame 的特征列时输出一个向量. temp_df = sqlConte ..

发布时间：2021-11-14 21:51:54 apache-spark pyspark apache-spark-sql apache-spark-mllib apache-spark-ml 其他开发

“spark.yarn.executor.memoryOverhead"的值环境?

带有 YARN 的 Spark 作业中 spark.yarn.executor.memoryOverhead 的值应该分配给 App 还是只是最大值? 解决方案 spark.yarn.executor.memoryOverhead 只是最大值.目标是将 OVERHEAD 计算为实际执行器内存的百分比，如 RDD 和 DataFrames 使用的那样 --executor-memory/ ..

发布时间：2021-11-14 21:50:13 apache-spark apache-spark-sql spark-streaming apache-spark-mllib 其他开发

比较两个数组并获得 PySpark 中的差异

我在一个数据框中有两个数组字段. 我需要比较这两个数组并在同一数据框中将差异作为数组(新列)获取. 预期输出为: B 列是 A 列的子集.此外，两个数组中的单词顺序相同. 有人可以帮我找到解决方案吗? 解决方案您可以使用用户定义的函数.我的示例数据帧与您的略有不同，但代码应该可以正常工作: 将pandas导入为pd从 pyspark.sql.types 导入 * ..

发布时间：2021-11-14 21:47:04 python pyspark apache-spark-sql spark-dataframe apache-spark-mllib Python

RDD 到 LabeledPoint 的转换

如果我有一个大约有 500 列和 2 亿行的 RDD，并且 RDD.columns.indexOf("target", 0) 显示 Int = 77我的目标因变量在第 77 列.但我对如何选择所需的(部分)列作为特征没有足够的知识(比如我想要从 23 到 59、111 到 357、399 到 489 的列).我想知道我是否可以申请这样的: val data = rdd.map(col => ne ..

发布时间：2021-11-14 21:47:01 scala apache-spark apache-spark-sql rdd apache-spark-mllib 其他开发

将 spark 作为 java web 应用程序运行

我使用了 Spark ML 并且能够在预测我的业务问题时获得合理的准确性数据并不大，我能够使用 stanford NLP 转换输入(基本上是一个 csv 文件)并在我的本地机器上运行朴素贝叶斯进行预测. 我想像一个简单的 java 主程序或一个简单的 MVC Web 应用程序一样运行这个预测服务目前我使用 spark-submit 命令运行我的预测?相反，我可以从我的 ser ..

发布时间：2021-11-14 21:43:17 apache-spark spark-dataframe apache-spark-mllib 其他开发

如何将数据从 DataFrame 准备成 LibSVM 格式?

我想制作libsvm格式，所以我将dataframe制作成想要的格式，但是我不知道如何转换为libsvm格式.格式如图所示.我希望所需的 libsvm 类型是 user item:rating .如果您知道在当前情况下该怎么做: val ratings = sc.textFile(new File("/user/ubuntu/kang/0829/rawRatings.csv").toString ..

发布时间：2021-11-14 21:39:25 apache-spark apache-spark-sql apache-spark-mllib libsvm apache-spark-ml 其他开发

Spark SQL 删除空格

我有一个简单的 Spark 程序，它读取一个 JSON 文件并发出一个 CSV 文件.在 JSON 数据中，值包含前导和尾随空格，当我发出 CSV 时，前导和尾随空格消失了.有没有办法可以保留这些空间.我尝试了很多选项，例如 ignoreTrailingWhiteSpace 、 ignoreLeadingWhiteSpace 但没有运气 input.json {"key" : "k1", ..

发布时间：2021-11-14 21:38:05 apache-spark apache-spark-sql spark-dataframe spark-streaming apache-spark-mllib 其他开发

理解 Spark SQL 中向量列的表示

在我使用 VectorAssembler() 来整合一些 OneHotEncoded 分类特征之前...我的数据框看起来像这样: |数字|热编码1|热编码2|14460.0|(44,[5],[1.0])|(3,[0],[1.0])||14460.0|(44,[9],[1.0])|(3,[0],[1.0])||15181.0|(44,[1],[1.0])|(3,[0],[1.0])| 第一列是数 ..

发布时间：2021-11-14 21:36:37 apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml 其他开发

Spark/Python 中的前向填充缺失值

我试图用之前的非空值(如果存在)填充 Spark 数据框中的缺失值.我已经在 Python/Pandas 中完成了这种类型的事情，但是我的数据对于 Pandas 来说太大了(在一个小集群上)而且我是 Spark noob.这是 Spark 可以做的吗?它可以为多列做吗?如果是这样，如何?如果没有，对 who Hadoop 工具套件中的替代方法有什么建议吗? 谢谢！解决方案我找到了 ..

发布时间：2021-11-14 21:36:03 hadoop apache-spark pyspark spark-dataframe apache-spark-mllib 其他开发

apache-spark-mllib相关内容