apache-spark-mllib 第5页 - IT屋-程序员软件开发技术分享社区

在 Spark Stream 中创建 DataFrame

我已将 Kafka Stream 连接到 Spark.以及我已经训练了 Apache Spark Mlib 模型以基于流文本进行预测.我的问题是，得到一个我需要通过 DataFramework 的预测. //kafka 流val 流 = KafkaUtils.createDirectStream[String, String](ssc,首选一致，订阅[字符串，字符串](主题，kafkaParam ..

发布时间：2021-11-14 21:11:35 apache-spark apache-kafka spark-streaming sparse-matrix apache-spark-mllib 其他开发

在 spark 中使用 LSH 对数据帧中的每个点运行最近邻查询

对于数据帧中的每个特征向量，我需要 k 个最近的邻居.我正在使用来自 pyspark 的 BucketedRandomProjectionLSHModel. 创建模型的代码 brp = BucketedRandomProjectionLSH(inputCol="features", outputCol="hashes",seed=12345, bucketLength=n)模型 = brp ..

发布时间：2021-11-14 21:11:32 apache-spark pyspark apache-spark-mllib pyspark-sql 其他开发

Spark ML Kmeans 给出:org.apache.spark.SparkException:无法执行用户定义的函数($anonfun$2: (vector) => int)

我尝试加载 KmeansModel，然后从中取出标签: 这是我写的代码: val kMeansModel = KMeansModel.load(trainedMlModel.mlModelFilePath)val arrayOfElements = measurePoint.measurements.map(a => a._2).toSeqprintln(s"ArrayOfELement ..

发布时间：2021-11-14 21:11:29 apache-spark apache-spark-sql k-means apache-spark-mllib apache-spark-ml 其他开发

Apache Spark 中的 Jaro-Winkler 分数计算

我们需要在 Apache Spark Dataset 中实现跨字符串的 Jaro-Winkler 距离计算.我们是 Spark 的新手，在网上搜索后我们找不到太多东西.如果您能指导我们，那就太好了.我们想过使用 flatMap 然后意识到它无济于事，然后我们尝试使用几个 foreach 循环但无法弄清楚如何继续.因为每个字符串都必须与所有字符串进行比较.就像下面的数据集一样. RowFactor ..

发布时间：2021-11-14 21:11:25 apache-spark apache-spark-mllib apache-spark-ml apache-spark-2.0 apache-spark-dataset 其他开发

如何在Master上存储文本文件?

我使用独立集群来运行 ALS 算法.使用以下方法将预测存储到文本文件中: saveAsTextFile(path) 但是文本文件被存储在集群上.我想将文本文件存储在 Master 上. 解决方案这是预期的行为.path 在它的机器上解析被处决了，奴隶.我建议要么使用集群 FS(例如 HDFS)或 .collect() 您的数据，以便您可以将它们保存在本地大师.如果您的数据很大，请注意 ..

发布时间：2021-11-14 21:11:22 scala apache-spark apache-spark-mllib 其他开发

文本分类 - 如何处理

我会尽量描述我的想法. MS SQL 数据库中存储了文本内容.内容每天都以流的形式出现.有些人每天都会浏览内容，如果内容符合某些标准，则将其标记为已验证.只有一个类别.它要么“有效"，要么无效. 我想要的是基于已经验证的内容创建一个模型，保存它并使用这个模型来“预验证"或标记新的传入内容.也偶尔根据新验证的内容更新模型.希望我解释清楚了. 我正在考虑根据创建的模型使用 Spark ..

发布时间：2021-11-14 21:11:19 apache-spark machine-learning apache-spark-mllib apache-spark-ml AI人工智能

如何从 Spark RandomForestRegressionModel 中获取 maxDepth

在 Spark (2.1.0) 中，我使用 CrossValidator 来训练 RandomForestRegressor，使用 ParamGridBuilder 作为 maxDepth 和 numTrees: paramGrid = ParamGridBuilder() \.addGrid(rf.maxDepth, [2, 4, 6, 8, 10]) \.addGrid(rf.numTree ..

发布时间：2021-11-14 21:11:16 apache-spark pyspark apache-spark-mllib 其他开发

如何为 setInputCol() 提供多列

我对 Spark 机器学习非常陌生，我想将多个列传递给功能，在下面的代码中，我只将日期列传递给功能，但现在我想将用户 ID 和日期列传递给功能.我尝试使用 Vector，但它只支持 Double 数据类型，但在我的情况下，我有 Int 和 String 如果有人提供任何建议/解决方案或任何代码示例来满足我的要求，我将不胜感激代码: case class LabeledDocume ..

发布时间：2021-11-14 21:11:13 scala apache-spark apache-spark-mllib prediction apache-spark-ml 其他开发

Spark:将 RDD 元素拆分成块

我在 Scala 中编写了一个相对简单的 Spark 作业，它从 S3 读取一些数据，执行一些转换和聚合，最后将结果存储到存储库中. 在最后阶段，我有我的域模型的 RDD，我想将它们分组为元素块，以便我可以在我的存储库中进行一些批量插入. 我使用了 RDDFunctions.sliding 方法来实现这一点，它几乎可以正常工作.这是我的代码的简化版本: val 处理元素:RDD[Do ..

发布时间：2021-11-14 21:11:09 scala apache-spark apache-spark-mllib chunks 其他开发

pyspark OneHotEncoded 向量似乎缺少类别?

在尝试使用 pyspark 的 OneHotEncoder (https://spark.apache.org/docs/2.1.0/ml-features.html#onehotencoder) 看起来像是 onehot向量缺少某些类别(或者显示时格式可能很奇怪?). 现在回答这个问题(或提供一个答案)后，似乎下面的细节与理解问题并不完全相关有表单的数据集 1.妻子的年龄(数字) ..

发布时间：2021-11-14 21:11:06 pyspark apache-spark-mllib 其他开发

如何将 Spark MLlib RandomForestModel.predict 响应作为文本值是/否?

嗨，我正在尝试使用 Apache Spark MLLib 实现 RandomForest 算法.我有 csv 格式的数据集，具有以下功能 DayOfWeek(int),AlertType(String),Application(String),Router(String),Symptom(String),Action(String)0,Network1,App1,Router1,不可达,YES0 ..

发布时间：2021-11-14 21:11:03 java apache-spark machine-learning apache-spark-mllib Java开发

Spark 矩阵之外的分布式 BlockMatrix

如何用矩阵(相同大小)制作分布式BlockMatrix? 例如，让 A, B 为两个 2 x 2 mllib.linalg.Matrices 如下 import org.apache.spark.mllib.linalg.{Matrix, Matrices}导入 org.apache.spark.mllib.linalg.distributed.BlockMatrixval A: Matr ..

发布时间：2021-11-14 21:11:00 scala apache-spark apache-spark-mllib 其他开发

XGBoost Spark 每个工人集成一个模型

尝试使用此笔记本 ..

发布时间：2021-11-14 21:10:56 apache-spark pyspark apache-spark-mllib xgboost apache-spark-ml 其他开发

Spark MLlib 示例，NoSuchMethodError: org.apache.spark.sql.SQLContext.createDataFrame()

我正在关注文档示例示例:估计器、转换器和参数我收到了错误消息 15/09/23 11:46:51 INFO BlockManagerMaster:注册的 BlockManager线程“main"中的异常 java.lang.NoSuchMethodError:scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassL ..

发布时间：2021-11-14 21:10:53 scala apache-spark sbt apache-spark-ml apache-spark-mllib 其他开发

LDA 模型预测不一致

我训练了一个 LDA 模型并将其加载到环境中以转换新数据: from pyspark.ml.clustering import LocalLDAModellda = LocalLDAModel.load(path)df = lda.transform(文本) 模型将添加一个名为 topicDistribution 的新列.在我看来，对于相同的输入，这个分布应该是相同的，否则这个模型是不一致的. ..

发布时间：2021-11-14 21:10:50 apache-spark pyspark apache-spark-mllib lda apache-spark-ml 其他开发

是否可以使用带有 spark mllib 的 GradientBoostedTrees 获得类概率?

我目前正在使用 spark mllib. 我使用 GradientBoosting 算法和 GradientBoostedTrees 类创建了一个文本分类器: 梯度提升树目前我获得了知道新元素类别的预测，但我想获得类别概率(硬决策之前的输出值). 在逻辑回归等其他 mllib 算法中，您可以从分类器中删除阈值以获得类概率，但我找不到使用 GradientBosstedTr ..

发布时间：2021-11-14 21:10:47 apache-spark predict apache-spark-mllib 其他开发

sc 未在 SparkContext 中定义

我的 Spark 包是 spark-2.2.0-bin-hadoop2.7. 我将火花变量导出为 export SPARK_HOME=/home/harry/spark-2.2.0-bin-hadoop2.7出口路径=$SPARK_HOME/bin:$PATH 我用打开了spark notebook pyspark 我可以从 spark 加载包 from pyspark imp ..

发布时间：2021-11-14 21:10:44 linux apache-spark machine-learning pyspark apache-spark-mllib AI人工智能

要检查的 UDF 是非零向量，在通过 spark-submit CountVectorizer 后不起作用

根据这个问题，我是在 CountVectorizer 之后应用 udf 过滤空向量. val tokenizer = new RegexTokenizer().setPattern("\\|").setInputCol("dataString").setOutputCol("dataStringWords")val vectorizer = new CountVectorizer().setIn ..

发布时间：2021-11-14 21:10:41 scala apache-spark apache-spark-mllib minhash 其他开发

如何让 VectorAssembler 不压缩数据?

我想使用 VectorAssembler 将多列转换为一列，但默认情况下数据是压缩的，没有其他选项. val arr2= Array((1,2,0,0,0),(1,2,3,0,0),(1,2,4,5,0),(1,2,2,5,6))val df=sc.parallelize(arr2).toDF("a","b","c","e","f")val colNames=Array("a","b","c", ..

发布时间：2021-11-14 21:10:38 scala apache-spark apache-spark-sql spark-dataframe apache-spark-mllib 其他开发

K均值||用于 Spark 上的情感分析

我正在尝试编写基于 Spark 的情感分析程序.为此，我使用 word2vec 和 KMeans 聚类.从 word2Vec 中，我在 100 维空间中有 20k 个词/向量集合，现在我正在尝试对这个向量空间进行聚类.当我使用默认并行实现运行 KMeans 时，算法工作了 3 个小时！但是使用随机初始化策略，它就像 8 分钟.我究竟做错了什么?我有一台配备 4 个内核处理器和 16 GB 内存的 ..

发布时间：2021-11-14 21:10:34 scala apache-spark machine-learning k-means apache-spark-mllib AI人工智能

apache-spark-mllib相关内容