apache-spark-mllib相关内容
我已将 Kafka Stream 连接到 Spark.以及我已经训练了 Apache Spark Mlib 模型以基于流文本进行预测.我的问题是,得到一个我需要通过 DataFramework 的预测. //kafka 流val 流 = KafkaUtils.createDirectStream[String, String](ssc,首选一致,订阅[字符串,字符串](主题,kafkaParam
..
对于数据帧中的每个特征向量,我需要 k 个最近的邻居.我正在使用来自 pyspark 的 BucketedRandomProjectionLSHModel. 创建模型的代码 brp = BucketedRandomProjectionLSH(inputCol="features", outputCol="hashes",seed=12345, bucketLength=n)模型 = brp
..
我尝试加载 KmeansModel,然后从中取出标签: 这是我写的代码: val kMeansModel = KMeansModel.load(trainedMlModel.mlModelFilePath)val arrayOfElements = measurePoint.measurements.map(a => a._2).toSeqprintln(s"ArrayOfELement
..
我们需要在 Apache Spark Dataset 中实现跨字符串的 Jaro-Winkler 距离计算.我们是 Spark 的新手,在网上搜索后我们找不到太多东西.如果您能指导我们,那就太好了.我们想过使用 flatMap 然后意识到它无济于事,然后我们尝试使用几个 foreach 循环但无法弄清楚如何继续.因为每个字符串都必须与所有字符串进行比较.就像下面的数据集一样. RowFactor
..
我使用独立集群来运行 ALS 算法.使用以下方法将预测存储到文本文件中: saveAsTextFile(path) 但是文本文件被存储在集群上.我想将文本文件存储在 Master 上. 解决方案 这是预期的行为.path 在它的机器上解析被处决了,奴隶.我建议要么使用集群 FS(例如 HDFS)或 .collect() 您的数据,以便您可以将它们保存在本地大师.如果您的数据很大,请注意
..
我会尽量描述我的想法. MS SQL 数据库中存储了文本内容.内容每天都以流的形式出现.有些人每天都会浏览内容,如果内容符合某些标准,则将其标记为已验证.只有一个类别.它要么“有效",要么无效. 我想要的是基于已经验证的内容创建一个模型,保存它并使用这个模型来“预验证"或标记新的传入内容.也偶尔根据新验证的内容更新模型.希望我解释清楚了. 我正在考虑根据创建的模型使用 Spark
..
在 Spark (2.1.0) 中,我使用 CrossValidator 来训练 RandomForestRegressor,使用 ParamGridBuilder 作为 maxDepth 和 numTrees: paramGrid = ParamGridBuilder() \.addGrid(rf.maxDepth, [2, 4, 6, 8, 10]) \.addGrid(rf.numTree
..
我对 Spark 机器学习非常陌生,我想将多个列传递给功能,在下面的代码中,我只将日期列传递给功能,但现在我想将用户 ID 和日期列传递给功能.我尝试使用 Vector,但它只支持 Double 数据类型,但在我的情况下,我有 Int 和 String 如果有人提供任何建议/解决方案或任何代码示例来满足我的要求,我将不胜感激 代码: case class LabeledDocume
..
我在 Scala 中编写了一个相对简单的 Spark 作业,它从 S3 读取一些数据,执行一些转换和聚合,最后将结果存储到存储库中. 在最后阶段,我有我的域模型的 RDD,我想将它们分组为元素块,以便我可以在我的存储库中进行一些批量插入. 我使用了 RDDFunctions.sliding 方法来实现这一点,它几乎可以正常工作.这是我的代码的简化版本: val 处理元素:RDD[Do
..
在尝试使用 pyspark 的 OneHotEncoder (https://spark.apache.org/docs/2.1.0/ml-features.html#onehotencoder) 看起来像是 onehot向量缺少某些类别(或者显示时格式可能很奇怪?). 现在回答这个问题(或提供一个答案)后,似乎下面的细节与理解问题并不完全相关 有表单的数据集 1.妻子的年龄(数字)
..
嗨,我正在尝试使用 Apache Spark MLLib 实现 RandomForest 算法.我有 csv 格式的数据集,具有以下功能 DayOfWeek(int),AlertType(String),Application(String),Router(String),Symptom(String),Action(String)0,Network1,App1,Router1,不可达,YES0
..
如何用矩阵(相同大小)制作分布式BlockMatrix? 例如,让 A, B 为两个 2 x 2 mllib.linalg.Matrices 如下 import org.apache.spark.mllib.linalg.{Matrix, Matrices}导入 org.apache.spark.mllib.linalg.distributed.BlockMatrixval A: Matr
..
尝试使用此笔记本
..
我正在关注文档示例 示例:估计器、转换器和参数 我收到了错误消息 15/09/23 11:46:51 INFO BlockManagerMaster:注册的 BlockManager线程“main"中的异常 java.lang.NoSuchMethodError:scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassL
..
我训练了一个 LDA 模型并将其加载到环境中以转换新数据: from pyspark.ml.clustering import LocalLDAModellda = LocalLDAModel.load(path)df = lda.transform(文本) 模型将添加一个名为 topicDistribution 的新列.在我看来,对于相同的输入,这个分布应该是相同的,否则这个模型是不一致的.
..
我目前正在使用 spark mllib. 我使用 GradientBoosting 算法和 GradientBoostedTrees 类创建了一个文本分类器: 梯度提升树 目前我获得了知道新元素类别的预测,但我想获得类别概率(硬决策之前的输出值). 在逻辑回归等其他 mllib 算法中,您可以从分类器中删除阈值以获得类概率,但我找不到使用 GradientBosstedTr
..
我的 Spark 包是 spark-2.2.0-bin-hadoop2.7. 我将火花变量导出为 export SPARK_HOME=/home/harry/spark-2.2.0-bin-hadoop2.7出口路径=$SPARK_HOME/bin:$PATH 我用 打开了spark notebook pyspark 我可以从 spark 加载包 from pyspark imp
..
根据这个问题,我是在 CountVectorizer 之后应用 udf 过滤空向量. val tokenizer = new RegexTokenizer().setPattern("\\|").setInputCol("dataString").setOutputCol("dataStringWords")val vectorizer = new CountVectorizer().setIn
..
我想使用 VectorAssembler 将多列转换为一列,但默认情况下数据是压缩的,没有其他选项. val arr2= Array((1,2,0,0,0),(1,2,3,0,0),(1,2,4,5,0),(1,2,2,5,6))val df=sc.parallelize(arr2).toDF("a","b","c","e","f")val colNames=Array("a","b","c",
..
我正在尝试编写基于 Spark 的情感分析程序.为此,我使用 word2vec 和 KMeans 聚类.从 word2Vec 中,我在 100 维空间中有 20k 个词/向量集合,现在我正在尝试对这个向量空间进行聚类.当我使用默认并行实现运行 KMeans 时,算法工作了 3 个小时!但是使用随机初始化策略,它就像 8 分钟.我究竟做错了什么?我有一台配备 4 个内核处理器和 16 GB 内存的
..