spark-graphx相关内容

有效计算pyspark中的连接组件

我正在尝试为城市中的朋友寻找连接组件.我的数据是具有城市属性的边列表. 城市 |资源中心 |目的地 休斯顿凯尔 -> 本尼 休斯顿本尼 -> 查尔斯 休斯顿查尔斯 -> 丹尼 奥马哈卡罗尔 -> 布莱恩 等等. 我知道 pyspark 的 GraphX 库的 connectedComponents 函数将遍历图的所有边以找到连接的组件,我想避免这种情况.我 ..

Spark GraphX:添加多个边权重

我是 GraphX 的新手,有一个包含四列的 Spark 数据框,如下所示: src_ip dst_ip flow_count sum_bytes8.8.8.8 1.2.3.4 435 1137……………… 基本上我想将 src_ip 和 dst_ip 都映射到顶点并分配 flow_count 和 sum_bytes 作为边属性.据我所知,我们不能在 GraphX 中添加边属性,因为只允许顶点 ..
发布时间:2021-11-14 22:03:41 其他开发

如何使用 Graph.fromEdgeTuples 从 Array[(Any, Any)] 创建图形

我对 spark 很陌生,但我想根据从 Hive 表中获得的关系创建一个图表.我发现了一个函数,它应该允许在不定义顶点的情况下执行此操作,但我无法让它工作. 我知道这不是一个可重复的例子,但这是我的代码: import org.apache.spark.SparkContext导入 org.apache.spark.graphx._导入 org.apache.spark.rdd.RDDva ..
发布时间:2021-11-14 21:43:04 其他开发

如何在 SQL/Spark/GraphFrames 中进行这种转换

我有一个包含以下两列的表格: Device-Id Account-Idd1 a1d2 a1d1 a2d2 a3d3 a4d3 a5d4 a6d1 a4 Device-Id 是安装我的应用的设备的唯一 ID,Account-Id 是用户帐户的 ID.一个用户可以拥有多个设备,并且可以在同一设备上创建多个帐户(例如,d1 设备设置了 a1、a2 和 a3 帐户). 我想找到唯一的实际用户(应 ..
发布时间:2021-06-24 20:38:27 其他开发

Graphx Scala:在具有属性继承的顶点上应用过滤器

我的顶点具有不同的属性.现在,我想过滤掉具有特定属性值的对象.这是我的代码的样子: //不同顶点的不同属性类VertexProperty()类案例类Property1(val名称:字符串,val服务:Int)扩展了VertexProperty案例类Property2(val描述:String)扩展了VertexProperty案例类Property3(val名称:String,val数量:Dou ..
发布时间:2021-04-08 20:04:09 其他开发

从成对的String中生成VertexId

我正在使用GraphX在Spark上处理一些图形数据.输入数据为 RDD [(String,String)] .我使用以下代码段将 String 映射到 VertexId 并构建图形. val输入:RDD [(String,String)] = ...val vertexIds = input.map(_._ 1).union(input.map(_._ 2)).清楚的().zipWithUn ..
发布时间:2021-04-08 20:03:54 其他开发

GraphX的顶点之间的笛卡尔积

我想在图的节点之间做一个笛卡尔积.我想建立他们的距离矩阵.也许这不是一个很好的方法,所以欢迎提出任何建议. 这是我的代码,它不起作用,我没有任何警告也没有异常,只是不起作用.我想也许是因为我正在尝试使用 same RDD制作笛卡尔产品,但是我不知道如何解决它,如何制作嵌套循环或可以帮助我解决问题的东西.计算这个矩阵. val索引1 = graph.vertices.map(_._ 1)v ..
发布时间:2021-04-08 20:02:42 其他开发

从另一个RDD中减去一个RDD无法正常工作

我想从另一个RDD中减去一个RDD.我查看了文档,发现减可以做到这一点.实际上,当我测试减时,最终的RDD保持不变,并且值未删除! 还有其他功能可以做到吗?还是我错误地使用了减? 这是我使用的代码: val vertexRDD:org.apache.spark.rdd.RDD [(VertexId,Array [Int])]val群集= vertexRDD.takeSample(f ..
发布时间:2021-04-08 19:54:29 其他开发

Spark GraphX聚合汇总

我正在尝试计算spark graphx图中的节点值之和.简而言之,该图是一棵树,并且顶层节点(根)应将所有子项及其子项相加.我的图实际上是一棵看起来像这样的树, 期望的总值应为1850 : + ---- ++ --------------->|顶点ID 14|||价值:1000+ --- +-+ + ---- ++ ------------>|顶点编号11|||值:+ ---- +|+ --- ..
发布时间:2021-04-08 19:33:50 其他开发

Gremlin-Giraph-GraphX吗?在TitanDb上

我需要一些帮助来确认我的选择...并了解您是否可以给我一些信息. 我的存储数据库是Cassandra的TitanDb. 我有一个很大的图.我的目标是在后面的图上使用Mllib. 我的第一个想法:将Titan与GraphX一起使用,但是我没有发现任何东西或正在开发中……TinkerPop尚未准备好. 所以我来看看吉拉夫. TinkerPop,Titan可以与TinkerPop的Rexster进 ..
发布时间:2020-11-20 20:41:36 其他开发

在社区检测算法中选择哪种变量来递增节点标签

我正在研究一种社区检测算法,该算法使用将标签传播到节点的概念.我在选择Label_counter变量的真实类型时遇到问题. 我们有一个名为LPA(label propagation algorithm)的算法,该算法通过迭代将标签传播到节点.将标签视为节点属性.每个节点的初始标签是节点ID,在迭代中,节点根据其邻居中最频繁的标签来更新其新标签.我正在研究的算法类似于LPA.首先,每个节点的初 ..
发布时间:2020-11-20 06:00:24 其他开发

Spark Scala GraphX:两个顶点之间的最短路径

我在Spark GraphX(Scala)中有向图G.我想找到从已知顶点v1开始要到达另一个顶点v2的应该交叉的边数.换句话说,我需要从顶点v1到顶点v2的最短路径,该路径以边的数量计算(不使用边的权重). 我正在查看 GraphX文档,但我无法找到一种方法来做到这一点.如果它具有树形结构,则为了计算图的深度也需要这样做.他们是这样做的简单方法吗? 解决方案 要使用Spark Gra ..
发布时间:2020-09-04 08:35:11 其他开发

Spark Pregel无法与Java一起使用

我正在通过Java API使用GraphX和Pregel.我正在尝试实现MaxValue算法(给定加权图,输出为最大权重).但是我的实现无法正常工作: public class Main { public static void main(String[] args){ SparkConf conf = new SparkConf().setAppName("MaxValue"). ..
发布时间:2020-09-04 06:31:56 Java开发