spark-graphx相关内容
我正在尝试为城市中的朋友寻找连接组件.我的数据是具有城市属性的边列表. 城市 |资源中心 |目的地 休斯顿凯尔 -> 本尼 休斯顿本尼 -> 查尔斯 休斯顿查尔斯 -> 丹尼 奥马哈卡罗尔 -> 布莱恩 等等. 我知道 pyspark 的 GraphX 库的 connectedComponents 函数将遍历图的所有边以找到连接的组件,我想避免这种情况.我
..
我是 GraphX 的新手,有一个包含四列的 Spark 数据框,如下所示: src_ip dst_ip flow_count sum_bytes8.8.8.8 1.2.3.4 435 1137……………… 基本上我想将 src_ip 和 dst_ip 都映射到顶点并分配 flow_count 和 sum_bytes 作为边属性.据我所知,我们不能在 GraphX 中添加边属性,因为只允许顶点
..
我对 spark 很陌生,但我想根据从 Hive 表中获得的关系创建一个图表.我发现了一个函数,它应该允许在不定义顶点的情况下执行此操作,但我无法让它工作. 我知道这不是一个可重复的例子,但这是我的代码: import org.apache.spark.SparkContext导入 org.apache.spark.graphx._导入 org.apache.spark.rdd.RDDva
..
我有一个包含以下两列的表格: Device-Id Account-Idd1 a1d2 a1d1 a2d2 a3d3 a4d3 a5d4 a6d1 a4 Device-Id 是安装我的应用的设备的唯一 ID,Account-Id 是用户帐户的 ID.一个用户可以拥有多个设备,并且可以在同一设备上创建多个帐户(例如,d1 设备设置了 a1、a2 和 a3 帐户). 我想找到唯一的实际用户(应
..
在Java(不是Scala!)中,Spark 3.0.1具有数据集 ? 评论更新: 我根据注释调整了代码: GraphOpsgraphOps =新的GraphOps(graph,stringTag,stringTag);JavaRDDneighborIdsRDD = graphOps.collectNeig
..
我正在Spark中使用GraphX来处理图形.我有一个 val common_neighbors:RDD [VertexId] ,其中包含一些vertexId.我使用地图功能将其转换为诸如(node,1)的结构,该节点是顶点的ID,而1是其初始属性.转换代码如下: val p = common_neighbors.map(x =>(x,1)) 我有一个具有如下结构的图:(node,node
..
我在GraphX中处理图形.通过使用下面的代码,我创建了一个变量来存储RDD中节点的邻居: val all_neighbors:VertexRDD [Array [VertexId]] = graph.collectNeighborIds(EdgeDirection.Either) 我使用广播变量通过以下代码向所有从站广播邻居: val broadcastVar = all_neigh
..
我的顶点具有不同的属性.现在,我想过滤掉具有特定属性值的对象.这是我的代码的样子: //不同顶点的不同属性类VertexProperty()类案例类Property1(val名称:字符串,val服务:Int)扩展了VertexProperty案例类Property2(val描述:String)扩展了VertexProperty案例类Property3(val名称:String,val数量:Dou
..
我正在使用GraphX在Spark上处理一些图形数据.输入数据为 RDD [(String,String)] .我使用以下代码段将 String 映射到 VertexId 并构建图形. val输入:RDD [(String,String)] = ...val vertexIds = input.map(_._ 1).union(input.map(_._ 2)).清楚的().zipWithUn
..
我想在图的节点之间做一个笛卡尔积.我想建立他们的距离矩阵.也许这不是一个很好的方法,所以欢迎提出任何建议. 这是我的代码,它不起作用,我没有任何警告也没有异常,只是不起作用.我想也许是因为我正在尝试使用 same RDD制作笛卡尔产品,但是我不知道如何解决它,如何制作嵌套循环或可以帮助我解决问题的东西.计算这个矩阵. val索引1 = graph.vertices.map(_._ 1)v
..
我想从另一个RDD中减去一个RDD.我查看了文档,发现减可以做到这一点.实际上,当我测试减时,最终的RDD保持不变,并且值未删除! 还有其他功能可以做到吗?还是我错误地使用了减? 这是我使用的代码: val vertexRDD:org.apache.spark.rdd.RDD [(VertexId,Array [Int])]val群集= vertexRDD.takeSample(f
..
我已使用以下代码在Spark GraphX中创建了一个图形.(请参见我的问题和解决方法) 导入scala.math.random导入org.apache.spark._导入org.apache.spark.graphx._导入org.apache.spark.rdd.RDD导入scala.util.Random导入org.apache.spark.HashPartitioner对象SparkER
..
我正在尝试计算spark graphx图中的节点值之和.简而言之,该图是一棵树,并且顶层节点(根)应将所有子项及其子项相加.我的图实际上是一棵看起来像这样的树, 期望的总值应为1850 : + ---- ++ --------------->|顶点ID 14|||价值:1000+ --- +-+ + ---- ++ ------------>|顶点编号11|||值:+ ---- +|+ ---
..
我需要一些帮助来确认我的选择...并了解您是否可以给我一些信息. 我的存储数据库是Cassandra的TitanDb. 我有一个很大的图.我的目标是在后面的图上使用Mllib. 我的第一个想法:将Titan与GraphX一起使用,但是我没有发现任何东西或正在开发中……TinkerPop尚未准备好. 所以我来看看吉拉夫. TinkerPop,Titan可以与TinkerPop的Rexster进
..
我正在研究一种社区检测算法,该算法使用将标签传播到节点的概念.我在选择Label_counter变量的真实类型时遇到问题. 我们有一个名为LPA(label propagation algorithm)的算法,该算法通过迭代将标签传播到节点.将标签视为节点属性.每个节点的初始标签是节点ID,在迭代中,节点根据其邻居中最频繁的标签来更新其新标签.我正在研究的算法类似于LPA.首先,每个节点的初
..
我有2个以下格式的数组 scala> cPV.take(5) res18:Array [(org.apache.spark.graphx.VertexId,String)] = Array((-496366541,7804412),(183389035,11517829),(1300761459,36164965), (978932066,32135154),(370291237,403
..
我在Spark GraphX(Scala)中有向图G.我想找到从已知顶点v1开始要到达另一个顶点v2的应该交叉的边数.换句话说,我需要从顶点v1到顶点v2的最短路径,该路径以边的数量计算(不使用边的权重). 我正在查看 GraphX文档,但我无法找到一种方法来做到这一点.如果它具有树形结构,则为了计算图的深度也需要这样做.他们是这样做的简单方法吗? 解决方案 要使用Spark Gra
..
我正在尝试使用一些Google Web Graph数据创建一个Graph,可以在这里找到: https://snap.stanford.edu/data/web-Google.html import org.apache.spark._ import org.apache.spark.graphx._ import org.apache.spark.rdd.RDD val tex
..
我有从2017年1月1日到2017年1月7日开始的数据,这是每周需要的每周汇总.我以下列方式使用了窗口功能 val df_v_3 = df_v_2.groupBy(window(col("DateTime"), "7 day")) .agg(sum("Value") as "aggregate_sum") .select("window.start", "window
..
我正在通过Java API使用GraphX和Pregel.我正在尝试实现MaxValue算法(给定加权图,输出为最大权重).但是我的实现无法正常工作: public class Main { public static void main(String[] args){ SparkConf conf = new SparkConf().setAppName("MaxValue").
..