spark-graphx - IT屋-程序员软件开发技术分享社区

有效计算pyspark中的连接组件

我正在尝试为城市中的朋友寻找连接组件.我的数据是具有城市属性的边列表. 城市 |资源中心 |目的地休斯顿凯尔 -> 本尼休斯顿本尼 -> 查尔斯休斯顿查尔斯 -> 丹尼奥马哈卡罗尔 -> 布莱恩等等. 我知道 pyspark 的 GraphX 库的 connectedComponents 函数将遍历图的所有边以找到连接的组件，我想避免这种情况.我 ..

发布时间：2021-11-14 23:10:53 graph spark-dataframe spark-graphx connected-components graphframes 其他开发

我是 GraphX 的新手，有一个包含四列的 Spark 数据框，如下所示: src_ip dst_ip flow_count sum_bytes8.8.8.8 1.2.3.4 435 1137……………… 基本上我想将 src_ip 和 dst_ip 都映射到顶点并分配 flow_count 和 sum_bytes 作为边属性.据我所知，我们不能在 GraphX 中添加边属性，因为只允许顶点 ..

发布时间：2021-11-14 22:03:41 scala apache-spark apache-spark-sql spark-graphx 其他开发

如何使用 Graph.fromEdgeTuples 从 Array[(Any, Any)] 创建图形

我对 spark 很陌生，但我想根据从 Hive 表中获得的关系创建一个图表.我发现了一个函数，它应该允许在不定义顶点的情况下执行此操作，但我无法让它工作. 我知道这不是一个可重复的例子，但这是我的代码: import org.apache.spark.SparkContext导入 org.apache.spark.graphx._导入 org.apache.spark.rdd.RDDva ..

发布时间：2021-11-14 21:43:04 scala apache-spark apache-spark-sql spark-graphx 其他开发

如何在 SQL/Spark/GraphFrames 中进行这种转换

我有一个包含以下两列的表格: Device-Id Account-Idd1 a1d2 a1d1 a2d2 a3d3 a4d3 a5d4 a6d1 a4 Device-Id 是安装我的应用的设备的唯一 ID，Account-Id 是用户帐户的 ID.一个用户可以拥有多个设备，并且可以在同一设备上创建多个帐户(例如，d1 设备设置了 a1、a2 和 a3 帐户). 我想找到唯一的实际用户(应 ..

发布时间：2021-06-24 20:38:27 sql apache-spark pyspark spark-graphx graphframes 其他开发

转换JavaRDD< Tuple2< Object，long []>进入Spark Dataset< Row>在Java中

在Java(不是Scala！)中，Spark 3.0.1具有数据集 ? 评论更新: 我根据注释调整了代码: GraphOpsgraphOps =新的GraphOps(graph，stringTag，stringTag);JavaRDDneighborIdsRDD = graphOps.collectNeig ..

发布时间：2021-04-29 18:46:57 java apache-spark dataset spark-graphx Java开发

为什么我无法使用Spark中的map函数更改节点的属性?

我正在Spark中使用GraphX来处理图形.我有一个 val common_neighbors:RDD [VertexId] ，其中包含一些vertexId.我使用地图功能将其转换为诸如(node，1)的结构，该节点是顶点的ID，而1是其初始属性.转换代码如下: val p = common_neighbors.map(x =>(x，1)) 我有一个具有如下结构的图:(node，node ..

发布时间：2021-04-08 20:24:26 apache-spark spark-graphx 其他开发

在Spark GraphX中使用广播变量和RDD.filter比较两个节点之间的交集

我在GraphX中处理图形.通过使用下面的代码，我创建了一个变量来存储RDD中节点的邻居: val all_neighbors:VertexRDD [Array [VertexId]] = graph.collectNeighborIds(EdgeDirection.Either) 我使用广播变量通过以下代码向所有从站广播邻居: val broadcastVar = all_neigh ..

发布时间：2021-04-08 20:15:56 scala apache-spark spark-graphx 其他开发

Graphx Scala:在具有属性继承的顶点上应用过滤器

我的顶点具有不同的属性.现在，我想过滤掉具有特定属性值的对象.这是我的代码的样子: //不同顶点的不同属性类VertexProperty()类案例类Property1(val名称:字符串，val服务:Int)扩展了VertexProperty案例类Property2(val描述:String)扩展了VertexProperty案例类Property3(val名称:String，val数量:Dou ..

发布时间：2021-04-08 20:04:09 scala apache-spark spark-graphx 其他开发

从成对的String中生成VertexId

我正在使用GraphX在Spark上处理一些图形数据.输入数据为 RDD [(String，String)] .我使用以下代码段将 String 映射到 VertexId 并构建图形. val输入:RDD [(String，String)] = ...val vertexIds = input.map(_._ 1).union(input.map(_._ 2)).清楚的().zipWithUn ..

发布时间：2021-04-08 20:03:54 apache-spark spark-graphx 其他开发

GraphX的顶点之间的笛卡尔积

我想在图的节点之间做一个笛卡尔积.我想建立他们的距离矩阵.也许这不是一个很好的方法，所以欢迎提出任何建议. 这是我的代码，它不起作用，我没有任何警告也没有异常，只是不起作用.我想也许是因为我正在尝试使用 same RDD制作笛卡尔产品，但是我不知道如何解决它，如何制作嵌套循环或可以帮助我解决问题的东西.计算这个矩阵. val索引1 = graph.vertices.map(_._ 1)v ..

发布时间：2021-04-08 20:02:42 apache-spark spark-graphx 其他开发

从另一个RDD中减去一个RDD无法正常工作

我想从另一个RDD中减去一个RDD.我查看了文档，发现减可以做到这一点.实际上，当我测试减时，最终的RDD保持不变，并且值未删除！还有其他功能可以做到吗?还是我错误地使用了减? 这是我使用的代码: val vertexRDD:org.apache.spark.rdd.RDD [(VertexId，Array [Int])]val群集= vertexRDD.takeSample(f ..

发布时间：2021-04-08 19:54:29 scala apache-spark spark-graphx 其他开发

在生成的图形上运行Spark GraphX算法时出现问题

我已使用以下代码在Spark GraphX中创建了一个图形.(请参见我的问题和解决方法) 导入scala.math.random导入org.apache.spark._导入org.apache.spark.graphx._导入org.apache.spark.rdd.RDD导入scala.util.Random导入org.apache.spark.HashPartitioner对象SparkER ..

发布时间：2021-04-08 19:37:21 apache-spark spark-graphx 其他开发

Spark GraphX聚合汇总

我正在尝试计算spark graphx图中的节点值之和.简而言之，该图是一棵树，并且顶层节点(根)应将所有子项及其子项相加.我的图实际上是一棵看起来像这样的树，期望的总值应为1850 : + ---- ++ --------------->|顶点ID 14|||价值:1000+ --- +-+ + ---- ++ ------------>|顶点编号11|||值:+ ---- +|+ --- ..

发布时间：2021-04-08 19:33:50 scala apache-spark spark-graphx 其他开发

Gremlin-Giraph-GraphX吗?在TitanDb上

我需要一些帮助来确认我的选择...并了解您是否可以给我一些信息. 我的存储数据库是Cassandra的TitanDb. 我有一个很大的图.我的目标是在后面的图上使用Mllib. 我的第一个想法:将Titan与GraphX一起使用，但是我没有发现任何东西或正在开发中……TinkerPop尚未准备好. 所以我来看看吉拉夫. TinkerPop，Titan可以与TinkerPop的Rexster进 ..

发布时间：2020-11-20 20:41:36 titan gremlin tinkerpop giraph spark-graphx 其他开发

在社区检测算法中选择哪种变量来递增节点标签

我正在研究一种社区检测算法，该算法使用将标签传播到节点的概念.我在选择Label_counter变量的真实类型时遇到问题. 我们有一个名为LPA(label propagation algorithm)的算法，该算法通过迭代将标签传播到节点.将标签视为节点属性.每个节点的初始标签是节点ID，在迭代中，节点根据其邻居中最频繁的标签来更新其新标签.我正在研究的算法类似于LPA.首先，每个节点的初 ..

发布时间：2020-11-20 06:00:24 scala apache-spark graph spark-graphx 其他开发

Spark Scala-通过VertexID连接两个数组

我有2个以下格式的数组 scala> cPV.take（5） res18：Array [（org.apache.spark.graphx.VertexId，String）] = Array（（-496366541,7804412），（183389035,11517829），（1300761459,36164965），（978932066,32135154），（370291237,403 ..

发布时间：2020-09-25 06:47:11 arrays scala apache-spark spark-graphx 其他开发

Spark Scala GraphX:两个顶点之间的最短路径

我在Spark GraphX(Scala)中有向图G.我想找到从已知顶点v1开始要到达另一个顶点v2的应该交叉的边数.换句话说，我需要从顶点v1到顶点v2的最短路径，该路径以边的数量计算(不使用边的权重). 我正在查看 GraphX文档，但我无法找到一种方法来做到这一点.如果它具有树形结构，则为了计算图的深度也需要这样做.他们是这样做的简单方法吗? 解决方案要使用Spark Gra ..

发布时间：2020-09-04 08:35:11 scala apache-spark spark-graphx 其他开发

如何使用Long数据类型在Apache Spark GraphX中创建VertexId?

我正在尝试使用一些Google Web Graph数据创建一个Graph，可以在这里找到: https://snap.stanford.edu/data/web-Google.html import org.apache.spark._ import org.apache.spark.graphx._ import org.apache.spark.rdd.RDD val tex ..

发布时间：2020-09-04 08:12:19 scala apache-spark spark-graphx 其他开发

在Spark中使用Windows函数进行每周汇总

我有从2017年1月1日到2017年1月7日开始的数据，这是每周需要的每周汇总.我以下列方式使用了窗口功能 val df_v_3 = df_v_2.groupBy(window(col("DateTime"), "7 day")) .agg(sum("Value") as "aggregate_sum") .select("window.start", "window ..

发布时间：2020-09-04 06:38:56 scala apache-spark dataframe spark-graphx 其他开发

Spark Pregel无法与Java一起使用

我正在通过Java API使用GraphX和Pregel.我正在尝试实现MaxValue算法(给定加权图，输出为最大权重).但是我的实现无法正常工作: public class Main { public static void main(String[] args){ SparkConf conf = new SparkConf().setAppName("MaxValue"). ..

发布时间：2020-09-04 06:31:56 java apache-spark spark-graphx Java开发

spark-graphx相关内容