directed-acyclic-graphs相关内容

具有不同Windows规范的链式火花列表达式会产生无效的DAG

上下文 假设您处理时间序列数据。您所需的结果取决于具有不同窗口规格的多个窗口功能。结果可能类似于单个spark列表达式,例如间隔标识符。 状态Quo 通常,我不使用 df.withColumn 存储中间结果,而是使用链/堆栈列表达式并信任Spark来找到最有效的DAG(在处理DataFrame时)。 可重现的示例 但是,在下面的示例(PySpark 2.4.4独立版本 ..
发布时间:2020-10-17 00:56:09 Python

在数据帧上执行操作时会创建DAG吗?

我已经看到,每当对RDD执行任何操作时都会生成DAG,但是当我们对数据帧执行操作时会发生什么? 在数据帧上执行多个操作时,是否像RDD一样懒惰地对它们进行求值? 催化剂优化器何时出现? 我对这些感到困惑.如果任何人都可以对这些话题有所了解,那将真的有很大的帮助. 谢谢 解决方案 在Dataset上的每个操作,尽管是连续处理模式,都将转换为对内部的一系列操作.因此,D ..

DAG是如何在RDD中进行工作的?

Spark研究论文规定了基于经典Hadoop的新分布式编程模型MapReduce声称在许多情况下,特别是在机器学习方面,其简化和巨大的性能提升.但是,本文似乎缺少用Directed Acyclic Graph在Resilient Distributed Datasets上显示internal mechanics的材料. 通过研究源代码更好地学习吗? 解决方案 即使我一直在网上寻找有关 ..
发布时间:2020-09-03 23:36:17 其他开发

如何通过条件任务运行气流DAG

总共有6个任务,这些任务需要根据输入json中出现的一个字段的( flag_value )值执行. 如果 flag_value 的值为true,则所有任务都需要以以下方式执行: 然后,第一任务1平行于(任务2和任务3在一起),平行于任务4,平行于任务5. 完成所有步骤后,再执行task6. 由于是气流和DAG的新手,我不知道如何在这种情况下运行. 如果 flag_value 的值为false ..
发布时间:2020-09-03 03:47:44 服务器开发

d3.js中的有向无环图

今天在D3.js中是否有一种可靠的方式绘制有向无环图?我正在尝试可视化课程中的先决条件,与此类似. 我已经看到了一些类似问题的较早答案,最有希望的线索是此黑客 ,尽管它不适用于更大,更复杂的数据集. 这是D3不太理想的可视化案例吗? 解决方案 您可以尝试 dagre ,一个用于DAG图形的JS库. 如果出于任何原因要使用d3,请查看 dagre-d3 要获得更高级的 ..

大型DAG的拓扑排序示例

我正在寻找对大图大小执行拓扑排序的现实应用. 我在其中成像的某些字段可能是生物信息学,依赖性解析,数据库,硬件设计,数据仓库...,但我希望你们中的某些人可能遇到或听说过任何特定的算法/项目/应用程序/需要topsort的数据集. 即使数据/项目可能无法公开访问,任何提示(以及潜在图形大小的数量级估计)也可能会有所帮助. 解决方案 以下是到目前为止我看到的一些有关拓扑排序的示例 ..

是否在DAG的所有拓扑类型上使用随机算法?

没有人知道用于生成DAG拓扑类型的随机算法,其中算法的每次调用都具有生成每个DAG有效拓扑类型的非零概率. > 至关重要的是,该算法不能排除任何有效的拓扑类别,因为它是较大算法的一部分,如果有足够的迭代次数,则必须证明该算法能够探索给定DAG的所有拓扑类别. 有人知道这种算法是否已经开发出来吗? (或者,如果有人知道可以保证生成给定DAG的 all 拓扑类型的合理有效算法,我可能可 ..

从今天开始,即从2019年12月18日开始,安排DAG气流每5分钟运行一次

从今天开始(2019-12-18),我尝试每5分钟运行一次DAG.我将开始日期定义为start_date:dt.datetime(2019, 12, 18, 10, 00, 00)并将计划间隔定义为schedule_interval= '*/5 * * * *'.启动airflow scheduler时,我看不到任何任务在运行. 但是当我将start_date修改为start_date:dt ..
发布时间:2020-06-20 18:38:05 Python

Python组合学

我有一种单层树结构,例如: 其中p是父节点,c是子节点,b是假设分支。 我想在只有一个父母可以只分支到一个的约束下找到分支的所有组合 em>子节点,两个分支不能共享父级和/或子级。 例如如果 combo 是组合的集合: combo [0] = [b [0],b [3]] 组合[1] = [b [0],b [4]] 组合[2] = [b [1],b [4] ] co ..
发布时间:2020-06-06 20:08:53 Python

带负边的有向无环图的Dijkstra算法

如果Dijkstra的算法是非循环的(DAG),那么该算法是否可以在具有负边的图形上使用?我认为是因为没有周期,所以不可能有负循环。 感谢[明天中期] 解决方案 考虑图表(指向 1-> 2,2-> 4,4-> 3,1-> 3,3-> 5 ): 1 ---(2)--- 3-(2)-5 | | (3)(2) | | 2-(-10)-4 最小路径为 1 ..
发布时间:2020-06-03 20:59:19 其他开发

最快的路径

我有一个具有s和t顶点的图,我需要找到它们之间的最短路径。该图具有很多特殊的特性,我想利用它们: 该图是DAG(有向无环图)。 / li> 我可以在O(| V |)时间内创建拓扑排序,比传统的O(| V + E |)更快。 在 有人告诉我,一旦我有了一个拓扑结构,则s是列表中的第一项。在某种顶点上,我可以找到比我当前的Dijkstra统一成本标准更快的最短路径,但是我似乎找不到它的 ..

合并两个DAG的高​​效算法

我有两个加权DAG(有向无环图),需要将它们合并为一个,因此我可以进行拓扑排序(在某些情况下可以超过两个)。问题在于,每个图都是非循环的,但可以一起形成一个循环。而且,这些图很大(100k +个节点,500k +个边)。 是否有聪明的方法来合并图形?同样好的算法是“一次”遍历所有图形。 编辑: 按“合并” “我的意思是,如果两个图的所有边和顶点不创建循环,则将它们合并在一起(当然保留 ..
发布时间:2020-06-03 20:34:22 其他开发

如何在虚拟环境中使用Apache气流?

我对使用apache气流很陌生。我使用pycharm作为我的IDE。我创建一个项目(anaconda环境),创建一个包含DAG定义和Bash运算符的python脚本。当我打开气流网络服务器时,未显示我的DAGS。仅显示默认示例DAG。我的 AIRFLOW_HOME 变量包含〜/ airflow 。所以我在这里存储了我的python脚本,现在显示了。 如何在项目环境中使用它? 是否在每个 ..

使用发布/订阅消息触发Cloud Composer DAG

我正在尝试创建要通过发布/订阅消息触发的Cloud Composer DAG。 以下是Google的以下示例,每次在Cloud Storage存储桶中发生更改时都会触发DAG: https://cloud.google.com/composer/docs/how-to/using/triggering-with-gcf 但是,开始时他们说,您可以触发DAG来响应事件,例如Cloud St ..

在Airflow上存储登录凭证的最佳方法是什么?

我发现有很多方法可以将其存储为变量,挂钩和其他使用加密的方法。我想知道什么是最好的方法。 解决方案 当前有两种存储秒表的方法: 1)气流变量:如果键中包含任何单词(“密码”,“秘密”,“密码”,默认情况下为'authorization','api_key','apikey','access_token'),但可以将其配置为以明文形式显示,如下图所示。 但是,存在一个已知的错误, ..
发布时间:2020-06-02 21:34:53 Python

如果下游任务在气流中失败,如何重新运行上游任务(使用Sub Dags)

我有一个气流数据采集器,可以提取数据并执行验证。如果验证失败,则需要重新运行提取。如果验证成功,它将继续。 我读过一些人说,潜逃可以解决这个问题,但我看不到任何这样的例子。我已经尝试过使用sub dag,但是遇到了与尝试在一个DAG中进行操作相同的问题。 如何将Sub DAG中的所有任务如果其中之一失败,是否重新运行? 我有以下DAG / sub dag详细信息: main ..
发布时间:2020-06-02 21:33:24 其他开发