snakemake相关内容

尽管输出文件已存在,Snakemake仍要运行作业

我有一个工作流,首先从公共数据库下载文件,然后在后续步骤中处理这些文件以创建多个聚合数据表。 我正在没有Internet连接的计算机上测试工作流。我在另一台机器上运行了初步的数据下载步骤,并将它们复制到这台机器上,现在我正在尝试运行工作流的其余部分。当我运行snakemake -np时,它报告所有数据下载作业仍然需要完成,即使目标文件已经存在。我甚至在后续处理规则中将这些文件标记为ancie ..
发布时间:2022-09-22 23:48:26 Python

Snakemake-无法根据输出文件确定输入文件中的通配符

我对Snakemaker非常陌生,也不太会说Python(抱歉,这可能是一个非常基本的愚蠢问题): 我目前正在构建一个管道来使用atlas分析一组bamfile。这些bamfile位于不同的文件夹中,不应移动到公共文件夹中。因此,我决定提供一个示例列表,如下所示(这只是一个示例,实际上示例可能位于完全不同的驱动器上): Sample Path Sample1 /some/ ..
发布时间:2022-08-11 15:37:09 Python

Snakemake:在一个通配符上组合输入

我想知道您是否能够提供有关定义Snakemake规则以组合一个而不是所有通配符的建议?我的数据是有组织的,这样我就有了运行和样本;大多数(但不是全部)样本在每次运行中都进行了重新排序。因此,我有针对每个样本运行的预处理步骤。然后,我有一个步骤,为每个样本的每次运行组合BAM文件。然而,我遇到的问题是,我对如何定义规则感到有点困惑,这样我就可以列出与样本相对应的所有个人bam的输入(来自不同的运行) ..
发布时间:2022-04-15 12:50:08 其他开发

Snakemake Temp()

我已将Snakemake连接到S3帐户,并且我希望在处理我们的管道后删除某些temp()文件。 我有一条规则将某些文件指定为temp()。下面是一个示例: #Split rep element mapped bam file into subfiles rule split_rep_bam: input: 'rep_element_pipeline/{sample}.fa ..
发布时间:2022-04-15 12:44:50 其他开发

Snakemake让检查点和聚合函数工作

我在执行Snakemake Aggregate命令时遇到问题。我希望获得一个给定的GTF文件,在GTF中查找单独的区域,如果找到,则将这些区域写入一个单独的文件。因此,我不确定每个输入GTF文件将创建的输出GTF文件的数量。为了解决此问题,我正在尝试使用蛇造检查站。 为此,我编写了一个名为collapse_gtf_file.py的简短脚本,它只接受一个GTF文件,并根据找到的各个区域的数量生成N ..
发布时间:2022-04-15 12:42:32 其他开发

接受略有不同的Snakemaker规则输入(.fq与.fq.gz)

我是Snakemake的新手,我希望能够获取一对.fq文件或一对.fq.gz文件,并通过trim_galore运行它们来获得一对经过修剪的.fq.gz输出文件。在不给出我所有的Snakefile的情况下,我有了下面这个难看的解决方案,我只是复制了规则并更改了输入。什么是更好的解决方案? #Trim galore paired end trimming rule for unzipped fa ..
发布时间:2022-04-15 12:27:25 其他开发

一个样本在下一次开始之前完成的Snakemake优先级

我正在使用一个相当大的Snakemade文件来为30名患者调用突变。工作流程的第一步是对齐。我遇到的问题是,Snakemaker调度程序似乎首先为所有30名患者执行第一步(即比对)。这又需要大量(临时)磁盘空间(>;>;10TB)。这是非常无效的,因为当工作流完成时,一个患者只占用不到1 GB(仅VCF文件)。 所以我的问题是,是否有一种方法可以在开始对新患者进行配对(第一步)之前完 ..
发布时间:2022-04-02 18:33:11 Python

当并非所有作业都成功输出先前规则的文件时,如何编写蛇形输入?

基本上,我有三个蛇形规则(除了规则全部)并且无法解决这个问题,尽管有检查点资源. 规则一有我的第一个也是唯一一个文件.它将有 x 个输出(数量因输入文件而异).这 x 个输出中的每一个都需要在规则 2 中单独处理,这意味着规则 2 将运行 x 个作业.但是,这些作业中只有一部分子集 y 会产生输出(软件只写出超过特定阈值的输入文件).所以,同时我希望这些输出中的每一个都作为作业 3 中的单独 ..
发布时间:2021-09-28 20:00:35 Python

最后执行一定的规则

我目前正在编写一个 Snakefile,它进行了大量的对齐后质量控制(CollectInsertSizeMetics、CollectAlignmentSummaryMetrics、CollectGcBiasMetrics、...).在 Snakefile 的最后,我正在运行 multiQC 以将所有指标合并到一个 html 报告中. 我知道如果我使用规则 A 的输出作为规则 B 的输入,规则 ..
发布时间:2021-09-28 20:00:26 其他开发

如何避免在输入或中间输出文件更新后运行 Snakemake 规则

即使 Snakemake 构建的输出文件已经存在,Snakemake 也希望重新运行我的整个管道,因为我修改了第一个输入或中间输出文件. 我通过使用 -n 进行 Snakemake 空运行来解决这个问题,它为更新的输入文件提供了以下报告: 原因:更新输入文件:input-data.csv 以及此消息用于更新中间文件 reason:输入文件被另一个作业更新:intermediary-ou ..
发布时间:2021-09-28 19:59:17 其他开发

Snakemake在python函数的路径中使用通配符

我有一个简单的函数,可以读取文件(一行)并在拆分后获取第一个元素. def get_wc(wc):文件 = 打开(wc,“r")normalization_value = file.readline().split(' ')[0]返回(归一化值) 我在蛇形规则中使用此函数. 规则compute_fc:输入:“数据/annotated_clones/{cdna}_paste_{lib}.ann ..
发布时间:2021-09-24 20:46:12 Python

蛇形通过通配符将文件组合在一起

我有一个包含连接示例表中列出的文件的规则的 snakemake 文件.样本表看起来像: 样本单元 fq1 fq2A车道1 A.l1.1.R1.txt A.l1.1.R2.txtA车道1 A.l1.2.R1.txt A.l1.2.R2.txtAlane2 A.l2.R1.txt A.l2.R2.txtB车道1 B.l1.R1.txt B.l1.R2.txtB车道2 B.l2.R1.txt B.l2 ..
发布时间:2021-09-24 20:45:49 Python

如何从一个样本中选择所有文件?

我在弄清楚如何使输入指令仅选择以下规则中的所有 {samples} 文件时遇到问题. 规则标记:输入:展开(“输出/MergeBamAlignment/{samples}_{lanes}_{flowcells}.merged.bam",zip,样品=样品['样品'],车道=样品['车道'],flowcells=samples['flowcell']),输出:bam = "输出/MarkDupl ..
发布时间:2021-09-24 20:44:52 其他开发

使用 snakemake 移动和重命名多个文件夹中的文件

我试图找到最优雅的解决方案,使用 snakemake 来移动和重命名存储在大约 50 个单独文件夹中的约 1000 个 fastq 文件.我最初的尝试是使用以下命令将文件位置和新样本 ID 数据存储在配置文件中: 配置 示例:15533_Oct_2014/15533_L7_R1_001.fastq.gz:15533_Extr_L7_R1.fastq.gz15533_Oct_2014/155 ..
发布时间:2021-07-07 19:14:32 Python