snakemake - IT屋-程序员软件开发技术分享社区

尽管输出文件已存在，Snakemake仍要运行作业

我有一个工作流，首先从公共数据库下载文件，然后在后续步骤中处理这些文件以创建多个聚合数据表。我正在没有Internet连接的计算机上测试工作流。我在另一台机器上运行了初步的数据下载步骤，并将它们复制到这台机器上，现在我正在尝试运行工作流的其余部分。当我运行snakemake -np时，它报告所有数据下载作业仍然需要完成，即使目标文件已经存在。我甚至在后续处理规则中将这些文件标记为ancie ..

发布时间：2022-09-22 23:48:26 python offline snakemake Python

Snakemake-无法根据输出文件确定输入文件中的通配符

我对Snakemaker非常陌生，也不太会说Python(抱歉，这可能是一个非常基本的愚蠢问题)：我目前正在构建一个管道来使用atlas分析一组bamfile。这些bamfile位于不同的文件夹中，不应移动到公共文件夹中。因此，我决定提供一个示例列表，如下所示(这只是一个示例，实际上示例可能位于完全不同的驱动器上)： Sample Path Sample1 /some/ ..

发布时间：2022-08-11 15:37:09 python python-3.x pipeline snakemake Python

我想知道您是否能够提供有关定义Snakemake规则以组合一个而不是所有通配符的建议？我的数据是有组织的，这样我就有了运行和样本；大多数(但不是全部)样本在每次运行中都进行了重新排序。因此，我有针对每个样本运行的预处理步骤。然后，我有一个步骤，为每个样本的每次运行组合BAM文件。然而，我遇到的问题是，我对如何定义规则感到有点困惑，这样我就可以列出与样本相对应的所有个人bam的输入(来自不同的运行) ..

发布时间：2022-04-15 12:50:08 mapping bioinformatics snakemake 其他开发

Snakemake Temp()

我已将Snakemake连接到S3帐户，并且我希望在处理我们的管道后删除某些temp()文件。我有一条规则将某些文件指定为temp()。下面是一个示例： #Split rep element mapped bam file into subfiles rule split_rep_bam: input: 'rep_element_pipeline/{sample}.fa ..

发布时间：2022-04-15 12:44:50 bioinformatics snakemake 其他开发

Snakemake让检查点和聚合函数工作

我在执行Snakemake Aggregate命令时遇到问题。我希望获得一个给定的GTF文件，在GTF中查找单独的区域，如果找到，则将这些区域写入一个单独的文件。因此，我不确定每个输入GTF文件将创建的输出GTF文件的数量。为了解决此问题，我正在尝试使用蛇造检查站。为此，我编写了一个名为collapse_gtf_file.py的简短脚本，它只接受一个GTF文件，并根据找到的各个区域的数量生成N ..

发布时间：2022-04-15 12:42:32 bioinformatics snakemake 其他开发

Snakemake，如何在使用通配符时更改输出文件名

我想我有一个简单的问题，但我不知道如何解决它。我的输入文件夹包含如下文件： AAAAA_S1_R1_001.fastq AAAAA_S1_R2_001.fastq BBBBB_S2_R1_001.fastq BBBBB_S2_R2_001.fastq 我的造蛇器代码： import glob samples = [os.path.basename(x) for x in ..

发布时间：2022-04-15 12:34:09 bioinformatics snakemake 其他开发

接受略有不同的Snakemaker规则输入(.fq与.fq.gz)

我是Snakemake的新手，我希望能够获取一对.fq文件或一对.fq.gz文件，并通过trim_galore运行它们来获得一对经过修剪的.fq.gz输出文件。在不给出我所有的Snakefile的情况下，我有了下面这个难看的解决方案，我只是复制了规则并更改了输入。什么是更好的解决方案？ #Trim galore paired end trimming rule for unzipped fa ..

发布时间：2022-04-15 12:27:25 bioinformatics snakemake 其他开发

一个样本在下一次开始之前完成的Snakemake优先级

我正在使用一个相当大的Snakemade文件来为30名患者调用突变。工作流程的第一步是对齐。我遇到的问题是，Snakemaker调度程序似乎首先为所有30名患者执行第一步(即比对)。这又需要大量(临时)磁盘空间(>；>；10TB)。这是非常无效的，因为当工作流完成时，一个患者只占用不到1 GB(仅VCF文件)。所以我的问题是，是否有一种方法可以在开始对新患者进行配对(第一步)之前完 ..

发布时间：2022-04-02 18:33:11 python workflow snakemake Python

Snakemake检查点聚合跳过中间规则

我有一个Python脚本，它接受一组FASTA和GFF文件，并将基于相似COG ID的序列收集到Master COG目录中的各个目录中。齿轮数是动态的，为此，我在Snakemake中使用了检查点选项。该规则如下所示： checkpoint get_COG: input: rules.AMR_meta.output output: che ..

发布时间：2022-04-01 13:56:51 aggregate-functions wildcard snakemake 其他开发

'；通配符'；对象没有属性'；输出'；

我收到一个相当简单的规则的错误。我必须为另一个程序写一个任务文件，期望是一个TSV文件。我从配置文件中读取一定数量的参数，并使用shell命令将它们写入文件。编码： rule create_tasks: output: temp("tasks_{sample}.tsv") params: ID="{sample}", f ..

发布时间：2022-02-25 16:23:15 shell output wildcard rules snakemake 其他开发

在 Snakemake 脚本中使用 argparse

是否可以将自定义命令行参数传递给 snakemake 脚本?我已经尝试过了，但是使用 argparse 执行 Snakefile 会导致错误 snakemake: error: unrecognized arguments: -zz.下面是一个示例脚本. 导入 argparsedef get_args():parser = argparse.ArgumentParser(description= ..

发布时间：2021-11-17 04:48:13 python python-3.x command-line-arguments argparse snakemake Python

当并非所有作业都成功输出先前规则的文件时，如何编写蛇形输入?

基本上，我有三个蛇形规则(除了规则全部)并且无法解决这个问题，尽管有检查点资源. 规则一有我的第一个也是唯一一个文件.它将有 x 个输出(数量因输入文件而异).这 x 个输出中的每一个都需要在规则 2 中单独处理，这意味着规则 2 将运行 x 个作业.但是，这些作业中只有一部分子集 y 会产生输出(软件只写出超过特定阈值的输入文件).所以，同时我希望这些输出中的每一个都作为作业 3 中的单独 ..

发布时间：2021-09-28 20:00:35 python algorithm workflow snakemake Python

最后执行一定的规则

我目前正在编写一个 Snakefile，它进行了大量的对齐后质量控制(CollectInsertSizeMetics、CollectAlignmentSummaryMetrics、CollectGcBiasMetrics、...).在 Snakefile 的最后，我正在运行 multiQC 以将所有指标合并到一个 html 报告中. 我知道如果我使用规则 A 的输出作为规则 B 的输入，规则 ..

发布时间：2021-09-28 20:00:26 workflow snakemake 其他开发

如何避免在输入或中间输出文件更新后运行 Snakemake 规则

即使 Snakemake 构建的输出文件已经存在，Snakemake 也希望重新运行我的整个管道，因为我修改了第一个输入或中间输出文件. 我通过使用 -n 进行 Snakemake 空运行来解决这个问题，它为更新的输入文件提供了以下报告: 原因:更新输入文件:input-data.csv 以及此消息用于更新中间文件 reason:输入文件被另一个作业更新:intermediary-ou ..

发布时间：2021-09-28 19:59:17 file caching build workflow snakemake 其他开发

Snakemake在python函数的路径中使用通配符

我有一个简单的函数，可以读取文件(一行)并在拆分后获取第一个元素. def get_wc(wc):文件 = 打开(wc，“r")normalization_value = file.readline().split(' ')[0]返回(归一化值) 我在蛇形规则中使用此函数. 规则compute_fc:输入:“数据/annotated_clones/{cdna}_paste_{lib}.ann ..

发布时间：2021-09-24 20:46:12 python wildcard snakemake Python

蛇形通过通配符将文件组合在一起

我有一个包含连接示例表中列出的文件的规则的 snakemake 文件.样本表看起来像: 样本单元 fq1 fq2A车道1 A.l1.1.R1.txt A.l1.1.R2.txtA车道1 A.l1.2.R1.txt A.l1.2.R2.txtAlane2 A.l2.R1.txt A.l2.R2.txtB车道1 B.l1.R1.txt B.l1.R2.txtB车道2 B.l2.R1.txt B.l2 ..

发布时间：2021-09-24 20:45:49 python wildcard snakemake Python

Snakemake InputFunctionException.AttributeError:“通配符"对象没有属性

我有一个带有 ChIP-seq 单端 fastq 文件名的列表对象 allfiles=['/path/file1.fastq','/path/file2.fastq','/path/file3.fastq'] .我正在尝试将该对象 allfiles 设置为通配符(我想要输入 fastqc 规则(以及其他规则，例如映射，但让我们保持简单).我尝试了下面的代码(lambda 通配符:data.loc[ ..

发布时间：2021-09-24 20:45:40 wildcard snakemake 其他开发

如何从一个样本中选择所有文件?

我在弄清楚如何使输入指令仅选择以下规则中的所有 {samples} 文件时遇到问题. 规则标记:输入:展开(“输出/MergeBamAlignment/{samples}_{lanes}_{flowcells}.merged.bam"，zip，样品=样品['样品']，车道=样品['车道']，flowcells=samples['flowcell']),输出:bam = "输出/MarkDupl ..

发布时间：2021-09-24 20:44:52 wildcard snakemake 其他开发

在 Snakemake 规则中使用 Github URL 作为包装器

我知道在 Snakefile 中定义基于包装器的规则的三种工作方法: 规则 way1_wrapper_repository:包装器:“0.0.8/bio/samtools_sort"规则 way2_local_relative_directory:包装器:“local_wrappers/dir/samtools_sort"规则 way3_local_absolute_directory:包装器 ..

发布时间：2021-07-13 19:56:50 url wrapper rules snakemake 其他开发

使用 snakemake 移动和重命名多个文件夹中的文件

我试图找到最优雅的解决方案，使用 snakemake 来移动和重命名存储在大约 50 个单独文件夹中的约 1000 个 fastq 文件.我最初的尝试是使用以下命令将文件位置和新样本 ID 数据存储在配置文件中: 配置示例:15533_Oct_2014/15533_L7_R1_001.fastq.gz:15533_Extr_L7_R1.fastq.gz15533_Oct_2014/155 ..

发布时间：2021-07-07 19:14:32 python rename snakemake Python

snakemake相关内容