snakemake相关内容
我有一个工作流,首先从公共数据库下载文件,然后在后续步骤中处理这些文件以创建多个聚合数据表。 我正在没有Internet连接的计算机上测试工作流。我在另一台机器上运行了初步的数据下载步骤,并将它们复制到这台机器上,现在我正在尝试运行工作流的其余部分。当我运行snakemake -np时,它报告所有数据下载作业仍然需要完成,即使目标文件已经存在。我甚至在后续处理规则中将这些文件标记为ancie
..
我对Snakemaker非常陌生,也不太会说Python(抱歉,这可能是一个非常基本的愚蠢问题): 我目前正在构建一个管道来使用atlas分析一组bamfile。这些bamfile位于不同的文件夹中,不应移动到公共文件夹中。因此,我决定提供一个示例列表,如下所示(这只是一个示例,实际上示例可能位于完全不同的驱动器上): Sample Path Sample1 /some/
..
我想知道您是否能够提供有关定义Snakemake规则以组合一个而不是所有通配符的建议?我的数据是有组织的,这样我就有了运行和样本;大多数(但不是全部)样本在每次运行中都进行了重新排序。因此,我有针对每个样本运行的预处理步骤。然后,我有一个步骤,为每个样本的每次运行组合BAM文件。然而,我遇到的问题是,我对如何定义规则感到有点困惑,这样我就可以列出与样本相对应的所有个人bam的输入(来自不同的运行)
..
我已将Snakemake连接到S3帐户,并且我希望在处理我们的管道后删除某些temp()文件。 我有一条规则将某些文件指定为temp()。下面是一个示例: #Split rep element mapped bam file into subfiles rule split_rep_bam: input: 'rep_element_pipeline/{sample}.fa
..
我在执行Snakemake Aggregate命令时遇到问题。我希望获得一个给定的GTF文件,在GTF中查找单独的区域,如果找到,则将这些区域写入一个单独的文件。因此,我不确定每个输入GTF文件将创建的输出GTF文件的数量。为了解决此问题,我正在尝试使用蛇造检查站。 为此,我编写了一个名为collapse_gtf_file.py的简短脚本,它只接受一个GTF文件,并根据找到的各个区域的数量生成N
..
我想我有一个简单的问题,但我不知道如何解决它。 我的输入文件夹包含如下文件: AAAAA_S1_R1_001.fastq AAAAA_S1_R2_001.fastq BBBBB_S2_R1_001.fastq BBBBB_S2_R2_001.fastq 我的造蛇器代码: import glob samples = [os.path.basename(x) for x in
..
我是Snakemake的新手,我希望能够获取一对.fq文件或一对.fq.gz文件,并通过trim_galore运行它们来获得一对经过修剪的.fq.gz输出文件。在不给出我所有的Snakefile的情况下,我有了下面这个难看的解决方案,我只是复制了规则并更改了输入。什么是更好的解决方案? #Trim galore paired end trimming rule for unzipped fa
..
我正在使用一个相当大的Snakemade文件来为30名患者调用突变。工作流程的第一步是对齐。我遇到的问题是,Snakemaker调度程序似乎首先为所有30名患者执行第一步(即比对)。这又需要大量(临时)磁盘空间(>;>;10TB)。这是非常无效的,因为当工作流完成时,一个患者只占用不到1 GB(仅VCF文件)。 所以我的问题是,是否有一种方法可以在开始对新患者进行配对(第一步)之前完
..
我有一个Python脚本,它接受一组FASTA和GFF文件,并将基于相似COG ID的序列收集到Master COG目录中的各个目录中。齿轮数是动态的,为此,我在Snakemake中使用了检查点选项。 该规则如下所示: checkpoint get_COG: input: rules.AMR_meta.output output: che
..
我收到一个相当简单的规则的错误。我必须为另一个程序写一个任务文件,期望是一个TSV文件。我从配置文件中读取一定数量的参数,并使用shell命令将它们写入文件。 编码: rule create_tasks: output: temp("tasks_{sample}.tsv") params: ID="{sample}", f
..
是否可以将自定义命令行参数传递给 snakemake 脚本?我已经尝试过了,但是使用 argparse 执行 Snakefile 会导致错误 snakemake: error: unrecognized arguments: -zz.下面是一个示例脚本. 导入 argparsedef get_args():parser = argparse.ArgumentParser(description=
..
基本上,我有三个蛇形规则(除了规则全部)并且无法解决这个问题,尽管有检查点资源. 规则一有我的第一个也是唯一一个文件.它将有 x 个输出(数量因输入文件而异).这 x 个输出中的每一个都需要在规则 2 中单独处理,这意味着规则 2 将运行 x 个作业.但是,这些作业中只有一部分子集 y 会产生输出(软件只写出超过特定阈值的输入文件).所以,同时我希望这些输出中的每一个都作为作业 3 中的单独
..
我目前正在编写一个 Snakefile,它进行了大量的对齐后质量控制(CollectInsertSizeMetics、CollectAlignmentSummaryMetrics、CollectGcBiasMetrics、...).在 Snakefile 的最后,我正在运行 multiQC 以将所有指标合并到一个 html 报告中. 我知道如果我使用规则 A 的输出作为规则 B 的输入,规则
..
即使 Snakemake 构建的输出文件已经存在,Snakemake 也希望重新运行我的整个管道,因为我修改了第一个输入或中间输出文件. 我通过使用 -n 进行 Snakemake 空运行来解决这个问题,它为更新的输入文件提供了以下报告: 原因:更新输入文件:input-data.csv 以及此消息用于更新中间文件 reason:输入文件被另一个作业更新:intermediary-ou
..
我有一个简单的函数,可以读取文件(一行)并在拆分后获取第一个元素. def get_wc(wc):文件 = 打开(wc,“r")normalization_value = file.readline().split(' ')[0]返回(归一化值) 我在蛇形规则中使用此函数. 规则compute_fc:输入:“数据/annotated_clones/{cdna}_paste_{lib}.ann
..
我有一个包含连接示例表中列出的文件的规则的 snakemake 文件.样本表看起来像: 样本单元 fq1 fq2A车道1 A.l1.1.R1.txt A.l1.1.R2.txtA车道1 A.l1.2.R1.txt A.l1.2.R2.txtAlane2 A.l2.R1.txt A.l2.R2.txtB车道1 B.l1.R1.txt B.l1.R2.txtB车道2 B.l2.R1.txt B.l2
..
我有一个带有 ChIP-seq 单端 fastq 文件名的列表对象 allfiles=['/path/file1.fastq','/path/file2.fastq','/path/file3.fastq'] .我正在尝试将该对象 allfiles 设置为通配符(我想要输入 fastqc 规则(以及其他规则,例如映射,但让我们保持简单).我尝试了下面的代码(lambda 通配符:data.loc[
..
我在弄清楚如何使输入指令仅选择以下规则中的所有 {samples} 文件时遇到问题. 规则标记:输入:展开(“输出/MergeBamAlignment/{samples}_{lanes}_{flowcells}.merged.bam",zip,样品=样品['样品'],车道=样品['车道'],flowcells=samples['flowcell']),输出:bam = "输出/MarkDupl
..
我知道在 Snakefile 中定义基于包装器的规则的三种工作方法: 规则 way1_wrapper_repository:包装器:“0.0.8/bio/samtools_sort"规则 way2_local_relative_directory:包装器:“local_wrappers/dir/samtools_sort"规则 way3_local_absolute_directory:包装器
..
我试图找到最优雅的解决方案,使用 snakemake 来移动和重命名存储在大约 50 个单独文件夹中的约 1000 个 fastq 文件.我最初的尝试是使用以下命令将文件位置和新样本 ID 数据存储在配置文件中: 配置 示例:15533_Oct_2014/15533_L7_R1_001.fastq.gz:15533_Extr_L7_R1.fastq.gz15533_Oct_2014/155
..