fastq相关内容

python 中的成员资格测试比 set() 更快

我必须检查包含 10-100k 这些元素的列表中是否存在数百万个元素(20-30 个字母 str).在 python 中有没有比 set() 更快的方法? 导入系统#加载IDids = set( x.strip() for x in open(idfile) )对于 sys.stdin 中的行:id=line.strip()如果 id 中的 id:#打印fastq打印身份证#更新IDids.re ..
发布时间:2022-01-17 18:28:03 Python

允许与子集.fastq不匹配的Grep

我正在Linux集群上使用bash.我正在尝试从.fastq文件中提取读取,如果它们包含与查询序列匹配的内容.下面是一个包含三个读取的.fastq文件示例. $ cat example.fastq @SRR1111111.1 1/1 CTGGANAAGTGAAATAATATAAATTTTTCCACTATTGAATAAAAGCAACTTAAATTTTCTAAGTCG + AAAAA#EE ..
发布时间:2020-06-14 19:13:51 其他开发

在UNIX中循环连接多对名称几乎相同的文件

我有一个非常基本的问题,但我无法解决.我在同一目录中有多个文件,我想串联每对文件.名称是: Sample1_R1_L001.fastq Sample1_R2_L001.fastq Sample2_R1_L001.fastq Sample2_R2_L001.fastq Sample3_R1_L001.fastq Sample3_R2_L001.fastq (等...) 我想要的结果 ..
发布时间:2020-06-14 19:13:45 其他开发

Bash脚本将文本文件与文件名中的特定子字符串连接在一起

在某个目录中,我有许多包含一堆文本文件的目录.我正在尝试编写一个脚本,该脚本仅将每个目录中文件名中带有字符串"R1"的文件连接到该特定目录中的一个文件,并将另一个文件中具有"R2"的文件连接起来.这是我写的,但是没有用. #!/bin/bash for f in */*.fastq; do if grep 'R1' $f ; then cat "$f" >> R1 ..
发布时间:2020-06-14 19:13:43 其他开发

bash:/bin/ls:参数列表太长

我需要列出大量文件(40,000个文件)的列表,如下所示: ERR001268_1_100.fastq ERR001268_2_156.fastq ERR001753_2_78.fastq ERR001268_1_101.fastq ERR001268_2_157.fastq ERR001753_2_79.fastq ERR001268_1_102.fastq ERR001268_ ..
发布时间:2020-05-02 07:08:45 其他开发

使用两个文件时的grep问题 - 我试过了所有的东西

我有两个文件(重新编码和读取),这些文件是使用nano命令构建和保存的,我想比较重新编码中的内容,以读取和提取重叠的行中的行。我一直在努力创造一个带有以前逻辑的when循环,但迄今为止没有成功。输出数据与循环中指定的模式不匹配,而使用grep / recode时不匹配。该脚本应该读取recode.txt中的每行,并将其与reads.fastq进行比较,在reads.txt之前提取每行匹配行加上一行 ..
发布时间:2018-05-28 19:44:12 服务器开发

击:替换文件名的一部分

我有一个命令我想对所有文件夹的文件中运行,该命令的语法如下: 顶礼帽-o<&OUTPUT_FILE GT; <&INPUT_FILE GT; 我希望做的是,循环通过在任意文件夹中的所有文件,并使用输入文件名来创建类似,但不同的输出文件名的脚本。文件名看起来像这样:输入名称所需的输出名称 路径/要/ sample1.fastq路径/要/ sample1.bam 路径/要/ samp ..
发布时间:2016-08-02 15:18:19 Linux/Unix

阅读UNIX和运行命令的文件列表

我是pretty在shell脚本新的,我一直在挣扎了一整天弄清楚如何执行“为”命令。从本质上讲,我试图做的是以下内容: 我有一堆名字的​​LIST.TXT文件: 名1 NAME2 NAME3 列表中的每一个名字,有两个不同的文件,每一个不同的结局的名称。例如: name1_R1 name1_R2 我想运行的程序叫做镰刀。基本上,它需要两个文件(对应于彼此)和运行在他们的分析,因此需要我 ..
发布时间:2016-08-02 15:16:46 服务器开发

转换FASTQ与SED / AWK FASTA

我具有这样的数据总是来自于四个块 按以下格式(称为FASTQ): @ SRR018006.2016 GA2:6:1:20:650的长度= 36 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGN + SRR018006.2016 GA2:6:1:20:650的长度= 36 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! +! @ SRR018006 ..
发布时间:2016-07-28 14:51:33 Linux/Unix