fastq相关内容
我必须检查包含 10-100k 这些元素的列表中是否存在数百万个元素(20-30 个字母 str).在 python 中有没有比 set() 更快的方法? 导入系统#加载IDids = set( x.strip() for x in open(idfile) )对于 sys.stdin 中的行:id=line.strip()如果 id 中的 id:#打印fastq打印身份证#更新IDids.re
..
我正在尝试将 FASTQ 文件读入 Spark 数据帧.我有一些困难,因为 FASTQ 是一种多行格式. 示例: @seq1AGTCAGTCGAC+?@@FFBFFDDH@seq2CCAGCGTCTCG+?88ADA?BDF8 有没有办法在像 这样的 Spark 数据帧中获取这些数据 +-------------+-------------+------------+|标识符 |序列
..
我正在尝试将FASTQ文件读入Spark数据帧.我遇到了一些困难,因为FASTQ是一种多行格式. 示例: @ seq1AGTCAGTCGAC+?@@ FFBFFDDH@ seq2CCAGCGTCTCG+88ADA BDF8 有没有办法在Spark数据框中获取这些数据? + ----------------- + ------------- + ------------ +|标识符
..
我正在Linux集群上使用bash.我正在尝试从.fastq文件中提取读取,如果它们包含与查询序列匹配的内容.下面是一个包含三个读取的.fastq文件示例. $ cat example.fastq @SRR1111111.1 1/1 CTGGANAAGTGAAATAATATAAATTTTTCCACTATTGAATAAAAGCAACTTAAATTTTCTAAGTCG + AAAAA#EE
..
我有一个非常基本的问题,但我无法解决.我在同一目录中有多个文件,我想串联每对文件.名称是: Sample1_R1_L001.fastq Sample1_R2_L001.fastq Sample2_R1_L001.fastq Sample2_R2_L001.fastq Sample3_R1_L001.fastq Sample3_R2_L001.fastq (等...) 我想要的结果
..
在某个目录中,我有许多包含一堆文本文件的目录.我正在尝试编写一个脚本,该脚本仅将每个目录中文件名中带有字符串"R1"的文件连接到该特定目录中的一个文件,并将另一个文件中具有"R2"的文件连接起来.这是我写的,但是没有用. #!/bin/bash for f in */*.fastq; do if grep 'R1' $f ; then cat "$f" >> R1
..
我必须检查包含10-100k个元素的列表中是否存在数百万个元素(str的20-30个字母).在python中是否有比set()更快的方法? import sys #load ids ids = set( x.strip() for x in open(idfile) ) for line in sys.stdin: id=line.strip() if id in ids:
..
我需要列出大量文件(40,000个文件)的列表,如下所示: ERR001268_1_100.fastq ERR001268_2_156.fastq ERR001753_2_78.fastq ERR001268_1_101.fastq ERR001268_2_157.fastq ERR001753_2_79.fastq ERR001268_1_102.fastq ERR001268_
..
我有两个文件(重新编码和读取),这些文件是使用nano命令构建和保存的,我想比较重新编码中的内容,以读取和提取重叠的行中的行。我一直在努力创造一个带有以前逻辑的when循环,但迄今为止没有成功。输出数据与循环中指定的模式不匹配,而使用grep / recode时不匹配。该脚本应该读取recode.txt中的每行,并将其与reads.fastq进行比较,在reads.txt之前提取每行匹配行加上一行
..
这是我的脚本: #!/斌/庆典 通过目录合并FASTQ文件#script循环 sourcedir = /路径/要/源 DESTDIR = /路径/要/目标在$ sourcedir F / * 做 f基准= $(基名“$ F”) 回声“在$ f基准” ZCAT $ F / * R1 * .fastq.gz | gzip的> $ DESTDIR /“$ f基准”_R1.
..
我有一个命令我想对所有文件夹的文件中运行,该命令的语法如下: 顶礼帽-o<&OUTPUT_FILE GT; <&INPUT_FILE GT; 我希望做的是,循环通过在任意文件夹中的所有文件,并使用输入文件名来创建类似,但不同的输出文件名的脚本。文件名看起来像这样:输入名称所需的输出名称 路径/要/ sample1.fastq路径/要/ sample1.bam 路径/要/ samp
..
我是pretty在shell脚本新的,我一直在挣扎了一整天弄清楚如何执行“为”命令。从本质上讲,我试图做的是以下内容: 我有一堆名字的LIST.TXT文件: 名1 NAME2 NAME3 列表中的每一个名字,有两个不同的文件,每一个不同的结局的名称。例如: name1_R1 name1_R2 我想运行的程序叫做镰刀。基本上,它需要两个文件(对应于彼此)和运行在他们的分析,因此需要我
..
我具有这样的数据总是来自于四个块 按以下格式(称为FASTQ): @ SRR018006.2016 GA2:6:1:20:650的长度= 36 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGN + SRR018006.2016 GA2:6:1:20:650的长度= 36 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! +! @ SRR018006
..