fastq - IT屋-程序员软件开发技术分享社区

python 中的成员资格测试比 set() 更快

我必须检查包含 10-100k 这些元素的列表中是否存在数百万个元素(20-30 个字母 str).在 python 中有没有比 set() 更快的方法? 导入系统#加载IDids = set( x.strip() for x in open(idfile) )对于 sys.stdin 中的行:id=line.strip()如果 id 中的 id:#打印fastq打印身份证#更新IDids.re ..

将 FASTQ 文件读入 Spark 数据帧

我正在尝试将 FASTQ 文件读入 Spark 数据帧.我有一些困难，因为 FASTQ 是一种多行格式. 示例: @seq1AGTCAGTCGAC+?@@FFBFFDDH@seq2CCAGCGTCTCG+?88ADA?BDF8 有没有办法在像这样的 Spark 数据帧中获取这些数据 +-------------+-------------+------------+|标识符 |序列 ..

发布时间：2021-11-14 23:06:25 scala apache-spark apache-spark-sql bioinformatics fastq 其他开发

将FASTQ文件读入Spark数据帧

我正在尝试将FASTQ文件读入Spark数据帧.我遇到了一些困难，因为FASTQ是一种多行格式. 示例: @ seq1AGTCAGTCGAC+?@@ FFBFFDDH@ seq2CCAGCGTCTCG+88ADA BDF8 有没有办法在Spark数据框中获取这些数据? + ----------------- + ------------- + ------------ +|标识符 ..

发布时间：2021-04-08 20:03:57 scala apache-spark apache-spark-sql bioinformatics fastq 其他开发

允许与子集.fastq不匹配的Grep

我正在Linux集群上使用bash.我正在尝试从.fastq文件中提取读取，如果它们包含与查询序列匹配的内容.下面是一个包含三个读取的.fastq文件示例. $ cat example.fastq @SRR1111111.1 1/1 CTGGANAAGTGAAATAATATAAATTTTTCCACTATTGAATAAAAGCAACTTAAATTTTCTAAGTCG + AAAAA#EE ..

发布时间：2020-06-14 19:13:51 awk grep bioinformatics fastq sequencing 其他开发

在UNIX中循环连接多对名称几乎相同的文件

我有一个非常基本的问题，但我无法解决.我在同一目录中有多个文件，我想串联每对文件.名称是: Sample1_R1_L001.fastq Sample1_R2_L001.fastq Sample2_R1_L001.fastq Sample2_R2_L001.fastq Sample3_R1_L001.fastq Sample3_R2_L001.fastq (等...) 我想要的结果 ..

发布时间：2020-06-14 19:13:45 loops cat fastq 其他开发

Bash脚本将文本文件与文件名中的特定子字符串连接在一起

在某个目录中，我有许多包含一堆文本文件的目录.我正在尝试编写一个脚本，该脚本仅将每个目录中文件名中带有字符串"R1"的文件连接到该特定目录中的一个文件，并将另一个文件中具有"R2"的文件连接起来.这是我写的，但是没有用. #!/bin/bash for f in */*.fastq; do if grep 'R1' $f ; then cat "$f" >> R1 ..

发布时间：2020-06-14 19:13:43 bash fastq 其他开发

与set()相比，Python中的成员资格测试更快

我必须检查包含10-100k个元素的列表中是否存在数百万个元素(str的20-30个字母).在python中是否有比set()更快的方法? import sys #load ids ids = set( x.strip() for x in open(idfile) ) for line in sys.stdin: id=line.strip() if id in ids: ..

发布时间：2020-06-14 19:13:39 python performance set fastq Python

bash:/bin/ls:参数列表太长

我需要列出大量文件(40,000个文件)的列表，如下所示: ERR001268_1_100.fastq ERR001268_2_156.fastq ERR001753_2_78.fastq ERR001268_1_101.fastq ERR001268_2_157.fastq ERR001753_2_79.fastq ERR001268_1_102.fastq ERR001268_ ..

发布时间：2020-05-02 07:08:45 list ls fastq 其他开发

使用两个文件时的grep问题 - 我试过了所有的东西

我有两个文件（重新编码和读取），这些文件是使用nano命令构建和保存的，我想比较重新编码中的内容，以读取和提取重叠的行中的行。我一直在努力创造一个带有以前逻辑的when循环，但迄今为止没有成功。输出数据与循环中指定的模式不匹配，而使用grep / recode时不匹配。该脚本应该读取recode.txt中的每行，并将其与reads.fastq进行比较，在reads.txt之前提取每行匹配行加上一行 ..

发布时间：2018-05-28 19:44:12 linux unix awk grep fastq 服务器开发

如何我在bash脚本使用并行编程/多线程？

这是我的脚本：＃！/斌/庆典通过目录合并FASTQ文件#script循环 sourcedir = /路径/要/源 DESTDIR = /路径/要/目标在$ sourcedir F / * 做 f基准= $（基名“$ F”）回声“在$ f基准” ZCAT $ F / * R1 * .fastq.gz | gzip的＆GT; $ DESTDIR /“$ f基准”_R1. ..

发布时间：2016-08-03 11:32:19 multithreading bash parallel-processing fastq Linux/Unix

击：替换文件名的一部分

我有一个命令我想对所有文件夹的文件中运行，该命令的语法如下：顶礼帽-o＆LT;＆OUTPUT_FILE GT; ＆LT;＆INPUT_FILE GT; 我希望做的是，循环通过在任意文件夹中的所有文件，并使用输入文件名来创建类似，但不同的输出文件名的脚本。文件名看起来像这样：输入名称所需的输出名称路径/要/ sample1.fastq路径/要/ sample1.bam 路径/要/ samp ..

发布时间：2016-08-02 15:18:19 bash bioinformatics fastq Linux/Unix

阅读UNIX和运行命令的文件列表

我是pretty在shell脚本新的，我一直在挣扎了一整天弄清楚如何执行“为”命令。从本质上讲，我试图做的是以下内容：我有一堆名字的LIST.TXT文件：名1 NAME2 NAME3 列表中的每一个名字，有两个不同的文件，每一个不同的结局的名称。例如： name1_R1 name1_R2 我想运行的程序叫做镰刀。基本上，它需要两个文件（对应于彼此）和运行在他们的分析，因此需要我 ..

发布时间：2016-08-02 15:16:46 bash list loops unix fastq 服务器开发

转换FASTQ与SED / AWK FASTA

我具有这样的数据总是来自于四个块按以下格式（称为FASTQ）： @ SRR018006.2016 GA2：6：1：20：650的长度= 36 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGN + SRR018006.2016 GA2：6：1：20：650的长度= 36 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! +！ @ SRR018006 ..

发布时间：2016-07-28 14:51:33 shell awk sed fastq Linux/Unix

fastq相关内容