fasta相关内容

如何在R中合并FASTA文件

我有四个单独的FASTA文件,我想将它们合并到一个大的FASTA文件中。到目前为止,我已经使用生物字符串包分别读取了每个文件 推荐答案 例如,如果FASTA文件是: folder = "http://hgdownload.soe.ucsc.edu/goldenPath/sacCer3/chromosomes/" files = paste0(folder,c("chrI","ch ..
发布时间:2022-04-15 12:30:16 其他开发

从 fasta 文件打印序列

我经常需要在 fasta 文件中找到特定的序列并打印出来.对于那些不知道的人来说,fasta 是一种用于生物序列(DNA、蛋白质等)的文本文件格式.这很简单,你有一行序列名称前面有一个“>",然后直到下一个“>"的所有行都是序列本身.例如: >sequence1ACTGACTGACTGACTG>序列2ACTGACTGACTGACTGACTGACTGACTGACTG>序列3ACTGACTGACTG ..
发布时间:2022-01-06 14:03:29 其他开发

使用生成器(python)解析 fasta 文件

我正在尝试解析一个大型 fasta 文件,但遇到内存不足错误.一些改进数据处理的建议将不胜感激.目前该程序正确打印出名称,但部分通过文件我得到一个 MemoryError 这里是发电机 def readFastaEntry( fp ):姓名 = ""序列=“"对于 fp 中的行:如果 line.startswith( ">" ):tmp = []tmp.append( 名称 )tmp.ap ..
发布时间:2021-12-09 20:33:19 Python

将 FASTA 文件中的多个序列添加到 python 中的列表

我正在尝试使用多个序列来组织文件.这样做时,我试图将名称添加到列表中,并将序列添加到与名称列表平行的单独列表中.我想出了如何将名称添加到列表中,但我无法弄清楚如何将其后面的序列添加到单独的列表中.我尝试将序列行附加到一个空字符串中,但它将所有序列的所有行附加到一个字符串中. 所有名字都以'>'开头 def Name_Organizer(FASTA,output):导入操作系统进口重新in_ ..
发布时间:2021-11-16 19:43:12 Python

DNA序列的混沌游戏

我已尝试使用 mathematica 代码制作此地址中发布的 DNA 序列的混沌游戏:http://facstaff.unca.edu/mcmcclur/blog/GeneCGR.html 是这样的: genome = Import["c:\data\sequence.fasta", "Sequence"];基因组 = StringReplace[ToString[基因组], {"{" - ..
发布时间:2021-09-27 20:31:06 其他开发

sed 将多行块转换为单行(例如:fasta 到 phylip 格式)

在简而言之: 如何使用 sed 从 fasta 转换为类似“phylip"的格式(没有文件顶部的序列和残差计数)? fasta 格式是这样的: >sequence1美国航空运输业协会GG-AT>序列2AGTCG加特 一个序列的行数可能会有所不同. 我想把它转换成这样: sequence1 AATCG GG-AT序列2 AGTCG GGGAT 我的问题看起来很简单,但我对s ..
发布时间:2021-07-17 21:03:37 其他开发

正则表达式删除新行直到特定字符

我在以下格式的文件中有一系列字符串: >HEADER_Text1信息在这里,亚达亚达亚达这里有更多信息,yada yada yada甚至更多信息在这里, yada yada yada>HEADER_Text2信息在这里,亚达亚达亚达这里有更多信息,yada yada yada甚至更多信息在这里, yada yada yada>HEADER_Text3信息在这里,亚达亚达亚达这里有更多信息,yad ..
发布时间:2021-07-06 20:55:21 Python

如何计算文件中每一行的特定字符数?

我正在尝试计算 FASTA 文件中“N"的数量,即: >标题AGGTTGGNNNTNNGNNTNGN>标题2AGNNNNNNNGNNNNNGNN 所以最后我想得到“N"的数量,每个标题都是一个读取,所以我想制作一个直方图,所以我最后会输出这样的东西: # of N's # of Reads0 3001 240 等等... 所以有 300 个序列或读取的 'N's 数为 0 使用严格 ..
发布时间:2021-06-15 20:59:10 其他开发

在 R 中加载 FASTA 文件比使用 seqinr 中的 read.fasta() 更快

我目前正在使用 R 包 seqinr 中的函数 read.fasta(). 我认为创建索引文件已经使读取速度更快,但我想知道是否已经有另一个函数可以更快地加载它? 我从 PopGenome 中寻找函数 read.big.fasta(),但该包已从 CRAN 和 Bioconductor 中删除,所以我不再那么确定了.有什么建议吗? 解决方案 您可以使用 Biostrings 中的 ..
发布时间:2021-06-14 18:52:58 其他开发

用换行符将内容从一个文件追加到另一个文件

我想以一种与平台无关的方式复制Linux shell的 cat 功能,以便我可以采用以下方式合并两个文本文件并合并其内容: 文件_1包含: 42瓶啤酒在墙上 file_2包含: 啤酒显然是答案 合并的文件应包含: 42瓶啤酒在墙上啤酒显然是答案 但是,我所读过的大多数技术最终都产生了: 墙上的42瓶啤酒显然是答案 另一个问题是,我想使用的实际文件是非常大的文本文件 ..
发布时间:2021-04-23 20:30:55 Python

使用biopython写入fasta文件时出错

我使用以下代码将fasta序列写入文件. 来自生物导入SeqIO的 sequence ="KKPPLLRR"#在此处添加代码output_handle = open("example.fasta","w")SeqIO.write(sequences,output_handle,"fasta")output_handle.close() 我遇到以下错误: self = ..
发布时间:2021-04-15 19:47:41 其他开发

Biopython从变量而不是文件中解析

import gzip导入io来自Bio import SeqIOinfile ="myinfile.fastq.gz"fileout = open("myoutfile.fastq","w +")使用io.TextIOWrapper(gzip.open(infile,"r")))作为f:行= f.read()fileout.write(行)fileout.seek(0)计数= 0用于SeqIO ..
发布时间:2021-04-15 19:47:29 Python

在具有超过300个aa和"C"的fasta文件中选择序列.发生至少4次

我有一个fasta文件,其中包含蛋白质序列.我想选择具有300个以上氨基酸的序列,而半胱氨酸(C)氨基酸出现的次数超过4次. 我已经使用此命令来选择300氨基酸以上的序列: cat 72hDOWN-fasta.fasta |bioawk -c fastx'length($ seq)>300 {print“>" $ name;打印$ seq}' 一些示例: > jgi | Trias ..
发布时间:2021-04-15 19:46:45 服务器开发

Fasta文件读取python

我正在读取具有以下格式的FASTA文件: > gi | 31563518 | ref | NP_852610.1 |微管相关蛋白1A/1B轻链3A亚型b [智人]MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKIIRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEYEKEKDEDGFLYMV ..
发布时间:2021-04-15 19:46:38 Python

读取FASTA文件

我想将文件的以下行转换为JSON,我想将其保存为猫鼬模式. >HWI-ST700660_96:2:1101:1455:2154#5@0/1 GAA…..GAATG 应该是: {“>HWI-ST700660_96:2:1101:1455:2154#5@0/1”: “GAA…..GAATG”} 我尝试了几种选择,下面是一个示例,但是没有成功,有什么建议吗? const par ..
发布时间:2021-02-13 20:21:06 其他开发

Multifasta标头修剪

我有一个multifasta文件,我需要为每个fasta文件删除标题的某些部分.例如: >Viridibacillus_arenosi_FSL_R5_0213-BK137_RS04360-22-CBS_domain-containing_protein GCTAATGAAGTTATTGGCCTAGTGACAGAAAGGGATATAAAAAACGCG ..
发布时间:2020-11-12 22:22:16 其他开发