bioinformatics相关内容

在不创建序列文件的情况下运行BLAST(bl2seq)

我有一个执行BLAST查询(bl2seq)的脚本 脚本的工作方式如下: 获取序列a,序列b 将序列a写入filea 将序列b写入文件b 运行命令'bl2seq -i filea -j fileb -n blastn' 从STDOUT获取输出,进行解析 重复2000万次 程序bl2seq不支持管道. 有什么方法可以避免写入/读取硬盘驱动器吗? 我正在使用Python ..
发布时间:2020-09-21 03:15:49 服务器开发

使用Mathematica在已定义位置的左侧或右侧使用"StringCut"

在阅读这个问题时,我认为使用StringSplit 可以解决以下问题 给出以下字符串,我想将其“剪切"到每个"D"的左侧,使得: 我得到一个片段的列表(序列保持不变) StringJoin @fragments返回原始字符串(但是我是否必须重新排序片段以获得该字符串并不重要).也就是说,每个片段中的顺序很重要,我不想丢失任何字符. (我感兴趣的示例是一个蛋白质序列(字符串), ..
发布时间:2020-09-21 03:15:48 其他开发

“我如何判断字符串是否在Python中重复自身?"的更为复杂的版本.

我正在阅读这篇文章,我想知道是否有人可以找到将重复的图案捕捉到更复杂的弦中的方法. 例如,找到其中的所有重复图案 string = 'AAACACGTACGTAATTCCGTGTGTCCCCTATACGTATACGTTT' 以下是重复的图案: 'AAAC ACGTACGT AATTCC GTGTGT CCCC TATACGTATACG TTT" 因此,输出应该是这样的: ..
发布时间:2020-09-21 03:14:46 Python

如何在R中设置for循环

我是生物学家,对编程的知识较少.我有一些文件(fasta格式的文件),需要为此应用R包. 每个文件的内容如下: FILE_1.FASTA >>TTBK2_Hsap ,(CK1/TTBK) MSGGGEQLDILSVGILVKERWKVLRKIGGGGFGEIYDALDMLTRENVALKVESAQQPKQVLKMEVAVLKKLQGKDHVCRFIGCGRNDRFNYVVMQLQ ..
发布时间:2020-09-21 03:14:44 其他开发

如何从滑行中获取分类学等级名称?

此问题与以下内容有关: 那里给出的解决方案是可行的,但是我想为定义等级的每个分类ID提供名称.我已经在ete3上找到了它,它可以完成这项工作: names = ncbi.get_taxid_translator(lineage) print [names[taxid] for taxid in lineage] 但不是Python程序员,我无法将其合并到以上链接中给出的代码中.这是我尝试 ..
发布时间:2020-09-21 03:13:41 Python

在R中对生态数据进行分组

我正在查看一些生态数据(饮食),试图找出如何按捕食者分组.我希望能够提取数据,以便可以查看每个捕食者对每个物种的每个猎物的权重,即算出被捕食者117等所食用的每种物种的平均权重.我下面的数据. Predator PreySpecies PreyWeight 1 114 10 4.2035496 2 114 10 1.6307026 3 115 ..
发布时间:2020-09-21 03:13:35 其他开发

从仅包含0或仅包含0的数据框中删除行

我正在尝试在R中创建一个函数,该函数将允许我根据行中是否包含零位的单个列来过滤数据集.此外,有时候我只想删除所有列中均为零的行. 而且,这就是它的乐趣所在;并非所有列都包含数字,并且列数可以变化. 我尝试将一些数据粘贴到我想要获得的结果中. unfiltered: ID GeneName DU145small DU145total PC3small PC ..
发布时间:2020-09-21 03:13:28 其他开发

如何在R中执行基本的多序列比对?

(我曾尝试在 BioStars 上提问,但是来自文本挖掘的人会认为有更好的解决方案,我也在此处重新发布了此信息) 我要实现的任务是对齐多个序列. 我没有要匹配的基本模式.我所知道的是,"True"模式的长度应为"30",并且我在随机点处引入的序列缺少值. 这是此类序列的示例,在左侧,我们看到缺失值的真实位置是什么,在右侧,我们将能够观察到序列. 我的目标是仅使用我在右列上获 ..
发布时间:2020-09-21 03:13:25 其他开发

正则表达式蛋白质消化

所以,我正在用一种酶(为了您的好奇心,Asp-N)消化一个蛋白质序列,该酶在单字母编码序列中先由B或D编码的蛋白质裂解.我的实际分析使用String#scan进行捕获.我试图弄清楚为什么以下正则表达式不能正确地消化它... (\w*?)(?=[BD])|(.*\b) 其中前一个(.*\b)存在以捕获序列的结尾. 对于: MTMDKPSQYDKIEAELQDICNDVLELLDSKG ..
发布时间:2020-09-21 03:13:21 其他开发

从VCF文件中提取样本数据

我有一个大型的Variant Call格式(VCF)文件(> 4GB),其中包含多个样本的数据. 我浏览了Google,Stackoverflow,并尝试使用R中的VariantAnnotation包以某种方式仅提取特定样本的数据,但没有找到有关如何在R中执行此操作的任何信息. 有人有没有尝试过类似的方法,或者是否知道其他可以启用此功能的软件包? 解决方案 在 VariantA ..
发布时间:2020-09-21 03:13:18 其他开发

如何使用matchpattern()在R中具有许多sequence(.fasta)的文件中查找某些氨基酸

我有一个文件(mydata.txt),其中包含许多带有 fasta 的外显子序列> 格式.我想找到每个DNA序列的起始('atg')和终止('taa','tga','tag')密码子(考虑框架).我尝试使用matchPattern( Biostrings中的函数 R包)来找到这些氨基酸: 例如,mydata.txt可能是: >a atgaatgctaaccccaccgagtaa >b ..
发布时间:2020-09-21 03:13:14 其他开发

将我的Shell脚本的输出组织到文本文件内的表中

我正在使用unix shell脚本,该脚本进行基因组构建然后创建系统发育.根据您使用的基因组组装器,最终输出(系统发育)可能会发生变化.我希望比较使用各种基因组组装器的效果.我已经开发出一些度量标准进行比较,但是我需要组织它们的帮助,以便我可以进行有用的分析.我想将我的数据按列导入excel. 这是我用来输出数据的脚本: echo "Enter the size (Mb or Gb) ..
发布时间:2020-09-21 03:13:12 服务器开发

如何将其更改为“惯用的" Perl?

我开始更深入地研究Perl,但是在编写"Perl-ly"代码而不是在Perl中编写C时遇到了麻烦.如何更改以下代码以使用更多Perl习惯用法,我应该如何学习习惯用法? 仅对其操作做一个解释:该例程是比对DNA或氨基酸序列的模块的一部分(如果您关心此类事情,请使用Needelman-Wunch).它创建了两个二维数组,一个数组用于存储两个序列中每个位置的分数,另一个数组用于跟踪路径,以便以后可 ..
发布时间:2020-09-21 03:12:10 其他开发

具有仿射间隙罚分的Smith-Wateman算法中的追溯

我正在尝试使用仿射间隙罚分函数实现Smith-Waterman算法以进行局部序列比对.我想我了解如何初始化和计算计算比对分数所需的矩阵,但是对于如何追溯然后找到比对却一无所知.要生成所需的3个矩阵,我需要以下代码 for j in range(1, len2): for i in range(1, len1): fxOpen = F[i][j-1] + gap ..
发布时间:2020-09-21 03:12:02 Python