bioinformatics相关内容
所以我正在R中工作,并且有一个大数据框,其中包含一个载体,该载体的基因组位置如下: 2655180 2657176 2658869 第二个数据框具有一定范围的位置和类似这样的基因: chr1 100088228 100162167 AGL chr1 107599438 107600565 PRMT6 chr1 115215635 115238
..
我已经绘制了这样的热图: ggplot(test, aes(start1, start2)) + geom_tile(aes(fill = logFC), colour = "gray", size=0.05) + scale_fill_gradientn(colours=c("#0000FF","white","#FF0000"), na.value="#DAD7D3") 这将
..
我正在尝试使用 Smith-Waterman算法在Python中实现局部序列比对. 这是我到目前为止所拥有的.它可以构建相似性矩阵: import sys, string from numpy import * f1=open(sys.argv[1], 'r') seq1=f1.readline() f1.close() seq1=string.strip(seq1) f2=ope
..
我有一个执行BLAST查询(bl2seq)的脚本 脚本的工作方式如下: 获取序列a,序列b 将序列a写入filea 将序列b写入文件b 运行命令'bl2seq -i filea -j fileb -n blastn' 从STDOUT获取输出,进行解析 重复2000万次 程序bl2seq不支持管道. 有什么方法可以避免写入/读取硬盘驱动器吗? 我正在使用Python
..
在阅读这个问题时,我认为使用StringSplit 可以解决以下问题 给出以下字符串,我想将其“剪切"到每个"D"的左侧,使得: 我得到一个片段的列表(序列保持不变) StringJoin @fragments返回原始字符串(但是我是否必须重新排序片段以获得该字符串并不重要).也就是说,每个片段中的顺序很重要,我不想丢失任何字符. (我感兴趣的示例是一个蛋白质序列(字符串),
..
我正在阅读这篇文章,我想知道是否有人可以找到将重复的图案捕捉到更复杂的弦中的方法. 例如,找到其中的所有重复图案 string = 'AAACACGTACGTAATTCCGTGTGTCCCCTATACGTATACGTTT' 以下是重复的图案: 'AAAC ACGTACGT AATTCC GTGTGT CCCC TATACGTATACG TTT" 因此,输出应该是这样的:
..
我是生物学家,对编程的知识较少.我有一些文件(fasta格式的文件),需要为此应用R包. 每个文件的内容如下: FILE_1.FASTA >>TTBK2_Hsap ,(CK1/TTBK) MSGGGEQLDILSVGILVKERWKVLRKIGGGGFGEIYDALDMLTRENVALKVESAQQPKQVLKMEVAVLKKLQGKDHVCRFIGCGRNDRFNYVVMQLQ
..
此问题与以下内容有关: 那里给出的解决方案是可行的,但是我想为定义等级的每个分类ID提供名称.我已经在ete3上找到了它,它可以完成这项工作: names = ncbi.get_taxid_translator(lineage) print [names[taxid] for taxid in lineage] 但不是Python程序员,我无法将其合并到以上链接中给出的代码中.这是我尝试
..
我正在查看一些生态数据(饮食),试图找出如何按捕食者分组.我希望能够提取数据,以便可以查看每个捕食者对每个物种的每个猎物的权重,即算出被捕食者117等所食用的每种物种的平均权重.我下面的数据. Predator PreySpecies PreyWeight 1 114 10 4.2035496 2 114 10 1.6307026 3 115
..
大家好,我从酵母菌落板的图像中获得了一些强度值.我需要能够从强度值中找到峰值.下面是一个示例图像,显示了绘制值时的外观. 某些值的示例 5.7 5.3 8.2 16.5 34.2 58.8 **75.4** 75 65.9 62.6 58.6 66.4 71.4 53.5 40.5 26.8 14.2 8.6 5.9 7.7 14.9 30.5 49.9 69.1 **75.3** 6
..
我正在尝试在R中创建一个函数,该函数将允许我根据行中是否包含零位的单个列来过滤数据集.此外,有时候我只想删除所有列中均为零的行. 而且,这就是它的乐趣所在;并非所有列都包含数字,并且列数可以变化. 我尝试将一些数据粘贴到我想要获得的结果中. unfiltered: ID GeneName DU145small DU145total PC3small PC
..
(我曾尝试在 BioStars 上提问,但是来自文本挖掘的人会认为有更好的解决方案,我也在此处重新发布了此信息) 我要实现的任务是对齐多个序列. 我没有要匹配的基本模式.我所知道的是,"True"模式的长度应为"30",并且我在随机点处引入的序列缺少值. 这是此类序列的示例,在左侧,我们看到缺失值的真实位置是什么,在右侧,我们将能够观察到序列. 我的目标是仅使用我在右列上获
..
所以,我正在用一种酶(为了您的好奇心,Asp-N)消化一个蛋白质序列,该酶在单字母编码序列中先由B或D编码的蛋白质裂解.我的实际分析使用String#scan进行捕获.我试图弄清楚为什么以下正则表达式不能正确地消化它... (\w*?)(?=[BD])|(.*\b) 其中前一个(.*\b)存在以捕获序列的结尾. 对于: MTMDKPSQYDKIEAELQDICNDVLELLDSKG
..
我有一个大型的Variant Call格式(VCF)文件(> 4GB),其中包含多个样本的数据. 我浏览了Google,Stackoverflow,并尝试使用R中的VariantAnnotation包以某种方式仅提取特定样本的数据,但没有找到有关如何在R中执行此操作的任何信息. 有人有没有尝试过类似的方法,或者是否知道其他可以启用此功能的软件包? 解决方案 在 VariantA
..
我有一个文件(mydata.txt),其中包含许多带有 fasta 的外显子序列> 格式.我想找到每个DNA序列的起始('atg')和终止('taa','tga','tag')密码子(考虑框架).我尝试使用matchPattern( Biostrings中的函数 R包)来找到这些氨基酸: 例如,mydata.txt可能是: >a atgaatgctaaccccaccgagtaa >b
..
我正在使用unix shell脚本,该脚本进行基因组构建然后创建系统发育.根据您使用的基因组组装器,最终输出(系统发育)可能会发生变化.我希望比较使用各种基因组组装器的效果.我已经开发出一些度量标准进行比较,但是我需要组织它们的帮助,以便我可以进行有用的分析.我想将我的数据按列导入excel. 这是我用来输出数据的脚本: echo "Enter the size (Mb or Gb)
..
我开始更深入地研究Perl,但是在编写"Perl-ly"代码而不是在Perl中编写C时遇到了麻烦.如何更改以下代码以使用更多Perl习惯用法,我应该如何学习习惯用法? 仅对其操作做一个解释:该例程是比对DNA或氨基酸序列的模块的一部分(如果您关心此类事情,请使用Needelman-Wunch).它创建了两个二维数组,一个数组用于存储两个序列中每个位置的分数,另一个数组用于跟踪路径,以便以后可
..
我尝试对已经对齐的序列评分. 让我们说 seq1 = 'PAVKDLGAEG-ASDKGT--SHVVY----------TI-QLASTFE' seq2 = 'PAVEDLGATG-ANDKGT--LYNIYARNTEGHPRSTV-QLGSTFE' 具有给定参数 substitution matrix : blosum62 gap open penalty : -5 gap
..
我正在尝试使用仿射间隙罚分函数实现Smith-Waterman算法以进行局部序列比对.我想我了解如何初始化和计算计算比对分数所需的矩阵,但是对于如何追溯然后找到比对却一无所知.要生成所需的3个矩阵,我需要以下代码 for j in range(1, len2): for i in range(1, len1): fxOpen = F[i][j-1] + gap
..
我有一棵 Newick 树,该树是通过比较Position的相似性(欧式距离)构建的推定的DNA调节基序的权重矩阵(PWM或PSSM),该基序为4-9 bp长的DNA序列. 树的交互式版本在iTol上( 我的具体目标:如果它们与最近的父进化枝的平均距离小于
..