bioinformatics 第7页 - IT屋-程序员软件开发技术分享社区

检查向量中的值是否在不同长度向量中的值范围内

所以我正在R中工作，并且有一个大数据框，其中包含一个载体，该载体的基因组位置如下: 2655180 2657176 2658869 第二个数据框具有一定范围的位置和类似这样的基因: chr1 100088228 100162167 AGL chr1 107599438 107600565 PRMT6 chr1 115215635 115238 ..

发布时间：2020-09-21 03:16:05 r bioinformatics 其他开发

旋转ggplot切片热图的上三角

我已经绘制了这样的热图: ggplot(test, aes(start1, start2)) + geom_tile(aes(fill = logFC), colour = "gray", size=0.05) + scale_fill_gradientn(colours=c("#0000FF","white","#FF0000"), na.value="#DAD7D3") 这将 ..

发布时间：2020-09-21 03:15:57 r ggplot2 bioinformatics heatmap 其他开发

如何确定Smith-Waterman算法中的回溯方式?

我正在尝试使用 Smith-Waterman算法在Python中实现局部序列比对. 这是我到目前为止所拥有的.它可以构建相似性矩阵: import sys, string from numpy import * f1=open(sys.argv[1], 'r') seq1=f1.readline() f1.close() seq1=string.strip(seq1) f2=ope ..

发布时间：2020-09-21 03:15:53 python numpy bioinformatics Python

在不创建序列文件的情况下运行BLAST(bl2seq)

我有一个执行BLAST查询(bl2seq)的脚本脚本的工作方式如下: 获取序列a，序列b 将序列a写入filea 将序列b写入文件b 运行命令'bl2seq -i filea -j fileb -n blastn' 从STDOUT获取输出，进行解析重复2000万次程序bl2seq不支持管道. 有什么方法可以避免写入/读取硬盘驱动器吗? 我正在使用Python ..

发布时间：2020-09-21 03:15:49 python perl unix shell bioinformatics 服务器开发

使用Mathematica在已定义位置的左侧或右侧使用"StringCut"

在阅读这个问题时，我认为使用StringSplit 可以解决以下问题给出以下字符串，我想将其“剪切"到每个"D"的左侧，使得: 我得到一个片段的列表(序列保持不变) StringJoin @fragments返回原始字符串(但是我是否必须重新排序片段以获得该字符串并不重要).也就是说，每个片段中的顺序很重要，我不想丢失任何字符. (我感兴趣的示例是一个蛋白质序列(字符串)， ..

发布时间：2020-09-21 03:15:48 string wolfram-mathematica bioinformatics 其他开发

“我如何判断字符串是否在Python中重复自身?"的更为复杂的版本.

我正在阅读这篇文章，我想知道是否有人可以找到将重复的图案捕捉到更复杂的弦中的方法. 例如，找到其中的所有重复图案 string = 'AAACACGTACGTAATTCCGTGTGTCCCCTATACGTATACGTTT' 以下是重复的图案: 'AAAC ACGTACGT AATTCC GTGTGT CCCC TATACGTATACG TTT" 因此，输出应该是这样的: ..

发布时间：2020-09-21 03:14:46 python string pattern-matching bioinformatics Python

如何在R中设置for循环

我是生物学家，对编程的知识较少.我有一些文件(fasta格式的文件)，需要为此应用R包. 每个文件的内容如下: FILE_1.FASTA >>TTBK2_Hsap ,(CK1/TTBK) MSGGGEQLDILSVGILVKERWKVLRKIGGGGFGEIYDALDMLTRENVALKVESAQQPKQVLKMEVAVLKKLQGKDHVCRFIGCGRNDRFNYVVMQLQ ..

发布时间：2020-09-21 03:14:44 r bioinformatics 其他开发

如何从滑行中获取分类学等级名称?

此问题与以下内容有关: 那里给出的解决方案是可行的，但是我想为定义等级的每个分类ID提供名称.我已经在ete3上找到了它，它可以完成这项工作: names = ncbi.get_taxid_translator(lineage) print [names[taxid] for taxid in lineage] 但不是Python程序员，我无法将其合并到以上链接中给出的代码中.这是我尝试 ..

发布时间：2020-09-21 03:13:41 python bioinformatics ncbi etetoolkit Python

在R中对生态数据进行分组

我正在查看一些生态数据(饮食)，试图找出如何按捕食者分组.我希望能够提取数据，以便可以查看每个捕食者对每个物种的每个猎物的权重，即算出被捕食者117等所食用的每种物种的平均权重.我下面的数据. Predator PreySpecies PreyWeight 1 114 10 4.2035496 2 114 10 1.6307026 3 115 ..

发布时间：2020-09-21 03:13:35 r bioinformatics 其他开发

在Perl中的峰值信号检测方面需要帮助

大家好，我从酵母菌落板的图像中获得了一些强度值.我需要能够从强度值中找到峰值.下面是一个示例图像，显示了绘制值时的外观. 某些值的示例 5.7 5.3 8.2 16.5 34.2 58.8 **75.4** 75 65.9 62.6 58.6 66.4 71.4 53.5 40.5 26.8 14.2 8.6 5.9 7.7 14.9 30.5 49.9 69.1 **75.3** 6 ..

发布时间：2020-09-21 03:13:32 perl signal-processing bioinformatics 其他开发

从仅包含0或仅包含0的数据框中删除行

我正在尝试在R中创建一个函数，该函数将允许我根据行中是否包含零位的单个列来过滤数据集.此外，有时候我只想删除所有列中均为零的行. 而且，这就是它的乐趣所在；并非所有列都包含数字，并且列数可以变化. 我尝试将一些数据粘贴到我想要获得的结果中. unfiltered: ID GeneName DU145small DU145total PC3small PC ..

发布时间：2020-09-21 03:13:28 r filtering bioinformatics data-processing 其他开发

如何在R中执行基本的多序列比对?

(我曾尝试在 BioStars 上提问，但是来自文本挖掘的人会认为有更好的解决方案，我也在此处重新发布了此信息) 我要实现的任务是对齐多个序列. 我没有要匹配的基本模式.我所知道的是，"True"模式的长度应为"30"，并且我在随机点处引入的序列缺少值. 这是此类序列的示例，在左侧，我们看到缺失值的真实位置是什么，在右侧，我们将能够观察到序列. 我的目标是仅使用我在右列上获 ..

发布时间：2020-09-21 03:13:25 r alignment sequence bioinformatics text-alignment 其他开发

正则表达式蛋白质消化

所以，我正在用一种酶(为了您的好奇心，Asp-N)消化一个蛋白质序列，该酶在单字母编码序列中先由B或D编码的蛋白质裂解.我的实际分析使用String#scan进行捕获.我试图弄清楚为什么以下正则表达式不能正确地消化它... (\w*?)(?=[BD])|(.*\b) 其中前一个(.*\b)存在以捕获序列的结尾. 对于: MTMDKPSQYDKIEAELQDICNDVLELLDSKG ..

发布时间：2020-09-21 03:13:21 ruby regex bioinformatics 其他开发

从VCF文件中提取样本数据

我有一个大型的Variant Call格式(VCF)文件(> 4GB)，其中包含多个样本的数据. 我浏览了Google，Stackoverflow，并尝试使用R中的VariantAnnotation包以某种方式仅提取特定样本的数据，但没有找到有关如何在R中执行此操作的任何信息. 有人有没有尝试过类似的方法，或者是否知道其他可以启用此功能的软件包? 解决方案在 VariantA ..

发布时间：2020-09-21 03:13:18 r bioinformatics 其他开发

如何使用matchpattern()在R中具有许多sequence(.fasta)的文件中查找某些氨基酸

我有一个文件(mydata.txt)，其中包含许多带有 fasta 的外显子序列> 格式.我想找到每个DNA序列的起始('atg')和终止('taa'，'tga'，'tag')密码子(考虑框架).我尝试使用matchPattern( Biostrings中的函数 R包)来找到这些氨基酸: 例如，mydata.txt可能是: >a atgaatgctaaccccaccgagtaa >b ..

发布时间：2020-09-21 03:13:14 r bioinformatics fasta bioconductor 其他开发

将我的Shell脚本的输出组织到文本文件内的表中

我正在使用unix shell脚本，该脚本进行基因组构建然后创建系统发育.根据您使用的基因组组装器，最终输出(系统发育)可能会发生变化.我希望比较使用各种基因组组装器的效果.我已经开发出一些度量标准进行比较，但是我需要组织它们的帮助，以便我可以进行有用的分析.我想将我的数据按列导入excel. 这是我用来输出数据的脚本: echo "Enter the size (Mb or Gb) ..

发布时间：2020-09-21 03:13:12 shell unix text-files bioinformatics genome 服务器开发

我开始更深入地研究Perl，但是在编写"Perl-ly"代码而不是在Perl中编写C时遇到了麻烦.如何更改以下代码以使用更多Perl习惯用法，我应该如何学习习惯用法? 仅对其操作做一个解释:该例程是比对DNA或氨基酸序列的模块的一部分(如果您关心此类事情，请使用Needelman-Wunch).它创建了两个二维数组，一个数组用于存储两个序列中每个位置的分数，另一个数组用于跟踪路径，以便以后可 ..

发布时间：2020-09-21 03:12:10 perl bioinformatics 其他开发

在给定比对参数的情况下，是否存在可以计算比对序列得分的功能?

我尝试对已经对齐的序列评分. 让我们说 seq1 = 'PAVKDLGAEG-ASDKGT--SHVVY----------TI-QLASTFE' seq2 = 'PAVEDLGATG-ANDKGT--LYNIYARNTEGHPRSTV-QLGSTFE' 具有给定参数 substitution matrix : blosum62 gap open penalty : -5 gap ..

发布时间：2020-09-21 03:12:06 python bioinformatics biopython Python

具有仿射间隙罚分的Smith-Wateman算法中的追溯

我正在尝试使用仿射间隙罚分函数实现Smith-Waterman算法以进行局部序列比对.我想我了解如何初始化和计算计算比对分数所需的矩阵，但是对于如何追溯然后找到比对却一无所知.要生成所需的3个矩阵，我需要以下代码 for j in range(1, len2): for i in range(1, len1): fxOpen = F[i][j-1] + gap ..

发布时间：2020-09-21 03:12:02 python bioinformatics biopython sequence-alignment Python

确定关闭此树的临界值的算法?

我有一棵 Newick 树，该树是通过比较Position的相似性(欧式距离)构建的推定的DNA调节基序的权重矩阵(PWM或PSSM)，该基序为4-9 bp长的DNA序列. 树的交互式版本在iTol上( 我的具体目标:如果它们与最近的父进化枝的平均距离小于 ..

发布时间：2020-09-21 03:11:58 python statistics cluster-analysis bioinformatics collapse Python

bioinformatics相关内容