Biopython - 简介

Biopython是Python最大,最受欢迎的生物信息学软件包.它包含许多用于常见生物信息学任务的不同子模块.它由Chapman和Chang开发,主要用Python编写.它还包含用于优化软件复杂计算部分的C代码.它运行在Windows,Linux,Mac OS X等上.

基本上,Biopython是python模块的集合,提供处理DNA,RNA和蛋白质序列操作的函数,例如反向补充它提供了许多解析器来读取所有主要的基因数据库,如GenBank,SwissPort,FASTA等,以及包装/接口来运行其他流行的生物信息学软件/工具,如NCBI BLASTN,Entrez等,在python环境中.它有像BioPerl,BioJava和BioRuby这样的兄弟项目.

功能

Biopython是便携式,清晰且易于学习的语法.一些突出的功能列在下面和下面;

  • 解释,交互和面向对象.

  • 支持FASTA,PDB,GenBank,Blast,SCOP,PubMed/Medline,ExPASy相关格式.

  • 选项处理序列格式.

  • 管理蛋白质结构的工具.

  • BioSQL :  ;用于存储序列以及功能和注释的标准SQL表集.

  • 访问在线服务和数据库,包括NCBI服务(Blast,Entrez,PubMed)和ExPASY服务(SwissProt,Prosite).

  • 访问本地服务,包括Blast,Clustalw,EMBOSS.

目标

Biopython的目标是通过python语言提供对生物信息学的简单,标准和广泛的访问. Biopython的具体目标列在下面和下面;

  • 提供对生物信息学资源的标准化访问.

  • 高质量,可重复使用的模块和脚本.

  • 可在群集代码中使用的快速数组操作, PDB,NaiveBayes和Markov模型.

  • 基因组数据分析.

优点

Biopython需要的代码非常少,并且具有以下优点和减号;

  • 提供用于聚类的微阵列数据类型.

  • 读取和写入树视图类型文件.

  • 支持用于PDB解析,表示和分析的结构数据.

  • 支持Medline应用程序中使用的日记数据.

  • 支持BioSQL数据库,这是所有生物信息学项目中广泛使用的标准数据库.

  • 支持解析器开发通过提供模块将生物信息学文件解析为格式特定记录对象或通用类序列加功能的实现.

  • 清除基于cookbook风格的文档.

示例案例研究

让我们检查一些用例(群体遗传学,RNA结构等),并尝试了解Biopython如何在该领域发挥重要作用 : 去;

群体遗传学

群体遗传学是对群体内遗传变异的研究,包括对种群中基因和等位基因频率在空间和时间上变化的检测和模拟.

Biopython提供生物.PopGen模块用于群体遗传学.该模块包含收集有关经典群体遗传信息的所有必要功能.

RNA结构

对我们的生活至关重要的三种主要生物大分子是DNA,RNA和蛋白质.蛋白质是细胞的主力,并且作为酶发挥重要作用. DNA(脱氧核糖核酸)被认为是细胞的"蓝图".它携带细胞生长,摄取营养和繁殖所需的所有遗传信息. RNA(核糖核酸)在细胞中充当"DNA复印体".

Biopython提供Bio.Sequence对象,代表核苷酸,构建DNA和RNA.