bioinformatics相关内容
我想根据另一个数据框的行对它的某些列进行子集化.因此,这两个数据帧如下所示: df1
..
我正在尝试使用Bio和SeqIO打开包含多个序列的FASTA文件,编辑序列名称以在所有名称的末尾删除".seq",(> SeqID20.seq应该变为> SeqID20),然后将所有序列写入新的FASTA文件,但是出现以下错误 AttributeError: 'str' object has no attribute 'id' 这就是我开始的: with open ('lots_o
..
我有DNA序列,我想在人们选择的位置找到该序列的核苷酸.下面是示例: 输入序列DNA: ACTAAAAATACAAAAATTAGCCAGGCGTGGTGGCAC(序列的长度为33) 输入位置:(12) 我希望结果是第12个核苷酸为AAA的位置. 我毫不费力地找到该职位的氨基酸.下面是我目前的代码. print "ENTER THE FILENAME OF THE DNA S
..
我有一个正在使用的管道,用于下载,对齐和对公共序列数据执行变体调用.问题在于它目前只能在每个样本的基础上工作(即样本是每个单独的测序实验).如果我要对一组实验(例如样品的生物学和/或技术重复)执行变体调用,则无法使用.我已经尝试解决它,但是我无法解决它. 这是对齐规则的简化: rule alignment: input: rules.download.outpu
..
我能够在一个multi fasta文件中搜索一个主题并打印包含该主题的行..但是我需要打印所有序列以及包含fasta序列的主题的标题行.请帮助我,我只是perl的初学者 #!usr/bin/perl -w use strict; print STDOUT "Enter the motif: "; my $motif = ; chomp $motif; my $line;
..
我刚刚开始使用perl,我有一个问题.我有PHYLIP文件,我需要将其转换为FASTA.我开始写脚本.首先,我删除了行中的scpaces,现在我需要对齐所有行,每行应包含60个氨基酸,序列标识符应打印在新行中.也许有人可以给我一些建议? 解决方案 BioPerl Bio :: AlignIO 模块可能会有所帮助.它支持 PHYLIP 序列格式: phylip2fasta.pl
..
我正在使用一种名为Giggle的新生物信息学工具,并且已经在系统上安装了python包装器. 即使情况很具体,我认为问题也很普遍. 此功能: index = Giggle.create("index", "HMEC_hg19_BroadHMM_ALL.bed") 应基于多个(或本例中的).bed文件创建索引. 床文件看起来像这样: chr1 10000 10600 1
..
我希望能够在Seq对象中搜索考虑了歧义代码的子序列Seq对象.例如,以下内容应为真: from Bio.Seq import Seq from Bio.Alphabet.IUPAC import IUPACAmbiguousDNA amb = IUPACAmbiguousDNA() s1 = Seq("GGAAAAGG", amb) s2 = Seq("ARAA", amb) #
..
我打算运行 mbin 进行甲基化分析.但收到错误消息:h5py.h5py_warnings.H5pyDeprecationWarning: dataset.value has been deprecated. Use dataset[()] instead. 尝试了几次,同时尝试使用buildcontrols提取控件IPD. 环境: mbin版本:1.1.1 Python版本:2.7.1
..
我有一些Bruker NMR光谱,我正在用它来创建一个程序,并将其作为项目的一部分.我的程序需要在实际频谱上工作.因此,我将布鲁克NMR光谱的1r文件转换为ASCII.对于Carnitine,这是ascii文件的外观(这不是完整列表.完整列表运行成千上万行.这只是一个快照): -0.807434 -23644 -0.807067 -22980 -0.806701 -229
..
我不知道这只是Stawberry Perl的一个怪癖,但我似乎无法使其运行.我只需要吃一块法式面包,并颠倒其中的每个顺序. -问题- 我有一个multifasta文件: >seq1 ABCDEFG >seq2 HIJKLMN ,预期的输出是: >REVseq1 GFEDCBA >REVseq2 NMLKJIH 脚本在这里: $NUM_COL = 80; ##
..
我想比较两个数据集df1和df2,以便将df2$ID中的唯一字符添加为df1中的新列,并为每个数据集分配df2$Xp值基因,如果df1的坐标与df2的坐标重叠: df1
..
如何从序列中删除像'>gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA\n'这样的ID? 我有此代码: with open('sequence.fasta', 'r') as f : while True: line1=f.readline()
..
我有一个脚本,可以对蛋白质进行一些计算.完成后,方法将导入pymol模块,并使用pymol.cmd API在PyMOL会话中显示结果.该过程类似于以下内容: def display_results(results, protein_fn): import pymol pymol.cmd.load(protein_fn) pymol.cmd.alter(...)
..
我正在尝试编写一个代码,该代码用一个符号及其重复次数替换字符串中的重复符号(例如:"aaaaggggtt"->"a4g4t2").但是我的字符串索引超出范围错误(( seq = input() i = 0 j = 1 v = 1 while j
..
我正在尝试使用rpy2在python中使用DESeq2 R/Bioconductor软件包. 我在写问题时实际上解决了我的问题(使用do_slots可以访问r对象的属性),但是我认为该示例可能对其他人有用,所以这是我在R中的工作方式以及它的翻译方式python: 在R 我可以从两个数据帧中创建一个"DESeqDataSet",如下所示: counts_data
..
我想用PHP而不是Linux控制台文本终端执行blastx搜索应用程序. 实际的命令行参数将是(请参见Referer的定义 ): ./blastx -query $input -db ${Sbjct}_db -evalue 0.0001 -outfmt 6 -out /path/to/output.tsv 这是我的PHP部分代码. exec(' /path/to/blastx
..
为了为即将到来的生物信息学课程做准备,我正在从rosalind.info进行一些作业.我目前陷入"门德尔的第一定律"中. 我认为我可以通过这种方式蛮横地对待自己,但是以某种方式我的思想必须太复杂了.我的方法是这样: 构建具有三个级别的概率树.有两个生物配对,生物A和生物B.第一层是,选择纯合子显性(k),杂合子(m)或隐性纯合子(n)作为生物A的概率.例如,对于纯合子优势,似乎总共有(
..
我写了一个Python脚本来绘制泛素蛋白的"Ramachandran图".我正在使用biopython.我正在使用pdb文件.我的脚本如下: import Bio.PDB import numpy as np import matplotlib as mpl import matplotlib.pyplot as plt phi_psi = ([0,0]) phi_psi = np.arr
..
我有一个像这样的床头文件: 1 183113 183114 chr1:183113-183240 0 + 1 187286 187287 chr1:187128-187287 0 - 1 187576 187587 chr1:187375-187577 0 - 1 187580 187590 chr1:187379-187577 0 -
..