bioinformatics相关内容
import os #handles the gzipped output like the example file file_name = "exampleziptotxt.bed" out_file_root = "example_by_chrom" file_handle_dict = {} file_reader=open(file_name) for line in file_re
..
我是Perl编程的初学者.我现在正在研究的问题是如何从文本文件中获取基因长度.文本文件包含基因名称(第10列),起始位点(第6列),结束位点(第7列).长度可以从第6列和第7列的差异中得出.但是我的问题是如何将基因名称(来自第10列)与从第6列和第7列的差异中得出的相应差异进行匹配.非常感谢!/p> open (IN, "Alu.txt"); open (OUT, ">Alu_subfamlen
..
我正在尝试使用Python将DNA代码转换为RNA代码... 我这样写: print('Digite a sequência DNA a ser transcrita para RNA:') my_str = raw_input() print(my_str.replace('T', 'U')) 它有效,但是..现在我需要将 A转换为U , T转换为A , G转换为C 和 C到G
..
我在R中安装生物导体软件包时遇到了麻烦.这是在MacOSX上,这是R 2.15的全新安装,并使用了生物导体1.4.4.抄录如下: > source("http://bioconductor.org/biocLite.R") BiocInstaller version 1.4.4, ?biocLite for help > biocLite("Biobase") BioC_mirror: ht
..
我正在尝试弄清楚如何获取data.frame来本身作为子集,然后为每个子集编写一个.csv文件.我正在编写一个shiny应用程序,它将为不同的仪器生成模板文件,并且我需要能够为每个批次/板/任何文件获取一个文件.显然,我们可以手动进行排序,但是这样做会破坏目的. 例如,假设我有一个data.frame,其中有4列,分别命名为1)PlateID,2)SampleName,3)Well和4)Co
..
我正在尝试从NCBI网站获取FASTA文件,我使用以下功能 getncbiseq
..
我有一个这样的input_file.fa文件( FASTA 格式): > header1 description data data data >header2 description more data data data 我想一次在文件中读取一个块,以便每个块都包含一个标头和相应的数据,例如区块1: > header1 description data data data
..
我正在使用python创建一个程序,该程序将一组DNA序列转换为氨基酸(蛋白质)序列.然后,我需要找到一个特定的子序列,并计算存在该特定子序列的序列数.这是我到目前为止的代码: #Open cDNA_sequences file and read in line by line with open('cDNA_sequences.csv', 'r') as results: for
..
编码新手. Pytho/biopython的新手;这是我有史以来第一个在线问题. 如何打开压缩的fasta.gz文件以提取信息并在函数中执行计算.这是我正在尝试做的简化示例(我尝试了不同的方式)以及错误是什么.我正在使用的gzip命令似乎不起作用. with gzip.open("practicezip.fasta.gz", "r") as handle: for record in S
..
我编写了一个函数来返回一个生成器,该生成器包含给定长度的子字符串的每个唯一组合,这些子字符串包含来自主字符串的n个以上的元素. 作为说明: 如果我有'abcdefghi'和一个长度为2的探针,并且我希望获得每个列表4个元素的阈值: ['ab', 'cd', 'ef', 'gh'] ['ab', 'de', 'fg', 'hi'] ['bc', 'de', 'fg', 'hi']
..
我正在使用Python/Selenium将遗传序列提交到在线数据库,并希望保存返回的完整结果页面.以下是使我获得所需结果的代码: from selenium import webdriver URL = 'https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastx&PAGE_TYPE=BlastSearch&LINK_LOC=blasth
..
下面是我的代码的一小部分: library(biomaRt) ensembl_hsapiens
..
因此,我有一个csv文件,其中每一行均以以下形式表示分层数据: 'Phylum','Class','Order','Family','Genus','Species','Subspecies','unique_gi' 我想将其转换为经典的 Newick树格式,无距离.一种新颖的方法或一个python软件包都将是惊人的.谢谢! 解决方案 您可以使用一些简单的Python从CSV构建树,
..
我有一个Fortran程序,想在python中为多个文件执行它.我有2000个输入文件,但是在我的Fortran代码中,一次只能运行一个文件.我应该如何在python中调用Fortran程序? 我的脚本: import subprocess import glob input = glob.glob('C:/Users/Vishnu/Desktop/Fortran_Program_Ru
..
我正在尝试在两个不同的词典中找到对应的键.每个条目约有60万个条目. 举个例子: myRDP = { 'Actinobacter': 'GATCGA...TCA', 'subtilus sp.': 'ATCGATT...ACT' } myNames = { 'Actinobacter': '8924342' } 我想打印出放线杆菌(8924342)的值,因为它与my
..
我有一个小的 fasta DNA序列文件,看起来像这样: >NM_000016 700 200 234 ACATATTGGAGGCCGAAACAATGAGGCGTGATCAACTCAGTATATCAC >NM_000775 700 124 236 CTAACCTCTCCCAGTGTGGAACCTCTATCTCATGAGAAAGCTGGGATGAG >NM_003820 700 111 2
..
我有一列包含Ensembl ID的data.frame;我想为该列的值找到相应的基因符号,并将其添加到我的数据框中的新列中. 我使用了bioMaRt,但找不到任何Ensembl ID! 这是我的示例数据(df[1:2,]): row.names organism gene 41 Homo-Sapiens ENSP00000335357 115 Homo-Sapiens ENSP
..
我有第一列的表: chr10:100002872-100002872 chr10:100003981-100003981 chr10:100004774-100004774 chr10:100005285-100005285 chr10:100007123-100007123 我想将其转换为3个单独的列,但无法为使用的strsplit命令定义“:"和“-". 我该怎么办? 解决方案
..
我需要从前列腺切除术最终诊断记录的平面文件中提取格里森分数.这些分数始终带有单词Gleason和两个数字,这些数字加起来便是另一个数字.在过去的二十多年中,人类一直在打字.包括各种空白约定和修饰符.以下是到目前为止我的Backus-Naur表格和两个示例记录.仅针对前列腺切除术,我们正在研究一千多例. 我之所以使用pyparsing是因为我正在学习python,并且对自己非常有限的正则表达式
..
我有一个巨大的输入文件(其代表性示例在下面显示为input): > input CT1 CT2 CT3 1 chr1:200-400 chr1:250-450 chr1:400-800 2 chr1:800-970 chr2:200-500 chr1:700-870 3 chr2:300-700 chr2:600-1000
..