bioinformatics相关内容

比较python中的各种CSV文件

假设我有2个CSV档案: 档案1: 表位名称,表位,蛋白质,位置,位置 3606,NSRSTSLSV,FOO,10,21 档案2: A,B,C,D,E,F,G,H ,I,J,K 0,1,2,3,4,5,6,7,8,9,NSRSTSLSV 基本上,我想看看文件1中行1的内容是否在文件2的第10行中找到。如果内容匹配,我将打印第3 ..
发布时间:2017-02-26 17:18:44 Python

在python中过滤CSV文件

我已下载此 csv file ,其创建基因信息的电子表格。重要的是,在 HLA - * 列中,有基因信息。如果基因太低的分辨率。 DQB1 * 03 ,则应该删除该行。如果数据太高,例如 DQB1 * 03:02:01 ,则需要删除末尾的:01 标记。所以,理想情况下,我想要的格式是 DQB1 * 03:02 ,以便它有两个级别的解决方案 DQB1 * 。我如何告诉python寻找这些格式,并忽略 ..
发布时间:2017-02-24 18:16:22 Python

比较公共密钥合并值的多个哈希值

我有一个工作位的代码在这里,我比较六个哈希的键,以找到所有的共同的那些。然后我将每个散列的值合并为一个新的散列中的值。我想做的是使这可缩放。我想能够轻松地从比较3哈希到100,而不必回到我的代码和改变它。任何想法,我将如何实现这一点? 我的$ compare = List :: Compare-> new([keys%{$ posHashes [0]}],[keys%{$ posHashes ..
发布时间:2016-12-21 23:27:51 其他开发

改进clojure lazy-seq用于迭代文本解析

我在写一个Clojure实现此编码挑战,尝试以Fasta格式查找序列记录的平均长度: > 1 GATCGA GTC > 2 GCA > 3 AAAAA 有关更多背景,请参阅 我的初学者Clojure尝试使用lazy-seq尝试在文件中读取一个记录,因此它将扩展到大文件。然而,它是相当内存饥饿和缓慢,所以我怀疑,它没有实现最佳。以下是使用 Bio ..
发布时间:2016-11-27 20:20:08 其他开发语言

Clojure或Scala用于生物信息学/生物统计学/医学研究

我不是一个专业的程序员(我的领域是医学研究),但我有能力在C / C ++和各种脚本语言。一回来,我对Lisp很感兴趣,但我从来没有时间认真地学习它。在对 R 进行简短曝光后,我决定在功能编程语言中投入更多时间。 我想要一个JVM语言的实用性,从而缩小到Clojure和Scala。从我的理解,两者都可以使用已经存在的Java库,并且在性能关键代码给予可以委托给Java,有潜力执行相对同样好。 ..
发布时间:2016-11-27 18:21:33 其他开发语言

是否有一个升压(或其他常见的lib)中键入与字符串键矩阵?

我有一个密集的矩阵,其中指数对应的基因。而基因标识常常整数,它们是不连续的整数。他们可能是字符串代替了。 我想我可以使用某种形式的整数键的提振稀疏矩阵,而且如果是连续那就没有关系。或将本依然占据着空间很大,尤其是一些基因有九个数字标识符? 此外,我担心的是松散的存储是不恰当的,因为这是一个全用,所有的矩阵(会有每每一个细胞的距离,并且所提供的基因存在)。 我不大可能需要执行任何矩阵运算(例如 ..
发布时间:2016-08-12 19:10:50 C/C++开发

如何提取从PDB文件链?

我想提取pdb文件链。我有一个名为pdb.txt文件,其中包含PDB的ID,如下图所示。前四个字符重新present PDB ID和最后一个字符是连锁的ID。 1B68A 1BZ4B 4FUTA 我想1)逐行读取文件中的行 2)从相应的PDB文件下载每个链的原子坐标。结果 3)输出保存到一个文件夹。 我用下面的脚本提取链。 ..
发布时间:2016-08-03 11:06:01 Python

击:替换文件名的一部分

我有一个命令我想对所有文件夹的文件中运行,该命令的语法如下: 顶礼帽-o<&OUTPUT_FILE GT; <&INPUT_FILE GT; 我希望做的是,循环通过在任意文件夹中的所有文件,并使用输入文件名来创建类似,但不同的输出文件名的脚本。文件名看起来像这样:输入名称所需的输出名称 路径/要/ sample1.fastq路径/要/ sample1.bam 路径/要/ samp ..
发布时间:2016-08-02 15:18:19 Linux/Unix

一列值在Linux环境比较所有列

所以我有两个文件,​​一个VCF看起来像 88 CHR1 25℃ - 3 2 1 1 88 CHR1 88一件T 7 2 1 1 88 CHR1 92 A C 16 4 1 1 和其他与基因,看起来像 GENEID开始结束 GENE_ID 11 155 GENE_ID 165 999 我想一个脚本,看起来,如果有第二个文件的第二和第三位置的范围内的基因位置(VCF文件的第3列),然后 ..
发布时间:2016-07-28 16:45:54 服务器开发

提取重叠区域

我有一个文件特征的基因组区域,看起来像这样: CHROM chromStart chromEnd PGB CHR1 12874 28371 2 CHR1 15765 21765 1 CHR1 15795 28371 2 CHR1 18759 24759 1 CHR1 28370 34961 1 CHR3 233278 240325 1 CHR3 239279 440831 2 CHR3 356 ..
发布时间:2016-07-28 16:44:18 Linux/Unix

AWK:如果文件一栏落在其他文件两列声明的范围内提取线

目前我正与一个AWK的问题,我一直没能尚未解决挣扎。我有一个巨大的文件(30GB)与持有与位置的名单的基因组数据(在栏1中声明和2)和保持一个数字范围的第二列表(在第3栏第4声明和5)。我想提取在第一个文件中的所有行所在的位置秒文件中声明的范围内。作为位置是唯一的一个特定的染色体(字符)首先它已被如果字符的是相同的测试中是唯一的(即COL1在文件fil​​e2中1匹配COL3) 文件1 染色体 ..
发布时间:2016-07-28 16:38:29 Linux/Unix

的R - 序列比对功能,时间太长运行

所以,我是相当新的R和我有一个运行时的问题。我写了下面的嵌套while循环使用“Biostrings”包(biocLite),以便从两个物种链接蛋白质序列,如果他们有一个“90%的比对评分。 基本上,我输入2蛋白的基因组,在SeqData1比较每个氨基酸序列与从SeqData2各氨基酸序列,计算一个对齐得分,并且如果分数> 90%予串联的匹配和蛋白质名称的列表所述SeqData2蛋白质的序列。 ..
发布时间:2015-11-30 23:30:33 敏捷开发

算法的帮助!快速算法在搜索的字符串与合作伙伴

我要寻找一个巨大的字符串(这是一个亿万由数十亿个字符的生物体的基因组序列)的快速算法搜索的目的。 有只有4个字符{A,C,G,T} present在此字符串,而“A”只能搭配“T”,而“C”对,“G”。 现在我正在寻找两个子(用{minLen,MAXLEN}之间的两个子串{intervalMinLen,intervalMaxLen}之间的长度的限制,和区间长度)可以对彼此antiparalle ..
发布时间:2015-11-30 16:19:29 C#/.NET

生成合成的DNA序列与托换率

由于这些输入: 我的$ init_seq =“AAAAAAAAAA”#length 10基点 我的$ sub_rate = 0.003; 我的$ nof_tags = 1000; 我@dna = QW(A C G T); 我要生成: 千长度为10个标签 替代率在标签每个位置为0.003 像高产输出: AAAAAAAAAA AATAACAAAA ..... A ..
发布时间:2015-11-30 15:07:11 C/C++

我可以使用K-means算法的一个字符串?

我的工作我的研究RNA结构演变Python项目(psented作为一个字符串,例如重新$ P $:“(((?)))”,其中括号再present个碱基对)。该点的存在是我有一个理想的结构和演变朝着理想的结构人口。我已经实现的事情,但是我想补充一个功能,我可以在每一代获得了“数桶”,即第k最重presentative结构在人群中。 我想用K-means算法,但我不知道如何使用它的字符串。我发现 sc ..
发布时间:2015-11-30 15:05:20 Python