bioinformatics相关内容
我有一个数据框,开头在下面: SM_H1455 SM_V1456 SM_K1457 SM_X1461 SM_K1462 ENSG00000000419 .8 290 270 314 364 240 ENSG00000000457.8 252 230 242 220 106 ENSG00000000460.11 154 158 162 136 64 ENSG000000009
..
目前我正在进行中,我想要转换的字符数据的大量数据,基于通常称为其他语言的字典。它像这样: foo
..
我有一个数据框,我通过匹配 ab V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 1检查序列号chr1:173244300-173244500 NA NA 2 V $ ATF3_Q6
..
假设我有2个CSV档案: 档案1: 表位名称,表位,蛋白质,位置,位置 3606,NSRSTSLSV,FOO,10,21 档案2: A,B,C,D,E,F,G,H ,I,J,K 0,1,2,3,4,5,6,7,8,9,NSRSTSLSV 基本上,我想看看文件1中行1的内容是否在文件2的第10行中找到。如果内容匹配,我将打印第3
..
我已下载此 csv file ,其创建基因信息的电子表格。重要的是,在 HLA - * 列中,有基因信息。如果基因太低的分辨率。 DQB1 * 03 ,则应该删除该行。如果数据太高,例如 DQB1 * 03:02:01 ,则需要删除末尾的:01 标记。所以,理想情况下,我想要的格式是 DQB1 * 03:02 ,以便它有两个级别的解决方案 DQB1 * 。我如何告诉python寻找这些格式,并忽略
..
我有一个工作位的代码在这里,我比较六个哈希的键,以找到所有的共同的那些。然后我将每个散列的值合并为一个新的散列中的值。我想做的是使这可缩放。我想能够轻松地从比较3哈希到100,而不必回到我的代码和改变它。任何想法,我将如何实现这一点? 我的$ compare = List :: Compare-> new([keys%{$ posHashes [0]}],[keys%{$ posHashes
..
我是新来的R和我在处理这个问题需要咨询: 我有2表。表的起始显示如下: 表1: SNP基因PVAL Best_SNP Best_Pval rs2932538 ENSG00000007341 5.6007 rs10488631 ENSG00000064419 7.7461 rs12537284 ENSG00000064419 4.5544 rs3764650 EN
..
我在写一个Clojure实现此编码挑战,尝试以Fasta格式查找序列记录的平均长度: > 1 GATCGA GTC > 2 GCA > 3 AAAAA 有关更多背景,请参阅 我的初学者Clojure尝试使用lazy-seq尝试在文件中读取一个记录,因此它将扩展到大文件。然而,它是相当内存饥饿和缓慢,所以我怀疑,它没有实现最佳。以下是使用 Bio
..
我不是一个专业的程序员(我的领域是医学研究),但我有能力在C / C ++和各种脚本语言。一回来,我对Lisp很感兴趣,但我从来没有时间认真地学习它。在对 R 进行简短曝光后,我决定在功能编程语言中投入更多时间。 我想要一个JVM语言的实用性,从而缩小到Clojure和Scala。从我的理解,两者都可以使用已经存在的Java库,并且在性能关键代码给予可以委托给Java,有潜力执行相对同样好。
..
我有一个密集的矩阵,其中指数对应的基因。而基因标识常常整数,它们是不连续的整数。他们可能是字符串代替了。 我想我可以使用某种形式的整数键的提振稀疏矩阵,而且如果是连续那就没有关系。或将本依然占据着空间很大,尤其是一些基因有九个数字标识符? 此外,我担心的是松散的存储是不恰当的,因为这是一个全用,所有的矩阵(会有每每一个细胞的距离,并且所提供的基因存在)。 我不大可能需要执行任何矩阵运算(例如
..
我想提取pdb文件链。我有一个名为pdb.txt文件,其中包含PDB的ID,如下图所示。前四个字符重新present PDB ID和最后一个字符是连锁的ID。 1B68A 1BZ4B 4FUTA 我想1)逐行读取文件中的行 2)从相应的PDB文件下载每个链的原子坐标。结果 3)输出保存到一个文件夹。 我用下面的脚本提取链。
..
我是比较新的脚本并为此痛苦简单的问题提前道歉。我相信我已经搜查pretty彻底,但显然没有任何其他答案或食谱已经足够明确,我听不懂(如
..
我有一个命令我想对所有文件夹的文件中运行,该命令的语法如下: 顶礼帽-o<&OUTPUT_FILE GT; <&INPUT_FILE GT; 我希望做的是,循环通过在任意文件夹中的所有文件,并使用输入文件名来创建类似,但不同的输出文件名的脚本。文件名看起来像这样:输入名称所需的输出名称 路径/要/ sample1.fastq路径/要/ sample1.bam 路径/要/ samp
..
所以我有两个文件,一个VCF看起来像 88 CHR1 25℃ - 3 2 1 1 88 CHR1 88一件T 7 2 1 1 88 CHR1 92 A C 16 4 1 1 和其他与基因,看起来像 GENEID开始结束 GENE_ID 11 155 GENE_ID 165 999 我想一个脚本,看起来,如果有第二个文件的第二和第三位置的范围内的基因位置(VCF文件的第3列),然后
..
我有一个文件特征的基因组区域,看起来像这样: CHROM chromStart chromEnd PGB CHR1 12874 28371 2 CHR1 15765 21765 1 CHR1 15795 28371 2 CHR1 18759 24759 1 CHR1 28370 34961 1 CHR3 233278 240325 1 CHR3 239279 440831 2 CHR3 356
..
目前我正与一个AWK的问题,我一直没能尚未解决挣扎。我有一个巨大的文件(30GB)与持有与位置的名单的基因组数据(在栏1中声明和2)和保持一个数字范围的第二列表(在第3栏第4声明和5)。我想提取在第一个文件中的所有行所在的位置秒文件中声明的范围内。作为位置是唯一的一个特定的染色体(字符)首先它已被如果字符的是相同的测试中是唯一的(即COL1在文件file2中1匹配COL3) 文件1 染色体
..
所以,我是相当新的R和我有一个运行时的问题。我写了下面的嵌套while循环使用“Biostrings”包(biocLite),以便从两个物种链接蛋白质序列,如果他们有一个“90%的比对评分。 基本上,我输入2蛋白的基因组,在SeqData1比较每个氨基酸序列与从SeqData2各氨基酸序列,计算一个对齐得分,并且如果分数> 90%予串联的匹配和蛋白质名称的列表所述SeqData2蛋白质的序列。
..
我要寻找一个巨大的字符串(这是一个亿万由数十亿个字符的生物体的基因组序列)的快速算法搜索的目的。 有只有4个字符{A,C,G,T} present在此字符串,而“A”只能搭配“T”,而“C”对,“G”。 现在我正在寻找两个子(用{minLen,MAXLEN}之间的两个子串{intervalMinLen,intervalMaxLen}之间的长度的限制,和区间长度)可以对彼此antiparalle
..
由于这些输入: 我的$ init_seq =“AAAAAAAAAA”#length 10基点 我的$ sub_rate = 0.003; 我的$ nof_tags = 1000; 我@dna = QW(A C G T); 我要生成: 千长度为10个标签 替代率在标签每个位置为0.003 像高产输出: AAAAAAAAAA AATAACAAAA ..... A
..
我的工作我的研究RNA结构演变Python项目(psented作为一个字符串,例如重新$ P $:“(((?)))”,其中括号再present个碱基对)。该点的存在是我有一个理想的结构和演变朝着理想的结构人口。我已经实现的事情,但是我想补充一个功能,我可以在每一代获得了“数桶”,即第k最重presentative结构在人群中。 我想用K-means算法,但我不知道如何使用它的字符串。我发现 sc
..