bioinformatics相关内容
我正在使用PHP exec()函数执行问题是exec()即使进程成功运行也不返回任何PID. 过程是这样开始的: $gnuplot_path = '/usr/bin/gnuplot'; $command = 'nohup canu -d . -p E.coli gnuplot='.$gnuplot_path.' genomeSize=4.8m useGrid=false maxThr
..
我是Perl的新手,仍然遇到另一个需要一些帮助和投入的生物信息学问题。 问题简短: 我有一个文件,其中包含40,000多个 unique DNA序列。唯一是指唯一的序列ID。我会在文章结尾处附加一部分内容,以帮助您显示它的外观。 我需要将 3个部分。因此,如果特定序列的长度为999个字符,则3个部分中的每个部分都将具有333个字符。 我需要寻找以下模式通过3个单独的部分:
..
我想将包含少量DNA序列的文件转换为二进制值,如下所示: A=1000 C=0100 G=0010 T=0001 FileA.txt CCGAT GCTTA 所需的输出 01000100001010000001 00100100000100011000 我尝试使用此代码解决问题,但是bin输出文件似乎无法输出所需的答案.谁能帮我吗? 代码 import s
..
参考文件 chr1 288598 288656 chr1 779518 779576 chr2 2569592 2569660 chr3 5018399 5018464 chr4 5182842 5182882 文件1 chr1 288598 288656 12 chr1 779518 779576 14 chr2
..
我有一个文件,其中包含一系列随机的A,G,C和T,如下所示: >Mary ACGTACGTACGTAC >Jane CCCGGCCCCTA >Arthur AAAAAAAAAAT 我拿了那些字母并将其缩写为ACGTACGTACGTACCCCGGCCCCTAAAAAAAAAAT.现在,我在关联的序列中有一系列我感兴趣的位置,并且我想找到与这些位置(坐标)匹配的关联名称.我正在使用Perl函
..
我正在尝试在64位Ubuntu 16.04上安装FSL. 我在Neurodebian网站上遵循了程序,选择了正确的软件包,指定了所有软件. 当我在终端中粘贴命令时,管道挂起而没有提示我的sudo密码: wget -O- http://neuro.debian.net/lists/xenial.de-m.full | sudo tee /etc/apt/sources.list.d
..
我的RNA序列包含不同的修饰核苷酸和残基.其中一些例如N79, 8XU, SDG, I. 我想使用biopython的pairwise2.align.localms成对对齐它们.为了准确地说明这些修改后的基数,是否可以将输入不是字符串形式而是列表形式? 什么是正确的技术? 解决方案 Biopython的pairwise2模块适用于字母字符串,该字符串可以是任何东西-例如:
..
#include "xdrfile/xdrfile_xtc.h" #include "xdrfile/xdrfile.h" #include int main() { int nat; int step; float time; float prec; int status; matrix box; rvec k[3
..
我需要找到一个或多个序列,这些序列应该在Fasta中给出结果(匹配),而在Blast中则不能,反之亦然. 我有点迷茫. 搜索此序列时应该寻找什么? 解决方案 当您说通过BLAST或FASTA查找序列时,我假设您的意思是在数据库中找到匹配项? 我认为FASTA可能比BLAST更好地发现异种序列之间的比对,但BLAST更好地比对相似序列.
..
我有一个15-mer核苷酸基序,该基序使用简并的核苷酸序列.例如:ATNTTRTCNGGHGCN. 我将搜索一组序列以查找该基序的出现.但是,我的其他序列是精确序列,即它们没有歧义. 我尝试在序列中执行for循环以进行搜索,但是我无法进行非精确搜索.我使用的代码是根据 Biopython食谱上的代码建模的. > for pos,seq in m.instances.search
..
我正在使用以下正则表达式: orfre = '^(?:...)*?((ATG)(...){%d,}?(?=(TAG|TAA|TGA)))' % (aa) 我基本上想找到所有以ATG开头的序列,然后是三胞胎(例如TTA,TTC,GTC等),直到找到框架中的终止密码子为止.但是,正如我写的正则表达式一样,如果aa很大,它实际上不会在终止密码子处停止.取而代之的是,它将继续搜索,直到找到一个满
..
因此,我正在尝试创建一个类,该类在三个不同的帧中读取DNA字符串-一个从位置0(或第一个碱基)开始,另一个从位置1(第二个碱基)开始,另一个从位置1开始.从位置2(第三个底端)开始读取.到目前为止,这就是我一直在玩的东西: def codons(self, frame_one, frame_two, frame_three): start = frame_one
..
我正在尝试提取以下文件中的11列中的每列: http://bioinfo.mc.vanderbilt.edu/TSGene/Human_716_TSGs.txt ...进入入门级大学生物信息学项目的标量列表.我的努力很有效,但并非十全十美,因为各列之间的空白量各不相同(请参见文件顶部以获取详细信息). use strict; use warnings; open FH, '
..
基本上,我有53个值的单列数据集.我要实现的目标是根据400点的差异将它们分为几组,范围从〜500到4500之间.如果需要,您可以含糊其词,并声明一个函数,其余的我可以解决 解决方案 一个dplyr选项 library(dplyr) df_test
..
在生物信息学/微生物生态学文献中,一种相当普遍的做法是在构建系统树之前,将多个基因的多个序列比对连接起来.用R术语来说,可以说它们与来自的生物体“融合"起来更为清楚,但是我敢肯定例子是更好的. 说这是两个多重序列比对. library(Biostrings) set1
..
如何告诉gawk使用两个不同的定界符,以便我可以分隔某些列,但使用文件的制表符分隔格式选择其他列? > cat broad_snps.tab chrsnpID rsID freq_bin snp_maf gene_count dist_nearest_gene_snpsnap dist_nearest_gene_snpsnap_protein_coding d
..
我是python的新手,有人帮我编写了这段代码,但是我想更改一些参数: 首先从图例中找出图例的大小,有时图例变大(例如:D_0__细菌; D_1__Firmicutes; D_2__Clostridia; D_3__Clostridiales; D_4__Peptostreptococcaceae; D_5__Acetoanaerobium),有时则很短(Acetoanaerobium)想要
..
我有五个具有以下格式且长度不同的向量.是单核苷酸多态性(SNPs)的载体 A
..
我想绘制整个基因组的平均覆盖深度,并以递增的顺序排列染色体.我已经使用samtools计算了基因组每个位置的覆盖深度.我想生成一个图(使用1kb的窗口),如图7所示:示例数据框: Chr locus depth chr1 1 20 chr1 2 24 chr1 3 26 chr2 1 53 chr2 2 71 chr2
..
我正在尝试将平坦的单链接簇分配给以编辑距离
..