bioinformatics相关内容
我正在用snakemake实现一个非常简单的管道,希望用一个有凝聚力的Snakefile代替一连串烦人的bash脚本. 我在编写将文件分割成较小的规则(使用GNU split),然后导致输出连接在一起的第二条规则时遇到了麻烦. 我不知道在concat步骤中为输入内容写什么,因为我不知道如何定义所有符合模式 bam_files/test * 的文件.我尝试使用glob,但是绝对不能正常工
..
我正在尝试分析假单胞菌生物膜的图像,我这样做是为了找到其生长与分布之间具有某种自变量的某种相关性.我已经应用了分割以获得感兴趣的圆形区域,现在我正在考虑将某些颜色分割应用到具有HSV值的图像上,从而仅使区域具有生物膜.我试图以某种方式完全隔离所有重要区域,我对图像应用了bitwise_not来查看负片,并发现在视觉上更容易区分,所有淡黄色的区域都带有细菌它. 原始图片: 使用我编写的代
..
输入fasta格式的文本文件: http://www.jcvi.org/cgi-bin/tigrfams/DownloadFile.cgi?file =/opt/www/www_tmp/tigrfams/fa_alignment_PF00205.txt #!/usr/bin/python来自Bio import AlignIOseq_file =打开('/path/to/fa_alignm
..
我在 Ubuntu 20.04.1 LTS焦点上,并使用 R .我想在R中安装一个库,以通过Smith-Waterman算法但通过更快的实现来执行局部序列比对. R 库是 ssw ,可以在这里找到: https://github.com/nanxstats/ssw-r 单击链接到github存储库 描述: ssw-r为SSW提供了R接口,这是Smith-Waterman算法的快速实现,
..
我正在使用以下代码从Entrez ID中检索基因符号: library("biomaRt")ensembl
..
我有一个包含数百个* .fasta文件的目录,例如: Bonobo_sp._str01_ABC784267_CDE789456.fastaHomo_sapiens_cc21_ABC897867_CDE456789.fastaHomo_sapiens_cc21_ABC893673_CDE753672.fasta大猩猩_gorilla_ghjk6789_ABC736522_CDE789456.fa
..
我有一个fasta文件,其中包含蛋白质序列.我想选择具有300个以上氨基酸的序列,而半胱氨酸(C)氨基酸出现的次数超过4次. 我已经使用此命令来选择300氨基酸以上的序列: cat 72hDOWN-fasta.fasta |bioawk -c fastx'length($ seq)>300 {print“>" $ name;打印$ seq}' 一些示例: > jgi | Trias
..
如何编写一个函数,该函数接受一个DNA序列(作为单个字符串)和一个数字"n> = 2",并返回一个以三元组"AAA"开头的带有所有DNA子序列(作为字符串)的向量"GAA"和结尾为三元组"AGT",并且在起点和终点之间至少有2个,最多为"n"个三元组. 第一季度: 用于"GAACCCACTAGTATAAAATTTGGGAGTCCCAAACCCTTTGGGAGT"的 对于n = 2,答案是
..
我正在读取具有以下格式的FASTA文件: > gi | 31563518 | ref | NP_852610.1 |微管相关蛋白1A/1B轻链3A亚型b [智人]MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKIIRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEYEKEKDEDGFLYMV
..
我的数据框带有一列: nf1 $ Info = AC = 1; AF = 0.500; AN = 2; BaseQRankSum = -1.026e + 00; ClippingRankSum = -1.026e + 00; DP = 4; ExcessHet = 3.0103; FS = 0.000;MLEAC = 1; MLEAF = 0.500; MQ = 28.25; MQRankS
..
我想知道是否有办法从uniprot蛋白质id中获得蛋白质序列.我确实检查了很少的在线软件,但它们一次只能获得一个序列,但是我有5536个vlues.biopython中是否有任何软件包可以做到这一点? 解决方案 uniprot的所有序列都可以从" http://www.uniprot.org/uniprot/" + UniprotID + .fasta.您可以使用 获得任何序列 导入请
..
我对要绘制的内容有清楚的了解,但是我不确定从哪里开始使用matplotlib/seaborn. 我有〜999条不等行,分别为0、1和2.这是其中一行的示例: [1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1
..
您知道任何一种现成的方法来获取长度以及两个字符串的重叠吗?但是,仅使用 R ,也许来自 stringr 的东西?不幸的是,我一直在看这里. str1
..
我有一个模拟20,000帧的轨迹文件,每帧之间有5 ps的时间,我想做的是计算二维(x和y轴)上的扩散.但是要计算2D扩散,首先我必须计算所研究分子的均方位移.MSD计算分子在随机行走中探索系统所需的平均时间. 我是python编程的新手,我真的想要一些帮助来开始这个问题并解决这个问题.希望得到积极的回应. 解决方案 MSD确切地说是均方根位移,因此您需要做的是找出位置的差异(r(t
..
我刚刚编写了一个函数,该函数将查看文本文件并计算文本文件中True和False的所有实例.这是我的文件 ATOM 43 CA LYS A 5 14.038 15.691 37.608 1.00 15.15 C是ATOM 52 CA CYS A 6 16.184 12.782 38.807 1.00 16.72 C是ATOM 58 CA GLU A 7 17.496 12.053 35.319
..
我又在这里!我想优化我的bash脚本,以减少每个循环所花费的时间.基本上它是做什么的: 从tsv获取信息 使用该信息通过awk查找文件 打印并导出行 我的问题是:1)这些文件是60GB的压缩文件:我需要一个软件来解压缩它(我实际上正在尝试解压缩它,不确定我是否有足够的空间)2)反正要花很长的时间 我的改进建议: 0),如果可能,我将解压缩文件 将GNU并行与 pa
..
我有一个包含数千行的大文件,看起来像: > ENST00001234.1ACGTACGTACGGTTACCCAGTACGATCGCATTCAGC> ENST00002235.4TTACGCATTAGGCCAG> ENST00005546.9TTTATCGCTTAGGGTAT 我想grep特定ID(在> 符号之后),例如 ENST00001234.1 ,然后想要在比赛之后获得行,直到下一个>
..
我正在尝试将FASTQ文件读入Spark数据帧.我遇到了一些困难,因为FASTQ是一种多行格式. 示例: @ seq1AGTCAGTCGAC+?@@ FFBFFDDH@ seq2CCAGCGTCTCG+88ADA BDF8 有没有办法在Spark数据框中获取这些数据? + ----------------- + ------------- + ------------ +|标识符
..
我有一个来自complete genomics的名为cgatools的工具( http://cgatools. sourceforge.net/docs/1.8.0/).我需要在高性能计算集群中运行一些基因组分析.我尝试运行分配超过50个内核和250gb内存的作业,但是它仅使用一个内核并将内存限制为小于2GB.在这种情况下,我最好的选择是什么?有没有一种方法可以在HPC群集中运行二进制可执行文件,
..
有人知道如何创建类似于屏幕截图中的图形的图形吗?我试图获得类似的调整alpha效果,但是这使异常值几乎不可见.我仅从名为FlowJo的软件知道这种类型的图,在这里他们将其称为“伪彩色点图".不确定这是否是正式术语. 我想在ggplot2中专门执行此操作,因为我需要使用faceting选项.我附上了我的一张图表的另一个屏幕截图.垂直线描绘了在某些基因组区域的突变簇.其中一些群集比其他群集密集得
..