bioinformatics相关内容

snakemake中的未知输出

我正在用snakemake实现一个非常简单的管道,希望用一个有凝聚力的Snakefile代替一连串烦人的bash脚本. 我在编写将文件分割成较小的规则(使用GNU split),然后导致输出连接在一起的第二条规则时遇到了麻烦. 我不知道在concat步骤中为输入内容写什么,因为我不知道如何定义所有符合模式 bam_files/test * 的文件.我尝试使用glob,但是绝对不能正常工 ..
发布时间:2021-04-15 19:47:03 其他开发

如何使用opencv和python分割属于生物样本的图像内的相似外观区域(明智的选择)?

我正在尝试分析假单胞菌生物膜的图像,我这样做是为了找到其生长与分布之间具有某种自变量的某种相关性.我已经应用了分割以获得感兴趣的圆形区域,现在我正在考虑将某些颜色分割应用到具有HSV值的图像上,从而仅使区域具有生物膜.我试图以某种方式完全隔离所有重要区域,我对图像应用了bitwise_not来查看负片,并发现在视觉上更容易区分,所有淡黄色的区域都带有细菌它. 原始图片: 使用我编写的代 ..
发布时间:2021-04-15 19:47:00 Python

为什么R库'ssw'不能找到通过pip3安装的python模块,尽管可以满足pip3模块的安装要求?

我在 Ubuntu 20.04.1 LTS焦点上,并使用 R .我想在R中安装一个库,以通过Smith-Waterman算法但通过更快的实现来执行局部序列比对. R 库是 ssw ,可以在这里找到: https://github.com/nanxstats/ssw-r 单击链接到github存储库 描述: ssw-r为SSW提供了R接口,这是Smith-Waterman算法的快速实现, ..
发布时间:2021-04-15 19:46:54 Python

在具有超过300个aa和"C"的fasta文件中选择序列.发生至少4次

我有一个fasta文件,其中包含蛋白质序列.我想选择具有300个以上氨基酸的序列,而半胱氨酸(C)氨基酸出现的次数超过4次. 我已经使用此命令来选择300氨基酸以上的序列: cat 72hDOWN-fasta.fasta |bioawk -c fastx'length($ seq)>300 {print“>" $ name;打印$ seq}' 一些示例: > jgi | Trias ..
发布时间:2021-04-15 19:46:45 服务器开发

使用R查找序列

如何编写一个函数,该函数接受一个DNA序列(作为单个字符串)和一个数字"n> = 2",并返回一个以三元组"AAA"开头的带有所有DNA子序列(作为字符串)的向量"GAA"和结尾为三元组"AGT",并且在起点和终点之间至少有2个,最多为"n"个三元组. 第一季度: 用于"GAACCCACTAGTATAAAATTTGGGAGTCCCAAACCCTTTGGGAGT"的 对于n = 2,答案是 ..
发布时间:2021-04-15 19:46:41 其他开发

Fasta文件读取python

我正在读取具有以下格式的FASTA文件: > gi | 31563518 | ref | NP_852610.1 |微管相关蛋白1A/1B轻链3A亚型b [智人]MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKIIRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEYEKEKDEDGFLYMV ..
发布时间:2021-04-15 19:46:38 Python

来自uniprot蛋白质ID python的蛋白质序列

我想知道是否有办法从uniprot蛋白质id中获得蛋白质序列.我确实检查了很少的在线软件,但它们一次只能获得一个序列,但是我有5536个vlues.biopython中是否有任何软件包可以做到这一点? 解决方案 uniprot的所有序列都可以从" http://www.uniprot.org/uniprot/" + UniprotID + .fasta.您可以使用 获得任何序列 导入请 ..
发布时间:2021-04-15 19:46:28 Python

堆积条形图麻烦而无池

我对要绘制的内容有清楚的了解,但是我不确定从哪里开始使用matplotlib/seaborn. 我有〜999条不等行,分别为0、1和2.这是其中一行的示例: [1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1 ..
发布时间:2021-04-15 19:46:25 Python

均方位移python

我有一个模拟20,000帧的轨迹文件,每帧之间有5 ps的时间,我想做的是计算二维(x和y轴)上的扩散.但是要计算2D扩散,首先我必须计算所研究分子的均方位移.MSD计算分子在随机行走中探索系统所需的平均时间. 我是python编程的新手,我真的想要一些帮助来开始这个问题并解决这个问题.希望得到积极的回应. 解决方案 MSD确切地说是均方根位移,因此您需要做的是找出位置的差异(r(t ..
发布时间:2021-04-15 19:46:19 Python

优化我的脚本以查找大压缩文件

我又在这里!我想优化我的bash脚本,以减少每个循环所花费的时间.基本上它是做什么的: 从tsv获取信息 使用该信息通过awk查找文件 打印并导出行 我的问题是:1)这些文件是60GB的压缩文件:我需要一个软件来解压缩它(我实际上正在尝试解压缩它,不确定我是否有足够的空间)2)反正要花很长的时间 我的改进建议: 0),如果可能,我将解压缩文件 将GNU并行与 pa ..
发布时间:2021-04-14 20:28:36 其他开发

如何在多线程HPC集群中运行二进制可执行文件?

我有一个来自complete genomics的名为cgatools的工具( http://cgatools. sourceforge.net/docs/1.8.0/).我需要在高性能计算集群中运行一些基因组分析.我尝试运行分配超过50个内核和250gb内存的作业,但是它仅使用一个内核并将内存限制为小于2GB.在这种情况下,我最好的选择是什么?有没有一种方法可以在HPC群集中运行二进制可执行文件, ..
发布时间:2020-11-23 22:04:29 其他开发

在ggplot2散点图中使用伪彩色指示密度

有人知道如何创建类似于屏幕截图中的图形的图形吗?我试图获得类似的调整alpha效果,但是这使异常值几乎不可见.我仅从名为FlowJo的软件知道这种类型的图,在这里他们将其称为“伪彩色点图".不确定这是否是正式术语. 我想在ggplot2中专门执行此操作,因为我需要使用faceting选项.我附上了我的一张图表的另一个屏幕截图.垂直线描绘了在某些基因组区域的突变簇.其中一些群集比其他群集密集得 ..
发布时间:2020-11-14 01:41:52 其他开发