bioinformatics 第3页 - IT屋-程序员软件开发技术分享社区

snakemake中的未知输出

我正在用snakemake实现一个非常简单的管道，希望用一个有凝聚力的Snakefile代替一连串烦人的bash脚本. 我在编写将文件分割成较小的规则(使用GNU split)，然后导致输出连接在一起的第二条规则时遇到了麻烦. 我不知道在concat步骤中为输入内容写什么，因为我不知道如何定义所有符合模式 bam_files/test * 的文件.我尝试使用glob，但是绝对不能正常工 ..

发布时间：2021-04-15 19:47:03 bioinformatics snakemake 其他开发

如何使用opencv和python分割属于生物样本的图像内的相似外观区域(明智的选择)?

我正在尝试分析假单胞菌生物膜的图像，我这样做是为了找到其生长与分布之间具有某种自变量的某种相关性.我已经应用了分割以获得感兴趣的圆形区域，现在我正在考虑将某些颜色分割应用到具有HSV值的图像上，从而仅使区域具有生物膜.我试图以某种方式完全隔离所有重要区域，我对图像应用了bitwise_not来查看负片，并发现在视觉上更容易区分，所有淡黄色的区域都带有细菌它. 原始图片: 使用我编写的代 ..

发布时间：2021-04-15 19:47:00 python python-3.x opencv image-processing bioinformatics Python

BioPython AlignIO ValueError说字符串必须长度相同吗?

输入fasta格式的文本文件: http://www.jcvi.org/cgi-bin/tigrfams/DownloadFile.cgi?file =/opt/www/www_tmp/tigrfams/fa_alignment_PF00205.txt #！/usr/bin/python来自Bio import AlignIOseq_file =打开('/path/to/fa_alignm ..

发布时间：2021-04-15 19:46:57 python bioinformatics biopython sequence-alignment Python

为什么R库'ssw'不能找到通过pip3安装的python模块，尽管可以满足pip3模块的安装要求?

我在 Ubuntu 20.04.1 LTS焦点上，并使用 R .我想在R中安装一个库，以通过Smith-Waterman算法但通过更快的实现来执行局部序列比对. R 库是 ssw ，可以在这里找到: https://github.com/nanxstats/ssw-r 单击链接到github存储库描述: ssw-r为SSW提供了R接口，这是Smith-Waterman算法的快速实现， ..

发布时间：2021-04-15 19:46:54 python r configuration pip bioinformatics Python

无法使用biomaRt软件包从Entrez ID中获取基因符号

我正在使用以下代码从Entrez ID中检索基因符号: library("biomaRt")ensembl ..

发布时间：2021-04-15 19:46:51 r bioinformatics bioconductor biomart 其他开发

我有一个包含数百个* .fasta文件的目录，例如: Bonobo_sp._str01_ABC784267_CDE789456.fastaHomo_sapiens_cc21_ABC897867_CDE456789.fastaHomo_sapiens_cc21_ABC893673_CDE753672.fasta大猩猩_gorilla_ghjk6789_ABC736522_CDE789456.fa ..

发布时间：2021-04-15 19:46:48 regex loops unix bioinformatics pattern-recognition 服务器开发

在具有超过300个aa和"C"的fasta文件中选择序列.发生至少4次

我有一个fasta文件，其中包含蛋白质序列.我想选择具有300个以上氨基酸的序列，而半胱氨酸(C)氨基酸出现的次数超过4次. 我已经使用此命令来选择300氨基酸以上的序列: cat 72hDOWN-fasta.fasta |bioawk -c fastx'length($ seq)>300 {print“>" $ name;打印$ seq}' 一些示例: > jgi | Trias ..

发布时间：2021-04-15 19:46:45 linux awk bioinformatics sequences fasta 服务器开发

使用R查找序列

如何编写一个函数，该函数接受一个DNA序列(作为单个字符串)和一个数字"n> = 2"，并返回一个以三元组"AAA"开头的带有所有DNA子序列(作为字符串)的向量"GAA"和结尾为三元组"AGT"，并且在起点和终点之间至少有2个，最多为"n"个三元组. 第一季度: 用于"GAACCCACTAGTATAAAATTTGGGAGTCCCAAACCCTTTGGGAGT"的对于n = 2，答案是 ..

发布时间：2021-04-15 19:46:41 r bioinformatics 其他开发

Fasta文件读取python

我正在读取具有以下格式的FASTA文件: > gi | 31563518 | ref | NP_852610.1 |微管相关蛋白1A/1B轻链3A亚型b [智人]MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKIIRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEYEKEKDEDGFLYMV ..

发布时间：2021-04-15 19:46:38 python bioinformatics fasta Python

提取与模式匹配的特定单词

我的数据框带有一列: nf1 $ Info = AC = 1; AF = 0.500; AN = 2; BaseQRankSum = -1.026e + 00; ClippingRankSum = -1.026e + 00; DP = 4; ExcessHet = 3.0103; FS = 0.000;MLEAC = 1; MLEAF = 0.500; MQ = 28.25; MQRankS ..

发布时间：2021-04-15 19:46:34 r regex bioinformatics stringr vcf-variant-call-format 其他开发

来自uniprot蛋白质ID python的蛋白质序列

我想知道是否有办法从uniprot蛋白质id中获得蛋白质序列.我确实检查了很少的在线软件，但它们一次只能获得一个序列，但是我有5536个vlues.biopython中是否有任何软件包可以做到这一点? 解决方案 uniprot的所有序列都可以从" http://www.uniprot.org/uniprot/" + UniprotID + .fasta.您可以使用获得任何序列导入请 ..

发布时间：2021-04-15 19:46:28 python bioinformatics biopython Python

堆积条形图麻烦而无池

我对要绘制的内容有清楚的了解，但是我不确定从哪里开始使用matplotlib/seaborn. 我有〜999条不等行，分别为0、1和2.这是其中一行的示例: [1，1，1，1，1，1，1，1，1，1，1，0，0，0，0，0，0，0，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1 ..

发布时间：2021-04-15 19:46:25 python matplotlib seaborn data-science bioinformatics Python

查找字符串中的重叠长度

您知道任何一种现成的方法来获取长度以及两个字符串的重叠吗?但是，仅使用 R ，也许来自 stringr 的东西?不幸的是，我一直在看这里. str1 ..

发布时间：2021-04-15 19:46:22 r string bioinformatics overlap dna-sequence 其他开发

均方位移python

我有一个模拟20,000帧的轨迹文件，每帧之间有5 ps的时间，我想做的是计算二维(x和y轴)上的扩散.但是要计算2D扩散，首先我必须计算所研究分子的均方位移.MSD计算分子在随机行走中探索系统所需的平均时间. 我是python编程的新手，我真的想要一些帮助来开始这个问题并解决这个问题.希望得到积极的回应. 解决方案 MSD确切地说是均方根位移，因此您需要做的是找出位置的差异(r(t ..

发布时间：2021-04-15 19:46:19 python statistics bioinformatics Python

是什么导致Python错误“错误的转义\ C"?

我刚刚编写了一个函数，该函数将查看文本文件并计算文本文件中True和False的所有实例.这是我的文件 ATOM 43 CA LYS A 5 14.038 15.691 37.608 1.00 15.15 C是ATOM 52 CA CYS A 6 16.184 12.782 38.807 1.00 16.72 C是ATOM 58 CA GLU A 7 17.496 12.053 35.319 ..

发布时间：2021-04-15 19:46:16 python regex bioinformatics python-3.7 Python

优化我的脚本以查找大压缩文件

我又在这里！我想优化我的bash脚本，以减少每个循环所花费的时间.基本上它是做什么的: 从tsv获取信息使用该信息通过awk查找文件打印并导出行我的问题是:1)这些文件是60GB的压缩文件:我需要一个软件来解压缩它(我实际上正在尝试解压缩它，不确定我是否有足够的空间)2)反正要花很长的时间我的改进建议: 0)，如果可能，我将解压缩文件将GNU并行与 pa ..

发布时间：2021-04-14 20:28:36 bash bioinformatics gnu-parallel 其他开发

如何使用awk在每个模式之后进行多次匹配并打印不同数量的行

我有一个包含数千行的大文件，看起来像: > ENST00001234.1ACGTACGTACGGTTACCCAGTACGATCGCATTCAGC> ENST00002235.4TTACGCATTAGGCCAG> ENST00005546.9TTTATCGCTTAGGGTAT 我想grep特定ID(在> 符号之后)，例如 ENST00001234.1 ，然后想要在比赛之后获得行，直到下一个> ..

发布时间：2021-04-14 20:12:51 bash awk grep bioinformatics fasta 其他开发

将FASTQ文件读入Spark数据帧

我正在尝试将FASTQ文件读入Spark数据帧.我遇到了一些困难，因为FASTQ是一种多行格式. 示例: @ seq1AGTCAGTCGAC+?@@ FFBFFDDH@ seq2CCAGCGTCTCG+88ADA BDF8 有没有办法在Spark数据框中获取这些数据? + ----------------- + ------------- + ------------ +|标识符 ..

发布时间：2021-04-08 20:03:57 scala apache-spark apache-spark-sql bioinformatics fastq 其他开发

如何在多线程HPC集群中运行二进制可执行文件?

我有一个来自complete genomics的名为cgatools的工具( http://cgatools. sourceforge.net/docs/1.8.0/).我需要在高性能计算集群中运行一些基因组分析.我尝试运行分配超过50个内核和250gb内存的作业，但是它仅使用一个内核并将内存限制为小于2GB.在这种情况下，我最好的选择是什么?有没有一种方法可以在HPC群集中运行二进制可执行文件， ..

发布时间：2020-11-23 22:04:29 multithreading cluster-computing bioinformatics hpc pbs 其他开发

在ggplot2散点图中使用伪彩色指示密度

有人知道如何创建类似于屏幕截图中的图形的图形吗?我试图获得类似的调整alpha效果，但是这使异常值几乎不可见.我仅从名为FlowJo的软件知道这种类型的图，在这里他们将其称为“伪彩色点图".不确定这是否是正式术语. 我想在ggplot2中专门执行此操作，因为我需要使用faceting选项.我附上了我的一张图表的另一个屏幕截图.垂直线描绘了在某些基因组区域的突变簇.其中一些群集比其他群集密集得 ..

发布时间：2020-11-14 01:41:52 r ggplot2 bioinformatics 其他开发

bioinformatics相关内容