bioinformatics 第2页 - IT屋-程序员软件开发技术分享社区

大型 DAG 上的拓扑排序示例

我正在寻找在大图大小上执行拓扑排序的现实世界应用程序. 我认为您可以找到此类实例的一些领域是生物信息学、依赖性解析、数据库、硬件设计、数据仓库......但我希望你们中的一些人可能已经遇到或听说过任何特定的算法/项目/应用程序/需要 topsort 的数据集. 即使数据/项目可能无法公开访问，任何提示(以及对潜在图形大小数量级的估计)也可能会有所帮助. 解决方案以下是我目前看 ..

发布时间：2022-01-21 13:07:56 database dataset bioinformatics directed-acyclic-graphs topological-sort 其他开发

使用 data.table 函数 foverlaps 查找两个表中重叠范围的交集

我想使用 foverlaps 来查找两个床文件的相交范围，并将任何包含重叠范围的行折叠成一行.在下面的示例中，我有两个包含基因组范围的表.这些表格被称为“床"文件，它们在染色体中具有从零开始的坐标和从一开始的特征结束位置.例如，START=9、STOP=20 被解释为跨越基数 10 到 20，包括 10 到 20.这些床文件可以包含数百万行.无论提供要相交的两个文件的顺序如何，该解决方案都需要给出 ..

发布时间：2022-01-13 18:46:39 r data.table bioinformatics 其他开发

在ggplot2中使用geom_stat/geom_smooth时在置信区间上下查找点

我有一个散点图，我想知道如何找到置信区间线上方和下方的基因? 编辑:可重现的示例: 库(ggplot2)#虚拟数据df ..

发布时间：2022-01-07 23:21:59 r ggplot2 statistics bioinformatics 其他开发

查询 DNS 服务记录以查找主机名和 TCP/IP

在一篇关于生命科学标识符的论文中(参见LSID 测试器，一种用于测试生命科学标识符解析服务的工具)，Roderic DM Page 博士写道: 给定 LSID urn:lsid**:ubio.org**:namebank:11815，查询 _lsid._tcp 的 SRV 记录的 DNS.ubio.org 返回animalia.ubio.org:80 作为ubio.org LSID 服务的位 ..

发布时间：2022-01-04 14:12:26 java dns host bioinformatics Java开发

一个(生物医学)词的词干的所有可能的词形补全

我熟悉 R 中 tm 包中的词干和补全. 我试图想出一种快速而肮脏的方法来查找给定单词的所有变体(在某个语料库中).例如，如果我的输入是“白细胞"和“白细胞"，我想得到“白细胞". 如果我现在必须这样做，我可能会选择这样的: 图书馆(tm)图书馆(RWeka)字典 ..

发布时间：2022-01-02 18:00:39 python r nlp bioinformatics text-mining Python

biopython 没有名为 Bio 的模块

仅供参考:这不是重复的！在运行我的 python 代码之前，我在 cmd 提示符下安装了 biopython: pip install biopython 然后当我尝试在 python 中导入它时，我收到一条错误消息，提示“没有名为 Bio 的模块" 导入生物同样的事情发生在导入biopython 需要注意的是，我已经更新了 PIP 并运行了 python 3.5.2 我 ..

发布时间：2021-12-30 19:38:33 python python-3.x pip bioinformatics biopython Python

为什么 Collections.counter 这么慢?

我正在尝试解决一个 Rosalind 基本问题，即计算给定序列中的核苷酸数，并在列表中返回结果.对于那些不熟悉生物信息学的人，它只是计算字符串中 4 个不同字符('A'、'C'、'G'、'T')的出现次数. 我希望 collections.Counter 是最快的方法(首先是因为他们声称具有高性能，其次是因为我看到很多人使用它来解决这个特定问题). 但令我惊讶的是这种方法是最慢的！ ..

发布时间：2021-12-27 17:54:38 python performance collections counter bioinformatics Python

补充 DNA 序列

假设我有一个 DNA 序列.我想得到它的补充.我使用了以下代码，但我没有得到它.我做错了什么? s=readline()ATCTCGGCGCGCATCGCGTACGCTACTAGCp=unlist(strsplit(s,""))h=rep("N",nchar(s))取消列表(lapply(p，函数(d){对于 b in (1:nchar(s)) {如果 (p[b]=="A") h[b]="T"如 ..

发布时间：2021-12-25 09:17:34 r replace bioinformatics genetics complement 其他开发

使用 python/selenium 保存完整的网页(包括 css、图像)

我正在使用 Python/Selenium 将基因序列提交到在线数据库，并且想要保存我返回的整页结果.下面是让我得到我想要的结果的代码: from selenium import webdriverURL = 'https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastx&PAGE_TYPE=BlastSearch&LINK_LOC=blasth ..

发布时间：2021-12-17 13:59:30 python selenium web-scraping web-crawler bioinformatics Python

将 FASTQ 文件读入 Spark 数据帧

我正在尝试将 FASTQ 文件读入 Spark 数据帧.我有一些困难，因为 FASTQ 是一种多行格式. 示例: @seq1AGTCAGTCGAC+?@@FFBFFDDH@seq2CCAGCGTCTCG+?88ADA?BDF8 有没有办法在像这样的 Spark 数据帧中获取这些数据 +-------------+-------------+------------+|标识符 |序列 ..

发布时间：2021-11-14 23:06:25 scala apache-spark apache-spark-sql bioinformatics fastq 其他开发

grep 如果字值大于值

我这样归档: 1 51710 .C A .clustered_events;污染;germline_risk;read_position;t_lod DP=1;ECNT=6;POP_AF=1.000e-03;P_GERMLINE=-1.372e-02;TLOD=4.20 GT:AD:AF:DP:F1R2:F2R1:MBQ:MFRL:MMQ:MPOS:PGT:PID:SA_MAP_AF:SA_PO ..

发布时间：2021-07-17 20:57:33 shell awk sed grep bioinformatics 其他开发

如何在 R 中绘制剖面图?

我想为不同时间点的 VPs8 基因生成轮廓图. dat 错误:xj[i] 中的错误:无效的下标类型“列表" 解决方案行 match 没有意义.纯属偶然，它不会引发错误，但它没有任何用处.实际上，您似乎想从表的列名中删除cdc15_.你需要在这里做一些不同的事情: names(VPS8) 接下来，您观察到的实际错误来自于此: dat[VPS8,]) 您正在使用 data.f ..

发布时间：2021-06-18 19:17:41 r plot bioinformatics 其他开发

AttributeError:' list'对象没有属性' SeqRecord'-在尝试使用来自fasta文件的Biopython> SeqIO分割多个序列时

我正在尝试生成长度可变的N和C终端切片(1,2,3,4,5,6,7).但是在到达那里之前，我只是在读取fasta文件时遇到问题.我遵循的是“随机子序列"的主教程，网址为: https://biopython.org/wiki/SeqIO.但是在这种情况下，只有一个序列，所以也许这就是我出错的地方.带有示例序列和我的错误的代码.任何帮助将非常感激.我显然超出了我的深度.看来其他人也遇到过很多类似的问 ..

发布时间：2021-05-09 18:46:07 python for-loop bioinformatics biopython Python

“在主机上找不到命令'bet'"通过Python 3.5在Windows 10的FSL中使用BET时出错

我需要对.nii图像执行脑部提取.我在Windows 10上使用Anaconda，并且具有基于Python 3.5.4的环境.在Nipype上，我找到了FSL的BET，并遵循以下代码: mybet = fsl.BET()mybet.inputs.in_file ='example.nii'mybet.inputs.out_file ='example_bet.nii'结果= mybet.run ..

发布时间：2021-04-15 19:47:25 python windows image-processing bioinformatics nipype Python

AttributeError:“列表"对象没有属性"SeqRecord"-在尝试使用来自Fasta文件的Biopython> SeqIO切片多个序列时

我正在尝试生成长度可变的N和C终端切片(1,2,3,4,5,6,7).但是在到达那里之前，我只是在读取fasta文件时遇到问题.我遵循的是“随机子序列"的主教程，网址为: https://biopython.org/wiki/SeqIO.但是在这种情况下，只有一个序列，所以也许那是我出错的地方.带有示例序列和我的错误的代码.任何帮助将非常感激.我显然超出了我的深度.看来其他人也遇到过很多类似的问题 ..

发布时间：2021-04-15 19:47:21 python for-loop bioinformatics biopython Python

如何为R中的一行中的多个值设置多个条件?

我有一个遗传数据集，其中每一行都描述一个基因，并且有一个带有多个beta值的beta列，我已将其压缩成一行/单元格(来自一个基因中多个变体产生多个beta的变体水平).β是基因在一定条件下可能具有的效应大小，因此大的负值和大的正值都很重要.我正在尝试编写选择一个基因的最大负β值或最大正β值的代码，截取值分别为-0.5和0.5. 我要编写的规则如下: 如果一个基因/行的值小于-0.5，且 ..

发布时间：2021-04-15 19:47:18 r dplyr conditional-statements bioinformatics 其他开发

在miniconda环境中找不到模块错误Bio

我将bio python安装为 pip install biopython 以及 conda install -c conda-forge biopython .我在站点包中看到了.由于某些原因，存在 Bio 依赖性.如何解决这种依赖性? 键入“帮助"，“版权"，“信用"或“许可证"以获取更多信息.>>>进口生物>>>bio .__ version__'1.75'>>>来自bio impo ..

发布时间：2021-04-15 19:47:15 python pip bioinformatics biopython miniconda Python

查询区域内的基因

我想检索一系列区域中存在的基因.说，我有一个带有查询位置的床文件，例如: 1 2665697 4665777 MIR2011 10391435 12391516 MIR5001 15106831 17106911 MIR1221 23436535 25436616 MIR2341 23436575 25436656 MIR488 我想得到属于那些区域的基因. 我尝试使用 biomaR ..

发布时间：2021-04-15 19:47:12 r bioinformatics bioconductor biomart 其他开发

从PDB文件中仅提取我们需要的链

我需要从PDB文件中提取特定的链(不止一个链).如何从PDB文件提取链?.这是相同的问题，并带有“已标记"答案，回答了我的问题.但是它在python 3中不起作用.它一个接一个地给出错误.有人知道我该如何在python 3中工作吗? 或任何其他针对相同类型问题的代码谢谢. import os来自Bio import PDBChainSplitter类:def __init __( ..

发布时间：2021-04-15 19:47:09 python-3.x bioinformatics biopython 其他开发

如何按升序对我最常用的3聚体列表进行排序?

我正在编写代码，以找出DNA序列中最常见的3聚体.我编写了一个代码，计算一个3聚体的出现，如果它大于1，则该代码会记录字符串和出现的次数. 这给了我一个本质上多余的清单.我想对列表进行排序，这样我在列表中只会看到每个3聚体一次. 下面是编写的代码: int main(){char dna [1000];字符读取[3] = {0}；char most_freq [3];printf( ..

发布时间：2021-04-15 19:47:06 c++ c bioinformatics C/C++开发

bioinformatics相关内容