bioinformatics 第5页 - IT屋-程序员软件开发技术分享社区

如何根据R中另一个文件的多个条件选择文件行?

我有2个遗传数据集.我根据file2中的列过滤file1.但是，我还需要考虑file2中的第二列，并且不确定如何执行此操作. 文件1行提取的条件是，仅选择具有比文件2中同一染色体上的变体的任何染色体位置大5000倍以上或小于5000倍的染色体位置的行. 例如，我的数据如下: 文件1: Variant Chromsome Chromosome Position V ..

发布时间：2020-09-21 03:26:13 r conditional-statements bioinformatics 其他开发

Snakemake和Pandas语法:从样本表中获取样本特定参数

首先，这可能是 Snakemake和pandas语法的副本.但是，我仍然很困惑，所以我想再次解释. 在Snakemake中，我加载了带有几列的示例表.其中一列称为"Read1"，其中包含特定于样本的读取长度.我想分别为每个样本获取此值，因为它可能有所不同. 我期望的是这样的: rule mismatch_profile: input: rseqc_inpu ..

发布时间：2020-09-21 03:26:10 bioinformatics snakemake 其他开发

R，biocLite，安装DESeq2时出错

几天来我一直在尝试安装DESeq2进行一些分析. R和biocLite是最新的，尝试运行时遇到权限错误 biocLite("DESeq2") 我收到的大部分都是好消息，但最后我得到了: 1: In install.packages(pkgs = pkgs, lib = lib, repos = repos, ...) : installation of package ‘XML ..

发布时间：2020-09-21 03:26:06 r bioinformatics bioconductor 其他开发

查找该核苷酸序列的多个匹配

我想查找ATG ... TAG或ATG ... TAA的所有事件.我尝试了以下方法: #!/usr/bin/perl use warnings; use strict; my $file = ('ATGCCCCCCCCCCCCCTAGATGAAAAAAAAAATAAATGAAAAATAGATGCCCCCCCCCCCCCCC'); while($file =~ /((?=(ATG\w+? ..

发布时间：2020-09-21 03:26:03 regex perl bioinformatics 其他开发

HGNC基因名称的基因座标

我想使用Bioconductor的GenomicFeatures和TxDb.Hsapiens.UCSC.hg19.knownGene R软件包从清单中获取人类基因的坐标(由hgnc基因id组成). library(TxDb.Hsapiens.UCSC.hg19.knownGene) txdb=(TxDb.Hsapiens.UCSC.hg19.knownGene) my_genes = c( ..

发布时间：2020-09-21 03:26:00 r bioinformatics bioconductor 其他开发

Python:多个共识序列

从dna序列列表开始，我必须返回所有可能的共识(结果是每个位置的核苷酸频率最高的序列).如果在某些位置，核苷酸具有在相同的最高频率下，我必须获得所有具有最高频率的组合. 我还必须返回配置文件矩阵(每个序列每个核苷酸的频率矩阵). 到目前为止，这是我的代码(但它仅返回一个共识序列): seqList = ['TTCAAGCT','TGGCAACT','TTGGATCT','TAGCA ..

发布时间：2020-09-21 03:25:56 python bioinformatics rosalind Python

如何有条件地计数和记录样本是否出现在另一个数据集的行中?

我有一个ID的遗传数据集(数据集1)和一个相互交互的ID数据集(数据集2).我正在尝试对数据集1中的ID进行计数，该ID出现在数据集2的2个交互列中的任意一个中，并且还要记录在第3列中的交互/匹配ID. 数据集1: ID 1 2 3 数据集2: Interactor1 Interactor2 1 5 2 3 ..

发布时间：2020-09-21 03:24:51 r count data.table bioinformatics 其他开发

我如何下载只有登录号的整个GenBank文件?

我有一个完整的登录号数组，我想知道是否有一种方法可以使用BioPerl自动保存genbank文件.我知道您可以获取序列信息，但是我想要整个GenBank记录. #!/usr/bin/env perl use strict; use warnings; use Bio::DB::GenBank; my @accession; open (REFINED, "./refine.txt") || ..

发布时间：2020-09-21 03:24:48 perl bioinformatics bioperl 其他开发

使用biomart的lapply问题

在提取所有人类基因时，我试图用lapply更改物种名称. 我仍在学习如何使用lapply，我无法弄清自己做错了什么. 到目前为止，我有: library(biomaRt) 我创建了集市: ensembl_hsapiens ..

发布时间：2020-09-21 03:24:44 r bioinformatics lapply biomart 其他开发

如何返回正确匹配的数组?

我有一个函数，它需要一串DNA以及如何返回正确匹配的dna数组我尝试过的代码: function checkDNA(dna) { var dnaarr = []; for(var i = 0; i ..

发布时间：2020-09-21 03:24:40 javascript typescript bioinformatics 前端开发

无法从R的sva库运行ComBat脚本

我试图在具有2个批处理的数据集上运行ComBat脚本，但是由于我是R新手，因此出现错误，并且我不知道如何检查代码. 我以这种方式运行ComBat方法: # Load sva library(sva) # Read expression values dat = read.table('dataset.xls', header=TRUE, sep='\t') # Read sample ..

发布时间：2020-09-21 03:24:37 r bioinformatics bioconductor 其他开发

计算文件中某个三联体的数量(DNA密码子分析)

这个问题实际上是用于DNA密码子分析的，简而言之，假设我有一个像这样的文件: atgaaaccaaag ... 我想计算此文件中存在的"aaa"三元组的数量.重要的是，三元组从头开始(这意味着atg，aaa，cca，aag，...)，因此在此示例中，结果应为1而不是2'aaa'. 有没有Python或Shellscript方法可以做到这一点?谢谢！解决方案首先读入文件 wi ..

发布时间：2020-09-21 03:24:34 python shell bioinformatics Python

Makefile-samtools安装失败

我正在尝试在openSUSE上安装samtools，我这样做是 cd htslib-1.2.1 ./configure make install 工作正常. bcftools-1.2 ./configure make install 工作正常. 对于samtools: cd samtools-1.2 make install 产生此输出: /usr ..

发布时间：2020-09-21 03:24:32 makefile installation bioinformatics samtools bcftools 其他开发

Snakemake-从输入文件动态导出目标

我有很多这样的输入文件: data/ ├── set1/ │ ├── file1_R1.fq.gz │ ├── file1_R2.fq.gz │ ├── file2_R1.fq.gz │ ├── file2_R2.fq.gz | : │ └── fileX_R2.fq.gz ├── another_set/ │ ├── asdf1_R1.fq.gz │ ├── ..

发布时间：2020-09-21 03:23:30 python python-3.x bioinformatics snakemake Python

可以使用不同的路径/通配符定义snakemake输入规则

我想知道是否可以定义一种依赖于不同通配符的输入规则. 为了详细说明，我正在使用qsub在不同的fastq文件上运行此Snakemake管道，它将每个作业提交到不同的节点: 在原始fastq上使用fastqc-没有下游对其他作业的依赖适配器/质量修整以生成修整后的fastq 在裁剪过的fastq上的fastqc_after(步骤2的输出)，没有下游依赖性修剪过的fastq上的s ..

发布时间：2020-09-21 03:23:26 shell bioinformatics snakemake qsub 其他开发

如何找到密码子的特定频率?

我正在尝试在R中创建一个函数，该函数可以计算每个密码子的频率. 我们知道蛋氨酸是一种氨基酸，它只能由一组密码子ATG形成，因此它在每组序列中的百分比为1.而甘氨酸可以由GGT，GGC，GGA，GGG形成，因此，每个密码子将为0.25. 输入将是DNA序列，如-ATGGGTGGCGGAGGG，并且借助密码子表，它可以计算输入中每次出现的百分比. 请通过建议实现此功能的方法来帮助我. ..

发布时间：2020-09-21 03:23:24 r bioinformatics dna-sequence 其他开发

将文本文件转换为Plink PED和MAP格式

我有以下数据(一小部分)名为"short2_pre_snp_tumor.txt" rs987435 C G 1 1 1 0 2 rs345783 C G 0 0 1 0 0 rs955894 G ..

发布时间：2020-09-21 03:22:22 python bioinformatics Python

从R中留一法获取p值

我有96个观察值(患者)和1098个变量(基因)的数据框.响应为二进制(Y和N)，预测变量为数字.我正在尝试进行留一法交叉验证，但我的兴趣不是标准误差，而是从LOOCV创建的95个逻辑回归模型中的每个变量的p值.到目前为止，这是我的尝试: #Data frame 96 observations 1098 variables DF2 fit ..

发布时间：2020-09-21 03:22:19 r bioinformatics cross-validation 其他开发

如何使bash脚本与另一个命令一起工作?

我有一个如下的bash脚本.首先，它将sorted.bam文件作为输入，并使用“字符串"工具将每个示例gtf作为输出.然后，将每个样本gtf的路径提供给mergelist.txt.然后对它们使用"stringtie merge"来获取"stringtie_merged.gtf". 我总共有40个sort.bam文件. for sample in /path/*.sorted.bam d ..

发布时间：2020-09-21 03:22:15 linux bash shell bioinformatics 服务器开发

如何通过提取特定行来制作变量?

我有以下类似的数据，其中基因名称(例如ABCB9)中包含SNP名称(rs号或c#_pos#).在名为c#_pos000000的SNP中，#的范围是1到22(染色体数) ABCB9 rs11057374 rs7138100 c22_pos41422393 rs12309481 END ABCC10 rs1214748 END HDAC9 rs9285 ..

发布时间：2020-09-21 03:22:13 r bioinformatics 其他开发

bioinformatics相关内容