bioinformatics相关内容
我有2个遗传数据集.我根据file2中的列过滤file1.但是,我还需要考虑file2中的第二列,并且不确定如何执行此操作. 文件1行提取的条件是,仅选择具有比文件2中同一染色体上的变体的任何染色体位置大5000倍以上或小于5000倍的染色体位置的行. 例如,我的数据如下: 文件1: Variant Chromsome Chromosome Position V
..
首先,这可能是 Snakemake和pandas语法的副本.但是,我仍然很困惑,所以我想再次解释. 在Snakemake中,我加载了带有几列的示例表.其中一列称为"Read1",其中包含特定于样本的读取长度.我想分别为每个样本获取此值,因为它可能有所不同. 我期望的是这样的: rule mismatch_profile: input: rseqc_inpu
..
几天来我一直在尝试安装DESeq2进行一些分析. R和biocLite是最新的,尝试运行 时遇到权限错误 biocLite("DESeq2") 我收到的大部分都是好消息,但最后我得到了: 1: In install.packages(pkgs = pkgs, lib = lib, repos = repos, ...) : installation of package ‘XML
..
我想查找ATG ... TAG或ATG ... TAA的所有事件.我尝试了以下方法: #!/usr/bin/perl use warnings; use strict; my $file = ('ATGCCCCCCCCCCCCCTAGATGAAAAAAAAAATAAATGAAAAATAGATGCCCCCCCCCCCCCCC'); while($file =~ /((?=(ATG\w+?
..
我想使用Bioconductor的GenomicFeatures和TxDb.Hsapiens.UCSC.hg19.knownGene R软件包从清单中获取人类基因的坐标(由hgnc基因id组成). library(TxDb.Hsapiens.UCSC.hg19.knownGene) txdb=(TxDb.Hsapiens.UCSC.hg19.knownGene) my_genes = c(
..
从dna序列列表开始,我必须返回所有可能的共识(结果是 每个位置的核苷酸频率最高的序列).如果在某些位置,核苷酸具有 在相同的最高频率下,我必须获得所有具有最高频率的组合. 我还必须返回配置文件矩阵(每个序列每个核苷酸的频率矩阵). 到目前为止,这是我的代码(但它仅返回一个共识序列): seqList = ['TTCAAGCT','TGGCAACT','TTGGATCT','TAGCA
..
我有一个ID的遗传数据集(数据集1)和一个相互交互的ID数据集(数据集2).我正在尝试对数据集1中的ID进行计数,该ID出现在数据集2的2个交互列中的任意一个中,并且还要记录在第3列中的交互/匹配ID. 数据集1: ID 1 2 3 数据集2: Interactor1 Interactor2 1 5 2 3
..
我有一个完整的登录号数组,我想知道是否有一种方法可以使用BioPerl自动保存genbank文件.我知道您可以获取序列信息,但是我想要整个GenBank记录. #!/usr/bin/env perl use strict; use warnings; use Bio::DB::GenBank; my @accession; open (REFINED, "./refine.txt") ||
..
在提取所有人类基因时,我试图用lapply更改物种名称. 我仍在学习如何使用lapply,我无法弄清自己做错了什么. 到目前为止,我有: library(biomaRt) 我创建了集市: ensembl_hsapiens
..
我有一个函数,它需要一串DNA以及如何返回正确匹配的dna数组 我尝试过的代码: function checkDNA(dna) { var dnaarr = []; for(var i = 0; i
..
我试图在具有2个批处理的数据集上运行ComBat脚本,但是由于我是R新手,因此出现错误,并且我不知道如何检查代码. 我以这种方式运行ComBat方法: # Load sva library(sva) # Read expression values dat = read.table('dataset.xls', header=TRUE, sep='\t') # Read sample
..
这个问题实际上是用于DNA密码子分析的,简而言之,假设我有一个像这样的文件: atgaaaccaaag ... 我想计算此文件中存在的"aaa"三元组的数量.重要的是,三元组从头开始(这意味着atg,aaa,cca,aag,...),因此在此示例中,结果应为1而不是2'aaa'. 有没有Python或Shellscript方法可以做到这一点?谢谢! 解决方案 首先读入文件 wi
..
我正在尝试在openSUSE上安装samtools,我这样做是 cd htslib-1.2.1 ./configure make install 工作正常. bcftools-1.2 ./configure make install 工作正常. 对于samtools: cd samtools-1.2 make install 产生此输出: /usr
..
我有很多这样的输入文件: data/ ├── set1/ │ ├── file1_R1.fq.gz │ ├── file1_R2.fq.gz │ ├── file2_R1.fq.gz │ ├── file2_R2.fq.gz | : │ └── fileX_R2.fq.gz ├── another_set/ │ ├── asdf1_R1.fq.gz │ ├──
..
我想知道是否可以定义一种依赖于不同通配符的输入规则. 为了详细说明,我正在使用qsub在不同的fastq文件上运行此Snakemake管道,它将每个作业提交到不同的节点: 在原始fastq上使用fastqc-没有下游对其他作业的依赖 适配器/质量修整以生成修整后的fastq 在裁剪过的fastq上的fastqc_after(步骤2的输出),没有下游依赖性 修剪过的fastq上的s
..
我正在尝试在R中创建一个函数,该函数可以计算每个密码子的频率. 我们知道蛋氨酸是一种氨基酸,它只能由一组密码子ATG形成,因此它在每组序列中的百分比为1.而甘氨酸可以由GGT,GGC,GGA,GGG形成,因此,每个密码子将为0.25. 输入将是DNA序列,如-ATGGGTGGCGGAGGG,并且借助密码子表,它可以计算输入中每次出现的百分比. 请通过建议实现此功能的方法来帮助我.
..
我有以下数据(一小部分)名为"short2_pre_snp_tumor.txt" rs987435 C G 1 1 1 0 2 rs345783 C G 0 0 1 0 0 rs955894 G
..
我有96个观察值(患者)和1098个变量(基因)的数据框.响应为二进制(Y和N),预测变量为数字.我正在尝试进行留一法交叉验证,但我的兴趣不是标准误差,而是从LOOCV创建的95个逻辑回归模型中的每个变量的p值.到目前为止,这是我的尝试: #Data frame 96 observations 1098 variables DF2 fit
..
我有一个如下的bash脚本.首先,它将sorted.bam文件作为输入,并使用“字符串"工具将每个示例gtf作为输出.然后,将每个样本gtf的路径提供给mergelist.txt.然后对它们使用"stringtie merge"来获取"stringtie_merged.gtf". 我总共有40个sort.bam文件. for sample in /path/*.sorted.bam d
..
我有以下类似的数据,其中基因名称(例如ABCB9)中包含SNP名称(rs号或c#_pos#).在名为c#_pos000000的SNP中,#的范围是1到22(染色体数) ABCB9 rs11057374 rs7138100 c22_pos41422393 rs12309481 END ABCC10 rs1214748 END HDAC9 rs9285
..