bioinformatics相关内容

如何根据R中另一个文件的多个条件选择文件行?

我有2个遗传数据集.我根据file2中的列过滤file1.但是,我还需要考虑file2中的第二列,并且不确定如何执行此操作. 文件1行提取的条件是,仅选择具有比文件2中同一染色体上的变体的任何染色体位置大5000倍以上或小于5000倍的染色体位置的行. 例如,我的数据如下: 文件1: Variant Chromsome Chromosome Position V ..
发布时间:2020-09-21 03:26:13 其他开发

Snakemake和Pandas语法:从样本表中获取样本特定参数

首先,这可能是 Snakemake和pandas语法的副本.但是,我仍然很困惑,所以我想再次解释. 在Snakemake中,我加载了带有几列的示例表.其中一列称为"Read1",其中包含特定于样本的读取长度.我想分别为每个样本获取此值,因为它可能有所不同. 我期望的是这样的: rule mismatch_profile: input: rseqc_inpu ..
发布时间:2020-09-21 03:26:10 其他开发

R,biocLite,安装DESeq2时出错

几天来我一直在尝试安装DESeq2进行一些分析. R和biocLite是最新的,尝试运行 时遇到权限错误 biocLite("DESeq2") 我收到的大部分都是好消息,但最后我得到了: 1: In install.packages(pkgs = pkgs, lib = lib, repos = repos, ...) : installation of package ‘XML ..
发布时间:2020-09-21 03:26:06 其他开发

HGNC基因名称的基因座标

我想使用Bioconductor的GenomicFeatures和TxDb.Hsapiens.UCSC.hg19.knownGene R软件包从清单中获取人类基因的坐标(由hgnc基因id组成). library(TxDb.Hsapiens.UCSC.hg19.knownGene) txdb=(TxDb.Hsapiens.UCSC.hg19.knownGene) my_genes = c( ..
发布时间:2020-09-21 03:26:00 其他开发

Python:多个共识序列

从dna序列列表开始,我必须返回所有可能的共识(结果是 每个位置的核苷酸频率最高的序列).如果在某些位置,核苷酸具有 在相同的最高频率下,我必须获得所有具有最高频率的组合. 我还必须返回配置文件矩阵(每个序列每个核苷酸的频率矩阵). 到目前为止,这是我的代码(但它仅返回一个共识序列): seqList = ['TTCAAGCT','TGGCAACT','TTGGATCT','TAGCA ..
发布时间:2020-09-21 03:25:56 Python

无法从R的sva库运行ComBat脚本

我试图在具有2个批处理的数据集上运行ComBat脚本,但是由于我是R新手,因此出现错误,并且我不知道如何检查代码. 我以这种方式运行ComBat方法: # Load sva library(sva) # Read expression values dat = read.table('dataset.xls', header=TRUE, sep='\t') # Read sample ..
发布时间:2020-09-21 03:24:37 其他开发

计算文件中某个三联体的数量(DNA密码子分析)

这个问题实际上是用于DNA密码子分析的,简而言之,假设我有一个像这样的文件: atgaaaccaaag ... 我想计算此文件中存在的"aaa"三元组的数量.重要的是,三元组从头开始(这意味着atg,aaa,cca,aag,...),因此在此示例中,结果应为1而不是2'aaa'. 有没有Python或Shellscript方法可以做到这一点?谢谢! 解决方案 首先读入文件 wi ..
发布时间:2020-09-21 03:24:34 Python

可以使用不同的路径/通配符定义snakemake输入规则

我想知道是否可以定义一种依赖于不同通配符的输入规则. 为了详细说明,我正在使用qsub在不同的fastq文件上运行此Snakemake管道,它将每个作业提交到不同的节点: 在原始fastq上使用fastqc-没有下游对其他作业的依赖 适配器/质量修整以生成修整后的fastq 在裁剪过的fastq上的fastqc_after(步骤2的输出),没有下游依赖性 修剪过的fastq上的s ..
发布时间:2020-09-21 03:23:26 其他开发

如何找到密码子的特定频率?

我正在尝试在R中创建一个函数,该函数可以计算每个密码子的频率. 我们知道蛋氨酸是一种氨基酸,它只能由一组密码子ATG形成,因此它在每组序列中的百分比为1.而甘氨酸可以由GGT,GGC,GGA,GGG形成,因此,每个密码子将为0.25. 输入将是DNA序列,如-ATGGGTGGCGGAGGG,并且借助密码子表,它可以计算输入中每​​次出现的百分比. 请通过建议实现此功能的方法来帮助我. ..
发布时间:2020-09-21 03:23:24 其他开发

从R中留一法获取p值

我有96个观察值(患者)和1098个变量(基因)的数据框.响应为二进制(Y和N),预测变量为数字.我正在尝试进行留一法交叉验证,但我的兴趣不是标准误差,而是从LOOCV创建的95个逻辑回归模型中的每个变量的p值.到目前为止,这是我的尝试: #Data frame 96 observations 1098 variables DF2 fit ..
发布时间:2020-09-21 03:22:19 其他开发

如何使bash脚本与另一个命令一起工作?

我有一个如下的bash脚本.首先,它将sorted.bam文件作为输入,并使用“字符串"工具将每个示例gtf作为输出.然后,将每个样本gtf的路径提供给mergelist.txt.然后对它们使用"stringtie merge"来获取"stringtie_merged.gtf". 我总共有40个sort.bam文件. for sample in /path/*.sorted.bam d ..
发布时间:2020-09-21 03:22:15 服务器开发

如何通过提取特定行来制作变量?

我有以下类似的数据,其中基因名称(例如ABCB9)中包含SNP名称(rs号或c#_pos#).在名为c#_pos000000的SNP中,#的范围是1到22(染色体数) ABCB9 rs11057374 rs7138100 c22_pos41422393 rs12309481 END ABCC10 rs1214748 END HDAC9 rs9285 ..
发布时间:2020-09-21 03:22:13 其他开发