如何使用awk计算蛋白质序列中特定残基的总数? [英] How to calculate the total number of specific residues in protein sequences using awk?

查看:97
本文介绍了如何使用awk计算蛋白质序列中特定残基的总数?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我有一些蛋白质序列.我想计算每个序列中A和L残基的总数.

>p1
ALASDEKI
>p2
KLHMNA
>p3
GQMLAALM

所需的输出

ptn   A+L

p1     3
p2     2
p3     4

我怎么用awk做到这一点?

解决方案

文件中的记录跨多行.因此,您可以使用awk -v RS=''选项.

命令

sed 's/>/\n/' input |
    awk -vRS='' -vOFS='\t' '
        BEGIN{
            print "ptn","A+L"
        }
        {
            gsub(/[^AL]/,"",$2)
            print $1,length($2)
        }'

输出

ptn A+L
p1  3
p2  2
p3  4

I have some protein sequences. I would like to calculate the the total number of A and L residues in each sequence.

>p1
ALASDEKI
>p2
KLHMNA
>p3
GQMLAALM

Desired output

ptn   A+L

p1     3
p2     2
p3     4

How can I do this with awk?

解决方案

Records in your file span to multiple lines. So you can use awk -v RS='' option.

command

sed 's/>/\n/' input |
    awk -vRS='' -vOFS='\t' '
        BEGIN{
            print "ptn","A+L"
        }
        {
            gsub(/[^AL]/,"",$2)
            print $1,length($2)
        }'

output

ptn A+L
p1  3
p2  2
p3  4

这篇关于如何使用awk计算蛋白质序列中特定残基的总数?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆