如何使用awk计算蛋白质序列中特定残基的总数? [英] How to calculate the total number of specific residues in protein sequences using awk?
本文介绍了如何使用awk计算蛋白质序列中特定残基的总数?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
>p1
ALASDEKI
>p2
KLHMNA
>p3
GQMLAALM
所需的输出
ptn A+L
p1 3
p2 2
p3 4
我怎么用awk做到这一点?
解决方案
文件中的记录跨多行.因此,您可以使用awk -v RS=''
选项.
命令
sed 's/>/\n/' input |
awk -vRS='' -vOFS='\t' '
BEGIN{
print "ptn","A+L"
}
{
gsub(/[^AL]/,"",$2)
print $1,length($2)
}'
输出
ptn A+L
p1 3
p2 2
p3 4
I have some protein sequences. I would like to calculate the the total number of A and L residues in each sequence.
>p1
ALASDEKI
>p2
KLHMNA
>p3
GQMLAALM
Desired output
ptn A+L
p1 3
p2 2
p3 4
How can I do this with awk?
解决方案
Records in your file span to multiple lines. So you can use awk -v RS=''
option.
command
sed 's/>/\n/' input |
awk -vRS='' -vOFS='\t' '
BEGIN{
print "ptn","A+L"
}
{
gsub(/[^AL]/,"",$2)
print $1,length($2)
}'
output
ptn A+L
p1 3
p2 2
p3 4
这篇关于如何使用awk计算蛋白质序列中特定残基的总数?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文