Fasta格式是保存序列最常见的格式之一。
Fasta格式的起始标识符为“>”,后面紧跟相应的描述;下面就是一行一行的序列,严格来讲,每一行最好不要超过80个字符,序列中的回车符不会影响序列的连续性及程序对序列的处理。
示例Fasta格式如下:
>gi|532319|pir|TVFV2E|TVFV2E envelope protein
ELRLRYCAPAGFALLKCNDADYDGFKTNCSNVSVVHCTNLMNTTVTTGLLLNGSYSENRT
QIWQKHRTSNDSALILLNKHYNLTVTCKRPGNKTVLPVTIMAGLVFHSQKYNLRLRQAWC
HFPSNWKGAWKEVKEEIVNLPKERYRGTNDPKRIFFQRQWGDPETANLWFNCHGEFFYCK
MDWFLNYLNNLTVDADHNECKNTSGTKSGNKRAPGPCVQRTYVACHIRSVIIWLETISKK
TYAPPREGHLECTSTVTGMTVELNYIPKNRTNVTLSPQIESIWAAELDRYKLVEITPIGF
APTEVRRYTGGHERQKRVPFVXXXXXXXXXXXXXXXXXXXXXXVQSQHLLAGILQQQKNL
LAAVEAQQQMLKLTIWGVK
序列由标准的IUB/IUPAC氨基酸和核酸代码代表。例外情况包括:允许小写字符的存在,但会转换成大写;单个“-”号代表不明长度的空位;在氨基酸序列里允许出现“U”和“*”号。任何数字都应该被去掉或换成字母(如,不明核酸用“N”表示,不明氨基酸用“X”表示)。
对于核酸序列,除了为大家所熟知的A、C、G、T、U外,R代表G或A(嘌呤);Y代表T或C(嘧啶);K代表G或T(带酮基);M代表A或C(带氨基);S代表G 或C(强);W代表A或T(弱);B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、G、C、T中任意一种。(见下表)
A –> adenosine
C –> cytidine
G –> guanine
T –> thymidine
U –> uridine
R –> G A (purine)
Y –> T C (pyrimidine)
K –> G T (keto)
M –> A C (amino)
S –> G C (strong)
W –> A T (weak)
B –> G T C
D –> G A T
H –> A C T
V –> G C A
N –> A G C T (any)
– gap of indeterminate length
对于氨基酸序列,除了20种常见氨基酸的标准单字符标识之外,B代表Asp或Asn;U代表硒代半胱氨酸;Z代表Glu或Gln;X代表任意氨基酸;”*”代表翻译结束标志。(见下表)
A alanine
B aspartate or asparagine
C cystine
D aspartate
E glutamate
F phenylalanine
G glycine
H histidine
I isoleucine
K lysine
L leucine
M methionine
N asparagine
P proline
Q glutamine
R arginine
S serine
T threonine
U selenocysteine
V valine
W tryptophan
X any
Y tyrosine
Z glutamate or glutamine
* translation stop
– gap of indeterminate length
扩展阅读:
FASTA format description
Fasta格式的详细说明(柳城博客)
Fasta格式的详细说明(流浪云南)