FASTA格式

Fasta格式是保存序列最常见的格式之一。

Fasta格式的起始标识符为“>”,后面紧跟相应的描述;下面就是一行一行的序列,严格来讲,每一行最好不要超过80个字符,序列中的回车符不会影响序列的连续性及程序对序列的处理。

示例Fasta格式如下:

>gi|532319|pir|TVFV2E|TVFV2E envelope protein
ELRLRYCAPAGFALLKCNDADYDGFKTNCSNVSVVHCTNLMNTTVTTGLLLNGSYSENRT
QIWQKHRTSNDSALILLNKHYNLTVTCKRPGNKTVLPVTIMAGLVFHSQKYNLRLRQAWC
HFPSNWKGAWKEVKEEIVNLPKERYRGTNDPKRIFFQRQWGDPETANLWFNCHGEFFYCK
MDWFLNYLNNLTVDADHNECKNTSGTKSGNKRAPGPCVQRTYVACHIRSVIIWLETISKK
TYAPPREGHLECTSTVTGMTVELNYIPKNRTNVTLSPQIESIWAAELDRYKLVEITPIGF
APTEVRRYTGGHERQKRVPFVXXXXXXXXXXXXXXXXXXXXXXVQSQHLLAGILQQQKNL
LAAVEAQQQMLKLTIWGVK

序列由标准的IUB/IUPAC氨基酸和核酸代码代表。例外情况包括:允许小写字符的存在,但会转换成大写;单个“-”号代表不明长度的空位;在氨基酸序列里允许出现“U”和“*”号。任何数字都应该被去掉或换成字母(如,不明核酸用“N”表示,不明氨基酸用“X”表示)。

对于核酸序列,除了为大家所熟知的A、C、G、T、U外,R代表G或A(嘌呤);Y代表T或C(嘧啶);K代表G或T(带酮基);M代表A或C(带氨基);S代表G 或C(强);W代表A或T(弱);B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、G、C、T中任意一种。(见下表)
A –> adenosine

C –> cytidine

G –> guanine

T –> thymidine

U –> uridine

R –> G A (purine)

Y –> T C (pyrimidine)

K –> G T (keto)

M –> A C (amino)

S –> G C (strong)

W –> A T (weak)

B –> G T C

D –> G A T

H –> A C T

V –> G C A

N –> A G C T (any)

– gap of indeterminate length

对于氨基酸序列,除了20种常见氨基酸的标准单字符标识之外,B代表Asp或Asn;U代表硒代半胱氨酸;Z代表Glu或Gln;X代表任意氨基酸;”*”代表翻译结束标志。(见下表)
A alanine

B aspartate or asparagine

C cystine

D aspartate

E glutamate

F phenylalanine

G glycine

H histidine

I isoleucine

K lysine

L leucine

M methionine

N asparagine

P proline

Q glutamine

R arginine

S serine

T threonine

U selenocysteine

V valine

W tryptophan

X any

Y tyrosine

Z glutamate or glutamine

* translation stop

– gap of indeterminate length

扩展阅读:
FASTA format description
Fasta格式的详细说明(柳城博客)
Fasta格式的详细说明(流浪云南)