FASTA格式

Fasta格式是保存序列最常见的格式之一。

Fasta格式的起始标识符为“>”，后面紧跟相应的描述；下面就是一行一行的序列，严格来讲，每一行最好不要超过80个字符，序列中的回车符不会影响序列的连续性及程序对序列的处理。

示例Fasta格式如下：

>gi|532319|pir|TVFV2E|TVFV2E envelope protein
ELRLRYCAPAGFALLKCNDADYDGFKTNCSNVSVVHCTNLMNTTVTTGLLLNGSYSENRT
QIWQKHRTSNDSALILLNKHYNLTVTCKRPGNKTVLPVTIMAGLVFHSQKYNLRLRQAWC
HFPSNWKGAWKEVKEEIVNLPKERYRGTNDPKRIFFQRQWGDPETANLWFNCHGEFFYCK
MDWFLNYLNNLTVDADHNECKNTSGTKSGNKRAPGPCVQRTYVACHIRSVIIWLETISKK
TYAPPREGHLECTSTVTGMTVELNYIPKNRTNVTLSPQIESIWAAELDRYKLVEITPIGF
APTEVRRYTGGHERQKRVPFVXXXXXXXXXXXXXXXXXXXXXXVQSQHLLAGILQQQKNL
LAAVEAQQQMLKLTIWGVK

序列由标准的IUB/IUPAC氨基酸和核酸代码代表。例外情况包括：允许小写字符的存在，但会转换成大写；单个“-”号代表不明长度的空位；在氨基酸序列里允许出现“U”和“*”号。任何数字都应该被去掉或换成字母(如，不明核酸用“N”表示，不明氨基酸用“X”表示)。

对于核酸序列，除了为大家所熟知的A、C、G、T、U外，R代表G或A（嘌呤）；Y代表T或C（嘧啶）；K代表G或T（带酮基）；M代表A或C（带氨基）；S代表G 或C（强）；W代表A或T（弱）；B代表G、T或C；D代表G、A或T；H代表A、C或T；V代表G、C或A；N代表A、G、C、T中任意一种。（见下表）
A –> adenosine

C –> cytidine

G –> guanine

T –> thymidine

U –> uridine

R –> G A (purine)

Y –> T C (pyrimidine)

K –> G T (keto)

M –> A C (amino)

S –> G C (strong)

W –> A T (weak)

B –> G T C

D –> G A T

H –> A C T

V –> G C A

N –> A G C T (any)

– gap of indeterminate length

对于氨基酸序列，除了20种常见氨基酸的标准单字符标识之外，B代表Asp或Asn；U代表硒代半胱氨酸；Z代表Glu或Gln；X代表任意氨基酸；”*”代表翻译结束标志。（见下表）
A alanine

B aspartate or asparagine

C cystine

D aspartate

E glutamate

F phenylalanine

G glycine

H histidine

I isoleucine

K lysine

L leucine

M methionine

N asparagine

P proline

Q glutamine

R arginine

S serine

T threonine

U selenocysteine

V valine

W tryptophan

X any

Y tyrosine

Z glutamate or glutamine

* translation stop

– gap of indeterminate length

扩展阅读：
FASTA format description
Fasta格式的详细说明（柳城博客）
Fasta格式的详细说明（流浪云南）

Yixf's blog

Face to Fate in Dream.

FASTA格式

相关

Follow Yixf's blog