从一件小事看NCBI数据库的维护

今天在写程序把mRNA的检索号(NM_*)对应到基因名的时候,有几行老是报错。经手工检索查找,发现是一个“NM_028968”检索号无法正常找到相应的基因名。奇怪了,其他检索号没问题,怎么这一个就如此“特立独行”呢?本着求根问底的精神,在NCBI中检索了一下“NM_028968”,结果顶部的警示让我大吃一惊:

Record removed. NM_028968.2: This RefSeq was permanently suppressed because currently there is insufficient support for the transcript, which includes a large amount of intronic and repetitive sequence.

看到这一句,终于明白为什么程序会报错了。仅有mRNA检索号的文件是我一个月之前下载的,而有mRNA检索号和基因名对应关系的文件则是昨天刚刚下载的,两个文件(都下载自UCSC Tables)的时间戳不一样,而碰巧的是期间数据库中的个别条目有了修正。

估计这就是所谓的“无巧不成书”吧。不过从这件小事也可以看出,NCBI、UCSC等数据库的维护人员还是很勤奋负责的嘛,赞一个!