获取基因组的子序列

  1. 下载基因组的序列,将此问题转换为“从Fasta文件中提取子序列”。【适用于单个或批量】

  2. 使用UCSC的galaxy【适用于单个或批量】

  3. 第一步:整理基因组坐标格式。
    把基因组坐标整理为如下格式,保存到一个纯文本文件中。

    chr10 275478 275489
    chr10 1032022 1032033

    切记:一定要使用制表符(Tab)作为分隔符。
    第二步:打开galaxy。
    galaxy
    也可以通过UCSC的主页进入。
    第三步:上传基因组坐标。
    点击“Get Data”将其打开,找到“Upload File”并点击。“File Format”选择“interval”,“File”上传刚才的纯文本文件(也可直接粘贴在“URL/Text”文本框中),”Genome“选择相应的基因组版本。点击“Execute”执行。
    第四步:获取序列。
    找到“Fetch Sequence”将其打开,点击“Extract Genomic DNA”。如无特别需要,直接点击“Execute”执行即可。
    注:貌似此方法提取出来的序列长度少1(问题出在序列的开头);敬请注意。

  4. 使用UCSC的DAS【适用于单个或少数几个】

  5. 直接在浏览器中输入:

    http://genome.ucsc.edu/cgi-bin/das/hg18/dna?segment=chr10:275478,275489

    即可。
    根据需要修改基因组版本(此处为hg18)和基因组坐标(此处为chr10:275478,275489)。

  6. 使用UCSC的DAS配合脚本处理【适用于单个或批量】

  7. Perl脚本(记得把后缀改为pl)