Genomics复习(4) — DNA序列比较2
1. BLAST是一种局部比对的搜索工具,采用了Heuristic方法。包括BLASTN, BLAST2, BLASTP, PSI-BLAST, TBLASTN…..
BLAST找到潜在匹配的种子:数据库索引话,将长度为W的字符拼版话,在数据库中寻找匹配(DNA-完全匹配,蛋白质-找到比阈值高的);扩展潜在匹配;评估潜在匹配;检测和评估最后的匹配:利用Smith-Waterman局部比对算法,决定匹配的数据重要性
2. 低复杂区域:
基因组中包括低复杂区域,如重复的小片段(引物),高A-T区域(或其他有线的碱基),这些区域的匹配通常不明显,最好能在进行BLAST处理前屏蔽掉。
SEG:一种检测低信息区域的算法,利用信息理论,参数决定了粒度和力度。
1)检测低复杂区域,2)局部优化,尖锐边界
3. BLAST输出分数
S:DPA查询分数
Z:随机化查询序列多次,利用不同的比对
P:一个或多个序列的分数>=S的几率,p可以通过z计算出来
E:期望的序列分数>=S的数目,E=P*数据库的大小
4. Dotplots
比较两个序列,滑动窗口W,阈值T,比较窗口内的字符,计算窗口内的匹配数目,如果数目大于阈值则加上一个点
5. 多序列比对
打分方法:SP-成对数目,一致性(星形):一个序列是其他序列的祖先,信息理论:最小熵,树形(渐进比对),图形
This entry was posted on Sunday, May 24th, 2009 at 6:24 pm and is filed under 生物 . You can follow any responses to this entry through the RSS 2.0 feed. Both comments and pings are currently closed.



