生物信息学的话题概述:
1) 大分子信息
2) 基因组的组织和表达
3) 基因组信息(数据库)的获得
4) DNA序列,结构,分析
5) RNA序列,结构,分析
6) 蛋白质和蛋白质家族
从计算机科学的角度,DNA是一个由4个字符组成的字符串,ACTGGTCAA……
DNA的基础:
ACGT四种碱基,A-Adenine腺嘌呤,C-Cytosine胞嘧啶,G-Guanine鸟嘌呤,T-Thymine胸腺嘧啶,是一种含氮的环状结构。
核苷是由碱基加上糖组成,糖分为脱氧核糖deoxyrubose和核糖ribose两种,前者出现在DNA中,后者出现在RNA中。
核苷酸是由核苷加上磷酸盐组成。
在RNA中,胸腺嘧啶T被尿苷Uridine取代。
DNA是一种双螺旋结构:
嘧啶Pyrimidines:较小,包括T和C, 嘌呤Purines:较大,包括A和G
两两配对,A-T(2根氢键,较弱),G-c(3根氢键,较强)
命名系统Nomenclature:扩展的核苷酸字符
单核苷酸:{A},{C},{G},{T}
任何:N={A,C,G,T}
嘌呤,嘧啶:Y={C,T}, R={A,G}
弱键/强键:W={A,T}, R={C,G}
氨基Amino/酮类keto:M={A,C}, K={G,T}
V={A,C,G}, H={A,C,T}, D={A,G,T}, B={C,G,T}
标准的序列如:TTAAACNGCSNTTT
字符表的大小为2pow4-1=15
DNA结构:
主结构:序列型,有方向的
次结构:沃森-克里克Watson-Crick双螺旋模型
高阶结构:三维超螺旋结构
DNA信息流,DNA是蓝图,蛋白质负责工作
DNA->RNA 转录, RNA->Protein 翻译
每一部都有预处理,还包括一些控制:
蛋白质控制:催化剂,抑制剂,调制器
级串联,暂时控制等等
基因和蛋白质:
基因是一系列的DNA用来编码蛋白质的,蛋白质做了大部分细胞内的工作
一个蛋白质内有3个DNA碱基
基因组有很多基因(已经被解码的),还有很多没有被翻译的片段
DNA信息:
DNA是蓝图,人类的DNA大约有3*10pow9个碱基,大部分(>90%)还没有被编码,大部分的 DNA(>30%)是重复的,展开大概有1米厂,组成部分随着不同的器官和物种而不同。
压缩:
压缩是一种将信息尽量精炼的办法。它包括:模型和方法。有些时候模型是十分有用的,即使没有编码。无损耗的压缩支持精确的原始序列还原。
模型和熵:
DNA的模型包括:
E.coli: p(T) = p(C) = p(A) = p(G) = 0.25, G+C=50%, 每一种碱基都是同等可能性
P.falciparum: p(A) = p(T) = 0.4, p(C) = p(G) = 0.1, G+C = 20%,不等的碱基比例,信息量小
信息理论允许我们测量混乱和不确定性的程度
熵是用来测量信息的:H=- <!– /* Font Definitions */ @font-face {font-family:宋体; panose-1:2 1 6 0 3 1 1 1 1 1; mso-font-alt:SimSun; mso-font-charset:134; mso-generic-font-family:auto; mso-font-pitch:variable; mso-font-signature:3 135135232 16 0 262145 0;} @font-face {font-family:”Cambria Math”; panose-1:2 4 5 3 5 4 6 3 2 4; mso-font-charset:0; mso-generic-font-family:roman; mso-font-pitch:variable; mso-font-signature:-1610611985 1107304683 0 0 159 0;} @font-face {font-family:Calibri; panose-1:2 15 5 2 2 2 4 3 2 4; mso-font-charset:0; mso-generic-font-family:swiss; mso-font-pitch:variable; mso-font-signature:-1610611985 1073750139 0 0 159 0;} @font-face {font-family:”\@宋体”; panose-1:2 1 6 0 3 1 1 1 1 1; mso-font-charset:134; mso-generic-font-family:auto; mso-font-pitch:variable; mso-font-signature:3 135135232 16 0 262145 0;} /* Style Definitions */ p.MsoNormal, li.MsoNormal, div.MsoNormal {mso-style-unhide:no; mso-style-qformat:yes; mso-style-parent:”"; margin:0cm; margin-bottom:.0001pt; text-align:justify; text-justify:inter-ideograph; mso-pagination:none; font-size:10.5pt; mso-bidi-font-size:11.0pt; font-family:”Calibri”,”sans-serif”; mso-ascii-font-family:Calibri; mso-ascii-theme-font:minor-latin; mso-fareast-font-family:宋体; mso-fareast-theme-font:minor-fareast; mso-hansi-font-family:Calibri; mso-hansi-theme-font:minor-latin; mso-bidi-font-family:”Times New Roman”; mso-bidi-theme-font:minor-bidi; mso-font-kerning:1.0pt;} .MsoChpDefault {mso-style-type:export-only; mso-default-props:yes; mso-bidi-font-family:”Times New Roman”; mso-bidi-theme-font:minor-bidi;} .MsoPapDefault {mso-style-type:export-only; text-align:justify; text-justify:inter-ideograph;} /* Page Definitions */ @page {mso-page-border-surround-header:no; mso-page-border-surround-footer:no;} @page Section1 {size:595.3pt 841.9pt; margin:72.0pt 90.0pt 72.0pt 90.0pt; mso-header-margin:42.55pt; mso-footer-margin:49.6pt; mso-paper-source:0; layout-grid:15.6pt;} div.Section1 {page:Section1;} –>
∑i(Pi * log2pi),当所有的概率均等的时候H的值最大,也就意味着不知道接下来会发生什么。
H(E.coli) = 2.0, H(P.falciparum) = 1.7
编码:常见的三种方法Huffman编码,LZ编码和Arithemetic编码。
1)Huffman编码:
静态编码,利用树的模型,每一个符号都是一个单独的树叶,将最小可能性的两个树叶合并,形成树,然后在剩下的节点中再选择,反复,直到树中的所有节点都是叶子为止。用0表示左,1表示右来区分路径。
缺点:需要给每一个节点赋值,当可能性是2的整数倍时比较好
2) Arithmetic压缩编码
允许存在部分的位,压缩类似于entropy,很难更好
3)LZ编码
适应性的,储存了前面可见字符的移动窗口,当重复足够长的时候指向原来的复件,节省了子字符串的输出成本。
缺点:最小的重复长度来完成压缩可能比模体还要大,在生物中,大部分的重复是近似的,需要更复杂的模型来表示重复。
用处:平均位数和基数在重复区域会下降-因为表示了更少的信息
信息理论在基因组学中:
DNA是由一串字符组成
压缩率(熵)测量的一串字符中的信息
用来:定位重复/相似的序列,相关的基因,相同器官或者伪基因
在比较序列前过滤掉低信息区域
从不同器官中提取DNA
在DNA中找到不同的区域
序列,结构和方法:
所有的大分子都包括序列,结构和方法
生物信息学的很重要的一部分就是找到以上三者之间的联系,从一个预测另外一个,发现关系,接口数据库
RNA结构:
主结构:序列,次结构:2维,第三结构:3维
蛋白质结构:
主结构:序列,次结构:双螺旋,片状,环状,第三结构:3维