统计基础和序列算法

贝叶斯公式及其生物学应用

通常,事件A在事件B发生的条件下发生的概率,与事件B在事件A发生的条件下发生的概率是不一样的。然而,这两者是有确定的关系的,贝叶斯公式就是描述这种条件关系概率的公式。

贝叶斯公式的应用

贝叶斯方法在蛋白质耐热性分类中的应用。

二元预测的灵敏度和特异度

生物学中灵敏度和特异度的应用

富亮氨酸重复序列的预测。

基本序列算法

序列算法

为研究生物序列而开发出的计算复杂度尽可能低的算法。比如,如何从序列中快速准确的找到重复序列。

生物序列

包括核酸序列,蛋白质序列或其他由生物问题转化而来的数字串或字符串。

后缀树

后缀就是包含这个序列最后一个字符的子序列。

构建后缀树

统计基础和序列算法
图 1 后缀树

 

使用后缀树

功能1:查找字符串s是否在字符串S中

从树根开始,与s的字符逐一比对。

功能2:查找字符串s在字符串S中的重复次数

从树根开始,按照功能1的方法找到s,然后看s之后有几片树叶,则重复了几次。

功能3:找字符串S中的最长重复子序列

找到从树根到所有节点(非叶片)的子字符串,从中找到最长的。

最高分子序列

统计基础和序列算法
图 2 最高分子序列