甲基化芯片注释中的CpG shores, open sea 是什么

在甲基化芯片中,对于CpG位点所在的区域,会有对应的注释信息,比如CpG islandsCpG island是基因组上一段CpG位点密度较高的区域,这个概念是非常常见的 ,出了CpG island 之外,还会有CpG shores, CpG  shelves, open sea等情况,这些区域又是如何定义的呢?

有一篇文章详细评估了 450K芯片所检测的CpG位点在人类基因组的分布

Validation of a DNA methylation microarray for 450,000 CpG sites in the human genome

文章从以下几个方面评估了探针的分布情况

在各条染色体上的分布

可以看到450K芯片上的探针覆盖了22条常染色体和两条性染色体上的CpG位点,其中1号染色体上对应的探针最多

甲基化芯片注释中的CpG shores, open sea 是什么

在对应的转录本上的分布

CpG位点可能位于基因间区Intergenic, 也可能位于基因上,而这个基因可以是编码基因,也可以是非编码基因。

可以看到,位于编码基因上的探针最多,其次是位于基因间区的探针

甲基化芯片注释中的CpG shores, open sea 是什么

在基因组上的分布

将整个基因组划分为Promoter, Body,  3UTR, Intergenic 4种区域,其中Promoter区又细分为TSS200,  TSS1500, 5UTR, ‘1stExon’ 4种情况。
可以看到,位于Pronoter区的探针最多

甲基化芯片注释中的CpG shores, open sea 是什么

在各种CpG区域的分布

CpG shores等概念是根据与CpG island的距离进行定义的。
CpG Shores 指的是位于CpG island上下游2kb 以内的区域;CpG Shelves指的是位于CpG shores 上下游2kb以内的区域;open sea指的是CpG islands, CpG shores, CpG shelves之外的其他区域。

可以看到,位于open sea的探针是最多的。

甲基化芯片注释中的CpG shores, open sea 是什么