TAD中的拓扑关联结构域分析是怎样的

TAD中的拓扑关联结构域分析是怎样的,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。

利用更低分辨率的Hi-C基因组互作图谱,科学家对染色质空间结构的了解不断深入。主要介绍TAD这种结构,TAD全称如下

Topologically Assocaited Domain

中文译作拓扑关联结构域,是一种首先在哺乳动物细胞中发现的染色质结构单元,对应的文章发表在nature上,文章标题如下

Topological Domains in Mammalian Genomes Identified by Analysis of Chromatin Interactions

pubmed的链接如下

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3356448/

将Hi-C基因组互作图谱的分辨率提高到100kb以下,发现了互作图谱中出现了一些self-interaction的区域,示意如下

TAD中的拓扑关联结构域分析是怎样的

基因组互作图谱本质是一个对称矩阵,对角线两侧的信息是相等的。上图中只取了原始方阵中对角线一侧的信息,所以看上去是一个大的三角形,三角形的底边对应的是原始方阵中的对角线部分。

在上图中,互作强度由弱到强,单元格的颜色由白色过渡到红色。可以看到,在底边出重复出现了一些小的三角形区域,这些区域内部几乎全部是红色,说明这些区域内部的染色质片段间的互作频率高,这样的区域称之为self-interaction区域,而相邻的三角形区域间的互作频率较低,如下图所示

TAD中的拓扑关联结构域分析是怎样的

红色三角形区域对应TAD内部区域的互作信息,而黑色区域对应TAD之间的互作信息。呈现到三角形的互作图谱上,对应的就是底边上有很多红色的小三角形,而三角形对应的互作区域则都为白色,科学家将这种重复出现的内部互作频率高,组间互作频率低的domain定义为topologically assocaited domain, 简称TAD,对应下图中的模型

TAD中的拓扑关联结构域分析是怎样的

A和B对应两个TAD, 在TAD之间存在了一个边界,称之为TAD  doundary。为了准确地识别染色质中的TAD,定义了一种directionality index的统计量,简称DI,公式如下

TAD中的拓扑关联结构域分析是怎样的
将分辨率降低到40kb,对于每个40kb的bin来说,A代表这个bin与上游2MB区域的互作reads, B代表这个bin与下游2MB区域的互作reads,E代表A和B的均值,采用类似卡方检验统计量的算法。空假设是这个bin与上游和下游的互作频率相同。如果与上下游的互作频率一致,则DI的值趋近于0。如下图所示

TAD中的拓扑关联结构域分析是怎样的

可以看到从TAD的开始到终止,DI的值会有一个从正值逐渐减小到0,然后变为负值,在不断减小的情况。在TAD边界处,DI的值突然趋近于0,因为边界处与上下游的互作频率几乎相同,根据DI的这一分布规律,再结合隐马尔可夫模型,最终在小鼠胚胎干细胞中识别到了2200多个TAD区域,长度的平均值为880kb。

进一步分别对人和小鼠两种不同细胞系中的TAD进行识别和分析,发现TAD在不同细胞或者组织中相对稳定,在不同物种间也具有一定的保守性,结果如下图所示

TAD中的拓扑关联结构域分析是怎样的
TAD中的拓扑关联结构域分析是怎样的

为了进一步探究TAD在染色质上的分布特征,科学家分析了TAD边界内各种mark的分布情况。首先是CTCF,结果如下所示

TAD中的拓扑关联结构域分析是怎样的

发现在TAD边界处存在CTCF的富集,但并不是说所有的CTCF都集中出现在TAD边界处,所以进一步由探究了其他mark,包括各种组蛋白修饰等的分布,结果如下

TAD中的拓扑关联结构域分析是怎样的

发现H3K4me3,H3K36me3, TSS, SINE重复元件等都有富集。进一步分析了基因的分布情况,结果如下

TAD中的拓扑关联结构域分析是怎样的

发现管家基因在TAD边界处存在富集。

通过40kb分辨率的Hi-C互作图谱,鉴定到了TAD这种在哺乳动物中存在的相对稳定,且具有一定进化保守性的染色质结构单元。

看完上述内容,你们掌握TAD中的拓扑关联结构域分析是怎样的的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注行业资讯频道,感谢各位的阅读!