【技术应用】黄金搭档出击!ATAC-seq+RNA-seq,1+1>2的基因表达调控解析能力
在生命科学研究中基因表达调控始终是核心研究点从细胞增殖分化到疾病发生发展从个体发育成熟到衰老凋亡每一个生命过程的背后都隐藏着基因表达的精密调控网络。随着高通量测序技术的飞速迭代单一组学研究已难以满足我们对基因调控机制的深度探索需求多组学联用趋势日益增加。比如ATAC-seq与RNA-seq的联合应用就像为我们配备了“双重视角”既能窥探染色质开放状态的“调控蓝图”又能捕捉基因表达的“动态快照”二者相辅相成、协同发力是解析基因表达调控机制的黄金搭档。一、ATAC-seq技术介绍ATAC-seqAssay for Transposase-Accessible Chromatin using sequencing即染色质转座酶可及性测序是2013年由斯坦福大学William J. Greenleaf和Howard Y. Chang实验室开发的表观组学技术其核心是利用Tn5转座酶的“剪切-粘贴”特性检测染色质的开放区域。一核心原理染色质的开放程度决定了转录因子等调控因子能否结合到DNA上进而启动基因转录。在开放的染色质区域DNA没有被核小体紧密包裹Tn5转座酶可以随机结合并切割这些区域的DNA同时将测序接头插入切割位点而在关闭的染色质区域异染色质DNA被核小体紧密包裹Tn5转座酶无法进入无法进行切割。通过对切割后的DNA片段进行高通量测序和生物信息学分析就能定位全基因组范围内的染色质开放区域Peak进而识别启动子、增强子、转录因子结合位点等调控元件。Tn5转座酶具有“转座随机性好、稳定性高、插入位点易测序”的优势这也是ATAC-seq技术灵敏度高、重复性好的关键。与传统的DNase-seq、FAIRE-seq等染色质可及性检测技术相比ATAC-seq的细胞起始量更低实验流程更简便耗时更短因此被广泛应用于各类细胞和组织的研究中。图 Tn5酶原理Buenrostro et al., 2013。二关键技术点ATAC-seq实验的成功离不开对细节的严格把控而这也是伯远医学的核心技术优势所在。我们重点梳理三个关键环节一是细胞活率。ATAC-seq尽量使用活细胞对细胞活性要求高。死细胞的DNA与组蛋白结合脱离会形成游离DNATn5转座酶会随意切割这些游离DNA导致测序结果出现大量假阳性Peak干扰实验结论。伯远医学在实验中会严格筛选细胞同时根据样品类型新鲜细胞、冷冻细胞、组织样本采用不同的处理方式增加提核处理。二是提核纯度。细胞核的分离纯化是ATAC-seq实验的核心步骤之一尤其是对于复杂动物组织如脂肪细胞、内脏细胞线粒体干扰、细胞碎片等都会影响实验结果。伯远医学拥有领先的活性细胞核分离纯化技术结合流式分选能有效去除细胞碎片和杂质提升提核纯度。三是细胞量与酶的比例。细胞量与Tn5转座酶的比例失衡会导致实验失败细胞过少、酶过多会造成过度切割测序结果异常细胞过多、酶过少会导致切割不充分原本应检测到的开放区域无法被测出。伯远医学的技术团队拥有10年专业经验会根据样品类型和细胞量精准调整酶的用量同时设置至少2个生物学重复最好3个避免假阳性结果确保实验的重复性和可靠性。三核心生信分析流程ATAC-seq的生信分析核心是从测序数据中筛选出有意义的染色质开放区域并解析其功能主要包括以下步骤1数据质控Clean对原始测序数据进行过滤去除低质量reads、接头序列、重复序列确保数据质量2基因组比对Map将质控后的reads比对到参考基因组统计比对率、唯一比对率3Peak Calling通过生物信息学工具如MACS2识别染色质开放区域Peak并统计Peak的长度、分布和数量等4Peak注释对Peak进行基因组注释明确其位于启动子、增强子、外显子、内含子还是基因间区5Motif分析通过Motif分析识别Peak区域中富集的转录因子结合基序预测可能发挥作用的转录因子6功能注释分析进行功能富集分析关联相关信号通路。图 ATAC测序转座反应及文库制备示意图Grandi et al., 2022。图 ATAC-seq生信分析流程。二、联合应用对于RNA-seq而言其核心优势是精准检测全基因组范围内mRNA的表达水平筛选差异表达基因DEGs进而分析基因功能富集、信号通路变化。但RNA-seq只能反映结果基因是否表达、表达量多少却无法解释原因为什么有的基因表达上调有的基因表达下调是染色质构象发生了变化还是转录因子结合异常这些上游调控信息RNA-seq无法直接提供。仅依靠RNA-seq的结果无法构建完整的调控通路研究结论也会缺乏说服力。ATAC-seq的核心优势的是检测全基因组范围内染色质的可及性即开放性找到转录因子结合位点TFBS、增强子、启动子等调控元件揭示染色质构象的动态变化。但ATAC-seq只能反映调控潜力某一区域染色质开放意味着该区域可能有转录因子结合具备转录调控的条件但无法确定这种潜力是否真正转化为实际表达开放区域对应的基因是否真的表达表达量如何是否存在“染色质开放但基因不表达”或“染色质关闭但基因异常表达”的情况这些信息ATAC-seq无法单独回答。通过联合分析可以明确调控-表达的因果关系。ATAC-seq找到差异开放的染色质区域差异PeakRNA-seq找到差异表达基因通过生物信息学分析将差异Peak与差异表达基因进行关联就能明确哪些染色质开放区域的变化导致了哪些基因的表达差异从而构建“染色质开放→转录因子结合→基因表达”的调控链路。还可以筛选关键调控因子与核心基因。通过联合分析我们可以快速锁定既有染色质开放变化又有表达差异的核心基因同时结合ATAC-seq的Motif分析找到调控这些核心基因的关键转录因子为后续功能验证提供明确的研究靶点避免盲目筛选。另外可以提升研究深度与文章说服力。在高分文章中单一技术的研究往往难以满足评审要求而ATAC-seqRNA-seq的联合应用能从表观调控和转录表达两个层面全面解析研究对象的分子机制让研究结论更严谨、更全面提升文章的学术价值。三、案例分析一ATAC-seqRNA-seq联合解析甘南牦牛与犏牛背最长肌的基因调控差异牦牛是青藏高原特有的畜种犏牛是牦牛与黄牛的杂交后代其生长性能显著优于牦牛但两者背最长肌生长发育的分子调控机制差异尚未明确。团队采用ATAC-seqRNA-seq联合技术对甘南牦牛M组和犏牛P组的背最长肌组织进行研究揭示了染色质可及性差异介导的肌肉生长调控机制。图 Tn5酶原理Buenrostro et al., 2013。1、实验设计研究对象甘南牦牛M1、M2、犏牛P1、P2每组2个生物学重复样品类型背最长肌组织实验技术ATAC-seq、RNA-seq研究目的筛选两者背最长肌组织中差异开放的染色质区域和差异表达基因明确染色质可及性与肌肉生长发育的关联揭示犏牛生长性能优于牦牛的分子机制。2、联合分析过程第一步样品处理与实验遵循组织样品处理标准分离背最长肌组织后立即液氮速冻避免RNA降解和染色质结构破坏。ATAC-seq实验中采用活性细胞核分离技术去除细胞碎片和线粒体干扰确保提核纯度RNA-seq实验中提取高完整性RNARIN值≥8.0构建文库并进行Illumina高通量测序伯远医学可高效完成此类动物组织样品的处理和测序实验。第二步单独生信分析ATAC-seq分析数据质控后比对到牦牛参考基因组LU_Bosgru_v3.0。Peak Calling后共识别出1771个牦牛特异性Peak、4021个犏牛特异性Peak、14977个共同Peak与牦牛相比犏牛有8575个上调DARs、1088个下调DARs。Peak注释显示犏牛启动子区域Peak占比5.565%高于牦牛3.426%且犏牛ATAC-seq信号强度显著高于牦牛提示启动子区域染色质开放可能促进肌肉生长相关基因表达。RNA-seq分析筛选出2663个差异表达基因其中犏牛上调2584个、下调79个。功能富集分析显示上调基因主要富集在肌肉适应负调控、细胞器组织调控、代谢过程等通路其中Hippo信号通路肌肉生长关键通路显著富集与犏牛生长性能优于牦牛的特征高度一致。第三步联合关联分析将DARs与DEGs进行关联获得大量“差异Peak-差异基因”关联对这些关联基因主要参与肌肉生长发育相关通路。Motif分析Homer软件显示犏牛上调DARs中显著富集Mef2家族成员、ARE、bZIP50等TF结合基序这些TF均为肌肉生长发育的关键调控因子下调DARs中富集TFE3、BIM3等基序可能参与肌肉生长的负调控。第四步核心调控机制解析结合联合分析结果明确犏牛背最长肌中Mef2家族等TF结合基序所在区域染色质开放程度显著升高促进其靶基因肌肉生长相关基因表达同时Hippo信号通路激活共同推动肌肉生长发育而牦牛中这些区域染色质开放程度较低相关基因表达受抑制导致生长性能较弱。第五步验证实验通过qPCR验证了关键DEGs和TF的表达水平与RNA-seq和ATAC-seq结果一致证实了联合分析结论的可靠性。图 ATAC-seq和RNA-seq联合分析的结果Zhao et al., 2024。 (A) ATAC-seq和RNA-seq鉴定的差异表达基因的维恩图。 (B) 重叠差异基因的GO富集分析。红色代表生物过程绿色代表细胞成分蓝色代表分子功能。 (C) 重叠差异基因的KEGG富集分析。(D) FOXO1、CFL2、CRY2和ZBED6基因中ATAC-seq和RNA-seq信号的可视化显示。 (E) 基因和转录因子 (TF) 之间的相互作用网络图。绿色椭圆代表 TF。菱形代表基因红色代表上调基因黄色代表下调基因。3、研究结论通过ATAC-seqRNA-seq的联合应用首次揭示了甘南牦牛与犏牛背最长肌生长发育差异的分子机制明确了染色质可及性差异尤其是启动子区域通过调控Mef2家族TF及其靶基因表达影响肌肉生长发育同时验证了Hippo信号通路的核心作用。二ATAC-seqRNA-seq联合解析人胰腺α、β细胞的基因调控特征及糖尿病关联机制胰腺α细胞分泌胰高血糖素和β细胞分泌胰岛素是维持血糖稳态的核心内分泌细胞其功能异常与糖尿病的发生密切相关。研究采用ATAC-seqRNA-seq联合技术对人胰腺α细胞、β细胞及腺泡细胞进行系统研究首次解析了不同胰腺细胞亚型的染色质可及性特征挖掘了细胞特异性签名基因及转录调控机制同时关联糖尿病风险位点为糖尿病的发病机制研究及治疗靶点筛选提供了重要依据。1、实验设计研究对象人胰腺α细胞、β细胞、腺泡细胞样品类型分选纯化的α细胞、β细胞、腺泡细胞每组设置生物学重复单独分选并进行转座酶反应实验技术ATAC-seq检测染色质可及性、RNA-seq检测基因表达水平联合ChIP-seqH3K4me3、H3K27me3、H2A.Z、FAIRE-seq、免疫荧光染色、GWAS位点分析等研究目的绘制人胰腺α、β细胞的染色质开放图谱筛选细胞特异性签名基因解析染色质可及性与基因表达的关联挖掘关键转录调控因子关联糖尿病风险位点揭示α细胞向β细胞转分化的表观遗传基础。2、联合分析过程第一步样品处理与实验从人类胰腺组织中分选纯化α细胞、β细胞及腺泡细胞同时采用活性细胞核分离技术去除细胞碎片和线粒体干扰提升提核纯度。RNA-seq实验中提取高完整性RNARIN值≥8.0构建文库后采用Illumina高通量测序平台测序。第二步单独生信分析ATAC-seq分析按照标准流程进行数据质控、基因组比对、Peak CallingMACS2共识别出近40000个内分泌特异性Peak仅存在于α、β细胞不存在于腺泡细胞其中α细胞特异性Peak约27000个β细胞特异性Peak仅1850个提示α细胞的染色质开放程度显著高于β细胞。与已发表的全胰岛FAIRE-seq数据相比ATAC-seq检测到更多染色质开放区域及关联基因且信号更精准ATAC-seq可检测到其启动子及内含子区的α细胞特异性Peak而FAIRE-seq信号宽泛无法识别这些特异性区域。Peak分布分析显示大多数ATAC-seq Peak位于转录起始位点TSS250bp内且α、β细胞特异性Peak的启动子区域富集度显著高于整体基因组同时部分Peak位于内含子和基因间区提示其可能作为增强子发挥作用。RNA-seq分析筛选α细胞与β细胞的差异表达基因其中α细胞中显著高表达的基因有785个β细胞中显著高表达的基因若干进一步筛选出33个α细胞特异性签名基因和35个β细胞特异性签名基因其中包括已知的细胞标志基因同时发现28个未被报道过的α细胞新签名基因和22个β细胞新签名基因。第三步联合关联分析将ATAC-seq筛选的差异Peak与RNA-seq筛选的差异表达基因进行关联发现78%的α细胞差异表达基因均有对应的α细胞特异性开放染色质区域而仅41%的β细胞差异表达基因有对应的β细胞特异性开放染色质区域提示染色质开放状态对α细胞基因激活的预测作用优于β细胞。同时发现仅5%的α细胞特异性Peak和12%的β细胞特异性Peak映射到差异表达基因印证了基因激活依赖多调控区域包括远端调控元件的观点。第四步Motif分析与转录因子预测对α、β细胞特异性Peak进行Motif分析发现α细胞开放区域显著富集FOX家族、ISL1、MAFB等已知α细胞关键转录因子的结合基序同时富集FRA1、TFAP4、CTCF等新的潜在转录调控因子β细胞开放区域则富集FRA1、TFAP4、FOX家族及SMAD2介导TGF-β信号参与胰腺内分泌细胞发育的结合基序这些转录因子的表达均通过RNA-seq数据得到验证。其中CTCF在α细胞中的富集提示其可能通过作为转录绝缘子调控PAX6表达维持α细胞特性。第五步验证与延伸分析通过免疫荧光染色验证了α细胞新签名基因GC维生素D结合蛋白和β细胞新签名基因CHODL软骨凝集素的细胞特异性表达与RNA-seq和ATAC-seq结果一致GWAS位点分析发现2个2型糖尿病风险位点rs7732130、rs7903146位于内分泌特异性开放染色质区域另有11个2型糖尿病风险位点靠近细胞特异性开放区域其中6个为α细胞特异性提示α细胞功能异常可能与2型糖尿病发病相关。图 将ATAC-seq数据与新型α、β细胞基因的mRNA-seq、组蛋白标记、FAIRE-seq和转录因子结合数据整合Ackermann et al., 2016。3、研究结论通过ATAC-seqRNA-seq的联合应用首次绘制了人胰腺α、β细胞的染色质开放图谱明确了α细胞染色质开放程度显著高于β细胞筛选出多个细胞特异性新签名基因揭示了染色质可及性差异对α、β细胞基因表达的调控作用挖掘出CTCF、SMAD2等新的潜在转录调控因子关联糖尿病风险位点提示α细胞功能异常可能参与2型糖尿病发病。参考文献[1] Grandi F C, Modi H, Kampman L, et al. Chromatin accessibility profiling by ATAC-seq[J].Nature protocols,2022, 17(6): 1518-1552.[2] Buenrostro J D, Giresi P G, Zaba L C, et al. Transposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin, DNA-binding proteins and nucleosome position[J].Nature methods,2013, 10(12): 1213-1218.[3] Zhao Z, Guo D, Wei Y, et al. Integrative ATAC-seq and RNA-seq analysis of the longissimus Dorsi muscle of Gannan yak and Jeryak[J].International Journal of Molecular Sciences, 2024, 25(11): 6029.[4] Ackermann A M, Wang Z, Schug J, et al. Integration of ATAC-seq and RNA-seq identifies human alpha cell and beta cell signature genes[J].Molecular metabolism,2016, 5(3): 233-244.[5] Bai Y, Deng X, Chen D, et al. Integrative analysis based on ATAC-seq and RNA-seq reveals a novel oncogene PRPF3 in hepatocellular carcinoma[J].Clinical Epigenetics,2024, 16(1): 154.