首页» 学院新闻

学院新闻

Nature Communications | 毕文健团队开发出分析基因-环境交互作用的GWAS新算法

近年来,全球范围内涌现了很多大型生物样本库(Biobank),为全基因组关联研究(GWAS)提供了重要的研究资源。基于电子健康记录,生物样本库的研究范畴已从传统的数量性状、质量性状拓展到结构更为复杂的数据形式。例如,生存数据表型既可以描述事件是否发生,也可以描述事件发生的时间;多分类表型可以更准确描述个体的健康、亚健康和疾病状态,比传统的二分类表型更全面和细致;在多时间点重复测量的数量性状常被称为纵向数据表型,其能够表征健康状况的动态演变规律。基于这些更复杂数据形式的表型数据进行GWAS可以更有效识别出与健康状况密切相关的遗传变异,为解析复杂性状的遗传结构提供全新视角。

基因环境交互作用(Gene-Environment Interaction, G×E)是指基因和环境因素共同作用于个体性状或疾病风险的现象。具体来说,基因的作用可能会因环境的不同而改变,而环境对个体的影响也可能因基因的差异而有所不同。针对大型生物样本库的全基因组基因-环境交互作用分析存在样本量大、表型分布不平衡、样本之间具有亲缘相关性、样本具有复杂的群体结构等实际困难。针对数量性状和质量性状,已有算法可以处理上述困难,比如毕文健等于2019年发表在遗传学顶级期刊American Journal of Human Genetics的SPAGE算法。但针对更复杂结构的数据形式,比如生存数据表型、多分类数据表型和纵向数据表型,仍缺乏有效的解决方案,这也导致基因-环境交互作用分析尚未得到充分发展。

2025年3月29日,北京大学基础医学院的毕文健团队与中国科学院数学与系统科学研究院张纪峰、赵延龙团队合作,在Nature Communications期刊发表工作Efficient and accurate framework for genome-wide gene-environment interaction analysis in large-scale biobanks。该工作提出了一个针对复杂数据结构表型的通用基因-环境作用分析框架SPAGxECCT,并基于数值模拟和UK Biobank实际数据分析验证了算法的有效性,找出了多个显著的具有基因-环境交互作用的遗传位点。



SPAGxECCT算法具有以下特性:1)用鞍点近似-正态分布分析混合策略,提升分析准确性的同时兼顾运算速度;2)适用于多种复杂数据结构表型(数量表型、质量表型、生存表型和多分类表型等)的分析;3)可扩展至SPAGxEmixCCT算法,适用于跨种族或混合人群的分析;4)可扩展至SPAGxEmixCCT-local算法,利用局部血统(local ancestry)以提升针对混合人群分析的统计效力;5)可扩展至SPAGxE+算法,适用于具有亲缘相关性样本的分析。R包可在网站下载(https://github.com/YuzhuoMa97/SPAGxECCT)。



北京大学基础医学院22级博士生马雨茁为本文的第一作者,北京大学基础医学院毕文健研究员为本文的通讯作者。中国科学院数学与系统科学研究院张纪峰研究员和赵延龙研究员是本项工作的主要贡献者。

原文链接:https://doi.org/10.1038/s41467-025-57887-3