科研成果

当前位置: 首页  -  科学研究  -  科研成果  -  正文

金哲侬团队在GCB发表特邀综述讨论“知识引导机器学习”在全球变化生态学中的应用

发布日期:2026年02月24日    点击:[]

面对全球变化带来的复杂挑战,生态学研究正处于从观测描述向精准预测转型的关键期。传统的生态学建模主要依赖两种路径:一是基于物理、生物地球化学过程的机理模型,其优势在于具有明确的理论基础和科学解释力,但在处理复杂的时空参数化、表征不完善的过程或应对观测不足的区域时,往往面临较大的不确定性;二是数据驱动的统计模型或机器学习模型,擅长从海量数据中提取非线性关系,但由于缺乏对科学规律的遵循,它们在训练数据范围之外的预测能力往往较差。针对这些痛点,知识引导的机器学习(Knowledge-Guided Machine Learning; KGML)作为一种新兴研究范式应运而生。

近日,植被结构功能与建造全国重点实验室金哲侬研团队在《Global Change Biology》发表特邀综述,系统阐述了KGML在全球变化生态学研究中的应用场景与广阔前景。KGML的核心在于将生态学知识(如物理定律、生态化学计量学、种群互作关系等)整合到神经网络的设计、训练和推理过程中,使机器学习模型既具备数据驱动的灵活性,又满足科学规律的约束。这一混合建模(Hybrid Modeling)范式为理解和模拟全球变化下复杂的生态系统动态提供了强大工具,也对AI时代生态学的新知识发现具有至关重要的意义。

KGML的主要实现路径可归纳为四种策略(图1),包括:(1)知识引导的神经网络架构,如使用图神经网络(GNN)或递归神经网络(RNN)捕获时空依赖,或引入分层多任务学习结构,使模型能够显式地反映关键生态过程间的因果联系;(2)知识引导的预训练,即利用机理模型生成的仿真数据作为“专家先验”对神经网络参数进行初始化,降低对真实观测数据量的依赖,并加速训练过程的收敛;(3)知识引导的损失函数,即在机器学习模型的训练损失函数中加入约束项(如质量守恒定律和生态化学计量学经典结论等),对违背科学规律的预测结果进行惩罚,确保模型在训练过程中向符合物理一致性的方向优化;(4)知识引导的模型推理与同化,即将知识融入数据同化和表征学习的过程,以提升模型在稀疏或噪声数据下的预测准确性。

图1构建知识引导机器学习模型的主要技术路径(a)及典型案例(b, c).

在应用层面,KGML展示了跨越多个维度的变革性潜力(图2)。在前向预测中,KGML显著提升了全球净生态系统交换(NEE)、温室气体通量及河网径流等复杂指标的模拟精度,同时降低了外推预测的偏差。在反向建模中,KGML能够提升传统反演方法对多源卫星光谱数据或LiDAR点云数据的表征能力,从而更准确地反演植被功能性状(如LAI、Vcmax)和结构特征。此外,结合强化学习,KGML已被应用于农田精准灌溉、水库调度等决策支持系统,并通过虚拟环境中的情景预演,为可持续管理提供科学依据。而符号回归(Symbolic Regression)的复兴,正在助力科学家从数据中提炼简洁、可解释的数学表达式,从而促进新的生态学规律发现。

图2知识引导学习在全球变化生态学研究中的应用场景.

展望未来,KGML的演进将为构建生态大模型(Ecological Foundation Model)奠定坚实的范式基础,即在统一的预训练框架下,整合“空-天-塔-地”观测、文本记录、甚至声学和嗅觉等多源、多模态数据,同时将跨尺度的生态学理论深度嵌入模型底层,使其具备强大的因果推理能力和跨任务的迁移性。实现这一宏大愿景需要生态学家和计算机科学家深度开展跨学科协作,突破“异参同效(Equifinality)”诊断、知识与数据贡献的动态平衡,以及跨尺度过程耦合等技术瓶颈,最终构建应对生物多样性丧失和气候风险、推动全球可持续发展的强力工具。

论文链接:

https://onlinelibrary.wiley.com/doi/abs/10.1111/gcb.70742

作者信息:

金哲侬研究员为论文的第一作者和通讯作者;方精云院士、陶胜利研究员,康奈尔大学骆亦其教授,明尼苏达大学Vipin Kumar教授、刘李成助理教授,德国马普生物地球化学研究所MarkusReichstein教授、Martin Jung博士、杨琦博士,以及来自美国伊利诺伊大学、匹兹堡大学、劳伦斯伯克利国家实验室、丹麦奥胡斯大学等机构的科研人员为本文合作者。本研究得到了国家自然科学基金、植被全重重大任务项目的资助。