LARG(LA-Reasoning-Group)小组
推理大模型是指通过多步逻辑推理以解决复杂推理问题,它能够帮助人们完成大量的需要复杂逻辑推断的任务,如解决复杂数学问题、编写竞赛级代码等。近年来,推理大模型的研究主要分为三个阶段:(1)分析推理机理,以理解推理能力的涌现来源、行为规律与运行机制,从而指导推理的优化;(2)增强推理技术,以优化推理能力的逻辑深度,思维广度与适度反思,从而促进推理的应用;(3)拓展推理应用,以满足推理能力的广泛、快速与可靠应用,从而促进推理应用的最终落地。
推理机理
推理一直是认知科学、哲学和人工智能领域的核心议题。随着模型和工具的发展,研究者不断从逻辑学、神经科学和概率推理等角度探索推理的复杂性。尽管大语言模型在处理复杂任务时表现出了显著的推理能力,其推理机制仍未完全揭示,特别是在与人类推理路径的异同方面,仍有诸多未知。目前,大多数提示优化策略仍依赖经验,缺乏系统性的理论支撑。因此,构建一种统一且可量化的推理建模方法,既能深化我们对人类推理过程的理解,也能推动人工智能推理能力的发展,成为当前研究的关键挑战之一。
本组研究专注于
- 以系统性视角探索推理大模型的理论框架
- 以优美的数学公式揭示推理大模型的运行规律
- 以动态的视角分析推理大模型能力的起源
推理技术
近年来,传统监督微调的在推理大模型中面临瓶颈:监督微调依赖大量标注数据且其泛化能力有限。在此背景下,强化学习凭借其自主探索和奖励驱动的特性成为突破的方向。例如,DeepSeek-R1-Zero仅仅通过强化学习训练,使数学推理的准确率从15.6%跃升至71%。强化学习不仅能够规避数据标注的高成本,还通过试错机制激发模型的“顿悟时刻”,如自发调整推理路径以提高答案的准确性。这一特点为推理能力的自我进化提供了新的范式。因此,如何建立一种更高效、准确的推理训练方法,成为当前研究的关键挑战之一。
本组研究专注于
- 如何更高效地激发推理大模型的性能
- 如何增强推理大模型的推理能力
- 如何平衡推理训练的效率与性能提升
推理应用
随着推理大模型在任务规划与推理能力方面的不断提升,如何在现有模型基础上实现高效且合理的推理,已成为研究领域的热点问题。部分研究已开始将推理大模型应用于多语言、多模态等多种场景。然而,在应用过程中,推理速度慢和可靠性差的问题依然存在。因此,如何扩展推理应用,以实现推理能力的广泛、快速和可靠应用,进而推动其实际落地,已成为当前研究的关键挑战之一。
本组研究专注于
- 提升推理大模型的推理速度;
- 扩展推理大模型的应用场景;
- 增强推理大模型应用的可靠性。