安全对齐小组

安全对齐小组隶属于赛尔实验室语言分析组,聚焦于复杂专业场景下的指令对齐与潜在安全性问题,深入典型应用场景开展研究。在此过程中,我们注重在专业性、便捷性与安全性之间寻求平衡,推动大模型能力矩阵向专业自动化与安全可信方向持续稳健进化。研究小组关注以下核心方向:

  1. 专业场景复杂推理框架:构建适用于跨领域、多步骤任务的推理机制,提升模型在复杂专业需求下的响应能力与执行效果。
  2. 自动数据治理:构建数据采集、生成与筛选的自动流程,确保数据高质量、低噪声,并满足多任务适配需求。
  3. 自动架构设计:结合任务需求自动生成与优化模型结构,提升大模型在专业任务与特定需求下的适应性与表现力。
  4. 安全评估:研究如何构建自动化评估框架,以系统检测模型的内容安全(如有害信息生成)和对抗性安全(如提示注入攻击)。同时,探索模型安全行为的可解释性方法,确保其决策过程透明、可追溯。
  5. 安全对齐:研究模型在常规和对抗场景下的安全对齐方法,并针对智能体和强推理模型优化对齐技术。

该小组与外部优势科研机构具有长期联合培养计划。欢迎对大模型安全对齐技术感兴趣的研究者及同学加入!