部署小组

模型高效部署研究小组隶属于赛尔实验室语言分析组,专注于大语言模型的高效推理、量化压缩、边缘部署与分布式计算等关键技术研究。我们致力于探索前沿算法与系统优化方案,以提升大模型在实际应用中的可用性、性能与成本效益。研究小组关注以下核心方向:

  • 模型优化:研究低比特量化、剪枝、蒸馏等方法,降低大模型计算与存储开销。
  • 高效推理:优化推理框架与解码技术,加速模型在GPU、CPU及边缘设备上的运行。
  • 分布式与异构计算:探索模型并行化、通信优化及跨设备协同推理,提高大规模模型的可扩展性。
  • 应用落地:推动模型高效部署在低资源设备、智能助手、迷你智能体等领域的实践。

我们欢迎对模型优化与部署感兴趣的研究者及同学加入,共同推进大模型高效部署的创新研究!