技术资源

开源项目

Abacus

珠算大模型在代码与通用语言平均性能上超过一众3B以下代码大模型,且开源权重、训练细节以及配套的微调适配平台与插件助力开源社区发展。

Chinese-Mixtral-8x7B

本项目基于Mistral发布的模型Mixtral-8x7B进行了中文扩词表增量预训练,希望进一步促进中文自然语言处理社区对MoE模型的研究。

LTP

LTP 提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。

社区资源

LA-beginner

旨在帮助你快速学习NLP基础知识,并对LA相关的研究方向有一个大体的认识。

DA

在这个 repo 中,我们根据增强数据的多样性将 DA 方法分为三类,包括释义、噪声和采样,并列举了不同数据增强的方法。

Task-Oriented Dialog Research Progress

帮助使用者快速掌握对话任务进展脉络、常用资源以及SOTA方法的集合 (1000+ stars on Github)

A Survey on Spoken Language Understanding: Recent Advances and New Frontiers

SLU领域的论文、代码、数据集、排行榜等