新闻列表
哈工大SCIR 8篇长文被 COLING 2025录用
哈尔滨工业大学社会计算与信息检索研究中心有8篇长文被COLING 2025录用。
今天,哈工大再获国家表彰!
哈尔滨工业大学社会计算与信息检索研究中心博士毕业生曲咏措姆创办的“曲拥措姆志愿服务工作室”荣获全国民族团结进步模范集体。
今天,哈工大再获国家表彰!
哈尔滨工业大学社会计算与信息检索研究中心博士毕业生曲咏措姆创办的“曲拥措姆志愿服务工作室”荣获全国民族团结进步模范集体。哈工大SCIR 9篇论文被 NeurIPS 2024录用
神经信息处理系统大会(NeurlPS)是机器学习领域最权威的会议之一,是中国计算机学会推荐的 A 类会议。哈尔滨工业大学社会计算与信息检索研究中心有9篇论文被录用,其中2篇被接收为oral,1篇被接收为spotlight。
哈工大SCIR 9篇论文被 NeurIPS 2024录用
神经信息处理系统大会(NeurlPS)是机器学习领域最权威的会议之一,是中国计算机学会推荐的 A 类会议。哈尔滨工业大学社会计算与信息检索研究中心有9篇论文被录用,其中2篇被接收为oral,1篇被接收为spotlight。哈工大SCIR 14篇长文被EMNLP 2024主会/Findings录用
EMNLP是自然语言处理领域顶级国际会议之一,CCF B类会议。哈尔滨工业大学社会计算与信息检索研究中心有14篇长文被录用,其中7篇被主会录用,7篇被Findings of EMNLP录用。
哈工大SCIR 14篇长文被EMNLP 2024主会/Findings录用
EMNLP是自然语言处理领域顶级国际会议之一,CCF B类会议。哈尔滨工业大学社会计算与信息检索研究中心有14篇长文被录用,其中7篇被主会录用,7篇被Findings of EMNLP录用。哈工大发布“珠算”代码大模型
目前开源代码大模型提升编程能力的同时会严重损害通用语言能力。为此,哈工大赛尔实验室推出了“珠算”代码大模型,以2.7B参数在代码与通用语言平均性能上超越了3B及以下代码大模型,希望通过开放权重、训练细节及微调适配平台与插件,助力开源社区发展
哈工大发布“珠算”代码大模型
目前开源代码大模型提升编程能力的同时会严重损害通用语言能力。为此,哈工大赛尔实验室推出了“珠算”代码大模型,以2.7B参数在代码与通用语言平均性能上超越了3B及以下代码大模型,希望通过开放权重、训练细节及微调适配平台与插件,助力开源社区发展哈工大开源“活字3.5”对话大模型
哈工大社会计算与信息检索研究中心(HIT-SCIR)发布了活字3.5对话大模型,新版模型在中英文知识、数学推理、代码生成、指令遵循能力、内容安全性等诸多方面实现了性能提升。我们希望该开源项目能够有助于推动自然语言处理技术的研究和应用。
哈工大开源“活字3.5”对话大模型
哈工大社会计算与信息检索研究中心(HIT-SCIR)发布了活字3.5对话大模型,新版模型在中英文知识、数学推理、代码生成、指令遵循能力、内容安全性等诸多方面实现了性能提升。我们希望该开源项目能够有助于推动自然语言处理技术的研究和应用。哈工大SCIR车万翔教授当选ACL 2025程序委员会主席
近日,国际计算语言学学会(Association for Computational Linguistics, ACL)选举产生了第63届ACL学术年会程序委员会主席,哈工大社会计算与信息检索研究中心车万翔教授成功当选。
哈工大SCIR车万翔教授当选ACL 2025程序委员会主席
近日,国际计算语言学学会(Association for Computational Linguistics, ACL)选举产生了第63届ACL学术年会程序委员会主席,哈工大社会计算与信息检索研究中心车万翔教授成功当选。新闻 | 第三届HIT-SCIR&THUNLP&FudanNLP学术联谊会成功举办
2024年7月17日,第三届哈尔滨工业大学社会计算与信息检索研究中心(HIT-SCIR)、清华大学自然语言处理与社会人文计算实验室(THUNLP)、复旦大学自然语言处理实验室(FudanNLP)三校学术联谊会于哈尔滨成功举办。
新闻 | 第三届HIT-SCIR&THUNLP&FudanNLP学术联谊会成功举办
2024年7月17日,第三届哈尔滨工业大学社会计算与信息检索研究中心(HIT-SCIR)、清华大学自然语言处理与社会人文计算实验室(THUNLP)、复旦大学自然语言处理实验室(FudanNLP)三校学术联谊会于哈尔滨成功举办。赛尔笔记 | 大模型上下文长度扩展中的检索增强技术简述
基于Transformer的语言模型在众多自然语言处理任务上都取得了十分优异的成绩,在一些任务上已经达到SOTA的效果。但是,经过预训练后,模型能够较好处理的序列长度就固定下来。而当前的众多场景往往需要处理很长的上下文(如:大的代码仓库、书...
赛尔笔记 | 大模型上下文长度扩展中的检索增强技术简述
基于Transformer的语言模型在众多自然语言处理任务上都取得了十分优异的成绩,在一些任务上已经达到SOTA的效果。但是,经过预训练后,模型能够较好处理的序列长度就固定下来。而当前的众多场景往往需要处理很长的上下文(如:大的代码仓库、书...赛尔原创@COLING24 |即插即用!自动提取领域相关特征提升泛化能力
现有的跨域文本分类方法往往忽视了领域感知特征的重要性,只关注提取领域不变特征或任务无关特征。我们提出的自监督蒸馏方法通过在目标域中利用未标记数据来捕获领域感知特征,从而提高模型在目标域上的性能。