新闻列表
赛尔原创@AAAI 2023 | BridgeTower- 在视觉语言表示学习中建立编码器间的桥梁
在本文中,我们提出了BridgeTower,它引入了多个BridgeLayer,在单模态编码器的顶层和跨模态编码器的每一层之间建立连接。这使得预训练单模态编码器中的不同语义层次的视觉和文本表示,通过BridgeLayer与跨模态表示进行融合,从而促进了跨模态编码器中,高效的,自下而上的跨模态对齐与融合。仅使用400万张图像进行视觉语言预训练,BridgeTower在各种下游的视觉-语言任务中取得了非常强大的性能。
赛尔原创@COLING 2022 | 融合自适应机制与自训练框架的无监督文本顺滑方法
在这项工作中,我们提出了一种基于Re-weighting的自适应无监督训练框架来更好的解决文本顺滑任务。我们通过引入词级别置信与句子级别判别信息来赋予每个样本不同权重进行学习,同时采用更高效的基于对比的句对语法判别器,实现了一个更鲁棒、性能更好的无监督文本顺滑系统。实验表明,我们的优化方案能有效缓解选择偏差和错误累计的问题,在SWBD以及多个跨领域数据集上均有所提升。
赛尔原创@COLING 2022 | 融合自适应机制与自训练框架的无监督文本顺滑方法
在这项工作中,我们提出了一种基于Re-weighting的自适应无监督训练框架来更好的解决文本顺滑任务。我们通过引入词级别置信与句子级别判别信息来赋予每个样本不同权重进行学习,同时采用更高效的基于对比的句对语法判别器,实现了一个更鲁棒、性能更好的无监督文本顺滑系统。实验表明,我们的优化方案能有效缓解选择偏差和错误累计的问题,在SWBD以及多个跨领域数据集上均有所提升。赛尔原创@COLING 2022 | MetaPrompting:基于元学习的soft prompt初始化方法
本文提出了MetaPrompting,将基于优化的元学习方法推广到soft prompt模型中,来处理少标注文本任务。MetaPrompting利用源领域数据进行元学习,搜索能够更快、更好地适应于新的少标注人物的模型参数初始化点。在4个少标注文本分类数据集上的实验结果表明,MetaPrompting相比于朴素的soft prompt模型以及其他基于元学习的基线模型取得了更好的效果,达到了新的SOTA性能。
赛尔原创@COLING 2022 | MetaPrompting:基于元学习的soft prompt初始化方法
本文提出了MetaPrompting,将基于优化的元学习方法推广到soft prompt模型中,来处理少标注文本任务。MetaPrompting利用源领域数据进行元学习,搜索能够更快、更好地适应于新的少标注人物的模型参数初始化点。在4个少标注文本分类数据集上的实验结果表明,MetaPrompting相比于朴素的soft prompt模型以及其他基于元学习的基线模型取得了更好的效果,达到了新的SOTA性能。赛尔原创@COLING 2022 | CCTC:面向中文母语使用者的跨句子文本纠错数据集
中文文本纠错(Chinese Text Correction, CTC)主要针对中文拼写错误和语法错误进行检测和纠正。目前大部分中文拼写纠错和语法纠错的测试集都是单句级别的,并且是由外国的汉语学习者撰写的。我们发现中文母语使用者犯的错误和非母语使用者犯的错误有很大的不同,直接使用目前已有的一些数据集作为测试集来为面向中文母语使用者准备的校对系统进行评测并不合适。此外,一些错误通常还需要上下文信息来进行检测和纠正。在本文中,我们提出了一个基于中文母语使用者撰写文本的跨句子中文文本纠错测试集CCTC。
赛尔原创@COLING 2022 | CCTC:面向中文母语使用者的跨句子文本纠错数据集
中文文本纠错(Chinese Text Correction, CTC)主要针对中文拼写错误和语法错误进行检测和纠正。目前大部分中文拼写纠错和语法纠错的测试集都是单句级别的,并且是由外国的汉语学习者撰写的。我们发现中文母语使用者犯的错误和非母语使用者犯的错误有很大的不同,直接使用目前已有的一些数据集作为测试集来为面向中文母语使用者准备的校对系统进行评测并不合适。此外,一些错误通常还需要上下文信息来进行检测和纠正。在本文中,我们提出了一个基于中文母语使用者撰写文本的跨句子中文文本纠错测试集CCTC。哈工大SCIR十篇长文被EMNLP 2022主会及子刊录用
EMNLP是计算语言学和自然语言处理领域顶级国际会议之一,CCF B类会议,由ACL SIGDAT(语言学数据特殊兴趣小组)主办,每年举办一次。哈尔滨工业大学社会计算与信息检索研究中心有10篇长文被录用,其中7篇被主会录用,3篇被Findings of EMNLP子刊录用。
哈工大SCIR十篇长文被EMNLP 2022主会及子刊录用
EMNLP是计算语言学和自然语言处理领域顶级国际会议之一,CCF B类会议,由ACL SIGDAT(语言学数据特殊兴趣小组)主办,每年举办一次。哈尔滨工业大学社会计算与信息检索研究中心有10篇长文被录用,其中7篇被主会录用,3篇被Findings of EMNLP子刊录用。哈工大SCIR取得CCIR Cup 2022混合表格与文本数据问答赛道冠军
哈工大SCIR的“TIBK-12”小队以75.1的成绩夺得全国信息检索挑战杯-基于金融财报中的混合表格与文本数据的问答赛道冠军。团队成员包括窦隆绪、王丁子睿,指导教师为车万翔教授。
哈工大SCIR取得CCIR Cup 2022混合表格与文本数据问答赛道冠军
哈工大SCIR的“TIBK-12”小队以75.1的成绩夺得全国信息检索挑战杯-基于金融财报中的混合表格与文本数据的问答赛道冠军。团队成员包括窦隆绪、王丁子睿,指导教师为车万翔教授。哈工大SCIR两位博士生施晓明、侯宇泰顺利通过博士学位答辩
2022年9月5日上午,哈工大社会计算与信息检索研究中心两位博士生施晓明、侯宇泰顺利通过博士学位论文答辩。
哈工大SCIR两位博士生施晓明、侯宇泰顺利通过博士学位答辩
2022年9月5日上午,哈工大社会计算与信息检索研究中心两位博士生施晓明、侯宇泰顺利通过博士学位论文答辩。语言技术平台(LTP)推出 v4.2 版本!
语言技术平台(LTP)推出 v4.2 版本,此次升级主要提升了分词等常用任务的推理速度、增加了平台的易用性等。
语言技术平台(LTP)推出 v4.2 版本!
语言技术平台(LTP)推出 v4.2 版本,此次升级主要提升了分词等常用任务的推理速度、增加了平台的易用性等。哈工大SCIR在MMNLU-22多语言任务型对话自然语言理解评测取得Full Dataset赛道第一名
HIT-SCIR语言分析组郑博、黎州扬、魏福煊、陈麒光、覃立波组成的团队(指导教师车万翔教授)参加MMNLU-22评测,在Full Dataset赛道中获得第一名,在Zero-Shot赛道中获得第二名。
哈工大SCIR在MMNLU-22多语言任务型对话自然语言理解评测取得Full Dataset赛道第一名
HIT-SCIR语言分析组郑博、黎州扬、魏福煊、陈麒光、覃立波组成的团队(指导教师车万翔教授)参加MMNLU-22评测,在Full Dataset赛道中获得第一名,在Zero-Shot赛道中获得第二名。ACL@2022 | 反向预测更好?基于反向提示的小样本槽位标注方法
本文录用于ACL 2022 Findings。提示学习方法在如槽位标注等词级别任务上十分低效。本文探索了一种反向提示方法,并提出了迭代预测策略来建模标签之间的依赖关系。我们的方法在多个数据集上均有提升,并大幅加快了槽位标注的预测速度。