1. 首页>
  2. 腾讯云代理

腾讯天衍实验室又双叒叕获得一个冠军

腾讯云 2020年11月19日 浏览22

    腾讯云代理 腾讯云新闻 腾讯云代理 腾讯云直播申请 游戏上云

摘要:

近日,第十四届全国知识图谱与语义计算大会(CCKS2020)举办的知识图谱与语义计算技术评测竞赛结果公布,腾讯天衍实验室斩获试验装备鉴定领域实体抽取(NER)任务冠军。


这是一个什么样的大会?

大会是由中国中文信息学会语言与知识计算专业委员会主办,是国内知识图谱、语义技术、链接数据等领域的核心学术会议。

聚集了自然语言理解、知识获取、智能问答、图数据库等相关技术领域的研究人员和学者。


这个冠军的“含金量”有哪些?


CCKS 2020技术评测,共设立新冠知识图谱构建与问答、面向中文电子病历的医疗实体及事件抽取、面向试验鉴定的命名实体识别等8个相关主题评测任务,吸引了213支知名企业和高校赛队伍的踊跃参与。

腾讯天衍实验室在面向试验鉴定的命名实体识别的主题评测任务中,凭借实体抽取和知识图谱领域技术与实力,夺得试验装备鉴定领域实体抽取(NER)任务冠军。



何为命名实体识别?


简言之,就是如何从海量的文本或网页的原始数据中提取有价值的信息,这也是行业知识图谱构建的关键因素。

信息抽取(Information Extraction,IE)作为自然语言处理技术的任务,重点在于从机器可读取的非结构化或半结构化的文本中抽取信息,而命名实体识别(NER)则是IE任务的核心和基础技术,旨在从文本中查找每个提及的命名实体并标记其类型。

相比于通用领域NER任务,此次竞赛任务由于试验目的不同、被试对象有着自身较为特殊的语言形式,对NER任务带来了全新的挑战:一方面,试验鉴定领域的可用标注语料稀少,训练集只有400条;另一方面,实体类别间语义复杂度较高,需要依赖专业领域知识和准确的上下文理解。

针对此次实体识别任务,腾讯天衍实验室全面识别任务特点,从数据和模型层面进行针对性的设计。

  • 首先,针对训练数据样本较少且样本序列长度较长的问题设计了一种基于动态规划的文本分割方法,将较长样本分割为多个样本,同时在切割时使得保留最多原始文本信息的前提下冗余数据最少。

  • 其次,在模型层面上,基于样本上下文依赖较强且位置关系明显的特点,在输入层把领域分词信息融合到模型中,并且针对性的选取TENER、RTransfomer作为编码器;编码器的输出结合CRF做实体的序列标注,针对模型输出的结果进行融合和词典矫正,最终结果为F值0.72128,夺得该赛道冠军。


获此成绩非一朝一夕,在此之前,腾讯天衍实验室就在日常的业务中把实验室长期积累的相关技术落地到医疗领域的多个场景中,并且在实践应用中进一步夯实技术实力。

疫情期间

腾讯天衍实验室基于腾讯健康小程序推出的患者同小区查询助手极大的方便了用户查询同小区患者信息,疫情智能问答助手则可以7*24小时解答用户关于疫情的相关问题助力公众科学防疫抗疫,累积服务用户2000万查询人次。


两个智能助手应用到的核心技术之一就是NER技术,通过NER技术从无结构化文本中抽取相关实体并结合关系分类快速构建精准图谱,从而支撑上层各项智能化应用。

image


腾讯天衍实验室致力于长期在自然语言基础能力、语言理解、信息抽取、知识图谱构建等进行研究创新,并将成果运用到落地的医疗自然语言等场景,目前已构建医疗行业大规模知识图谱,支持了数百家医院的辅诊、导诊、疾病辅助诊断、智能用药等产品,助力医保、医院、疾控中心和其他医疗机构的智能化知识挖掘和管理难题,实现知识化转型。


在医疗健康领域

腾讯天衍实验室专注于AI算法研究及落地,旨在依托NLP、知识图谱、大数据、医疗影像等技术系统,将算法能力输出到腾讯健康小程序、QQ浏览器、微信搜一搜等终端应用。


与此同时,腾讯天衍实验室还与钟南山院士以及复旦肿瘤医院等头部医院建立联合实验室,与牛津大学、蒙特利尔大学、天津大学、微众银行AI部门等单位建立长期科研合作关系,目前已发表包括NIPS、KDD等多篇顶级学术论文,通过联合社会各界进行技术深入研究,腾讯天衍实验室将进一步加速科研应用落地,以服务于临床应用。



相关文章