东北大学-知识图谱研究组

TechKG研究背景和应用价值

  • TechKG是一个面向中文、面向学术、多领域的大型知识图谱知识库,该知识库由“东北大学-知识图谱研究组”历时多年完成。
  • 利用该知识库,不仅可以开展知识图谱方向相关的研究(如知识图谱embedding、知识图谱补全、关系抽取等),还可以进行如:基于知识库的问答、命名实体识别、关系分类、机器翻译、文本分类等多项相关任务的研究。
  • 我们希望,经过我们的不懈努力,TechKG可以成为中文的Freebase或YAGO!

TechKG的主要特点

  • 面向中文、面向科技、领域划分完整。
  • 重名现象严重。不仅作者名存在大量的领域间及领域内重名现象,而且,术语在领域间的重名现象也很严重。
  • 关系类型分布极不均匀。
  • 以上特点均为中文知识库中所固有的语言学现象,值得研究者们进行深入研究。

基于TechKG的 爱图谱 是一个知识图谱演示系统,由 “东北大学-知识图谱研究组” 开发,可以做为一个科研小助手,帮助用户找到感兴趣的研究者或者领域术语。

本网站提供以下几类知识库数据供下载,每类知识库均分38个领域,每个领域对应一个学科。
TechKG 原始的TechKG知识图谱知识库。
TechKG10 从TechKG中抽取的子集,抽取规则如下:1)领域术语的tf*idf在前10%;2)每个实体至少出现在10个三元组中。
TechTerm 一个中文领域术语知识库,每个领域均由从TechKG中tf*idf最高的术语中随机选择的1w条术语组成。
TechBiTerm 一个“中—英”术语对知识库,每个领域均由从TechKG中选择的"共现"次数最多的1w个术语翻译对组成。
TechAbs 一个由论文摘要组成的知识库,每个领域均由随机选择10w个摘要组成。
TechQA 一个问答知识库,基于TechKG10、采用模板生成。
TechNER 一个基于TechTerm、采用远程监督方式生成的主要用于进行领域术语识别任务的知识库,每个领域包含3w个训练句子。
TechRE 一个基于TechKG10、采用远程监督方式生成的主要用于关系抽取任务的知识库,每个领域由随机选择的20w个训练bags组成,每个bag平均包含6个句子。

项目负责人

任飞亮

主要参与人员

  [排名不分先后]
侯依宁 梁小波 潘凌峰 李妍
张熠 刘永康 赵荣生 郭宇
明瑞成 吴慧敏

论文信息