期刊介绍
期刊导读
- 07/30内蒙古高校实力排行,内蒙古大学勇夺桂冠,内
- 07/30便捷就医 内蒙古开出首张医疗收费电子票据
- 07/30中华儿慈会教育与医疗公益项目推介会暨内蒙古
- 07/28内蒙古济生中医医院开展爱心义诊活动
- 07/27了解内蒙古?走进内蒙古?爱上内蒙古
面向教育的中文知识图谱自动构建技术
一、引言
知识图谱(Knowledge Graph,KG)能够揭示知识之间的关系,近年来被应用于各个领域[1]。在教育领域,知识图谱的应用主要分为知识库建设[2]、自适应学习[3]和虚拟学习助手[4][5]三个方面。随着智能教育与在线教育的快速发展,教育知识图谱的使用需求不断增大。但是目前仍然需要依赖领域专家手工构建知识图谱,远远不能满足教育信息化的需求。因此,本文对中文知识图谱的自动构建技术进行研究。
目前,研究人员在英文知识图谱的自动构建方面已经取得了很多成果[6-8]。然而,由于中文与英文有很大差异,难以将英文知识图谱自动构建方案直接应用于中文知识图谱。其中主要原因是中文词组间没有可以进行分割的依据(例如空格),使得计算机很难识别有意义的单词或短语[9]。尽管中文知识图谱的研究取得了一些进展,但与其他语言相比,中文文本的处理仍然面临着更加困难的情况[10]。所以对于中文知识图谱的自动构建仍然存在很大的挑战。
知识图谱的构建技术主要包括知识点抽取和关系抽取两个步骤。现有的教育知识图谱关系抽取技术多在教材的基础上结合诸如Wikipedia 的在线知识库来进行,虽然这种结合方法比较有效,但也大大增加了人工成本。为解决上述问题,本文提出了新的知识图谱自动构建技术。该技术的不同之处在于提出了将基于教学课本生成的知识图谱与基于教学演示文稿生成的知识图谱相融合的方法生成知识图谱。PowerPoint 演示文稿(以下简称PPT 演示文稿)是教师在教学过程中常用的工具,具有内容精炼、层次清晰等特点,起到了连接“学生—教师—教材”的作用。PPT 演示文稿通常包含教师对教学内容的归纳总结,其中的层次结构有助于提取知识点之间的先后顺序。因此,将PPT 演示文稿作为构建知识图谱的依据,能够提高知识图谱的准确率。
教材和PPT 演示文稿在构建知识图谱方面各有优点:教材包含的内容较多,提取的知识点容易存在冗余,但其包含的知识点比较全面;PPT 演示文稿通常只包含重点知识,导致其包含知识点不全面,但PPT 演示文稿内容精炼、结构清晰。鉴于此,本文利用两者的优点,针对教学PPT 演示文稿的层次结构和计算机类教材的详细内容进行知识点先决关系的提取。
本文首次提出了以教材与PPT 演示文稿相融合的方式自动构建教育领域中文知识图谱,主要贡献如下:①提出了基于教学PPT 演示文稿生成知识图谱的技术KG-S(Knowledge Graph based on Slides),该技术充分利用了PPT 演示文稿的特点,能生成灵活性较高的知识图谱。②提出了面向教育的中文知识图谱自动生成技术KG-T&S(Knowledge Graph based on Text and Slides),该技术能够将基于教材生成的知识图谱与基于教学PPT演示文稿生成的知识图谱融合。③针对计算机领域教育用途的中文知识图谱自动生成技术展开研究,基于真实的数据集生成了特定领域知识图谱。
二、相关研究
目前教育领域知识图谱构建技术主要分为半自动构建知识图谱技术和自动构建知识图谱技术两类。
1.基于半自动化的方法构建知识图谱
半自动化生成知识图谱是指知识图谱的生成过程有一部分需要人工进行。文献[11]作为典型的半自动构建知识图谱的工作,杨玉基等通过对领域知识图谱构建方法进行系统的研究后,提出了“四步法”构建领域知识图谱:首先使用半自动的方法进行领域本体构建,然后进行众包半自动语义标注,再对标注好的语义进行外源数据补全,最后进行信息抽取,得到了高质量的通用领域知识图谱。半自动方法生成的知识图谱虽然精度高,但是其过程会耗费大量人力,很难获得大规模的知识图谱,并且生成知识图谱的效率无法得到有效的保证。
2.基于自动化方法构建知识图谱
自动化构建知识图谱是指构建知识图谱的过程中不涉及(或较少涉及)人工干预,主要依赖于计算机处理实现。
Wang 等人认为传统的概念图提取方法包括关键概念提取和概念关系识别两个子问题。先前的研究大都独立考虑这两个子问题,但这两个问题实际上是紧密耦合的,独立解决这些子问题可能会导致性能欠佳[12]。其提出的框架可以共同优化这些子问题,为后续研究提供了新的思路。但框架虽然可以实现将候选概念分类为“关键概念”或“非关键概念”,从而获得该领域的一组关键概念,却没有实现对关键概念及关系的抽取。
黄光轮等人提出了一种利用Microsoft Office 编程技术、文本挖掘技术和社会网络分析技术自动提取PPT文档中的概念术语、概念术语之间的关系及构建概念图的算法[13],为基于教学PPT 演示文稿构建知识图谱的后续研究提供了详细的的思路,但由于PPT 演示文稿存在包含知识点不完全的特点,所以基于PPT 生成的知识图谱准确率不稳定。
文章来源:《内蒙古教育》 网址: http://www.nmgjyzzs.cn/qikandaodu/2021/0730/1179.html
上一篇:浅谈儿童乐园的景观设计
下一篇:基于技术的基础教育资源平台建设研究