场景化国际中文教学资源知识图谱的构建

引用本文

杨浩, 辛晶, 朱珊仪, 等. 场景化国际中文教学资源知识图谱的构建[J]. 郑州大学学报(理学版), 2026, 58(2): 40-47.

YANG Hao, XIN Jing, ZHU Shanyi, et al. Construction of a Scenarioized Knowledge Graph of International Chinese Teaching Resources[J]. Journal of Zhengzhou University(Natural Science Edition), 2026, 58(2): 40-47.

基金项目

国家自然科学基金项目(62076038)；北京语言大学国际中文智慧教育工程阶段性成果

通信作者

荀恩东(1967—)，男，教授，主要从事国际中文智慧教学、自然语言处理研究，E-mail: edxun@blcu.edu.cn

作者简介

杨浩(1999—)，男，硕士研究生，主要从事知识图谱、AI可解释性研究，E-mail: howyoung80@163.com

文章历史

收稿日期：2024-08-20

Contents Abstract Full text Figures/Tables PDF

场景化国际中文教学资源知识图谱的构建

杨浩¹, 辛晶², 朱珊仪³, 饶高琦⁴, 荀恩东¹

1. 北京语言大学语言资源高精尖创新中心北京 100083;
2. 北京外国语大学中国语言文学学院北京 100081;
3. 山东师范大学国际教育学院山东济南 250014;
4. 北京语言大学国际中文教育研究院北京 100083

收稿日期：2024-08-20

基金项目：国家自然科学基金项目(62076038)；北京语言大学国际中文智慧教育工程阶段性成果

作者简介：杨浩(1999—)，男，硕士研究生，主要从事知识图谱、AI可解释性研究，E-mail: howyoung80@163.com.

通信作者：荀恩东(1967—)，男，教授，主要从事国际中文智慧教学、自然语言处理研究，E-mail: edxun@blcu.edu.cn.

摘要：近些年，为支持国际中文教学，学界构建了大量的知识库，但大多是针对某一具体的资源对象，比如搭配库、例句库等，其孤立性问题较为突出。在万物智能的时代背景下，国际中文教学也面临着数智化转型的问题，其对语言教学资源提出了更高的要求，构建细粒度、各个资源对象相互关联的知识图谱成为必要。在教学过程中特别注重“因材施教”，因此，在构建教学用知识图谱时必须考虑知识的来源和用处，即场景化。利用BCC结构检索工具关联各个资源实体，充分考虑知识的来源以及适用的场景，构建了场景化的国际中文教学知识图谱，并初步进行了国际中文智慧教学的工程实践。

关键词：教学资源知识图谱中文教学场景化

Construction of a Scenarioized Knowledge Graph of International Chinese Teaching Resources

YANG Hao¹, XIN Jing², ZHU Shanyi³, RAO Gaoqi⁴, XUN Endong¹

1. Beijing Advanced Innovation Center for Language Resources, Beijing Language and Culture University, Beijing 100083, China;
2. School of Chinese Language and Literature, Beijing Foreign Studies University, Beijing 100081, China;
3. The School of International Education, Shandong Normal University, Jinan 250014, China;
4. Research Institution of International Chinese Language Education, Beijing Language and Culture University, Beijing 100083, China

Abstract: In recent years, numerous knowledge bases were developed by the academic community to support international Chinese language teaching. However, nost of them targeted at specific resources, such as collocation databases or example sentence collections, resulted in isolation. In the era of ubiquitous intelligence, international Chinese education had to face with the challenge of a digital and intelligent paradigm, with higher demands on language teaching resources. The construction of a fine-grained knowledge graph with various resource entities was considered essential. In educational contexts, particular emphasis was placed on "teaching according to the student′s aptitude". The construction of knowledge graphs for teaching should take into account the provenance and application of knowledge, i.e. scenario-based relevance. The BCC structural retrieval tool was employed to link various resource entities, with careful consideration given to the origin of knowledge and its applicable contexts. As a result, a contextualized knowledge graph for international Chinese language teaching was constructed, and preliminary experiments practices were conducted to explore its application in intelligent international Chinese language education.

Key words: teaching resources knowledge graph Chinese language teaching scenarioized

0 引言

以往，为了更好地服务国际中文教学，学界建立了大量的教学资源知识库^[1]，比如例句库、搭配库等。这些知识库虽然具有丰富的属性信息，但归根结底还是围绕着以某一资源为主体对象，其他资源信息作为其属性而存在。比如例句库，是以例句为主体对象，例句中富含的语法、词汇信息是作为其属性而存在的，这不符合“精标互联”所表达的互联性。互联性应该是资源对象在知识库中处于同等地位，资源对象间通过其存在的客观关系而相互联接。知识图谱是一种结构化的语义网络，能够以图的形式描述客观世界中的事物以及事物间存在的关系^[2]。以知识图谱的结构形式来组织国际中文教学资源能够与“精标互联”的思想完美契合。

通常来讲，知识图谱分为通用领域知识图谱和垂直领域知识图谱，前者追求知识的广度，后者追求知识的深度^[3]。目前，学界和工业界构建的各种知识图谱，无论是通用领域还是垂直领域，都只关注知识的存在性，即只要知识是确实存在的，就录入知识图谱，对于知识的场景适用性研究欠缺。而国际中文教学是一个讲究“因材施教”的场景，其对知识图谱的知识适用性要求极高，在构建知识图谱时，必须考虑知识从哪里来以及能够运用到哪里去，即场景化^[4]。因此，本研究要建立的图谱不是一种简单的、一味追求资源数量的图谱，而是一种适用性高的场景化国际中文教学资源知识图谱。

在生成式大语言模型大获成功的背景下，有研究认为大语言模型将逐步取代知识图谱成为知识表示和获取的方法^[5]。本研究认为，在国际中文教学领域，大语言模型不会代替知识库而成为知识的来源。首先，从知识的表示和存储上来讲，知识图谱将知识以图的形式进行存储，是一种结构化的显性知识库，具有可解释性^[6]。大语言模型是通过学习大量的语料，将学习到的知识以参数的形式存在于神经网络模型的权重中，是一种隐性的知识存储方式，不具备可解释性。其次，大语言模型还存在不准确性，这在对知识准确度要求较高的国际中文教学场景中不太适用，知识图谱能够很好地弥补这一缺憾。最后，通过构建准确的知识图谱，为语言模型提供高质量的数据对提升模型的准确性也有重要的意义^[7]。

1 相关工作

国际中文教育面临向智能化转型时期^[8]。智慧教育的核心是智慧教学，智慧教学的内涵包括通过智能技术更好地建设数字化教学资源，推进教学资源的改革。通过资源和技术赋能，为实现国际中文教学提质增效。所以，要完成国际中文教育的智能化转型，语言资源知识库建设和语言智能技术创新是必要的。

在语言资源知识库建设方面，学术界已开展了大量的研究。邢丹等^[9]构建了介词结构搭配库。王诚文等^[10]从大规模语料中抽取介动搭配助力语言教学研究。邵田等^[11]从大规模结构树库中抽取两个动词连用的情况, 为语言学本体研究提供了分类参考。王贵荣等^[12]从语言本体的角度出发，总结了动宾搭配的知识体系，从北京语言大学语料库中心(BLCU corpus center, BCC)抽取动宾搭配知识形成动宾搭配知识库。王雨等^[13]以《国际中文教育中文水平等级标准》为难易度控制标准，构建等级可查、难度可控、应用方便的国际中文教育词语搭配知识库。在生成式AI蓬勃发展的时代，朱奕瑾等^[14]基于ChatGPT，利用思维链推导的方式构建了共识价值标准例句库，为基于生成式大语言模型的资源建设提供了示范应用。

在语言智能技术的创新上，荀恩东等^[15]研制了基于大数据的BCC语料库，BCC除了线上服务外，还提供了个性化语料库构建工具包。用户可以使用私有语料并进行加工后定制个性化语料库。BCC支持对多层次结构标注体系^[16]的语料进行字符、词、短语、属性和结构信息为一体的复杂查询^[17]。

上文提到的各种语言资源知识库都是针对某一资源对象，目前，关于如何将各资源实体进行关系连接构建领域知识图谱的研究还没有被探讨过。无论是服务于语言教学的知识库，还是服务语言学本体研究的知识库大都是从大规模语料库中获取，这对于教学场景来讲存在数据噪声大、知识适用性低等问题。陆泉等^[4]提出了场景化知识图谱概念及其构建方法。场景化知识图谱是描述知识场景属性的知识图谱，关注知识的获得路径和适用场景，基于此，本研究从教材、汉语水平考试(hanyu shuiping kaoshi，HSK)真题、教材练习题等可控数据源搜集语料，对知识图谱中的知识获取路径和适用范围进行明确定义，以期构建一个数据噪声低、适用性强的国际中文教学知识图谱。

2 语料采集与语料库建设 2.1 数据获取

为了尽可能减少数据噪声，提高数据质量。本文选取的语料一律来自可控数据源，具体包括对外汉语教材、HSK真题、教材课后习题、国际中文智慧教学平台融课件^[1]、国际中文学习词典以及国际中文教学指南(http://www.cltguides.com/main.action)。

2.1.1 例句数据

对于汉语教师而言，真实语料、实用而科学的例句是进行课前备课的重要内容。语料库及其索引技术可以提供大量真实语料和统计数据，是实现教师例句设计过程现代化的有力工具^[18]。但从各大开放语料库检索系统或者互联网上获取的例句存在超纲词、句式复杂、句群数量巨大等问题^[19]。在实际教学中对于例句的要求是严格的，本文从数据源头上进行考虑，在各大主流对外汉语教材中获取例句约10万句，HSK考试真题中获取例句约2万句，国际中文智慧教学平台融课件获取例句约2.5万句，国际中文学习词典中获取例句约1.4万句。将获取的例句进行分词、词性标注后进行例句标注。在标注之前对例句文本进行预处理得到例句的分词信息、词汇等级分布，并依据文本中出现的最高等级词汇预标句子的等级。标注过程主要进行以下操作。

1) 判断句子是否适合作为例句。

2) 为句子标注话题信息。

3) 复核句子等级。在确定标注任务后，根据工作的内容开发标注平台，平台同时兼具标注和质量检验功能。

在判断句子是否适合作为例句时，把句子通顺、句义明晰、目标词语语义典型、目标词含义表达充分、无语境依赖等特点的句子判断为适合，把句子过长或过短、不成句、句义不明、上下文依赖强、句内焦点过多、有歧义、带有修辞、太过专业、有古文表达等特点判断为不适合。以上标准只是参考准则，标注员在实际标注过程中可在参考该准则的同时，不拘泥于准则灵活变通。基于以上判断标准，过滤掉一大批不符合要求的句子。在被过滤掉的句子中，有一些稍加修改便可作为例句，因此在判断的同时，也要考虑该句子是否有可能被修改成例句。在判断句子的话题时，坚持确定的标注、不确定的不标注的原则。本文按照表 1的二级话题分类法确定句子的话题。在判断句子等级时，主要根据句子的元信息(来源、句子长度、词汇等级分布)将句子分为七个等级，无法确定等级的标为0。通过来源信息可以大致确定难度范围，比如句子出现在教材、HSK真题中的位置，再辅以句子长度信息、词汇的等级信息最终确定例句等级，大部分例句应该和它词汇的难度是匹配的。需要注意的是，有的词汇难度等级高，但是比较常用，可以适当对其降级。

表 1 句子话题分类详表 Tab. 1 Detailed table of sentence topic classification

2.1.2 题目数据

题目中蕴含着关于知识点的自然标注信息，又拥有适用等级标签。但是真题数量有限，其囊括的知识点数量存在着很大的数据稀缺。为了使题目数据更加丰富，本文搜集了2 197道课后习题和20 116套国际中文智慧教学平台的融课件题目。但这些题目都是无标签数据，对于适用的学习阶段没有明确标注。为了对无标签的试题进行定级，对157套HSK真题进行等级词汇概率分布统计，在计算词汇等级分布概率时参考的是《新汉语水平(HSK)词汇大纲》的等级信息，计算结果见表 2所示。对于各个等级的考试试题，相对应等级的词汇出现频率总是最高的。相对熵(又称KL散度)可以描述两个概率分布之间的距离，相对熵越小，概率分布越接近。利用KL散度的算法思想对试题进行定级，试题等级L评定过程为

$ L=\underset{i}{\operatorname{argmin}} \sum T(w) \log \frac{T(w)}{H_i(w)}, $

(1)

表 2 各等级试题词汇概率分布 Tab. 2 Vocabulary probability distribution for different levels of test questions

其中：H_i(w)表示等级i的HSK试题中各等级词汇w的概率；T(w)表示无标签试题的等级词汇w的概率；w为词汇等级变量。

2.1.3 其他数据采集

对于构建知识图谱的其他数据资源，例如汉字、词汇、语法点等信息主要来源于《国际中文教育中文水平等级标准》(简称《等级标准》)和国际中文教学指南网站。《等级标准》规定了学习者达到每一级中文水平应掌握的音节、汉字、词汇、语法的内容和数量。本文以《等级标准》提供的汉字表、词汇表、语法表作为汉字、词汇、语法对象的基本实例。《等级标准》只提供了关于汉字、词汇、语法的少量信息，远不能满足教学需求，为此，需要借助其他来源数据来丰富实体的属性信息。国际中文教学指南是中外语言交流合作中心建设的国际汉语教材研究和实用综合平台，网站提供了关于语言要素的丰富信息。利用网络爬虫采集关于词汇的义项、中英文解释、语法的分类、讲解、例句等信息。

2.2 构建工具介绍

在数据资源搜集完成之后，汉字、词汇、语法、例句等各资源对象都是孤立存在的。下一步就是要对各资源对象进行关联。为了方便资源对象的关联，本文选用北京语言大学语料库中心(BCC)检索工具，对例句和题目数据构建索引。BCC语料库可支持的语料类型包括生语料、分词词性标注语料、句法结构树语料。本文将语料按照多层次结构标注体系^[16]进行句法结构标注。例如句子“金玉良缘是指林黛玉与薛宝钗，钗黛才是真爱！”经过句法结构标注后，其句法结构树如图 1所示。经过标注后的数据具有词性标记、短语功能标记、组块结构标记, 利用BCC检索式能对其进行一系列的复杂查询，包括字符级、词级、短语级、句法属性、句法结构关系等。例如，将语法点“动词+得+形容词性词语”编写成检索式“v得a”，可以检索到“她笑得真开心”“今天要过得开心哟”“你球踢得真好”等结果。

图 1 句法结构树示例图 Fig. 1 Example of a syntactic structure tree

3 图谱构建

经过上述工作，整理了约2万套带有等级标签的习题，借助BCC检索工具建立来源于教材、HSK真题、练习题的国际中文教学例句库约15万句，搜集了来源于《等级标准》的分等级词汇表、语法点表，并且利用网络数据采集技术丰富了词汇表、语法点表的属性信息。对上述数据进行充分挖掘，然后对得到的各资源实体(主要是词汇、语法、例句)进行关联计算建立国际中文教学资源知识图谱。知识图谱中的知识包括实体的属性知识和实体间的关联知识两大类。知识图谱的知识获取也围绕这两类数据开展。下文先从各语言要素实体的属性信息和内部关联进行阐述，然后再说明不同资源实体的关联方法。

3.1 语言要素知识获取 3.1.1 字

字的全部实体为《等级标准》提供的3 000个汉字。《等级标准》只提供了汉字的等级标签。为了对应汉字丰富的属性信息，给真实教学场景提供有价值的数据，本文借助网络爬虫采集了汉字的拼音、笔顺、笔画数、部首、部件、中英解释、书写动画等信息，统计汉字在国际中文教学语料库中的频次。除了汉字的属性信息，本文对汉字间的关系主要做了同音、同笔画数、同部首、同结构、形近这五种关联。

3.1.2 词汇

词汇的全部实体为《等级标准》提供的11 092个词汇。《等级标准》提供词汇的拼音和等级属性信息。通过网络数据采集、爬取词汇的中英文解释。在国际中文教学语料库中统计其出现的频次。词汇学习在语言学习中占重要地位，词汇的学习注重词汇间的关联，特别是词汇的搭配、共现。鉴于此，本文建立的知识图谱中词汇间的关系有搭配、共现、同义、反义等。其中同义词和反义词来自网络数据采集，搭配、共现关系来源于语料库抽取。

关于词汇搭配库的构建具体参照《服务国际中文教育的词语搭配知识库建设》^[14]，该工作与本文都是为建设国际中文智慧教学平台而服务，属于同一个工作框架，本文不再对搭配库的建设进行赘述。

共现词汇的抽取是依据《等级标准》提供的词汇表，在建立的国际中文教学语料库中用脚本程序统计词汇的共现。主要进行以下几步操作。

1) 采用Jieba分词工具对语料进行分词处理。

2) 去除语料中的停用词。

3) 统计词汇的共现频率。

4) 去除与搭配库重叠的部分。

5) 取共现频率排名前10位的共现词汇。抽取结果显示，在大规模语料库中进行词汇的共现关系抽取会与词汇的搭配数据有较高程度的重叠。抽取共现关系的初衷是找出跟词汇具有混淆、同属、同话题等关系的词汇，习题语料可以很好地满足这一要求，因为题目中经常出现一个词语的近义、辨析项、同属等关系的词。因此，在抽取词汇的共现关系时，本文将语料库的范围缩小至习题语料，通过这一方法能够得到具有较高质量的共现关系的词汇。

3.1.3 语法

《等级标准》一共给出了572个语法点的等级、解释和用例。语法学习的重点是在例句中体会语法的用法。因此本文关于语法的知识图谱重点在语法点和例句的关联，将在后文中介绍。

3.2 场景属性信息

知识图谱的场景信息是用来描述知识从何而来，能用到哪里去的属性信息。前者描述知识来源，后者描述知识适用范围。本文构建的国际中文教学资源知识图谱主要对例句和题目进行场景属性的标明，其中例句的来源主要为对外汉语教材、国际中文学习词典、HSK真题、融课件，深入内容体现为例句的话题属性。题目来源为HSK真题和融课件，深入内容体现为题目的题型、知识点(主要是词汇)的共现。适用范围属性为例句等级、题目所属套题的等级。

以上是对资源知识图谱场景信息的描述，其实对于教学场景而言，单单考虑资源的场景属性意义不大。实现智慧化的教学，必须结合学习者的行为数据，例如学习者年龄、国别、汉语水平、偏误信息等。只有将资源知识图谱、学习者基本信息和学习行为结合起来才能实现真正的场景化。本文探讨的是资源知识图谱的构建，对于学习者端知识图谱的建设本文不做探讨。

3.3 资源实体间的关联

本文的教学资源实体有汉字、词汇、语法、例句、题目。前文已经对各资源实体的属性知识获取和各资源实体内部的关联关系进行了介绍，下面将对各资源实体进行关联计算。

3.3.1 题目的自然标注信息

关于题目，题目中已经存在天然的标注信息，比如选择题的空缺项，连线题的待连项，连词成句的词表等，这其实已经初步建立了字、词汇和题目之间的关联。

3.3.2 字与词汇和题目的关联

汉字与词汇、题目是简单的包含与被包含的关系。汉字和词汇可以通过简单的字符匹配建立联系。汉字和题目建立联系时，只与单独考察汉字的题目建立关联，例如根据拼音写汉字、汉字知识卡片等题目。

3.3.3 词汇与例句和题目的关联

词汇与例句的关联是一个非常复杂的工程，这涉及词的不同读音、不同词性导致的多义项，即使是同一词性，也有不同的解释等因素。在进行词与例句的关联时，不能简单地通过字符串包含操作来确定词与例句的关系，这样太过粗糙。《国际中文学习词典》比较细粒度地给出了关于词的不同词性以及解释，本文参照BCC检索式模板，使用脚本程序自动完成BCC检索式的编写，最后通过BCC检索式的主动检索建立词汇与例句的关联。图 2以“根本”一词为例，给出形成BCC检索式的过程。

图 2 词汇检索例句流程图 Fig. 2 Flowchart of retrieving example sentences for vocabulary

3.3.4 语法与例句和题目的关联

前文已经用BCC提供的个性化语料库建设工具对题目和例句数据集建立了索引，形成了可供结构检索的例句库和习题库，支持使用BCC检索式对其进行检索。本文通过将各语法点映射成BCC检索式的方式建立语法点与词汇和题目的关联，以检索关联的方式建立语法点知识图谱。《等级标准》附录将语法按照语素、词类、短语、固定格式、句子成分、句子类型、动作的态、特殊表达法、强调的方法、提问的方法、口语格式、句群分为12大类语法项目，具体有572个语法点。进一步将572个语法点拆分为1 149个语法单元，按照每个语法单元进行BCC检索式的编写。

4 图谱应用

本文将构建的知识图谱存储于开源图数据库neo4j中，用户可通过Cypher查询语言对知识图谱进行检索，该检索支持属性查找、关系查找等一系列复杂查询。目前该知识图谱已服务于北京语言大学国际中文智慧教学平台，并支持平台的基于语言要素的自动出题(如图 3)和题目检索。

图 3 自动出题结果图 Fig. 3 Automated question generation result diagram

一般来讲，自动出题可分为两大类：一是基于生成式模型的完全自动出题；二是基于内容检索的半自动化式自动出题。前者虽然题目类型丰富多样，但在题目内容上不能达到完全可控，其在多媒体前端上由于样式多变而落地困难。而基于内容检索的半自动化式自动出题通过事先固定题目的样式模板，把重点放在题目的内容而非形式上，不但确保了题目质量，而且较容易进行工程落地。国际中文智慧教学平台自动出题功能通过事先固定题目的形式、以国际中文教学知识图谱为内容支撑，能够高质量地完成基于语言要素的自动化出题。除此之外，知识图谱还可为教师课前备课、教学资源制作提供数据支持，通过和学习者行为数据的融合实现个性化学习资源的推荐。

5 总结展望

本文以《国际中文教育中文水平等级标准》为基础，构建了含有汉字、词汇、例句、题目实体的国际中文教学资源知识图谱。图谱的数据来源于教材、题目、标准大纲等可控数据源，大大降低了数据噪声。国际中文教学资源知识图谱的构建一开始就是以服务国际中文智慧教学工程为出发点，也有别于其他停留在理论设想层面的知识图谱。此外，在生成式大语言模型发展势头迅猛的背景下，各领域也开始构建面向垂直领域的大语言模型，国际中文教学资源知识图谱可以为构建国际中文教学大模型提供数据。但也应该意识到，国际中文教学知识图谱的构建是一个极其复杂、细致的工程，特别是词汇网络的构建，学界已经对此进行了大量的探讨，但鲜有落地实践。本文构建的知识图谱目前关于词汇只有搭配、共现、同义、反义等关系，要实现词汇的智能化教学、个性化学习，需要构建细粒度的词汇先后关系，因此应该继续丰富知识图谱的词汇网络关系。国际中文教学资源知识图谱的构建过程也有别于其他垂直领域，由于其服务于世界各国母语为非汉语的学生，需要确保知识图谱中的数据在民族习惯、价值观等方面不能有任何偏向，语言表达上也不能有语法、词汇的错误，因此需要大量的人工校对，耗时耗力。这也启发我们如何从工程角度出发，建立语言资源从数据采集、标注加工再到核准校对的工程化流程，借助人工智能算法进行先期过滤，以减少人力物力的付出。

参考文献

[1]	荀恩东. 融课件: 国际中文教育资源与技术的集成创新[J]. 语言教学与研究, 2023(5): 9-12. XUN E D. Integrated courseware: Innovative integration of international Chinese education resources and technology[J]. Language teaching and research, 2023(5): 9-12. (0)
[2]	王昊奋, 漆桂林, 陈华钧. 知识图谱: 方法, 实践与应用[M]. 北京: 电子工业出版社, 2019. WANG H F, QI G L, CHEN H J. Knowledge graph: methods, practices, and applications[M]. Beijing: Publishing House of Electronics Industry, 2019. (0)
[3]	黄恒琪, 于娟, 廖晓, 等. 知识图谱研究综述[J]. 计算机系统应用, 2019, 28(6): 1-12. HUANG H Q, YU J, LIAO X, et al. Review on knowledge graphs[J]. Computer systems & applications, 2019, 28(6): 1-12. (0)
[4]	陆泉, 陈静宇, 陈帅朴, 等. 场景化知识图谱及构建方法[J]. 情报科学, 2024, 42(3): 1-9. LU Q, CHEN J Y, CHEN S P, et al. Scenario-based knowledge graph and construction method[J]. Information science, 2024, 42(3): 1-9. (0)
[5]	车万翔, 窦志成, 冯岩松, 等. 大模型时代的自然语言处理: 挑战、机遇与发展[J]. 中国科学: 信息科学, 2023, 53(9): 1645-1687. CHE W X, DOU Z C, FENG Y S, et al. Towards a comprehensive understanding of the impact of large language models on natural language processing: challenges, opportunities and future directions[J]. Scientia sinica (informationis), 2023, 53(9): 1645-1687. (0)
[6]	P S, L L, W Y, et al. Unifying large language models and knowledge graphs: A Roadmap[EB/OL]. (2023-07-14)[2024-06-20]. https://arxiv.org/pdf/2306.08302. (0)
[7]	YANG L Y, CHEN H Y, LI Z, et al. Give us the facts: enhancing large language models with knowledge graphs for fact-aware language modeling[EB/OL]. (2023-06-20)[2024-06-20]. https://arxiv.org/pdf/2306.11489v2. (0)
[8]	魏晖, 吴应辉, 苏向丽, 等. "国际中文教育集成创新" 大家谈[J]. 语言教学与研究, 2023(5): 1-12. WEI H, WU Y H, SU X L, et al. Discussions on integration innovations in international Chinese language education[J]. Language teaching and linguistic studies, 2023(5): 1-12. (0)
[9]	邢丹, 饶高琦, 荀恩东, 等. 基于大规模语料库的介词结构搭配库构建[J]. 中文信息学报, 2020, 34(11): 1-8. XING D, RAO G Q, XUN E D, et al. Large-scale corpus based preposition structure collocation base[J]. Journal of Chinese information processing, 2020, 34(11): 1-8. (0)
[10]	王诚文, 饶高琦, 荀恩东. 基于结构检索的汉语介动搭配知识库构建[J]. 中文信息学报, 2023, 37(7): 23-31. WANG C W, RAO G Q, XUN E D. Construction of preposition-verb knowledge base based on structure retrieval[J]. Journal of Chinese information processing, 2023, 37(7): 23-31. (0)
[11]	邵田, 翟世权, 饶高琦, 等. 基于结构树库的状位动词语义分类及搭配库构建[J]. 中文信息学报, 2023, 37(6): 44-51. SHAO T, ZHAI S Q, RAO G Q, et al. Treebank driven semantic classification of adverbial verbs and corresponding collocation repository construction[J]. Journal of Chinese information processing, 2023, 37(6): 44-51. (0)
[12]	王贵荣, 饶高琦, 荀恩东. 基于大规模语料库的现代汉语动宾搭配知识库构建[J]. 中文信息学报, 2021, 35(1): 34-42. WANG G R, RAO G Q, XUN E D. Construction of verb-object knowledge base from BCC corpus[J]. Journal of Chinese information processing, 2021, 35(1): 34-42. (0)
[13]	王雨, 肖叶, 荀恩东, 等. 服务国际中文教育的词语搭配知识库建设[J]. 语言文字应用, 2022(2): 26-37. WANG Y, XIAO Y, XUN E D, et al. The construction of word collocational knowledge base for international Chinese language education[J]. Applied linguistics, 2022(2): 26-37. (0)
[14]	朱奕瑾, 饶高琦. 基于ChatGPT的生成式共同价值标准例句库建设[J]. 云南师范大学学报(对外汉语教学与研究版), 2023, 21(3): 71-80. ZHU Y J, RAO G Q. Construction of a generative example sentence corpus of common value standards based on ChatGPT[J]. Journal of Yunnan normal university (teaching & studying Chinese as a foreign language edition), 2023, 21(3): 71-80. (0)
[15]	荀恩东, 饶高琦, 肖晓悦, 等. 大数据背景下BCC语料库的研制[J]. 语料库语言学, 2016, 3(1): 93-109. XUN E D, RAO G Q, XIAO X Y, et al. The construction of the BCC corpus in the age of big data[J]. Corpus linguistics, 2016, 3(1): 93-109. (0)
[16]	卢露, 矫红岩, 李梦, 等. 基于篇章的汉语句法结构树库[J]. 自动化学报, 2022, 48(12): 2911-2921. LU L, JIAO H Y, LI M, et al. A discourse-based Chinese chunkbank[J]. Acta automatica sinica, 2022, 48(12): 2911-2921. (0)
[17]	荀恩东. 自然语言结构计——BCC语料库[M]. 北京: 人民邮电出版社, 2023. XUN E D. Natural language structure computing-BCC Corpus[M]. Beijing: Posts & Telecom Press, 2023. (0)
[18]	蔡建永. 基于语料库索引的对外汉语教学课前例句设计[C]//第七届中文电化教学国际研讨会. 北京: 清华大学出版社, 2010: 431-436. CAI J Y. Design of pre-lesson example sentences for teaching Chinese as a foreign language based on corpus indexing[C]//The 7th International Symposium on Technology-Enhanced Chinese Language Education. Beijing: Tsinghua University Press, 2010: 431-436. (0)
[19]	单天罡. 基于语料库的对外汉语词汇例句收集研究[J]. 现代语文, 2013(9): 104-106. SHAN T G. A study on the collection of example sentences for Chinese vocabulary in Chinese as a foreign language based on a corpus[J]. Modern Chinese, 2013(9): 104-106. (0)