影视聚合站 教育 文章内容

柳建钰|什么是字料库汉字学

发布时间:2021-05-24 00:04:29来源:章黄国学

第三章字料库汉字学概说

文|柳建钰

字料库汉字学,一门崭新的边缘性交叉学科,即将伴随着汉字字料库理论的提出与发展以及各种类型字料库实体的建构成长起来。一般来说,一门新学科的建立,至少应该满足以下三方面的要求:有明确的研究对象与范围;有学科的代表人物和高水平的学术专著;有规范化、系统化、科学化的研究方法。根据以上标准和学界已有成果综合考量,我们认为,字料库汉字学目前已经起步,尚处于成长阶段。从李国英师、周晓文(2009)首次提出“字料库”的概念并明确定义至今,已经有二十多篇与汉字字料库和字料库汉字学直接相关的理论研究成果问世,一些科研单位和学者也早就开始进行汉字字料库(或“类字料库”)建构的实践探索,但字料库汉字学直接关涉到的很多基本问题,比如字料库汉字学的学科定义、学科性质、建立背景及条件、学理依据、学科地位、与相关学科的关系、研究的理论及现实意义、概念系统、内部分类、研究对象与主要研究内容、研究原则与方法、研究步骤、重点和难点、可能遇到的瓶颈问题、发展趋势、字料库汉字学的应用以及与汉字字料库实体建构相关的一系列问题,仍然缺乏系统深入地研究。

本章拟先对字料库汉字学的学科定义、研究领域、学科性质、主要研究内容、研究方法、研究步骤、学科地位等几个关键问题进行初步探讨,以便为后续的深入研究打下基础,并藉以引起更多学者对字料库汉字学的高度重视,推动这一新兴学科的研究向纵深发展。

#01

字料库汉字学的学科定义及研究领域

一门新学科的建立,首先需要有明确的定义。我们认为,字料库汉字学是以真实文本中出现的汉字字料为界定和描述汉字现象的起点,通过字料的采集、存储、标注、检索和统计分析,用来提出全新的汉字学理论或验证、修正已有汉字学理论,并对字料库如何应用于汉字教学与中文信息处理及其他相关学科进行研究的一门交叉学科。

这一定义的确立受到了梁茂成“语料库语言学四大领域论”的直接启发。自20世纪60年代崭露头角以来,语料库语言学已经给当代语言学研究带来了翻天覆地的变化。一般认为,语料库语言学的研究范式分为两种:“基于语料库”的研究、“语料库驱动”的研究。[2]梁茂成从多个角度对这两种范式进行了离析,并创造性地将语料库语言学所涉及的领域划分为四个:“语料库驱动”的语言学研究(处于核心圈)、“基于语料库”的语言学研究(处于核心圈外围)、将语料库应用于语言教学的应用语料库语言学研究(处于第三圈)以及语料库在语言学外围学科中的应用研究(处于最外层)。[3]这种分法,对于字料库汉字学无疑具有非常重要的理论指导意义。我们尝试借鉴梁茂成的分法,也将字料库汉字学的研究领域概括为四个部分:

处于核心圈的是“字料库驱动”的汉字学研究。这类研究对字料库的依赖程度最高,它以字料库作为出发点和唯一的观察对象,以新理念和新方法对与汉字直接或间接相关的各类现象进行界定和描述,用来揭示汉字创制、发展和演变的深层次规律,并试图提出全新的汉字学理论观点。其核心工作是汉字构形属性及构形关系的描写。由于它排斥任何理论预设,所以字料库中的字料只能以元数据形态存在,除来源、形态等客观属性外,其他属性均不能按照已有的汉字学理论进行标注。

处于核心圈之外的是“基于字料库”的汉字学研究。它主要是利用字料库对已有的汉字学理论或假设进行再探索,目的在于验证或修正已有的汉字学理论。在此过程中,字料库被视为一种可靠而非唯一的研究资源和工具。由于它不排斥其他理论预设,所以字料的各种属性需要预先根据已有的汉字学理论进行尽可能科学详实的标注。

处于第三圈的是应用字料库汉字学研究。理论的价值只有通过实践才能体现出来。汉字教学和中文信息处理是当前汉字学最重要的两个应用领域。应用字料库汉字学研究主要是把字料库及字料库汉字学理论与各层次、各类型的汉字教学结合起来,与当前中文信息处理的迫切需求结合起来,利用字料库汉字学理论和字料库所提供的字料来解决汉字教学和中文信息处理过程中遇到的各种实际问题,提高教学和信息处理的效率。

处于最外层的是字料库在其他学科领域中的应用研究,比如训诂学、音韵学、词汇学、辞书学、书法学、古籍整理、字体设计等等。这类跨学科研究完全不排斥已有理论的指导,而且字料库所提供的字料也只被视为一种辅助性资源,学者可以从字料库中提取研究所需要的各种字料资源,以便加快研究进度,提高研究效度。

字料库汉字学是以字料库中的字料为基础开展研究的一门学科,以上四个层次的研究,前两者属于理论研究,后两者属于应用研究。无论是理论研究还是应用研究,都必须秉承“用数据说话”的研究理念,都要依托汉字字料库这一便捷高效的平台,以真实文本中出现的字料为界定和描述汉字现象的起点。不过,从内到外每个层次对于字料和字料库的依赖程度依次递减,对于已有汉字学理论的依赖程度依次递增。

按照这种“四大领域论”的分法,字料库汉字学的研究领域能被较好地整合起来。这样做,既可以凸显字料库汉字学研究对象的地位,又可以调解“字料库驱动”与“基于字料库”两种研究范式之间的矛盾,还能拓宽字料库汉字学的研究范围和应用领域,对于推动尚处于成长状态的字料库汉字学健康快速发展具有重要的作用。

#02

字料库汉字学的学科性质

1、字料库汉字学具有

社会科学和自然科学双重属性

一门学科的性质主要是根据其研究对象来确定的。字料库汉字学以“字料库中的字料”为基本研究对象,因此,这门新学科必然兼有社会科学和自然科学双重性质。

之所以说这门学科具有社会科学的性质,主要因为真实文本中的汉字字料是字料库汉字学研究的基本对象。众所周知,作为整个社会文化体系的有机组成部分,文字是人类社会发展到一定阶段的产物,是一种依存于社会的文化现象,具有鲜明的社会属性。文字会随着社会的发展而产生相应的变化。王凤阳认为,“文字的发展变化受社会诸因素的制约,尤其是受社会关于书面记录和交际的需求量和文字承载量的制约,这是文字发展的一个普遍的规律。”[4]汉字是一种典型的文字形态,自然也必须把社会属性作为其根本属性。以汉字字料作为研究对象的字料库汉字学也必然具有社会科学属性。

之所以说这门学科具有自然科学的性质,主要是因为其研究对象来源于“字料库”。从本质上来说,汉字字料库是一种依靠计算机手段建设而成的数据库,其建设过程可以划分为规划阶段、需求分析阶段、设计阶段、实现阶段、字料采集阶段、字料标注阶段、使用及维护阶段等七个阶段。这其中每一阶段的工作都与计算机数据库和软件开发技术直接相关。此外,字料检索、对比、统计、筛选、导入、导出等主要功能的研制开发除了需要汉字学知识外,还需要借助软件编程技术才能完成。字料库的建设要以符合规范化、自动化、网络化、智能化及多功能化要求为终极目标。这一目标的实现,离开计算机数据库和软件开发技术,是根本无法想象的。因此,字料库汉字学又具有显著的自然科学属性。

在汉字字料库中,字料居于绝对核心的位置,是字料库汉字学研究最重要的内容,数据库只是字料的载体,因此,相比于自然科学属性,社会科学属性应该是字料库汉字学的主要属性。

2、字料库汉字学具有

理论科学和应用科学双重属性

一门学科的性质还可以从它侧重于理论研究还是应用研究这个维度来确定。字料库汉字学既重视理论的总结概括,又重视理论在实践中的应用,它具有理论科学和应用科学双重属性。

字料库汉字学的研究领域主要分为两大类,一类是理论性很强的“字料库驱动”及“基于字料库”的汉字学研究,它对汉字字料库本体、字料库汉字学以及汉字学理论进行充分、深入地跨学科研究,重在通过字料库中提供的大规模字料来揭示汉字的本质,探索汉字发展演变的基本规律;另一类是在汉字教学和中文信息处理领域的应用字料库汉字学研究以及跨学科中的字料库应用研究。它要对汉字字料库及字料库汉字学在诸多应用领域中遇到的具体问题进行分析研究,创造性地解决这些问题,具有很强的目的性和可操作性。“字料库驱动”及“基于字料库”的汉字学研究可以为字料库汉字学的应用研究提供理论指导,而字料库汉字学的应用研究不仅能为理论的运用开辟广阔的领域,还能促进理论的进一步丰富和完善。这两类研究领域共同支撑起了字料库汉字学的大厦,二者应该良性互动,协调发展。

总而言之,字料库汉字学需要同时使用汉字学和信息科学两方面的知识与技术,是一门特色鲜明的具有综合属性的交叉学科,它既具有社会科学属性,也具有自然科学属性,而社会科学属性是其主要属性。字料库汉字学又具备理论科学和应用科学双重属性,在具体研究过程中,这两种属性应该同样得到重视,否则会使字料库汉字学的研究缺乏后劲,不利于字料库汉字学各研究领域的均衡、充分发展。

#03

字料库汉字学研究的主要内容

任何学科都是因为要解决某些专门的重要问题而产生的,所以说,要创建一门新的学科,首先必须有足够多的值得独立考察研究的新问题。这些问题,构成了新学科研究的主要内容。作为一门独立学科的字料库汉字学,其研究内容主要是在汉字学及相关领域中与研发和应用字料库直接或间接相关的各种理论和实践问题。具体来说,包括但不限于如下三方面主要内容:字料库本体研究及实体建构、基于字料库的汉字属性与汉字整理研究、字料库汉字学应用研究。下面分述之。

1、字料库本体研究及实体建构

这是字料库汉字学研究的基础性内容。对字料库本身研究不系统、不透彻,没有大量具有一定规模的类型丰富的字料库作为基础,字料库汉字学的研究就是无源之水,无本之木。因此,字料库本体研究及实体建构应该被摆在整个研究的首要位置,而且二者应该互相促进,不可偏废。它主要考虑以下五个方面的问题:

(1)字料库的设计和开发:主要考虑字料库的建设目的、主要功能、具体类型、建设规模、开发工作所需资源、开发成本、开发进度、质量监控、可扩展性等等。

(2)字料的采集:主要考虑文本版本信息、元数据采集、样本采集、字料获取方式、图文数据格式、字符集编码设定、字料分类及选取原则、各类入库字料的代表性等等。

(3)字料的标注:包括字料属性库的建设、标注原则、标注方案、标注内容(包括公用信息、基本属性信息、汉字构形信息、字际关系信息等等)、标注规范、标注方式、标注深度、标注质量检验等等。

(4)字料库系统的建设:包括数据加工与维护(字料切图、识别、校对、存储形式、索引、系联、导入导出、修改、删除、备份与恢复等)、字料自动加工(属性自动标注、标注质量的检验)、用户功能(检索、筛选、统计、对比、打印、权限管理等)、基于网络的字料库管理与应用平台。

(5)自动、辅助软件开发:研究和开发处理字料的算法和自动、半自动软件工具,用以解决字料库建设及字料库汉字学研究各领域中的问题。比如批量切图、字料的计算机图形描述、字料自动批量比对、机器自动标注、标注结果图形化展示、不同类型字料库的对接等等。

以上五方面的内容,目前都还缺乏非常深入系统的研究。字料库是从语料库类推出来的一个概念。语料库的发展势头可以说相当迅猛,有学者把研究者在“前电子时代”经手工采集的语料集合称为“语料库1.0”,并认为语料库现在已经发展到了4.0——多模态语料库。[5]语料库的发展过程积累了非常宝贵的经验,值得字料库开发研究去借鉴。与此同时,因为语言和文字是两种不同的符号系统,字料库与语料库在建设目标、所能提供的功能以及数据的存储、管理模式等方面均不相同,[6]所以,必须考虑字料库建设与研究的特殊性,简单套用语料库实体建构的模式,一定会产生水土不服的现象。

2、基于字料库的汉字属性与汉字整理研究

这是字料库汉字学研究的主要内容。其范围包括但不限于以下九个方面:

(1)汉字字样属性描写与研究。[7]字样是指在同一种形制下,记录同一个词,构形构意相同、写法也相同的字。它是汉字认同别异的基础单位。[8]汉字字样属性包括书写单位(线条或笔画)、书写方法、书写风格、字体类型、字形变体等等。在字料库所提供的大量真实字料基础上,我们可以对汉字书写单位、书写方法及字体类型的历史变迁进行细致地描写和充分地解释,也可以对各阶段汉字字样的书写风格进行横向和纵向的比较研究,还可以对字样的书写规律和变异规律进行实证性研究。

(2)汉字构形属性描写与研究。字形是汉字的本体,汉字构形属性的描写与研究是汉字学的核心内容。利用数据库技术,将不同时代、不同地域、不同载体、不同使用范围的汉字字形予以类聚,设置各种属性字段,建设可以满足汉字构形属性描写与研究的字料库。通过分析单字的构形单位、构件类别、构形理据、组合模式等构形属性信息,从无限多的千姿百态的具体汉字字料中归纳出汉字构形应该遵循的普遍规律,进而揭示汉字构形系统的基本特征,并可藉此验证历代主要构形模式学说的科学程度,进一步发展和完善汉字构形学理论体系。

汉字形体演变简表,载王宁主编《古代汉语》

(3)汉字构形系统对比研究。汉字构形系统是一个不断发展变化着的动态系统,仅对其作宏观、静态的观察分析,难以对汉字构形系统反映出的各种复杂现象做出科学合理的解释。依据汉字字料库,在对各历史时期不同书体的汉字构形系统进行调查描写的基础上,弄清楚汉字构形系统从古到今发展演变的基本面貌,并开展古今汉字构形系统内部及各系统之间的比较研究,探究汉字构形系统演变的主要规律和发展趋势,是字料库汉字学研究的主要课题之一。

(4)汉字书写属性研究。汉字书写属性包括运笔和结体两大方面,其内部又包括笔数、笔形、笔顺、平面图式等小类。字是写出来的,书写会对汉字形体结构产生直接的影响。“汉字书写者对于字形简便、有别和美观的追求及书写时有意无意的‘变异’,都是导致汉字形体变化的重要因素,而汉字形体变化往往又导致汉字结构模式的改变。”[9]因此,对汉字书写属性的描写,无疑具有重要的研究价值。字料库能够提供规模化、系统化的真实文本中出现的字料,这些字料是研究汉字书写属性的可靠材料,可以用来描写和解释不同书写者所写下的字料的个体差异和总体特征,能够让基于字料库对书写风格的描写和解释更加客观和深入。

(5)汉字字用属性研究。汉字字用属性包括字义信息(本义/引申义/假借义)、字音信息(古音、今音、正音、又音等)、字频信息以及字词及字际关系信息。通过字料库中的汉字音义信息处理平台,系统整理汉字音义信息,梳理汉字音义发展演变的基本脉络和规律,可以不断丰富与发展汉字音义理论。另外,通过调查统计各历史时期汉字使用的频度,区分出汉字的通用等级,描写汉字使用频度在不同历史时期、不同应用领域的变化情况,找出其变化的主要特征和内在规律,可以为当前的汉字字频研究和汉字规范研究提供参考资料。对字词及字际关系信息的调查描写,建设汉字字词、字际关系巨系统,对于疑难字词的考释、全汉字的整理研究、字典辞书的编撰修订以及古文献的训释工作都具有重要意义。

(6)全汉字整理与统计研究。汉字整理与规范是保护汉字资源的一种重要手段。彻底整理从古到今记录汉语语词所创造的、所书写的汉字形体资料,按照字形单位原则和构造功能原则,[10]统计各种书体(载体)系统所包含的字样、字位及字种数量,考辨疑难俗字,总结汉字构形和书写变异规律,沟通字际关系,归纳整理异写字、异构字,确定字位主形及字种正字,优选出传统汉字的规范形体,最终完成历时汉字字料“树结构”的建构工作。

(7)语篇汉字与字书汉字比较研究。汉字字料库中采录的字料根据其原始存现环境可以分为语篇文字和字书文字两种,它们分别来源于使用领域和贮存领域,都是全汉字整理不可或缺的重要资源。两者之间既密切关联,又各有特点,其异同之处的描写和归纳工作需要借助大规模字料库才能更好地完成。

(8)字书汉字断代研究。依托字书字料库开展有关字书所贮存历史汉字的时间层次的调查研究,把字书所收汉字形体的来龙去脉考察清楚,考察这些字在历代字书中层积和流变的真实状况,离析出转收字、新收字、形体变异字,确定它们在整个汉字系统中所处的位置,以便全面认识各历史时期汉字的基本面貌,为历时汉字的系统整理、当今汉字的科学规范、大型字辞书的编修完善等提供一手材料。

西夏文佛经《吉祥遍至口和本续》(局部)

(9)中外汉字比较研究。调查汉字文化圈内朝鲜、韩国、日本、越南等国家汉字的创制、使用及流变情况,比较几种汉字在造字、书写演变方面的异同,梳理汉字向汉字文化圈内其他国家传播、渗透和发展演变的基本脉络,进而探究民族文化与心理因素在汉字创制使用过程中所发挥的重要的内化作用。另外,历史上汉字也对国内其他少数民族文字的创制产生过重要影响,比如古彝文、古壮字、西夏文、契丹文、女真文、水书、女书等等,都是直接或间接受汉字影响而创制的。[11]通过建设汉字字料库和我国少数民族或其他国家表意文字字料库,开展基于字料库的比较文字学研究,对于汉字传播史以及表意文字之间的比较研究都具有重要的价值。

3、字料库汉字学应用研究

字料库汉字学是一门实践性、应用性很强的学科,脱离了应用,就理论而谈理论,会使它失去进一步发展的基础和动力。可以说,应用研究是字料库汉字学研究内容中最接地气的部分。它大致包括以下五种:

(1)各层次汉字教学研究。字料库及字料库理论可以应用于包括义务教育阶段汉字教学、高中及大学阶段汉字教学、对外汉字教学、书法教学等在内的汉字教学实践,从而有效促进汉字理论研究与汉字教学实践良性互动,在提高汉字教学整体水平与质量的同时,促进应用字料库汉字学理论的进一步发展。这方面已经有学者进行了卓有成效的尝试。比如北京语言大学建设的“外国学生错字别字数据库”已经在促进汉字理论研究与汉字教学实践良性互动、提高对外汉字教学水平与质量方面发挥了重要作用。[12]

(2)全汉字UNICODE编码研究。UNICODE是一种国际标准编码,能够实现跨语种、跨平台的应用,目前最新的13.0版收录的汉字达九万多个,但仍然有很多真实文本中出现过的缺字亟待补充。通过从字料库中提取、整理并向国际标准化组织提交未收录字形资料,与相关国家及组织通力协作,可以分批次完成全汉字的UNICODE编码工作。于2011年启动的“中华字库”工程是一种超大型的字料库工程。它以文字学深入研究为基础,拟将真实文本中所有出现过的汉字形体和少数民族文字形体汇聚起来,并制作满足各种应用需求的字体字符库。这一工程无疑会在全汉字UNICODE编码研究过程中发挥非常重要的作用。

(3)字典编纂研究。以往字典的编纂,无论是字头的设立、字形的优选,还是音义的归纳、书证例证的选取,基本上都要靠人工完成,诸如字头漏收重收、字形转写错误、音义漏收或误置、书证例证缺失或时间靠后等问题,在这种条件下是无法避免的。利用字料库提供的海量资源,很多工作可以交由计算机完成,后期予以人工干预即可,可以有效提高字典编纂的效率,大幅度提升字典的品质。字料库将成为未来字典编纂最基本、最可靠的资源。

文悦科技开发字体

(4)字体设计与制作。当前计算机字体种类繁多,包括宋体、楷体、仿宋体、黑体等等,整体看来规范程度较高,但字形风格比较死板。一些组织和个人开始依据古籍字形设计制作中文复刻字体。比如国内方正电子开发的方正清刻本悦宋体、方正金陵体、方正萤雪体以及文悦科技开发的康熙字典体、文悦古体仿宋、仪凤写经体、隶辨隶书体、古典明朝体等,日本“欣喜堂”也设计了包括麻沙体、志安体、嘉兴体、毛晋体、聚珍体等在内的24套高质量古籍字体,[13]这些字体设计与制作的基础是需要有大批量、成系统的古籍手写或印刷字形,而字料库正好能够提供这种基础性资源,如果能够很好地利用这些汉字字料图片,无疑会拓宽字体设计和制作的选材范围,提高字体设计制作的速度和效率,满足艺术设计的迫切需求,而且还能缩短在古籍艺术字形设计和制作领域国内与国外的差距。

其他比如字料库汉字学与语料库语言学对比研究、古今社会用字规范及现代用字标准制订研究、汉字字形发展史研究、古籍文献数字化处理及校勘整理研究等等,都是字料库汉字学能够直接关涉到的研究内容。可以说,字料库汉字学的研究拥有一片十分广阔的天地。

需要特别强调的是,字料库汉字学建立在字料库所提供的大量真实字料基础上,无论是字料库本体研究及实体建构,还是基于字料库的汉字属性与汉字整理研究,或者字料库汉字学应用研究,都离不开对字料的充分考察与描写。不过,“从科学研究的角度说,无论哪个学科,对事实的考察和挖掘固然重要,但它毕竟只是研究的基础,还未达到真正意义上的科学研究。真正意义上的科学研究,必须对考察、挖掘所得的事实及其观察到的内在规律做出科学的解释,并进一步从中总结出具有解释力的原则,升华为理论,能用这些原则、理论来解释更多的事实,从而使学科得以自立,得以发展。”[14]所以,我们必须对考察、描写所得的字料事实及其规律做出科学的解释,并进一步从中总结出具有普遍解释力的原则,升华为汉字学理论,能用这些原则和理论来解释更复杂多样的汉字现象,更好地指导当前及未来的汉字整理与汉字学及相关学科的研究工作,这才是真正意义上有价值的字料库汉字学研究。

本文节选自柳建钰《字书字料库的理论、实践与应用》,中华书局,2021年,页67到页81

向上滑动查看注释

[1]作为阶段性成果,本章主要内容曾以《字料库汉字学初探》为题发表在《语言文字应用》2017年第2期上。此处又做了一些修改和完善。关于这门新学科的名称,学界又有“数据库汉字学”(王平2013)、“数据库文字学”(刘志基2019)的说法。我们认为,学科名称应该要能准确概括该学科的主要内容。数据库是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库的总称,字料库只是其中的比较特殊的一种。而且我们所要研究的是汉字,而非古今中外所有种类的文字。因此,就本书所要研究的内容来看,“字料库汉字学”这一名称是名副其实的。

[2]前一种范式似乎可以称之为“语料库语言”学,而后一种范式则可以称之为“语料库”语言学。

[3]梁茂成.语料库语言学研究的两种范式:渊源、分歧及前景[J].外语教学与研究,2012(3);梁茂成.语料库、平义原则和美国法律中的诉讼证据[J].语料库语言学,2014(1):25-26.

[4]王凤阳.汉字学[M]:长春:吉林文史出版社,1989:24.

[5]黄立鹤.语料库4.0:多模态语料库建设及其应用[J].解放军外国语学院学报,2015(3):1.

[6]李国英,周晓文.字料库建设的必要性与可行性[J].北京师范大学学报(社会科学版),2009(5):50-51.

[7]李运富认为汉字具有形体、结构、职用三个方面的本体属性。对汉字的研究可以从外部形态(字样)、内部结构(字构)和记录职能(字用)三个平面入手。详见:李运富.“汉字学三平面理论”申论[J].北京师范大学学报(社会科学版),2016(3):52-62.

[8]王宁.汉字构形学导论[M].北京:商务印书馆,2015:150-151.

[9]张素凤.谈书写对古汉字结构的影响[J].兰州学刊,2013(9):180.

[10]李运富.汉字汉语论稿[M].北京:学苑出版社,2008:65-69.

[11]陆锡兴.汉字传播史[M].北京:语文出版社,2002:前言.

[12]北京语言大学“外国学生错字别字数据库”课题组.“外国学生错字别字数据库”的建立与基于数据库的汉字教学研究[J].语言教学与研究,2006(4):1-7.

[13]日本欣喜堂汉字书体二十四史,http://www.kinkido.net/Chinese/Chinese.html.

[14]陆俭明.汉语语法研究中理论方法的更新与发展[J].汉语学习,2010(1):3-10.

字书字料库的理论、实践与应用

滑动查看书影

摘要

当前利用计算机技术来整理和研究汉字的工作整体上比较薄弱,远远落后汉字整理规范工作的客观要求,因此必须借助汉字字料库,并在此基础上建立字料库汉字学,用来指导汉字整理研究的实践工作。本书对与字书字料库相关的一些理论问题进行了探讨,并对字书字料库实体建设及实践应用方面的一些问题进行了研究。全书共分三编。上编为字书字料库理论篇,中编为字书字料库实践篇,下编为字书字料库应用篇。

字书字料库是与语篇字料库相对应的字料库两大类型之一,它是在大规模历代字书文本基础上生成的真实的汉字刻写形态的有序集合,是利用计算机对字书汉字形体进行各种分类、统计、检索、综合和比较等研究的基础,它能为汉字学及其他相关学科研究提供高度结构化的字书汉字数据信息。字料库与语料库之间既有联系,又相互独立,不能等同视之。字料库可以从不同角度划分出不同的类型,不同类型的字料库均有自己独特的价值。字书字料库建设是当前汉字整理研究工作的迫切需要,是推动汉字学研究信息化的内在要求,也是与语料库语言学并驾齐驱的必然选择。字书字料库建设在物质基础、技术支持及理论指导诸方面均具有可行性。

汉字字料库理论的形成,是在当前多学科交叉综合研究方法日益受到学界重视的历史条件下,在汉字整理研究的实践过程中,在总结历代及当前汉字整理研究的经验教训的基础上,通过借鉴语料库理论及语料库语言学成功发展的宝贵经验,逐步形成和发展起来的。也是学者对汉字整理研究工作进行长期探索与前瞻性研究的必然结果。汉字字料库理论是对科学汉字学理论体系的丰富和发展,能够有效指导当前及未来的汉字整理研究实践工作,还蕴涵着一种全新的、科学程度更高的汉字整理研究方法和思路。它不仅丰富了汉字学理论体系,是对学科交叉综合研究方法的一种新尝试,还可以用来指导当前的汉字整理研究实践,在汉字学研究方法论上也将产生重要的影响。

字料库汉字学是以真实文本中出现的汉字字料为界定和描述汉字现象的起点,通过字料的采集、存储、标注、检索和统计分析,用来提出全新的汉字学理论或验证、修正已有汉字学理论,并对字料库如何应用于汉字教学与中文信息处理及其他相关学科进行研究的一门交叉学科。其研究领域可为“字料库驱动”的汉字学研究、“基于字料库”的汉字学研究、应用字料库汉字学研究以及字料库在其他学科领域中的应用研究等。字料库汉字学具有社会科学和自然科学双重属性,又具有理论科学和应用科学双重属性。字料库汉字学研究的主要内容包括字料库本体研究及实体建构、基于字料库的汉字属性与汉字整理研究、字料库汉字学应用研究等。字料库汉字学的研究方法主要包括字料库驱动和基于字料库的研究方法、定性与定量相结合的方法、共时与历时相结合的方法、实证与内省相结合的方法、学科知识综合交叉的方法等。就研究步骤来说,“字料库驱动”的汉字学研究和“基于字料库”的汉字学研究有明显区别。

字书字料库系统建设的主要原则包括科学性、真实性、代表性、前瞻性、先进性、共享性。基本流程划分为规划、需求分析、设计、实现、字料采集、字料标注、使用及维护等7个阶段。属性库要遵循从字书实际出发、具有完整性与准确性、强调规范化等三个基本原则。

字书字料标注,就是把字书字料所具有的汉字学、字典学及其他重要信息按照既定原则一一标注出来。字书字料标注的原则包括生字料和标注内容的数据独立性原则、公开性原则、通用性原则、标准化原则、多维度原则。字书字料标注的内容主要包括基本属性信息标注、汉字构形信息标注、汉字字际关系信息标注三个方面。其中,基本属性信息标注是基础,汉字构形信息标注是核心,汉字字际关系信息标注是重点。字书字料标注可以采取人工标注和机器标注相结合的方式。初期的标注任务可以先定位在浅层次上,以后再根据相关研究结果逐级递增标注深度。

字书字料库日常维护管理工作包括录入新字料和更新在库字料数据、监视系统运行状况、备份及恢复数据库文件、创建用户信息表并授权、执行安全保障措施等。

字书字料库能够在字书汉字的考辨工作中起到较好的辅助作用,有助于提高考辨工作的效率和考辨结果的信度。字书字料库在字书汉字层积流变的考察方面具有重要价值,借助字书字料库中调查得到的第一手数据,可以很方便地对字书收字总体状况以及共收字形、单见字形、歧出字形状况进行调查统计。字书字料库在通用规范汉字8105字的构件组合的动态特点、结构的层级数、各级构件及其功能、构形模式、布局图式等五方面构形属性的调查研究方面也可以发挥重要作用。

李国英老师序

当前,信息化社会已进入高速发展阶段,信息技术的进步推动人类社会生活各领域发生了革命性的变化。它不仅推动了科学技术的进步,提高了整个社会的工作效率,也快速改变着整个社会的生活形态。可以毫不夸张地说,谁掌握了信息技术的尖端,谁就掌握了未来。

信息技术的进步,业已使得人类社会语文生活和科研手段产生了革命性变化。听说读写方式的改变导致了个人语文能力的变化,信息传播模式和知识获取方式的变化推动着整个社会语文生态的变化;互联网、大数据、云概念、智能化等技术的参与促使科研手段发生了重大变化,同时也正在改变包括语言文字研究在内的科研生态。

语言文字是人类最重要的交际工具和信息载体,是信息化工作最为重要的基础性资源,语言文字的信息化是全部信息化工作中最为重要的基础工作,而语言文字资源库的建设又是语言文字信息化最重要的基础性工作。就基本类型而言,语言文字资源库可以划分为基于口语的资源库和基于书面语的资源库。书面语的信息化处理,是以字的处理为起点,进而进入到语言处理再到概念处理的连续过程,与这个过程相对应,需要建设为字处理提供基础性资源的字料库、为语言处理提供基础性资源的语料库和为内容处理提供基础性资源的概念库。我们可以把字料库的基本单位确定为字,把语料库的基本单位确定为词,把概念库的基本单位确定为概念。字料库的核心工作是在确定汉字基本单位字的定义的基础上,解决字单位的认同、别异问题,聚合同一汉字的不同变异形式,离析同一形体的不同汉字,以字为基本单位,建立个体字符属性标注完备、整体序化编排的汉字库藏;语料库的核心工作是在确定语言的基本单位词的定义的基础上,解决词单位的认同别异问题,聚合同一词语的变异形式,离析同一词形表达的不同词语,建立个体词语属性标注完备、整体序化编排的汉语词语库藏;概念库的核心工作是在确定概念的定义的基础上,解决概念单位认同别异问题,聚合同一概念不同语言表达方式,离析同一语言形式表达的不同概念,建立序化的概念库藏。在此基础上,还要进一步解决字料库与语料库以及语料库与概念库的接口问题,实现字料库、语料库、概念库的统合,真正实现从真实文本出发,达到内容处理的目标,以满足信息化处理对语言文字的要求。同时,字料库和语料库本身也为文字和语言的研究提供了新思路和新方法,也必然推进语言文字本体研究的现代化进程。

柳建钰的《字书字料库的理论、实践与应用》是第一部探索汉字字料库理论的专著,该书首次对字料库的理论进行了系统思考,对字书字料库的实践经验作了总结,并初步展示了字料库应用的状况与前景。

全书框架共分为三大部分。在理论篇中,作者在介绍字料、字料库等基本概念的基础上,讨论了字料库与语料库的联系与区别,并对字料库的分类、字书文字研究的价值以及字书字料库建设的必要性与可行性进行了分析。其后,作者对字料库理论的提出及其价值进行了深入剖析。最后,作者提出了建立字料库汉字学的设想,并对字料库汉字学的学科定义、研究领域、学科性质、主要内容、研究方法、研究步骤、学科地位等一系列学科理论问题进行了充分阐释,这些内容都是作者对字料库理论不断开拓挖掘所取得的最新成果。

在实践篇中,作者首先介绍了当前国内外字料库与类字料库建设的基本情况,之后对字书字料库系统建设的七个主要原则与七个阶段进行了讨论。作者详细介绍了渤海大学CCFD字书字料库数据库及软件的设计情况以及字书字料库四大界面属性库的建设情况,并对包括标注原则、内容、方式、层次等在内的字书字料标注相关问题进行了分析。最后,作者举例对字书字料异体关系等七种字际关系的系联进行了展示,这为同类型字料库的设计研发和数据填充提供了可资借鉴的宝贵经验和参考实例。

在应用篇中,作者举例分析了字书字料库在字书疑难字考辨过程中能够发挥的重要作用,并开展了基于字书字料库的字书汉字层积流变状况调查研究和通用规范汉字构形属性调查研究,研究数据详细可靠,结论严谨可信,进一步展示了字料库在当前汉字整理与汉字学研究方面的巨大潜力。

该书研究具有鲜明的创新意识和问题意识,对字料库理论研究、实体建设及应用研究方面的问题进行了深入思考,提出了不少有价值的学术观点,让人耳目一新。研究成果无论是在科学性、理论性方面,还是在实践性方面都已经达到了一个比较高的学术水平。

不过,该书仍然带有初创期著作的稚嫩与粗疏,字料库理论有些内容还没有说透,字书字料库实体设计还有可商榷之处,字料库应用领域有待于进一步拓展。这也为未来的研究留下了充足的空间。在本书排印的过程中,我们高兴地获悉,作者申报的国家社科基金项目“字料库字料标注规范研究”获批重点项目,这说明作者对字料库的探索并未停止。我们有理由相信,在不远的未来,作者将为学界提供更为成熟而细密的研究成果,从而推动字料库研究的不断深入。与此同时,随着实体建设的日渐成熟和应用领域的逐渐广泛,字料库也一定会在推进我国语言文字研究的信息化进程中贡献自己的独特力量!

李国英

二〇二〇年十一月二十四日

后记

本书是我所主持2014年度国家社科基金青年项目“字书字料库的理论与实践研究”的最终成果,该项目已于2019年结项,等级为“良好”。原计划只打算就理论与实践两部分展开研究,应用部分可以算是超额完成的内容。

字料库理论是由李国英师与周晓文于2009年提出来的。我初次接触字料库概念是在2011年,弹指一挥间,已经快要十年了。刚开始对于字料库的认识还比较肤浅,但初生牛犊不怕虎,我首先申报了省社科基金,侥幸获批。这极大地鼓舞了我的研究热情和干劲。接着,我又相继获批2013年度教育部项目和2014年度国家社科基金项目,顿时觉得肩上的担子更重了。于是我开始天天游走于网络,调查各种汉字数据库和经典的语料库,并着手设计字书字料库框架和字料属性库。之后便与锦州国信科技有限公司合作研发字书字料库系统。2014年10月完成了1.0版,2015年9月完成了2.0版,2016年12月“CCFD字书字料库系统”荣获锦州市科学技术进步奖二等奖,2018年8月又完成了3.0版。目前字书字料库运行正常,在库数据量和数据的复杂程度都远远超出了我的预期。虽然整体来看也许还不太成熟,但随着字书字料库这棵大树慢慢生根发芽、开枝散叶,开始有更多的人关注它并进行基于字书字料库的汉字学研究,有学者还参考字书字料库的架构,尝试去建设其他类型的字料库,这对于我来说,不啻是一种莫大的鼓舞。

如果说字书字料库实体建设难度不小的话,字料库理论研究则更富有挑战性。这方面的工作前贤时俊做的不多,还有不少难点问题需要系统深入地探讨。我比较喜欢从事材料整理工作,理论功底比较薄弱,涉足这一领域时自觉如履薄冰。只有敢于突破自我,才能永远走在前列。为了顺利完成项目,我决定挑战一下自己的极限。而要想在理论研究方面开拓创新,不付出巨大的艰辛是办不到的。除了大量阅读汉字学、语料库语言学等方面的论著外,我还给自己定下了项目周期内年均发表1篇理论文章的小目标。现在看来,这个小目标应该已经实现了。尤其是《字书字料库中字料标注若干问题刍议》和《字料库汉字学初探》发表在《语言文字应用》上,前文主要观点还被人大复印报刊资料《语言文字学》2015年第11期摘编。当意识到这些年来自己的工作已经将字料库实体建设与理论研究的进程向前推进了一小步时,我倍感自豪!这种喜悦,是其他任何东西都无法替代的!

近十年来,背靠着字书字料库这棵大树,我相继申请到了六个项目,发表了十多篇文章,获得了三项学术奖励,还顺利评上了正高职称。付出的努力终于得到了回报。欣喜之余,我深知,这些成绩的取得与很多师友的支持和鼓励是分不开的。饮水思源,在这里必须向诸位表达我衷心的感谢。

首先要特别感谢我的博士导师李国英教授。李老师对汉语和汉字始终怀有深情厚意。他不仅在传统语言文字学研究上倾注了常人难以想象的心血,而且对在信息时代为何要以及如何去借助数据库整理研究汉字也有着非常深刻的理性认识,故而能够审时度势,提出字料库建设与研究的设想。当初申请国家社科基金项目时,李老师就给予了充分肯定。之后每次登门拜访,李老师都会问我最近在研究什么,字料库建设的进展如何。可以说,我的每一点进步背后都有李老师的支持和鼓励。现在这本书就要出版了,尽管离李老师的要求可能还有很大距离,但我仍想将它首先献给李老师,并要跟李老师说一声:“谢谢老师,您辛苦了!”

感谢北京师范大学齐元涛、陕西师范大学党怀兴、辽宁师范大学洪飏、郑州大学张青松等诸位老师对项目及书稿的高度认可!

这些年来,北京师范大学周晓文、北京语言大学陈双新、河北大学杨宝忠、渤海大学夏中华、天津师范大学王世凯、辽宁省委宣传部肖明江等老师在教学科研工作上给予了我无私教诲和大力提携,在此一并致以最诚挚的谢意!

感谢我指导的硕士研究生:史晓丹、安冬雪、王伊佳、单志鹏、邢蕴荠、李超、徐丽雪、王海孟、李美璇、程银燕、马健、王健洁、姜泽兵、董倩、韩鼎新、曲波、张梦、郑琼、秦冕、冯宝成、王修竹。他们在字料库建设(尤其是字料数据的录入与标注)方面给予我重要支持。他们基于字料库的字书汉字研究成果对于字料库汉字学理论的发展颇有助益。现在他们或在读书,或已工作,希望他们未来的路能越走越宽!

感谢师弟许庆江。如果没有他的引介,本书绝难在享誉海内外的中华书局出版,而且是以超常规的进度快速出版:从交定稿到出一校,只用了短短1个月,从寄交一校到收到二校,则只用了15天时间,让我也享受了一次“大佬”的待遇。书稿校编和排版过程中给他添了很多不必要的麻烦,在此要向他郑重道一声:兄弟,请多担待!

首都师范大学中国书法文化研究院孙学峰教授欣然命笔为本书题写了书名,使本书增色良多,谨致以最诚挚的谢意!

做学问需要资金做后盾。所以要特别感谢全国哲学社会科学规划办公室、教育部社会科学司、辽宁省社会科学规划基金办公室等单位为我提供了比较充足的资金支持,保证了字料库研发工作的顺利开展。

需要感谢的人还有很多:曹晓波、陈才、但诚、邓福禄、何林英、何瑞、华建光、蒋海宝、梁春胜、沈德海、宋龙、苏芃、孙建伟、汪银峰、王虎、王晓明、魏晓燕、谢铁强、邢爱贤、熊加全、杨清臣、于全有、俞绍宏、张素格、张义、郑贤章、朱翠萍……这份名单还可以罗列很长,感谢诸位在字书字料库软件研发、使用及鉴定过程中提出的宝贵意见!

感谢我的父母、妻子和儿女。他们的支持是我奋力前行的不竭动力!当然,我也想感谢一下自己。感谢自己的认真踏实与坚持不懈,期待在前行路上遇见更好的自己!

需要在此特别说明的是,为保持称呼上的统一,本书对学界前辈与时俊均直书姓名,未加“先生”二字,如有冒犯,恳请海涵!

书稿就要出版了,第一阶段的字料库建设与研究工作已经可以画上句号了。但这项工作还需要继续进一步拓展。当前,字料库建设与研究的重要性和紧迫性日益凸显,故而我也殷切希望大家都能够积极关注并主动投身于这项伟大事业中来!

限于本人的学识,本书错误疏漏之处在所难免,敬请各位同行专家提出批评和建议!我的邮箱是prcmap@163.com,期待您不吝赐教!

柳建钰

2020年7月25日

略记于修业堂

作者简介

柳建钰,男,1981年出生,宁夏中卫人,中共党员。渤海大学文学院教授。先后于宁夏大学及北京师范大学攻读汉语言文字学专业硕士学位及博士学位,2009年获文学博士学位。香港中文大学访问学者。现任语言学教研室主任,汉语言文字学专业硕士点负责人。系辽宁省百千万人才工程“千”层次人选,北京语言大学中国语言政策与标准研究所兼职研究员,国家语委科研工作专家库入库专家,辽宁省语言学会副会长,院语言文字信息处理研究中心主任。主要从事文字训诂研究、汉字字料库研究、古典文献学研究。主持国家社科基金重点项目、青年项目、国家社科基金重大项目子课题、教育部人文社科青年项目、全国高校古委会项目、辽宁省社科基金项目等各级各类项目十余项,参与省部级以上项目七项。在国内外学术刊物发表论文近四十篇,出版学术著作五部。科研成果获第七届辽宁省哲学社会科学奖·成果奖(省政府奖)二等奖、锦州市第十七届哲学社会科学成果奖一等奖等。

特别鸣谢

敦和基金会

章黄国学

有深度的大众国学

有趣味的青春国学

有担当的时代国学

北京师范大学章太炎黄侃学术研究中心

北京师范大学汉字研究与现代应用实验室

北京师范大学文学院古代汉语研究所

北京师范大学文学院古代文学研究所

微信号:zhanghuangguoxue

文章原创|版权所有|转发请注出处

公众号主编:孟琢谢琰董京尘

责任编辑:向文婷

部分图片来自网络

点“在看”给我一朵小黄花

© 2016-2017 ysjhz.com Inc.

站点统计| 举报| Archiver| 手机版| 小黑屋| 影视聚合站 ( 皖ICP备16004362号-2 )