责任单位:应用语言学研究室
负责人:张伯江
研究状况和选题价值
1. 国内外相关研究
许多国家都将语料库建设视为重要的基础工程,并建设了国家语料库。比如,英国国家语料库(BNC)于1991年开始建设,1994年完成第一版,此后在2001年和2017年相继发布了第二版、第三版,规模为1亿词。美国国家语料库(ANC)于1998年开始筹划,2003年发布第一版,规模为1110万词;2005年发布了第二版,规模为2200万词,2006年以后,美国国家语料库开始专注于开放的语料库(OANC)和人工标注子库(MASC)的建设。美国国家语料库的建设直接对标英国国家语料库,共识部分的语料也设计为1亿词,目前还在建设中。韩国政府于1998年启动了“21世纪世宗计划”项目,建设2亿词单元(eojul)的韩国国家语料库(KNC),如今已经完成。此外,俄罗斯、匈牙利、泰国、爱沙尼亚等国家也都建设并发布了各自的国家语料库。这些国家语料库均是平衡语料库,都对语料库进行了切分、标注等加工,为促进本国语言研究发挥了重要积极作用。
语言所应该建立国家水平的规模大、平衡性好、综合性强、动态更新、标注丰富、用途多样、开放共享、使用便利的当代汉语语料库,真实反映国家通用语真实面貌。中国目前还没有类似的国家语料库。我国语料库的建设在20世纪70年代开始起步,截止目前已经陆续建成了多个汉语语料库,比较知名的有北京大学CCL语料库、北京语言大学BCC语料库、国家语委语料库,等等。
2. 已有代表性成果分析评价
国内已建成的语料库对汉语教育与研究发挥了重要的积极作用。但是,这些语料库依然存在一些不足,不能完全反映汉语使用的真实现状:
(1)语料库采样不平衡,注重书面语语料而缺少口语语料。CCL语料库当代部分中报刊语料的占比高达71.45%,口语语料占比只有0.26%。BCC语料库仅将2013年的新浪微博文本作为口语语料,国家语委语料库则没收口语语料。但是相比较而言,口语语料更接近语言使用的真实状况,能更直接反映语言的面貌。反观其他国家语料库,也是口语语料占比较大,更为合理。比如,英国国家语料库90%为书面语语料,10%为口语语料;美国国家语料库第一版的1100万词的语料中,书面语语料占800万,口语语料占300万。
(2)样本大小未加以控制,同等规模的语料库文本覆盖面较窄。有的语料库未对样本大小进行控制,同样影响了语料库的平衡性与代表性。比如,CCL语料库和BCC语料库对文学家作品全文收录,而标准的平衡语料库避免同一作者的文学作品过多、过长、比重过大,过度代表某特殊文本从而影响语料库平衡性。相比之下,国外国家语料库这方面做得比较好,比如英国国家语料库最多只从单一作者作品的不同部分抽取45000词的样本。
(3)语料库没有或者缺少定期更新计划,难以进行基于历