吴梦成, 林立涛, 胡蝶, 刘畅, 黄水清, 孟凯, 王东波
图书馆论坛. 2024, 44(10): 93-102.
中国存世典籍成书于不同时代,典籍文本的语体风格及内容均具有时代性。文章以古代汉语到现代汉语的机器翻译为切入点,探究典籍文本的时代特征及其对中国古代典籍机器翻译的影响,提出针对不同历史时期训练翻译模型的策略,以提高古文翻译质量。以《二十四史全译》为研究语料,将语料划分为远古、中古、近古三个时期,从计算人文视角利用统计计量的方法对不同历史时期典籍文本的词频、词性、依存关系进行比较分析;在数据增强的基础上,利用每个时期的语料分别训练多种机器翻译模型并比较翻译效果。研究发现:典籍文本存在时代特征差异,并会对机器翻译效果产生显著影响;针对不同时期典籍文本分别训练机器翻译模型,能够提高古文翻译的准确性和流畅性。