『自然语言处理』基于Seq2Seq与Bi-LSTM的中文文本自动校对模型
随着出版行业电子化的不断发展 , 其中中文文本校对环节的任务越来越重 , 使用传统的人工校对显然无法满足需求 。 因此 , 中文文本自动校对技术的发展就显得尤其重要 。
本文采用深度学习中的(Recurrent Neural Networks)进行文本自动校对 。 其特点是能处理任意长度的输入和输出序列 , 因此被广泛应用在(Natural Language Processing)任务中 。 在机器翻译任务上 , CHO K等在2014年发表的论文[1]中首次提出基于循环神经网络设计的模型 , 并且在多个自然语言处理问题上取得突破 。 因此 , Seq2Seq模型的提出为文本校对领域的研究提供了一种新的思路与方法 。
目前 , 基于深度学习的中文文本自动校对技术的研究仍处于起步阶段 , 本文着重研究了基于Seq2Seq模型与BiRNN网络结构改进的网络模型 , 使其适用于中文文本校对问题 , 为中文文本校对领域提供了一种新的方法 。
1 背景
1.1 中文文本校对的研究现状
目前 , 国内在中文文本校对方面的研究主要采用以下3种方法:(1)基于拼音的中文文本校对[2];(2)基于字的中文文本校对[3];(3)基于上下文的中文文本校对[4] 。 这三种方法采用的校对规则又分为3类:(1)利用文本的特征 , 如字形特征、词性特征或上下文特征;(2)利用概率统计特性进行上下文接续关系的分析[5];(3)利用语言学知识 , 如语法规则、词搭配规则等[6] 。
1.2 Seq2Seq模型
基础的Seq2Seq模型包含三部分 , 即Encoder端、Decoder端以及连接两者的中间状态向量[7] 。 Encoder编码器将输入序列X=(x1 , … , xT)编码成一个固定大小的状态向量S传给Decoder解码器 , 解码器通过对S的学习生成输出序列Y=(y1 , … , yK)[8] 。 解码器主要基于中间状态向量S以及前一时刻的输出y(t-1)解码得到该时刻t的输出y(t)[9] 。 其结构如图1所示 。
1.3 Bidirectional-LSTM
LSTM(Long Short-Term Memory)是门控制循环神经网络的一种 。 标准的RNN网络能够存储的信息很有限 , 并且输入对于输出的影响随着网络环路的不断递增而衰退[10];而LSTM在面对较长的序列时 , 依然能够记住序列的全部信息 。 LSTM是一种拥有输入门、遗忘门、输出门3个门结构的特殊网络结构[11] 。 LSTM通过这些门的结构让信息有选择性地影响网络中每个时刻的状态[12] 。 LSTM的结构如图2所示 。
本文插图
本文插图
Bi-RNN克服了单向RNN当前时刻的输出与之后时刻的输出无关的问题[14] 。 在Bi-RNN中 , 将一个RNN网络拆成了两个方向 , 不仅有从左向右的前向连接层 , 还存在一个从右向左的反向连接层 , 这两个连接层连接同一个输出层 , 从而在保证网络可以处理较长序列不发生遗忘的同时 , 又保证了能够提供给输出层输入序列的完整上下文信息[15] 。 其结构如图3所示 。
本文插图
2 模型的实现
2.1 数据预处理
模型的基本架构是Seq2Seq模型 。 在构造模型之前 , 需要先对语料进行预处理 , 包括以下5个部分:加载数据;清洗数据;切词编码;分析统计;语料转换 。 加载数据的时候需要对语料文本进行切分 , 以句子为单位 , 即每一行代表一个完整的句子 , 以此读入训练数据 。 切词部分可以借助一些成熟的中文分词工具 , 如 jieba分词 。 完成分词再加载的过程中 , 要注意同时清洗数据 , 去掉数字、特殊字符等[16] , 再以词为单位对其进行编码录入词库 。
完成词库到数字的映射之后 , 需再根据这种映射关系完成数字到词库的反映射 。 分析数据是针对训练语料进行统计性的描述 , 了解训练数据的一些信息 , 例如:训练语句的个数、最长与最短句含有的单词数、训练语料构成的词库中非重复词的个数等 。 最后可按照句子从少到多进行排列 , 优化训练过程[17] 。
推荐阅读
- IT之家▲10的LineageOS 17.1正式发布!,基于Android
- 2020@2020 iPhone SE终于来了?A13处理器+三种配色
- 高通865处理器PK麒麟990处理器 集成5G才是王道
- 「预计 3 分钟读完」助力构建基于AI的服务生态体系,第四范式完成2.3亿美元C+轮融资
- 『民福康养生谈』吞馒头等土方法,一个也不能用!教你正确的处理方法,被鱼刺卡喉
- [美股研究社]与ADM的战火点燃?,英特尔发布十代酷睿标压处理器
- 电热汇■电热汇分享电磁加热器故障处理及电路图
- [硬顶科技]潮夜绿色彩,十代酷睿处理器加持,颜值笔记本又推新款
- 「退休花大伯」如何处理花草盆栽的虫害问题?一对一解决小黑飞、蚜虫、红蜘蛛
- 『镁客网TB』目标游戏玩家和内容创作者,英特尔推出第十代酷睿移动处理器
