Bi-LSTM学习

什么是LSTM与Bi-LSTMLSTM的全称是Long Short-Term Memory，它是RNN（Recurrent Neural Network）的一种。LSTM由于其设计的特点，非常适合用于对时序数据的建模，如文本数据。BiLSTM是Bi-directional Long Short-Term Memory的缩写，是由前向LSTM与后向LSTM组合而成。两者在自然语言处理任务中都常被用.

一枚小白的日常

28645人浏览 · 2020-03-30 16:50:57

一枚小白的日常 · 2020-03-30 16:50:57 发布

什么是LSTM与Bi-LSTM

LSTM的全称是Long Short-Term Memory，它是RNN（Recurrent Neural Network）的一种。LSTM由于其设计的特点，非常适合用于对时序数据的建模，如文本数据。BiLSTM是Bi-directional Long Short-Term Memory的缩写，是由前向LSTM与后向LSTM组合而成。两者在自然语言处理任务中都常被用来建模上下文信息。

为什么使用LSTM与Bi-LSTM

将词的表示组合成句子的表示，可以采用相加的方法，即将所有词的表示进行加和，或者取平均等方法，但是这些方法没有考虑到词语在句子中前后顺序。如句子“我不觉得他好”。“不”字是对后面“好”的否定，即该句子的情感极性是贬义。使用LSTM模型可以更好的捕捉到较长距离的依赖关系。因为LSTM通过训练过程可以学到记忆哪些信息和遗忘哪些信息。

但是利用LSTM对句子进行建模还存在一个问题：无法编码从后到前的信息。在更细粒度的分类时，如对于强程度的褒义、弱程度的褒义、中性、弱程度的贬义、强程度的贬义的五分类任务需要注意情感词、程度词、否定词之间的交互。举一个例子，“这个餐厅脏得不行，没有隔壁好”，这里的“不行”是对“脏”的程度的一种修饰，通过BiLSTM可以更好的捕捉双向的语义依赖。

LSTM

LSTM模型是由 $t$ 时刻的输入词 $X_t$ ，细胞状态 $C_t$ ，临时细胞状态 $Ct~\widetilde{C_t}$ ，隐层状态 $h_t$ ，遗忘门 $f_t$ ，记忆门 $i_t$ ，输出门 $o_t$ 组成。LSTM的计算过程可以概括为，通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递，而无用的信息被丢弃，并在每个时间步都会输出隐层状态 $h_t$ ，其中遗忘、记忆与输出由通过上个时刻的隐层状态 $h_{t-1}$ 和 $X_t$ 当前输入计算出来的遗忘门 $f_t$ ，记忆门 $i_t$ ，输出门 $o_t$ 来控制。总体框架如下：
计算遗忘门

计算记忆门

计算当前时刻细胞状态

计算输出门和当前时刻隐层状态

最终，我们可以得到与句子长度相同的隐层状态序列 ${h_o,h_1,...,h_{n-1}\}$

Bi-LSTM

前向的LSTM与后向的LSTM结合成BiLSTM。比如，我们对“我爱中国”这句话进行编码，模型如下图所示。
在这里插入图片描述
前向的 $LSTM_L$ 依次输入“我”，“爱”，“中国”得到三个向量 ${h_{L0},h_{L1},h_{L2}\}$ 。后向的 $LSTM_R$ 依次输入“中国”，“爱”，“我”得到三个向量 ${h_{R0},h_{R1},h_{R2}\}$ 。最后将前向和后向的隐向量进行拼接得到 ${[h_{L0},h_{R2}],[h_{L1},h_{R1}],[h_{L2},h_{R0}]\}$ ，即 ${h_0,h_1,h_2\}$ 。
对于情感分类任务来说，我们采用的句子的表示往往是 $h_{L2}, h_{R2}]$ 。因为其包含了前向与后向的所有信息，如下图所示：
在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

动图讲解：贝叶斯神经网络：赋予AI“自知之明“的关键技术

2048 AI社区

发现了宝藏级AI字幕翻译网站！zmaiFy让我的字幕工作效率提升10倍

2048 AI社区

收藏级干货！Agentic AI提示工程架构师技术标准精华版，10分钟看完！

核心：任何Agent提示必须明确“我是谁（角色）、要做什么（目标）、不能做什么（约束）”，缺一不可。反例：“你是研发专家，帮我写代码。”（无目标边界，无约束，可能生成危险代码）正例模板角色（Role）：你是企业级Python研发Agent，拥有5年后端开发经验，熟悉Django框架和PostgreSQL数据库。目标（Goal）：仅完成用户提出的“后端API开发任务”，需输出完整代码（含注释）、接口