2023-02-17

RNN

RNN とは

RNNとは、Recurrent Neural Networkの略で、再帰型ニューラルネットワークとも呼ばれます。RNNは、入力データのシーケンスを処理するためのニューラルネットワークの一種であり、時系列データや自然言語などのような、連続的な入力データを処理するのに適しています。

RNNは、時系列データのようなシーケンスを入力とし、それを時間的な依存関係を考慮して処理することができます。RNNは、従来のニューラルネットワークとは異なり、入力に対して状態を保持し、前の状態を次のステップに伝えることができます。これにより、RNNは過去の情報を保持することができます。

次のRNNの図では、時刻 $t$ のときのニューラルネットの出力の一部を時刻 $t+1$ のときのニューラルネットの入力として使用しています。このようにして、時系列に関する考慮を可能にしています。

RNN | 2
Understanding LSTM Networks

RNNの主なアーキテクチャは、単純なRNN、LSTM、GRUなどがあります。これらのアーキテクチャは、過去の入力データを記憶し、それを現在の入力と組み合わせて出力を生成することができます。これらのアーキテクチャは、時系列データの予測、自然言語処理、音声認識、画像キャプションなどのタスクに使用されます。

RNN | 3
A simple overview of RNN, LSTM and Attention Mechanism

隠れ状態

隠れ状態（hidden state）とは、機械学習や自然言語処理などの分野で使用される用語で、モデルが内部的に保持する、観測されない状態のことを指します。

RNNでは、隠れ状態は過去の入力や自身の出力から計算され、次の入力に関する予測や情報処理に使用されます。入力シーケンスを１つのベクトルに変換し、それを元に隠れ状態を更新します。隠れ状態の存在が、より複雑な問題に対するモデルの表現力を高め、時系列の概念を考慮した予測を可能にします。

$t$ 時点の隠れ状態は、 $t-1$ 時点の隠れ状態と入力 $x_t$ の関数で表されます。

h_t = g(h_{t-1}, x_t)

あるタイムステップ $t$ におけるリカレントニューロンの出力は、タイムステップ $t-1$ までの入力の関数であるため、このメカニズムは一種の記憶と考えることができます。神経回路網の中で、タイムステップをまたいで部分的にでも状態を保存するという概念を持つ部分を、一般的にメモリーセルと呼んでいます。

Hidden State
Understanding LSTM Networks

隠れ層との違い

隠れ状態（hidden state）と隠れ層（hidden layer）は、深層学習において使用される用語で、似たような概念ですが、少し異なる意味を持ちます。

隠れ状態は、RNNやLSTMなどのモデルで使用される用語で、前の時刻の出力を含めた、内部状態を表します。RNNでは、隠れ状態は次の時刻の入力に影響を与えるため、時系列データの処理に使用されます。LSTMでも同様に、過去の情報を保持するために隠れ状態を使用します。

一方、隠れ層は、多層パーセプトロン（MLP）などのニューラルネットワークで使用される用語で、入力層と出力層の間にある中間層のことを指します。隠れ層は、複数のニューロンから構成され、各ニューロンは前の層からの信号を受け取り、重み付き和を計算し、活性化関数によって出力を生成します。隠れ層が複数存在する場合、それぞれの隠れ層の出力が次の隠れ層や出力層に入力されます。

つまり、隠れ状態と隠れ層は、両方とも機械学習における内部状態を表現する概念ですが、使用される文脈や目的が異なります。隠れ状態は、時系列データの処理に使用され、隠れ層は、一般的なニューラルネットワークの中間層を表します。

RNN の課題

RNNの学習を非常に遅く、非効率的にしている大きな問題が、勾配消失問題です。Feed Forwardニューラルネットワークのプロセスは次のとおりです。

フォワードパスで何らかの結果を出力する
その結果を使って損失値を計算する
その損失値を使って逆伝播を行い、重みに関する勾配を計算する
重みに関するこれらの勾配を逆流させて重みを微調整し、ネットワークの性能を改善する

重みの操作は前の層に従って行われるため、小さな勾配は層が変わるごとに大きく減少し、ゼロに非常に近い値になる傾向があるため、初期の層では学習が低下し、全体として効果的な学習ができなくなります。

Hidden State | 3
A simple overview of RNN, LSTM and Attention Mechanism

したがって、勾配が消失すると、RNNはタイムステップに渡る長距離依存性をうまく学習できなくなります。つまり、あるシーケンスの初期の入力が、文脈全体にとって重要であったとしても、その重要度は高くなりません。そのため、長いシーケンスを学習することができず、結果的に短期記憶になってしまいます。

Hidden State | 4
Understanding LSTM Networks

RNN の実装

PyTorchとKerasを使ったRNNの実装例を紹介します。

PyTorch

以下は、PyTorchを使用してRNNモデルを記述する基本的な例です。この例では、シンプルなRNNアーキテクチャを使用して、単語を分類するタスクを実行します。

import torch
import torch.nn as nn

class RNN(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(RNN, self).__init__()

        self.hidden_size = hidden_size
        self.rnn = nn.RNN(input_size, hidden_size)
        self.fc = nn.Linear(hidden_size, output_size)

    def forward(self, input):
        hidden = torch.zeros(1, 1, self.hidden_size)
        output, hidden = self.rnn(input, hidden)
        output = self.fc(output[-1, :, :])
        return output

このモデルは、input_sizeのサイズの単語を受け取り、hidden_sizeのサイズの隠れ層を持つRNNを通過し、最後にoutput_sizeの数の分類出力を生成します。nn.RNNクラスは、PyTorchに組み込まれているRNNレイヤーであり、nn.Linearは全結合レイヤーを表します。

forwardメソッドは、与えられた入力に対して順伝播を行います。最初に、隠れ層を初期化します。次に、入力と現在の隠れ層をRNNに渡し、出力と新しい隠れ層を取得します。最後に、出力の最後のステップのみを取得し、全結合レイヤーを介して分類出力を生成します。

RNN

RNN とは

隠れ状態

隠れ層との違い

RNN の課題

RNN の実装

PyTorch

Keras

参考

単語埋め込み

Attention

Ryusei Kakujo