【輪読会メモ】深層学習による自然言語処理#1
【概要】
- 「深層学習による自然言語処理」の輪読会をしています
- 輪読会第1回目は1,2章が範囲でした
【目次】
はじめに
講談社MLPシリーズの「深層学習による自然言語処理」の輪読会をしています。 輪読会の範囲で気になったことや資料のリンクなどをまとめていきます。
輪読会のリンクはこちらです。
「深層学習による自然言語処理」のほか、輪読会を定期開催しているので、気になった方はグループメンバーになってもらえるとうれしいです。 また、Slackのwork groupを用意しているので、参加したい方は何かの方法で私に連絡ください(輪読会参加してなくてもwelcome)。
輪読会記録
資料リンク
勉強会で利用した資料のリンクを貼ります。発表担当は私でした。 なお、輪読会中に書き込んだメモなどがそのまま残っているので、一部見づらい箇所があるかもしれません。。。
第1章の概要
第1章は全体のintroductionとして、自然言語処理研究における深層学習への期待といったことが書かれていました。 この章で重要と思ったのは、「テキストデータ」とは何か?ということで、「可変長」の「記号」列であるということです。
記号の列ということで、i.i.d.仮定が成り立たない、つまり、「系列データ」として扱う必要があるということです。これは、3章で「言語モデル」で確率モデルとしての定式化がされています。
次に「可変長」であることで、記号の組み合わせが無限に存在する、つまり、文の最適な確率モデルを導出できないということになります。
こういった課題への対応として、深層学習による柔軟なモデルを適用していこうという流れということですね。
第2章の概要
第2章は、「ニューラルネットワークの基礎」ということで、代表的なNNの構造、学習方法としての勾配法(からの誤差逆伝播法)などが簡潔にまとめられていました。
系列データを前提として書かれており、シンプルな例で説明が展開されているので、とてもわかりやすいと思います。
輪読会の中でも議論になりましたが、さまざまなモデル(CNN、RNNなど)が行列演算で完結に表現するとどのような表現になるのかが明示的に記載されています。これがすごくわかりやすかったです。 行列演算として理解することで、自動微分についても理解が進みます。
ただ、尤度の最大化(損失関数が負の対数尤度)という言及が何度もされていましたが、確率モデルとしてどのようなモデルを仮定するのかについての言及がないので、「尤度を最大化」と書かれても、尤度関数どこから持ってきた?という疑問が湧いてくるんじゃないかなと思いました。
多クラス分類モデルであるなら、カテゴリ分布とソフトマックス関数について説明があるとよりわかりやすいのかなと思いました。
おわりに
ということで、「深層学習による自然言語処理」輪読会第1回目の記録でした。
参加者からも、この書籍は非常にわかりやすいと評判でしたので、今後も楽しみです。