東京を脱出したい

気もするしそうでもない気もする

ゼロから作るDeep Learning自然言語処理編読んでのメモ

www.amazon.co.jp

自然言語と単語の分散表現

自然言語処理とは、普段使っている言葉(=自然言語)をコンピューターに理解させるための技術分野の意味。

シソーラス

辞書のような形で単語同士の階層構造や意味を定義しておき、処理に用いる。

しかし、

  • 時代の変化に対応するのが困難
  • 人の作業コストが高い
  • 単語の細かなニュアンスを表現できない

などの問題がある。

カウントベース

コーパス(自然言語処理の研究などの目的のために集められた大量のテキストデータ)を利用する手法
シソーラスのような階層構造や意味を的確に捉えたベクトル表現(単語の分散表現)を得ることを目指す。

分布仮説

「単語の意味は周囲の単語によって形成される」というアイデア
カウントベースの手法では、この仮説に基づいて単語の分散表現を得る。

word2vec

  • カウントベースでは計算が重い
  • そのため推論ベースの手法が発展した。
  • 推論ベースとはモデル(=ニューラルネットワーク)に問題を与えて学習を繰り返すことにより単語と単語の関係(=分散表現)を得る手法。
  • 少し前までの第一線のアルゴリズムword2vec