レビュー9章 推薦システム―統計的機械学習の理論と実践 -
前回の続き
レビュー8章 推薦システム―統計的機械学習の理論と実践 - - tiruka’s blog
9章は潜在ディレクレ分配分析(fLDA)である。
これは、アイテムごとにワード(言葉)を抽出、テキスト分析をして共通のテーマを見つけ、グルーピングすることで、レコメンドの性能向上を図っている。
特にニュースサイトなどで使われているらしい。
例えば、ニューストピックを政治、芸能、スポーツなどに振り分けることができ、かつユーザーがそれぞれどのテーマに興味があるかを確率で表すことができたなら、ユーザーに適切な記事を配信することができる。
例としては、政治、芸能、スポーツのカテゴリーといったが、このような既知のグルーピンではなく、fLDAはより潜在的なグルーピングをする。グループが10個あったらなら、各グループに属する単語を抽出する。次の表のようなイメージである。
Group 1 bonus, america, international, motor, govern, ...
Group 2 team, gam, start, high, ...
Group 3 economy, resession, job, bank ...
...
単語をクラスタリンググルーピングするので結果を見れば,それぞれのグループに名前をつけたりするのは比較的容易である。Group1はアメリカ政治、Group2は人気スポーツ、Group3は経済、などなどである。
上記のは、アイテムのグルーピングであった。それに対して、ユーザはどのグループに属するかを、確率で表せば、レコメンドの性能が向上する。「Group1への関心は0.2, Group2は0.7、Group3は0.05だから、Group2に属するものを多くだそう!」という形である。もちろん、ユーザーがどのグループに属するかは、求める必要がある。
fLDAは、テキストを用いるのにはうまくいく(もともとその用途で開発された手法だし)。しかし、テキストではなく、数値データだと、難しい。fLDAと似た手法のPLSA(確率的潜在意味解析方)により、数値データ(年齢、購入履歴、いくつかのダミーデータなど)でグルーピングしたことがあるが、使いにくくてボツになった。グルーピングはまだできたが、そのグループが何を意味しているかが、さっぱりわからなかった。数値データなので、解釈が難しかった。