レビュー9章 推薦システム―統計的機械学習の理論と実践 -

 

前回の続き

レビュー8章 推薦システム―統計的機械学習の理論と実践 - - tiruka’s blog

 

9章は潜在ディレクレ分配分析(fLDA)である。

これは、アイテムごとにワード(言葉)を抽出、テキスト分析をして共通のテーマを見つけ、グルーピングすることで、レコメンドの性能向上を図っている。

特にニュースサイトなどで使われているらしい。

例えば、ニューストピックを政治、芸能、スポーツなどに振り分けることができ、かつユーザーがそれぞれどのテーマに興味があるかを確率で表すことができたなら、ユーザーに適切な記事を配信することができる。

 

例としては、政治、芸能、スポーツのカテゴリーといったが、このような既知のグルーピンではなく、fLDAはより潜在的なグルーピングをする。グループが10個あったらなら、各グループに属する単語を抽出する。次の表のようなイメージである。

 

Group 1 bonus, america, international, motor, govern, ...

Group 2 team, gam, start, high, ...

Group 3 economy, resession, job, bank ...

...

 

単語をクラスタリンググルーピングするので結果を見れば,それぞれのグループに名前をつけたりするのは比較的容易である。Group1はアメリカ政治、Group2は人気スポーツ、Group3は経済、などなどである。

上記のは、アイテムのグルーピングであった。それに対して、ユーザはどのグループに属するかを、確率で表せば、レコメンドの性能が向上する。「Group1への関心は0.2, Group2は0.7、Group3は0.05だから、Group2に属するものを多くだそう!」という形である。もちろん、ユーザーがどのグループに属するかは、求める必要がある。

fLDAは、テキストを用いるのにはうまくいく(もともとその用途で開発された手法だし)。しかし、テキストではなく、数値データだと、難しい。fLDAと似た手法のPLSA(確率的潜在意味解析方)により、数値データ(年齢、購入履歴、いくつかのダミーデータなど)でグルーピングしたことがあるが、使いにくくてボツになった。グルーピングはまだできたが、そのグループが何を意味しているかが、さっぱりわからなかった。数値データなので、解釈が難しかった。