レビュー7章 推薦システム―統計的機械学習の理論と実践 -

 

前回の続き

レビュー5・6章 推薦システム―統計的機械学習の理論と実践 - tiruka’s blog

 

7章素性ベクトルベースによる個別化について述べられている。

個別化とは、パーソナナラズ、つまりユーザごとにオススメを変えることである。

ユーザーごとにアイテムを変える方法と、アイテム毎に表示するべきユーザーを変える二つのパターンが考えられる。しかしこれらは、表裏一体の話でどちらか一方ができれば逆も可能である。

基本的にはユーザーごとにアイテムを変えるための手法が求められている。 そのためには2つの係数を求る必要がある。オンライン学習に求めよって求められる回帰係数と、オフライン学習によって求められる回帰係数である。「回帰」とつけているのは、統計的手法によって求めるからである。機械学習も含む。

オフラインで求められる係数は、例えばユーザーの嗜好をある程度過去のデータから分析しておくことで、「この人は、各ブランドを買う確率は、これくらいで、価格帯はこれくらいが好きで、、、、」というものはあらかじめモデルとして作っておくことである。

オンライン学習は、直近のデータをすぐに反映させる必要がある。そのためかなりデータの計算効率を高める必要がある。そのための手段として、次元圧縮の方法がいくつか述べられている。

例えばユーザーのクリック回数、見た商品、移動した先のページなどの項目がいくつもあった場合にそれらを全てオンライン学習に反映させるのは困難なので、モデルを通して、ひとつの値にしたりすることが次元圧縮の方法となる。

つまり、データが100項目あった場合に、それを2項目とかに落とし込むことで、計算を早くする。

この本では、高速オンライン双線形因子モデル(FOBFM, Fast Online Bilinear Factor Model)と言っているが、要は「オフラインでもオンラインでも学習して、両方使ってレコメンドしようね」である。

この7章で説明しているのは、ユーザ(またはアイテム)の「もともと」持つ素性ベクトルを使用する手法、つまり、新しいユーザやアイテムのレコメンド性能は依然として改善しない傾向になる。いわゆるコールドスタート問題。この問題にどう対処するのか?それが、次の章である。