レビュー4章 推薦システム―統計的機械学習の理論と実践

前回の続き

レビュー3章 推薦システム―統計的機械学習の理論と実践― - tiruka’s blog

 

4章では、推薦システムの評価について、つまり「ちゃんと機能しているの?改善してるの?」について。

結論としては、正確な評価は非常に困難である。

 

実際にシステムを投入して、A/Bテストで以前のシステムと差を測ったり、一部ユーザのみに適用して効果を測る(バケットテスト)は、効果測定が現実的であるが、それでもサンプリング(ユーザの抽出)の取り方が難しい。

オフライン評価については、もはや不可能だと思う。オフライン評価では、過去の行動履歴などを用いて、システム評価を行う。イメージとしては、過去のデータに基づいて、買いそうな未来の商品を並べ、それをレコメンドシステムが並べたものと比較して、どのくらいあっているかを計測するのである。「過去のデータに基づいて、買いそうな未来の商品」、ここが不可能である。これが予測できるなら、そもそもレコメンドなどいらない。

なぜなら、買うものがわかっているのだから。これができないから、代替手段としてレコメンドシステムがあるのである。

 

「過去のデータに基づいて、買いそうな未来の商品」を予測するシステムは、精度は横に置いておいて、構築することだけでも難しい。

思いついたのは時系列で、t時点におけるユーザーへのレコメンド 推薦したアイテムのうち、 t+1点でその中から買われたアイテムがあれば、レコメンドシステムはうまくいっていると評価するなと方法かなと思った。

 

過学習になりそうだな。