レビュー11章 推薦システム―統計的機械学習の理論と実践 -

前回の続き

レビュー10章 推薦システム―統計的機械学習の理論と実践 - - tiruka’s blog

最終章です。今回で終わりなので、最後に全体所感もつけています。

11章多目的最適化

今までは、基本的にクリック率(CTR)を最大化することだけを考えていましたが、

実際には他の指標も最大化したいことがありますよね。

ある例えばページ滞在時間や、クリックによる広告収入額とか。

 

つまり、対象の目的関数が増え、複雑な連立方程式が、さらに複雑になる感じである。あっちを立てれば、こっちが立たず、みたいな状況です。

 

例えば、Web広告を考えてみる。Web広告は、クリックされると収入が入る仕組みであり、また媒体によって一度のクリックにより入る収入金額は異なります。例えば、不動産なら10円、ソーシャルゲームなら1円とか。

ソーシャルゲームは、みんな関心があるので、よくクリックされる。不動産は、関心がある人は少ないので、クリック数は少ない、とします。

 

この場合、薄利多売で、ソーシャルゲームのWeb広告をたくさん出すのか、それとも単価が高い不動産のWeb広告をたくさん出すのが良いかは、一概には言えません。その最適な割合を、求めようとするのが、この章の趣旨です。

 

レビューの初めの方に述べていましたが、CTRを最大化するスコアを予測するだけで難しいのに、それを複数のスコアを予測するのは、神の領域に入って来ている感じがします。

 

全体の所感としてはこれは本よりは論文だと感じました。つまり(?)前提知識がたくさん必要です。

主に、基本的な統計知識、周辺確率、ベイズ統計学、ベクトル、EMアルゴリズム、など、ぱっと思い浮かんだだけでもこんなものが必要でした。

データだけで理論的に求めると、こういう計算になるのだという感じ。いくつかマニュアルで済むなら、マニュアルでも良いと思います。例えば、10章のコンテキスト依存などは、記事の例で言うと、現在表示している記事と、同じカテゴリーの記事を推薦するようにフィルタリングするだけでも、結果は改善すると思う。わざわざ、「次にカテゴリーAを見る確率は30%で、カテゴリーBは17%で、、、その上でランダム性を入れてMCEMをやると、、」とかまでは必要ないと、経験的には思います。

というのも、説明をしても理解できる人って、少ないと思うんですよね。実際にサービスとして稼働させるには、自社でも他社でも、合意や納得が必要なケースがほとんどです。

「あなた方が理解できなくても、大丈夫です。だって、こんなすごい理論を元に作っているんです。だから導入しましょう」で、説得される人はなかなかいないでしょう。

難しい理論を平易に説明しつつ、マニュアル手法で大丈夫なところは、マニュアル手法を採用した方が、全体的にメリットがあると思います。