説明

予測モデル生成装置及び方法

【課題】サンプル数が少ない場合であってもユーザのマニュアル作業によることなく自動的に要求される誤差の許容度(信頼度)に応じた予測モデルを生成すること。
【解決手段】説明変数を用いて目的変数の予測モデルを生成する予測モデル生成装置(1)は、説明変数のサンプルの数が最少サンプル数に満たない場合には、当該説明変数に隣接する説明変数であって最少サンプル数を満たす範囲までの隣接説明変数に係るサンプルをグループ化した上で、目的変数の予測モデルを生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、説明変数を用いて目的変数の予測モデルを生成する予測モデル生成装置及び方法に関する。
【背景技術】
【0002】
従来、見たい情報やサイトを探すときは、検索サイトを利用して検索することが一般的に行われている。検索サイトでは、ユーザが検索クエリを所定のスペースに入力すると、検索結果を表示し、ユーザが所望するサイトを提示する。このとき、検索サイトでは、検索結果を表示するページ内の一部の領域を広告欄として販売することで運営が行われている。
【0003】
広告欄を購入する企業(広告主)は、広告を掲載することで自己のホームページへ多数のユーザが訪問することを望むものであり、そのために広告の露出する確率を大きくすることが考えられる。しかしながら、ホームページへの訪問にはクリックという能動的作業を伴う以上、ユーザが積極的な興味や関心を持たなければ自己のホームページへの訪問が適切に行われない。
【0004】
そこで、近年の検索サイトでは、ユーザの興味に適合した広告を掲載すべく、検索クエリに対応した広告を検索結果ページに露出させる検索連動型広告や、ユーザが閲覧したり検索したりしたホームページの内容に応じて広告を露出させるコンテンツ連動型広告といった手法が行われている(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特表2005−537591号公報
【0006】
ここで、掲載した広告について、広告主が必要とするユーザの訪問数は、広告主の事業規模や対象商品(サービス)あるいは広告の目的によって異なり、少数のユーザに訪問されれば十分な広告もある一方で、多数のユーザから訪問されることを必要とする広告も存在する。そのため、検索サイトの運営者には、広告主のニーズにあった広告を適切に掲載することが要求される。
【0007】
この点について、近年では、広告の掲載される順位が広告のクリックされる確率と相関することが経験的に知られている。そこで、広告の掲載される順位(説明変数)に基づいて、広告のクリックされる確率(目的変数)を予測する予測モデルを生成することができれば、広告主のニーズにあった広告を適切に掲載(適切な優先順位で掲載)することができる。
【発明の概要】
【発明が解決しようとする課題】
【0008】
ところで、予測モデルを生成する際に、当該予測モデルに要求する精度(誤差の許容度(信頼度))に応じて必要なサンプル数(すなわち、説明変数と当該説明変数に対応する目的変数との既知の組み合わせの数)が決定されるが、このサンプル数が少ない場合、統計上有意でないデータに基づいて誤った予測モデルが生成されてしまうおそれがある。この点、従来では、サンプル数の少ないデータについてユーザがマニュアルで削除することが一般的であったため、生成される予測モデルはユーザの経験や知識に左右されてしまっていた。
【0009】
本発明は、このような問題に鑑みてなされたものであり、サンプル数が少ない場合であってもユーザのマニュアル作業によることなく自動的に要求される誤差の許容度(信頼度)に応じた予測モデルを生成することのできる予測モデル生成装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
(1) 説明変数を用いて目的変数の予測モデルを生成する予測モデル生成装置であって、説明変数及び当該説明変数に対応する目的変数の既知の組み合わせを、予測モデルを生成するためのサンプルとして記憶する統計ログデータベースと、前記予測モデルについて所定の信頼度を満たすための最少サンプル数を算出する最少サンプル数算出手段と、前記統計ログデータベースから前記サンプルを読み出す統計ログ読出手段と、前記統計ログ読出手段が読み出した前記説明変数毎の前記サンプルの数が前記最少サンプル数を満たしているか否かを判定するサンプル数判定手段と、前記サンプル数判定手段により特定の説明変数の前記サンプルの数が前記最少サンプル数に満たないと判定されることを条件に、当該特定の説明変数に隣接する説明変数に係る前記サンプルを加えることで、前記最少サンプル数を満たす範囲の隣接説明変数に係る前記サンプルをグループ化するグループ化手段と、前記グループ化手段によりグループ化された前記サンプルに係る、前記特定の説明変数と前記隣接説明変数とに基づいて、グループ化後の説明変数を決定する説明変数変更手段と、前記グループ化手段によりグループ化された前記サンプルに係る、前記特定の説明変数と前記隣接説明変数とに各々対応する前記目的変数に基づいて、グループ化後の前記サンプルに係る、前記説明変数に対応する目的変数を決定する目的変数変更手段と、前記統計ログ読出手段が読み出した前記説明変数及び前記説明変数変更手段が決定した前記説明変数と、当該説明変数に各々対応する前記目的変数とに基づいて、前記目的変数の予測モデルを生成する予測モデル生成手段と、を備える予測モデル生成装置。
【0011】
(1)の予測モデル生成装置によれば、サンプル数判定手段は、説明変数のサンプル数がユーザから受け付けた予測モデルの信頼度を満たすための最少サンプル数を満たす(超える)か否か判定し、最少サンプル数を満たさない場合には、グループ化手段が、最少サンプル数を満たすまで隣接する説明変数のサンプル数を加算しグループ化する。このとき、説明変数変更手段及び目的変数変更手段は、グループ化された説明変数及び当該説明変数に対応する目的変数を決定する。そして、予測モデル生成手段は、決定された説明変数及び目的変数に基づいて、目的変数の予測モデルを生成する。
これにより、サンプル数がユーザの予定する信頼度を満たすための最少サンプル数に満たない説明変数が存在する場合であっても、統計上有意でないデータを紛れ込ませることがない。このとき、予測モデル生成装置によれば、最少サンプル数に満たない説明変数を自動的にグループ化するため、ユーザの経験や知識に関係なく誤差の少ない予測モデルを自動的に生成することができる。
【0012】
(2) 前記説明変数変更手段及び前記目的変数変更手段は、前記特定の説明変数のサンプルの数と前記隣接説明変数のサンプルの数とに基づいて重み付けられたグループ化後の説明変数及び対応する目的変数を決定する、(1)に記載の予測モデル生成装置。
【0013】
(2)の予測モデル生成装置によれば、グループ化された説明変数及び目的変数を決定する際に、特定の説明変数と隣接説明変数とのそれぞれのサンプルの数に基づく所定の重み付けを行う。これにより、グループ化した際の誤差を一定度に抑えることができ、サンプル数が少ない場合であっても誤差の少ない予測モデルを自動的に生成することができる。
【0014】
(3) 説明変数を用いて目的変数の予測モデルを生成する方法であって、コンピュータが実行する、前記予測モデルについて所定の信頼度を満たすための説明変数及び当該説明変数に対応する目的変数の既知の組み合わせの数である最少サンプル数を算出するステップと、前記説明変数及び当該説明変数に対応する目的変数の既知の組み合わせを、予測モデルを生成するためのサンプルとして記憶する統計ログデータベースから前記サンプルを読み出すステップと、読み出した前記説明変数毎の前記サンプルの数が前記最少サンプル数を満たしているか否かを判定するステップと、特定の説明変数の前記サンプルの数が前記最少サンプル数に満たないと判定されることを条件に、当該特定の説明変数に隣接する説明変数に係る前記サンプルを加えることで、前記最少サンプル数を満たす範囲の隣接説明変数に係る前記サンプルをグループ化するステップと、グループ化された前記サンプルに係る、前記特定の説明変数と前記隣接説明変数とに基づいて、グループ化後の説明変数を決定するステップと、グループ化された前記サンプルに係る、前記特定の説明変数と前記隣接説明変数とに各々対応する前記目的変数に基づいて、グループ化後の前記サンプルに係る、前記説明変数に対応する目的変数を決定するステップと、前記統計ログデータベースから読み出した前記説明変数及び決定した前記説明変数と、当該説明変数に各々対応する前記目的変数とに基づいて、前記目的変数の予測モデルを生成するステップと、を含む方法。
【0015】
(3)の方法によれば、(1)の予測モデル生成装置と同様の効果を奏する。
【発明の効果】
【0016】
本発明によれば、サンプル数が少ない場合であってもユーザのマニュアル作業によることなく自動的に要求される誤差の許容度(信頼度)に応じた予測モデルを生成することができる。
【図面の簡単な説明】
【0017】
【図1】本発明の予測モデル生成装置の機能構成を示す図である。
【図2】統計ログデータベースに記憶された予測モデル生成用のサンプルデータを示す図である。
【図3】図2におけるサンプルデータのグループ化後を示す図である。
【図4】本発明の予測モデル生成装置により生成された予測モデルを示す図である。
【図5】本発明の予測モデル生成装置の予測モデル生成処理を示す図である。
【発明を実施するための形態】
【0018】
以下、本発明の予測モデル生成装置1の実施形態について図面を参照して説明する。本発明の予測モデル生成装置1は、説明変数を用いて目的変数の予測モデルを自動的に生成する装置であり、特に、説明変数及び当該説明変数に対応する目的変数の既知の組み合わせであるサンプルの数が少ない場合であっても、ユーザのマニュアル作業によることなく自動的に要求される誤差の許容度(信頼度)に応じた予測モデルを生成することを特徴とする。
【0019】
本実施形態の予測モデル生成装置1は、「説明変数:検索サイトにおいて表示する広告の表示順序(rank)」に基づいて、「目的変数:ある表示順序で表示された広告のクリックレート(CTR:Click Through Rate)」を予測するための予測モデルを生成する。このとき、本実施形態では、「サンプル数:ある表示順序の広告の表示回数(インプレッション数(impression))」としている。また、本実施形態では、最小二乗法に基づいて予測モデルを生成、すなわち、近似曲線を作成する。
【0020】
なお、以下に示す実施形態は、本発明の予測モデル生成装置1の一例にすぎず、「説明変数」「目的変数」「サンプル数」として他の要素を用いることとしてもよく、近似曲線の作成を最小二乗法以外の方法により行うこととしてもよい。
【0021】
[予測モデル生成装置1の構成]
初めに、図1を参照して、本発明の予測モデル生成装置1の構成について説明する。
予測モデル生成装置1は、ユーザ端末30と通信可能に接続され、信頼度パラメータ取得手段11と、最少サンプル数算出手段12と、モデル生成準備手段13と、予測モデル生成手段14と、統計ログデータベース21と、予測モデルデータベース22と、を含んで構成される。
【0022】
信頼度パラメータ取得手段11は、ユーザ端末30から予測モデルの精度を示す信頼度パラメータを受け付ける。具体的には、信頼度パラメータ取得手段11は、ユーザ端末30のユーザが許容できる誤差の範囲をユーザ端末30から受け付ける。信頼度パラメータ取得手段11が受け付けた信頼度パラメータは、予測モデルを生成するための最少サンプル数の算出に用いられる。
【0023】
最少サンプル数算出手段12は、信頼度パラメータ取得手段11が受け付けた信頼度パラメータに基づいて、予測モデルを生成するための最少サンプル数を算出する。具体的には、最少サンプル数算出手段12は、例えば、以下の式に基づいて最少サンプル数を算出する。
【数1】

p:クリックレート(例えば、0.01)
z:信頼度計数(信頼度90%基準で1.65)
E:信頼度パラメータ(許容できる誤差の範囲)
最少サンプル数算出手段12は、上記式に基づいて、ユーザ端末30から受け付けた信頼度パラメータ(E(例えば、クリックレートの20%と受け付けた場合には、0.0002))から最少サンプル数を算出する。
【0024】
モデル生成準備手段13は、統計ログデータベース21から、広告の表示順序(説明変数)とクリックレート(目的変数)との組み合わせからなる、予測モデルを生成するためのサンプルを読み出し、近似曲線を作成するための数値のセットを行う。このとき、モデル生成準備手段13は、サンプル数の少ないサンプル(広告の表示順序及びクリックレート)を用いることによる誤った予測モデルが生成されてしまうことを自動的に防止するため、統計ログ読出手段131と、サンプル数判定手段132と、グループ化手段133と、説明変数変更手段134と、目的変数変更手段135と、を含む。なお、上述の最少サンプル数を与える式は、予測モデルの対象となるサンプルが正規分布すると仮定した場合の近似式であり、対象となるサンプルのサイズやとCTRによっては、二項分布を仮定した場合の近似式を適用するなどの調整を行う必要がある。
【0025】
統計ログ読出手段131は、広告の表示順序及び当該表示順序に対応するクリックレートの組み合わせからなる予測モデルを生成するためのサンプルを統計ログデータベース21から読み出す。
ここで、統計ログデータベース21は、広告の表示順序及び当該表示順序に対応するクリックレートの組み合わせを、予測モデルを生成するためのサンプルとして記憶する。具体的には、図2に示すように、検索クエリ毎に、当該検索クエリに基づく検索結果ページにおける広告の表示順序に対応付けて、当該表示順序で表示された広告の数(インプレッション数)及び当該表示順序で表示された広告のクリックレートを記憶する。図2における棒グラフは、広告の表示順序と当該表示順序で表示された広告の数(インプレッション数)との関係を示し、折れ線グラフは、広告の表示順序と当該表示順序で表示された広告のクリックレートを示す。統計ログデータベース21には、検索サイトにおける検索ログやクリックログなどに基づいてリアルタイムで収集された各種情報から所定の周期で集計された統計ログ(サンプル)が、検索クエリ毎に記憶される。
図1に戻り、統計ログ読出手段131は、統計ログデータベース21から検索クエリ毎に設けられた予測モデル生成用のサンプルを読み出す。すなわち、本実施形態の予測モデル生成装置1では、広告の表示順序(説明変数)に基づいて、表示される広告のクリックレート(目的変数)を予測するための予測モデルを、検索クエリ毎に生成する。
【0026】
サンプル数判定手段132は、統計ログ読出手段131が読み出した広告の表示順序(説明変数)のインプレッション数(サンプル数)が最少サンプル数算出手段12が算出した最少サンプル数を満たしているか否かを表示順序毎に判定する。図2を参照して、例えば、最少サンプル数が「1000回」である場合、表示順序「1.7」のインプレッション数201「500回」は、最少サンプル数を満たさないと判定され、表示順序「3.0」のインプレッション数202「2700回」は、最少サンプル数を満たすと判定される。
このとき、インプレッション数が最少サンプル数を満たしていない表示順序については、後述するようにグループ化手段133によるグループ化が行われた後に予測モデル生成用の数値としてセットされ、最少サンプル数を満たしている表示順序については、そのまま予測モデル生成用の数値としてセットされる。
【0027】
グループ化手段133は、サンプル数判定手段132によりインプレッション数(サンプル数)が最少サンプル数に満たないと判定された表示順序(特定の説明変数)について、当該表示順序に隣接する表示順序(隣接説明変数)のインプレッション数を加え、グループ化する。このとき、グループ化手段133は、インプレッション数を加えることで、最少サンプル数を満たすと判定される範囲まで隣接する表示順序をグループ化する。すなわち、隣の表示順序のインプレッション数を加えただけでは最少サンプル数に満たない場合には、グループ化手段133は、更に隣(自己の2つ隣)の表示順序のインプレッション数を加える。なお、「隣接する」とは、表示順序の下位又は上位方向への一方向(自己から上位(下位)にのみ広がる)への隣接であってもよく、表示順序の下位及び上位方向への双方向(自己から上位及び下位に広がる)への隣接であってもよい。
図2及び図3を参照して、表示順序「1.7」のインプレッション数201が最少サンプルに満たないと判定された場合、グループ化手段133は、隣接するインプレッション数203(表示順序「2.0」)をインプレッション数201に加えグループ化し、インプレッション数205とする(図3参照)。このとき、インプレッション数201とインプレッション数203とを加算することで最少サンプル数を満たすものとすると、サンプル数が少なかったサンプル(表示順序「1.7」)が最少サンプル数を満たすことになり、適切な近似曲線を作成することができる。
【0028】
ところで、異なるサンプル(表示順序及びクリックレート)のインプレッション数を加算したまま、近似曲線を作成したのでは、誤った曲線が作成されてしまうおそれがある。そこで、本実施形態の予測モデル生成装置1では、グループ化した表示順序(説明変数)及び当該表示順序に対応するクリックレート(目的変数)をインプレッション数により補正することとしている。
【0029】
説明変数変更手段134は、グループ化手段133によりグループ化された複数の表示順序(特定の説明変数及び隣接説明変数)に基づいて、グループ化後の表示順序を決定する。このとき、説明変数変更手段134は、グループ化された複数の表示順序の各々のインプレッション数に基づいて重み付けした上で、グループ化後の表示順序を決定する。例えば、第1表示順序と第2表示順序とをグループ化した場合には、グループ化後の表示順序は、以下の式で算出される。
【数2】

R1:第1表示順序
R2:第2表示順序
I1:第1表示順序のインプレッション数
I2:第2表示順序のインプレッション数
図2を参照して、グループ化した表示順序「1.7」のインプレッション数201は「500」であり、表示順序「2.0」のインプレッション数203は「500」である場合、グループ化後の表示順序は「1.85」となる(図3)。
【0030】
目的変数変更手段135は、グループ化手段133によりグループ化された複数の表示順序の各々に対応するクリックレート(目的変数)に基づいて、グループ化後のクリックレートを変更する。このとき、目的変数変更手段135は、グループ化された複数の表示順序の各々のインプレッション数に基づいて重み付けした上で、グループ化後のクリックレートを決定する。例えば、第1表示順序と第2表示順序とをグループ化した場合には、グループ化後のクリックレートは、以下の式で算出される。
【数3】

CTR1:第1表示順序に対応するクリックレート
CTR2:第2表示順序に対応するクリックレート
I1:第1表示順序のインプレッション数
I2:第2表示順序のインプレッション数
図2を参照して、グループ化した表示順序「1.7」に対応するクリックレート211は「4.5」であり、インプレッション数201は「500」である。また、グループ化した表示順序「2.0」に対応するクリックレート213は「6.5」であり、インプレッション数は「500」である。その結果、グループ化後のクリックレート215は「5.5」となる(図3)。
【0031】
グループ化手段133によりグループ化され説明変数変更手段134及び目的変数変更手段135により変更された表示順序(説明変数)及びクリックレート(目的変数)は、近似曲線を作成するための数値として、グループ化前の表示順序及びクリックレートに変えてセットされる。統計ログデータベース21に記憶された図2に示すサンプルのグループ化後を図3に示す。図3に示すように、最少サンプル数に満たない情報がグループ化され、表示順序及びクリックレートが適宜変更されている。その後、全ての数値がセットされると、予測モデル生成装置1は、近似曲線を作成、すなわち、予測モデルを生成する。
【0032】
予測モデル生成手段14は、サンプル数判定手段132により最少サンプル数を満たすと判定されてセットされた数値及びグループ化手段133によりグループ化されセットされた数値に基づいて、広告の表示順序(説明変数)に基づいて表示される広告のクリックレート(目的変数)を予測するための予測モデルを生成する。具体的には、予測モデル生成手段14は、セットされた数値から最小二乗法に基づいて近似曲線を作成することで、予測モデルを生成する。
【0033】
ここで、予測モデル生成手段14は、セットされた数値に対して、所定の重み付けをした上で予測モデルを生成することとしてもよい。重み付けは、任意の要素に基づいて行うことができ、例えば、表示順序に基づいて行うこととしてもよく、ログとして記憶された日時と予測モデルを生成する日時との差に基づいて行うこととしてもよく、インプレッション数に基づいて行うこととしてもよく、これら表示順序、日時及びインプレッション数の組み合わせにより行うこととしてもよい。一例として、表示順序、日時及びインプレッション数に基づいて重み付けを行い予測モデルを生成する際の計算式を以下に示す。
【数4】

impression:インプレッション数に基づく重み付けである。
x:表示順序(説明変数)
y:クリックレート(目的変数)
【0034】
予測モデル生成手段14は、上記式により算出されたα及びβから、広告の表示順序(説明変数)に基づいて表示される広告のクリックレート(目的変数)を予測するための予測モデルCTR=f(rank,α,β)を、検索クエリ毎に生成する。
その結果、図3のようにセットされた数値から図4に示す予測モデルが生成される。予測モデル生成手段14により生成された予測モデルは、図示しない予測モデルデータベース22に記憶される。すなわち、予測モデルデータベース22には、広告の表示順序に基づいて表示される広告のクリックレートを予測するための予測モデルが、検索クエリ毎に記憶される。
【0035】
[予測モデル生成装置1のハードウェア構成]
以上説明した予測モデル生成装置1のハードウェアは、1又は複数の一般的なコンピュータによって構成することができる。一般的なコンピュータは、例えば、制御部として、中央処理装置(CPU)を備える他、記憶部として、メモリ(RAM、ROM)、ハードディスク(HDD)及び光ディスク(CD、DVDなど)を、ネットワーク通信装置として、各種有線及び無線LAN装置を、表示装置として、例えば、液晶ディスプレイ、プラズマディスプレイなどの各種ディスプレイを、入力装置として、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボールなど)を適宜備え、これらは、バスラインにより接続されている。このような一般的なコンピュータにおいて、CPUは、予測モデル生成装置1を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
【0036】
[予測モデル生成装置1の処理]
続いて、図5を参照して、予測モデル生成装置1の予測モデル生成処理について説明する。予測モデル生成装置1は、予め定められた所定のタイミング又はユーザが指定したタイミングで予測モデル生成処理を実行する。
【0037】
初めに、信頼度パラメータ取得手段11は、ユーザ端末30からユーザが所望する予測モデルの精度を示す信頼度パラメータを受け付ける(S1)。続いて、最少サンプル数算出手段12は、S1で受け付けた信頼度パラメータに基づいて、予測モデルを生成するための最少サンプル数を算出する。
ここで、信頼度パラメータの受け付けは、検索クエリ毎に個別に受け付けることとしてもよく、複数又は全部の検索クエリに共通して受け付けることとしてもよい。また、S1,S2の処理は、予測モデル生成処理を行う際に常に行うこととしてもよいが、省略することもできる。すなわち、ユーザが所望する予測モデルの精度が変わらない場合には、前回算出しておいた最少サンプル数に基づいて、S3〜S10の処理を行うこととしてもよい。
【0038】
続いて、統計ログ読出手段131は、統計ログデータベース21から予測モデルを生成するためのサンプルである広告の表示順序及び対応するクリックレートに加え、表示順序毎のインプレッション数(サンプル数)を読み出す(S3)。続いて、サンプル数判定手段132は、S3で読み出したインプレッション数が、S2で算出した最少サンプル数未満であるか否かを判定する(S4)。
【0039】
このとき、インプレッション数が最少サンプル数未満である場合には(S4でYES)、グループ化手段133は、最少サンプル数に達するまで対応する表示順序に隣接する表示順序のインプレッション数を加算する(S5)。続いて、説明変数変更手段134は、それぞれの表示順序(説明変数)の値をインプレッション数に基づいて重み付けした上で、グループ化後の表示順序の値を決定する(S6)。同様に、目的変数変更手段135は、表示順序のそれぞれに対応するクリックレート(目的変数)の値をインプレッション数に基づいて重み付けした上で、グループ化後のクリックレートの値を決定する(S7)。
【0040】
S6、S7においてグループ化後の表示順序(説明変数)及びクリックレート(目的変数)を決定すると、決定した表示順序及びクリックレートを予測モデルを生成するための数値としてセットする(S8)。また、S3で読み出したインプレッション数が最少サンプル数以上である場合には(S4でNO)、S3で読み出した表示順序及びクリックレートをそのままセットする(S8)。
【0041】
続いて、モデル生成準備手段13は、統計ログデータベース21に記憶された全てのサンプルを読み出しセットしたか否かを判定する(S9)。このとき、全てのサンプルのセットが終了していない場合には(S9でNO)、モデル生成準備手段13は、全てのサンプルのセットが終了するまでS4〜S8の処理を繰り返す。一方で、全てのサンプルのセットが終了した場合には(S9でYES)、予測モデル生成手段14は、広告の表示順序(説明変数)に基づいて表示される広告のクリックレート(目的変数)を予測するための予測モデルを、検索クエリ毎に生成し、予測モデルデータベース22に記憶する。
【0042】
[予測モデル生成装置1の効果]
予測モデル生成装置1によれば、予測モデルを生成する際に、インプレッション数が最少サンプル数に満たない(すなわち、統計上有意でない)広告の表示順序やクリックレートについては、最少サンプル数を満たすまで隣接する範囲でグループ化した上で予測モデルを生成する。
これにより、インプレッション数がユーザの予定する信頼度を満たすための最少サンプル数に満たないサンプル(表示順序及びクリックレート)が存在する場合であっても、ユーザの経験や知識に関係なく誤差の少ない予測モデルを自動的に生成することができる。
このとき、予測モデル生成装置1では、隣接する範囲でグループ化する際に、それぞれのインプレッション数に基づいて重み付けを行った上で、グループ化後の表示順序及びクリックレートを決定する。これにより、グループ化した際の誤差を一定度に抑えることができ、サンプル数が少ない場合であっても誤差の少ない予測モデルを自動的に生成することができる。
【0043】
以上のような予測モデル生成装置1は、ユーザの経験や知識に関係なく予測モデルを自動的に生成するため、多数の予測モデルを生成する際に、例えば、本実施形態のように検索クエリ毎に予測モデルを生成する際に特に好適である。
【0044】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
【0045】
例えば、上記実施形態で示した式は、一例にすぎず他の式に基づいて所定の値を算出することとしてもよい。一例として、最少サンプル数を算出する数1の式は、「最少サンプル数×P<5」の場合には精度が十分でなく、他の式により最少サンプル数を算出することが好ましい。
【符号の説明】
【0046】
1 予測モデル生成装置
11 信頼度パラメータ取得手段
12 最少サンプル数算出手段
13 モデル生成準備手段
131 統計ログ読出手段
132 サンプル数判定手段
133 グループ化手段
134 説明変数変更手段
135 目的変数変更手段
14 予測モデル生成手段
21 統計ログデータベース
22 予測モデルデータベース

【特許請求の範囲】
【請求項1】
説明変数を用いて目的変数の予測モデルを生成する予測モデル生成装置であって、
説明変数及び当該説明変数に対応する目的変数の既知の組み合わせを、予測モデルを生成するためのサンプルとして記憶する統計ログデータベースと、
前記予測モデルについて所定の信頼度を満たすための最少サンプル数を算出する最少サンプル数算出手段と、
前記統計ログデータベースから前記サンプルを読み出す統計ログ読出手段と、
前記統計ログ読出手段が読み出した前記説明変数毎の前記サンプルの数が前記最少サンプル数を満たしているか否かを判定するサンプル数判定手段と、
前記サンプル数判定手段により特定の説明変数の前記サンプルの数が前記最少サンプル数に満たないと判定されることを条件に、当該特定の説明変数に隣接する説明変数に係る前記サンプルを加えることで、前記最少サンプル数を満たす範囲の隣接説明変数に係る前記サンプルをグループ化するグループ化手段と、
前記グループ化手段によりグループ化された前記サンプルに係る、前記特定の説明変数と前記隣接説明変数とに基づいて、グループ化後の説明変数を決定する説明変数変更手段と、
前記グループ化手段によりグループ化された前記サンプルに係る、前記特定の説明変数と前記隣接説明変数とに各々対応する前記目的変数に基づいて、グループ化後の前記サンプルに係る、前記説明変数に対応する目的変数を決定する目的変数変更手段と、前記統計ログ読出手段が読み出した前記説明変数及び前記説明変数変更手段が決定した前記説明変数と、
当該説明変数に各々対応する前記目的変数とに基づいて、前記目的変数の予測モデルを生成する予測モデル生成手段と、
を備える予測モデル生成装置。
【請求項2】
前記説明変数変更手段及び前記目的変数変更手段は、前記特定の説明変数のサンプルの数と前記隣接説明変数のサンプルの数とに基づいて重み付けられたグループ化後の説明変数及び対応する目的変数を決定する、
請求項1に記載の予測モデル生成装置。
【請求項3】
説明変数を用いて目的変数の予測モデルを生成する方法であって、
コンピュータが実行する、
前記予測モデルについて所定の信頼度を満たすための説明変数及び当該説明変数に対応する目的変数の既知の組み合わせの数である最少サンプル数を算出するステップと、
前記説明変数及び当該説明変数に対応する目的変数の既知の組み合わせを、予測モデルを生成するためのサンプルとして記憶する統計ログデータベースから前記サンプルを読み出すステップと、
読み出した前記説明変数毎の前記サンプルの数が前記最少サンプル数を満たしているか否かを判定するステップと、
特定の説明変数の前記サンプルの数が前記最少サンプル数に満たないと判定されることを条件に、当該特定の説明変数に隣接する説明変数に係る前記サンプルを加えることで、前記最少サンプル数を満たす範囲の隣接説明変数に係る前記サンプルをグループ化するステップと、
グループ化された前記サンプルに係る、前記特定の説明変数と前記隣接説明変数とに基づいて、グループ化後の説明変数を決定するステップと、
グループ化された前記サンプルに係る、前記特定の説明変数と前記隣接説明変数とに各々対応する前記目的変数に基づいて、グループ化後の前記サンプルに係る、前記説明変数に対応する目的変数を決定するステップと、
前記統計ログデータベースから読み出した前記説明変数及び決定した前記説明変数と、当該説明変数に各々対応する前記目的変数とに基づいて、前記目的変数の予測モデルを生成するステップと、
を含む方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2012−226573(P2012−226573A)
【公開日】平成24年11月15日(2012.11.15)
【国際特許分類】
【出願番号】特願2011−93877(P2011−93877)
【出願日】平成23年4月20日(2011.4.20)
【出願人】(500257300)ヤフー株式会社 (1,128)