説明

情報処理装置及び情報処理プログラム

【課題】カテゴリー分類を行う際、どのカテゴリーにも属する確率が低いデータについては判別不能として誤判別を低減し、判別精度を高める。
【解決手段】応答時間情報生成部12がログ23から得たログ情報からクライアント3の利用者の閲覧画面データに対する応答時間を示す応答時間情報を生成し、ヒストグラム生成部1302が応答時間情報から応答時間と利用者数とのヒストグラムを生成し、評価値導出部1303がヒストグラムを複数カテゴリーに対応する複数の正規分布の合成とみなし、各正規分布の平均値、分散値等をカテゴリー分類のための評価値として導出し、通信部11がログ23よりサーバ2を利用中の利用者の閲覧画面データに対する応答時間の情報を受信し、カテゴリー判別部15が評価値に基づいて当該利用者を暫定的にカテゴリー分類する。カテゴライゼーションデータ評価部1501は、暫定的に分類されたカテゴリーが妥当かどうかを評価する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば、サービスを利用するサービス利用者の特性をカテゴリー分類するための技術に関し、特に、サービス利用者の満足度を測るためのカテゴリー分類を行う技術に関する。
【背景技術】
【0002】
従来の情報提供サービスの満足度の判別の方法は、複数の利用者の応答時間と利用者数の関係を示す応答時間ヒストグラムから、複数の正規分布の平均値と分散値に基づいて前記複数の利用者特性カテゴリーを決定し、これを事前確率とすることによって、特定データを示す利用者がどのカテゴリーに属するか、判別を行っていた(例えば、非特許文献1)。
【非特許文献1】魚住光成,村田篤,淺間一:サービス工学における満足度のセンシング方法の一案,第6回計測自動制御学会SI部門講演会 SM2_6,2005.
【発明の開示】
【発明が解決しようとする課題】
【0003】
従来の情報提供サービスの満足度の判別の方法は、利用者の誤操作による応答時間(応答時間が極端に小さい)や利用者の操作放棄による応答時間(応答時間が極端に長い)など、満足度を判別するのが不適切なデータについても判別を行ってしまうという課題があった。
【0004】
この発明は、いずれの特性カテゴリーにも属する確率が低いデータについては判別不能として誤判別を低減し、判別精度を高めることを目的とする。
【課題を解決するための手段】
【0005】
この発明の情報処理装置は、
特定のデータに対する複数の利用者の応答時間を示す応答時間情報を入力する応答時間情報入力部と、
応答時間情報に基づき、応答時間と利用者数の関係を示す応答時間ヒストグラムを生成するヒストグラム生成部と、
応答時間ヒストグラムが前記特定のデータに対する利用者特性を表す複数の利用者特性カテゴリーに対応する複数の正規分布の合成であるとし、それぞれの利用者特性カテゴリーの占める比率とそれぞれの正規分布の平均値と分散値とを導出する評価値導出部と、
それぞれの利用者特性カテゴリーの占める比率と前記複数の正規分布の平均値と分散値とに基づいて複数の利用者特性カテゴリーが設定された後に、前記特定のデータに対する特定の利用者の応答時間の通知を受け、前記特定の利用者の応答時間とそれぞれの利用者特性カテゴリーの占める比率と前記複数の正規分布の平均値と分散値とを用いて、前記複数の利用者特性カテゴリーのうち前記特定のデータに対する前記特定の利用者の利用者特性が属する利用者特性カテゴリーを候補として暫定的に決定し、前記候補を前記特定のデータに対する前記特定の利用者の利用者特性が属するカテゴリーとして確定してよいかどうかを所定の規則に基づき評価するカテゴリー判別部と
を備えたことを特徴とする。
【発明の効果】
【0006】
この発明により、満足度を判別する際の判別精度を高めることができる。
【発明を実施するための最良の形態】
【0007】
実施の形態1.
図1は、本実施の形態に係るカテゴライゼーション/判別装置1(情報処理装置)と、カテゴライゼーション/判別装置1が評価の対象とする機器とを含むシステム構成例を示す構成図である。
【0008】
クライアント3は、サービス利用者が操作する端末装置でありWebブラウザを搭載している。クライアント3は、例えば、PC(Personal Computer)、携帯電話機、PDA(Personal Digital Assistant:PDAは登録商標)、ATM端末、チケットの発券端末、キヨスク端末などである。クライアント3は、インターネット、LAN(Local Area Network)などのネットワークを通じてサーバ2に接続可能である。クライアント3は、クライアント3の動作を制御する制御部31、利用者が操作するための操作部32、利用者に対して各種情報(例えば、サーバ2から送られてきたデータ)を表示する表示画面を含む表示部33、ネットワークに接続するためのネットワークインターフェース34から構成される。
【0009】
サーバ2は、例えば、Webサーバであり、クライアント3からの要求に応じて各種のサービスを提供する。サーバ2は、クライアント3の要求に従いネットワークインターフェース24を通じて情報を受け渡すWeb制御部21、情報を格納する記憶部22、クライアント3からの要求を記録するログ23、ネットワークに接続するためのネットワークインターフェース24から構成される。
【0010】
カテゴライゼーション/判別装置1は、利用者の特性を示す複数の利用者特性カテゴリーを設定するための評価値を導出し、更に、複数の利用者特性カテゴリーが設定された後に、特定の利用者の特性がいずれの利用者特性カテゴリーに分類されるかの判別を行う。カテゴライゼーション/判別装置1は、サーバ2のログ23からログ情報を取得し、ログ情報に基づき複数の利用者特性カテゴリーの設定のための評価値を導出する。
【0011】
カテゴライゼーション/判別装置1において、通信部11は、サーバ2と通信を行い、ログ情報を受信する。
【0012】
応答時間情報生成部12は、利用者が特定のデータに対して応答するまでの応答時間を示す応答時間情報をログ情報から生成する。本実施の形態では、後述するように、クライアント3の表示部33により表示画面に表示されるデータ(閲覧画面データ)に対して応答するまでの応答時間を示す応答時間情報を生成する例を示す。
【0013】
カテゴライゼーション処理部13は、応答時間情報から利用者特性カテゴリー設定のための評価値を導出する。カテゴライゼーション処理部13は、応答時間情報入力部1301、ヒストグラム生成部1302、評価値導出部1303から構成される。応答時間情報入力部1301は、応答時間情報生成部12により生成された応答時間情報を入力する。ヒストグラム生成部1302は、応答時間情報に基づき、応答時間と利用者数との関係を示す応答時間ヒストグラム(以下、単にヒストグラムとも言う)を生成する。評価値導出部1303は、ヒストグラム生成部1302により生成されたヒストグラムから評価値を導出する。
【0014】
カテゴライゼーション記憶部14は、カテゴライゼーション処理部13で導出された評価値を記憶し、更に、評価値に基づいて複数の利用者特性カテゴリーが設定された場合に、複数の利用者特性カテゴリーと評価値との対応づけを記憶する。
【0015】
カテゴリー判別部15は、特定の利用者の応答時間から、当該利用者が複数の利用者特性カテゴリーのうちのいずれのカテゴリーに属するのかを判別する。
【0016】
カテゴライゼーションデータ評価部1501は、発生する確率が低く、判別するのが不適切なデータを除去するためのチェックを行う。
【0017】
サービス工学では、サービスを提供するシステムをサービスメディアと位置づけ、これがサービスを提供するだけでなくサービスの評価計測を行い、利用者の満足度としてシステムにフィードバックするモデルを提唱している。システムが、利用者のサービスに対する評価をセンシングできれば、上記のような課題は解決することになる。
【0018】
これまでシステムが利用者のサービスに対する評価、満足度を測定してこなかった背景には、何をセンシングすればよいか明らかでなかったことにあるといえる。例えば、直接的に利用者の評価を得ようとアンケートのメニューをユーザインターフェースに加えても、不満のある人がこのアンケートにわざわざ回答するか疑わしい。さらに、アンケートは事後になるため、利用した瞬間の満足度を表さず、先入観も加わって真実から離れた回答になりがちである。
【0019】
利用者の満足/不満足、関心度合い等は無意識のうちに行動に現れ、行動を評価すれば利用者の満足/不満足、関心度合い等を捉えることができると考えられる。画面操作を伴うものであれば、操作画面の触れ方や操作に要する時間などが、興味を持って熱心にインタラクティブに使う人と、それほど興味が無く操作が緩慢になりがちな人で異なり、また、操作がスムーズに行える人と操作に困難を感じる人でも異なる。このため、利用者の行動が無意識のうちに、利用者の満足/不満足、関心度合い、システムが操作しやすい/操作しにくいといった利用者の特性や心象を反映した傾向を示すと考えられる。
【0020】
本実施の形態では、Webサービスの利用者の行動を測定することで利用者の満足度を測るためのカテゴリー設定を行う。Webを使ったサービスはマウス操作による要求とその結果の画面の表示といったシンプルなプロトコルで構成されている。画面が表示されてから次のアクションをとるまでの応答時間(画面の閲覧時間)に着目し、この時間から利用者のカテゴライゼーションと判別を行うことを志向している。
【0021】
次に、カテゴライゼーション/判別装置1のハードウェア構成を説明する。図2は、カテゴライゼーション/判別装置1のハードウェア構成例を示す図である。図2において、カテゴライゼーション/判別装置1は、プログラムを実行するCPU(Central Processing Unit)137を備えている。CPU137は、バス138を介してROM(Read Only Memory)139、RAM(Random Access Memory)140、通信ボード144、CRT(Cathode Ray Tube)表示装置141、K/B142、マウス143、FDD(Flexible Disk Drive)145、磁気ディスク装置146、CDD(Compact Disk Drive)186、プリンタ装置187、スキャナ装置188と接続されていてもよい。RAMは、揮発性メモリの一例である。ROM、FDD、CDD、磁気ディスク装置、光ディスク装置は、不揮発性メモリの一例である。これらは、カテゴライゼーション記憶部14の一例である。通信ボード144は、FAX機310、電話器320、LAN105等に接続されていてもよい。
【0022】
ここで、通信ボードは、LAN105に限らず、直接、インターネット、或いはISDN等のWAN(ワイドエリアネットワーク)に接続されていても構わない。本実施の形態では、インターネット、LAN又はWANを介してサーバ2と通信を行うことができる。
【0023】
磁気ディスク装置146には、オペレーティングシステム(OS)147、ウィンドウシステム148、プログラム群149、ファイル群150が記憶されている。プログラム群は、CPU137、OS147、ウィンドウシステム148により実行される。
【0024】
上記プログラム群149には、本明細書中の説明において「〜部」として説明する機能を実行するプログラムが記憶されている。プログラムは、CPUにより読み出され実行される。
【0025】
ファイル群150には、例えば、「応答情報」、「ヒストグラム」、「評価値」、「カテゴリー判別結果」として説明するものが、ファイルとして記憶される。また、フローチャートの矢印の部分は主としてデータの入出力を示し、そのデータの入出力のためにデータは、磁気ディスク装置、FD(Flexible Disk)、光ディスク、CD(コンパクトディスク)、MD(ミニディスク)、DVD(Digital Versatile Disk)等のその他の記録媒体に記録される。あるいは、信号線やその他の伝送媒体により伝送される。
【0026】
また、「〜部」として説明するものは、ROM139に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、ハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。
【0027】
また、プログラムは、また、磁気ディスク装置、FD(Flexible Disk)、光ディスク、CD(コンパクトディスク)、MD(ミニディスク)、DVD(Digital Versatile Disk)等のその他の記録媒体による記録装置を用いて記憶されても構わない。
【0028】
次に動作について説明する。利用者によるクライアント3の操作は操作部32が感知して、制御部31に処理の要求を出す。例えば、あらかじめ表示部33が表示していたアイコンを利用者がマウスでクリックしてそこに繋がったWebページの表示を要求する場合などがある。制御部31はネットワークインターフェース34を介してサーバ2にWeb要求を伝える。
【0029】
サーバ2はネットワークインターフェース24を介してWeb要求を受け取り、Web制御部21が記憶部22から該当するWebページを探し出し、その内容をネットワークインターフェース24を介してクライアント3に送り出すと同時にログ23にアクセスがあったことを記録する。
【0030】
クライアント3はネットワークインターフェース34を介して制御部31がその内容を受け取り、表示部33に対してそのWebページの内容の表示を促す。表示部33が表示画面にそのページを表示することで利用者のひとつの要求は完結する。
【0031】
この一連の動作は利用者が目的を達成するまで繰り返され、都度ログ23に利用者の操作が記録されることになる。
【0032】
(評価値導出の概要)
次に、図3のフローチャートを用いて、評価値を導出して記憶するまでのカテゴライゼーション/判別装置1の動作の概要を説明する。
【0033】
先ず、ステップS201において、カテゴライゼーション/判別装置1の通信部11が、サーバ2のログ23からログ情報を受信する。ログ情報は、例えば、(1)セッションID、(2)時刻、(3)画面ID、(4)利用者IDといったデータを含むレコードである。ここで、(1)セッションIDは、ある利用者が一連の操作を行ったときに付されるユニークなコードであり、(2)時刻は、Web制御部21が要求を受け取ったときの時刻を示し、(3)画面IDは、要求された画面を識別するユニークなコード、(4)利用者IDは、一連の操作を行った利用者を識別するユニークなコードである。このログ情報には、複数の利用者に対して複数の画面の表示が行われたことが時系列に記録されている。
【0034】
次に、ステップS202において、応答時間情報生成部12が、ログ情報から応答時間情報を生成する。応答時間情報には、画面IDごとに、複数の利用者の応答時間が示される。応答時間情報の生成手順の詳細は後述する。
【0035】
次に、ステップS203において、カテゴライゼーション処理部13の応答時間情報入力部1301が応答時間情報を入力する(応答時間情報入力ステップ)。
【0036】
次に、ステップS204において、カテゴライゼーション処理部13のヒストグラム生成部1302が、応答時間ヒストグラムを生成する(ヒストグラム生成ステップ)。応答時間情報は画面IDごとに複数の利用者の応答時間が示された情報であり、この応答時間情報から、応答時間と利用者数の関係を示すヒストグラムを生成することができる。応答時間ヒストグラムの生成手順の詳細は、後述する。
【0037】
次に、ステップS205において、カテゴライゼーション処理部13の評価値導出部1303が、ステップS204で生成されたヒストグラムを特定のデータ(閲覧画面データ)に対する利用者特性を表す複数の利用者特性カテゴリーに対応する複数の正規分布の合成であるとみなし、そして、各正規分布の平均値(μ)、分散値(σ)、比率(α)を評価値として導出する(評価値導出ステップ)。ヒストグラムを構成する正規分布の合成数は、予め決定しておく。
【0038】
本実施の形態では、ヒストグラムを3つの正規分布の合成とみなす例を説明する。これは、応答時間との関係から、「興味を持って熱心にインタラクティブに操作し、サービスに満足している利用者(応答時間が早い)」と、「それほど興味が無く操作が緩慢になりがちな、サービスに満足していない利用者(応答時間が遅い)」、「いずれでもない利用者(応答時間に特徴がない)」の3つの利用者特性カテゴリーに分類することを想定しており、このため、ヒストグラムが3つの正規分布の合成と仮定して、それぞれの正規分布の評価値を導出する。ヒストグラムが3つの正規分布の合成と仮定した場合は、1つの正規分布につき3個の評価値(平均値(μ)、分散値(σ)、比率(α))が導出されるので、合計で9個の評価値が導出される。
【0039】
ステップS205を1回実行すると、1つの閲覧画面データについて応答時間と利用者数との関係を示すヒストグラムから3つの正規分布の評価値(9個)が導出される。ログ23から取得したログ情報に複数の画面IDが存在する場合は、ステップS205を閲覧画面データ数(画面ID数)だけ実行する。なお、評価値の導出手順の詳細は後述する。
【0040】
最後に、ステップS206において、カテゴライゼーション処理部13の評価値導出部1303が、導出した評価値をカテゴライゼーション記憶部14に記憶する。
【0041】
(評価値導出の詳細)
次に、図4を参照して、ログ情報から応答時間情報を生成する過程、応答情報からヒストグラムを生成する過程、ヒストグラムから評価値を導出する過程のそれぞれの詳細を説明する。ログ情報は、前述したように、(1)セッションID、(2)時刻、(3)画面ID、(4)利用者IDから構成される。このログを、(1)セッションID、(2)時刻の順にソートすると、利用者毎の操作順序に従ったレコード順序となる。これをWORK1とする。
【0042】
次に、同一利用者のレコードにおいて、各レコードに対応した画面の閲覧時間は当該画面のレコードの時刻と次レコードの時刻の差から求めることができる。但し、次レコードのセッションIDが当該画面のレコードと異なる場合は、閲覧時間はNULLとし、以降の集計から除外する。つまり利用者ごとに、各画面の閲覧時間を算出する。ここで、閲覧時間は、一つの画面から次の画面に移るまでの時間であり、ある画面に対する応答時間と考えることができる。そして、閲覧時間の算出後、画面ID、閲覧時間からなるレコードを持つファイルを作成する。これをWORK2とする。
【0043】
次に、WORK2のファイルから、特定の画面について、同一閲覧時間を持つレコードの件数をヒストグラムとして集計する。これを画面閲覧時間をy、その閲覧時間の利用者数を度数G(y)とし、カテゴライゼーション記憶部14に置き、以降の処理で利用する。尚、Web制御部21がログ23に直接各画面の閲覧時間を出力している場合は、それを使ってG(y)を求めても良い。この場合は、応答時間情報生成部12は不要である。
【0044】
画面閲覧時間をyとし、その閲覧時間の利用者数を度数G(y)するとき、その確率密度関数g(y)は、次の数式と表すことができる。
【0045】
【数1】

【0046】
これを求めカテゴライゼーション記憶部14に置く。ここで、カテゴライゼーションのモデルとして、確率密度関数f(y)を導入する。このf(y)は、次の数式で表される。
【0047】
【数2】

【0048】
但し、ここで、μ,μ,μおよび、σ,σ,σは、それぞれを正規分布とした、カテゴリーΠ,Π,Πの利用者の分布の平均及び分散とする。α,α,αは、それぞれのカテゴリーの占める比率で、Σα=1である。この式(1.2)は、利用者が3つの正規分布を持つ群のいずれかに属するとするものである。観測したg(y)に近似したf(y)を求めることで、利用者を3つの群Π,Π,Πにカテゴライゼーションすることができる。近似は、χが最小となる、μ,μ,μおよび、σ,σ,σ、α,α,αを導出すればよい。即ち、以下の数式において、χを最小とする上記9つのパラメータの組み合わせを試行して求める。
【0049】
【数3】

【0050】
具体的には、それぞれのパラメータの取り得る値の範囲を想定して18段のループ(αは2つが決まれば、のこり1つはおのずと決まる)を組み、式(1.3)の演算を繰り返す。試行するパラメータの精度は細かいほどf(y)の近似性は向上するが、この精度は実装上の設計事項である。これによって求めたμ,μ,μおよび、σ,σ,σ、α,α,αをカテゴライゼーション記憶部14に置く。どれ位近似できたかχ適合度検定を行う場合は、上記で決定したパラメータについて、式(1.3)を求め、これを、以下の数4に示す倍数にすればよい。
【0051】
【数4】

【0052】
尚、ここではχを用いたが、最小二乗法によって近似式のパラメータを同様に求めても良い。
【0053】
以上のような手順により、ログ情報から応答時間情報を生成し、応答時間情報から応答時間(閲覧時間)と利用者数の関係を示す応答時間ヒストグラムを生成し、応答時間ヒストグラムから利用者特性カテゴリーの設定のための評価値(各正規分布の平均値(μ)、分散値(σ)、比率(α))を導出し、これらの評価値をカテゴライゼーション記憶部14に格納する。
【0054】
そして、導出されたμ,μ,μおよび、σ,σ,σから、例えば、「サービスに満足している利用者(応答時間が早い)」は最小のμをもつ利用者特性カテゴリーΠに、「いずれでもない利用者(応答時間に特徴がない)」は最大のσをもつ利用者特性カテゴリーΠに、「それほど興味が無く操作が緩慢になりがちな、サービスに満足していない利用者(応答時間が遅い)」は上記以外のσをもつ利用者特性カテゴリーΠに、カテゴライズすることが考えられる。
【0055】
なお、以下では、「サービスに満足している利用者」のカテゴリーをカテゴリー1とも呼び、「いずれでもない利用者」のカテゴリーをカテゴリー2とも呼び、「それほど興味が無く操作が緩慢になりがちな、サービスに満足していない利用者」のカテゴリーをカテゴリー3とも呼ぶ。
【0056】
この利用者特性カテゴリーの設定(利用者特性カテゴリーと評価値の関連付け)は、カテゴライゼーション/判別装置1のオペレータが手動で行ってもよいし、カテゴライゼーション/判別装置1が自動的に行ってもよい。
【0057】
ここで、「いずれでもない人」は大きな分散をもつ特徴を利用して、以下の式により近似してもよい。但しここではαを「いずれでもない人」の比率としている。
【0058】
【数5】

【0059】
ここで、以上にて説明した利用者のデータ(閲覧画面データ)に対する応答時間(閲覧時間)と利用者特性カテゴリーとの関係性を示す実験結果を説明する。
【0060】
この実験では、約70名の登録された利用者が週に何度かアクセスするシステムを対象にしている。Webサーバでは利用者に画面を表示する毎にその時刻を秒の単位まで記録しており、この記録から各画面が何秒表示されていたか(利用者の応答時間が何秒であったか)がわかる。尚、利用者のPCとWebサーバはLANで接続されており、画面に情報が表示されるまでの時間は安定して遅延がない。また、ログの採取は、システムが運用を開始してから3ヶ月後の利用者が操作に慣れた時期の1ヶ月間を対象に行った。1ヶ月で約700回の表示が行われた特定の画面について、表示時間をyとしたときの分布g(y)のヒストグラムを図5に示す。70名それぞれがランダムに操作した結果であるが、その分布は図5のように正規分布とはならない。図5のグラフから約70名の利用者は一様な集団ではなく、応答時間(閲覧時間)が異なるいくつかの群からなることが分かる。
【0061】
ここで、上記したように、このヒストグラムが3つの群を表す3つの正規分布の重ね合わせであるとし、上記の式(1.1)、(1.2)、(1.3)より、3つの正規分布のそれぞれについて平均値(μ)、分散値(σ)、比率(α)を算出した結果を図6に示す。
【0062】
そして、図6に示すパラメータで式(1.2)から求めた度数をグラフに表すと図7のようになる。図7には、群1を示すグラフ、群2を示すグラフ、群3を示すグラフ、群1〜群3のグラフの重ねあわせが示されている。図7によると、比較的短い閲覧時間で次のページに移る群1、閲覧時間に時間を要する群3、閲覧時間に特徴のない群2に分かれていることが分かる。実測した観測度数(ヒストグラム)(図5と式(1.2)および図6のパラメータから求めた理論度数(重ねあわせ)(図7)をグラフ上重ね合わせると図8のようになり、観測度数の特徴を表した理論度数となっていることが分かる。これを、式(1.3)に従ってχ適合度検定を行う。式(1.3)より図6のパラメータを用いてχを算出した結果は、χ=99.11となる。この測定は0秒から100秒まで101項の度数となっているため、自由度νは100となる。χ分布表から、10%の有意水準で実測データと仮説によるデータは一致するとする本例は棄却されない。
【0063】
(特定の利用者のカテゴリー判別)
次に、利用者特性カテゴリーが設定された後の処理を図9のフローチャートを参照して説明する。図9のS301〜S305は、既に設定された複数の利用者特性カテゴリーのうち、特定のデータに対する特定の利用者の利用者特性が属する利用者特性カテゴリーを「候補」として暫定的に判別(決定)する動作である。
【0064】
先ず、ステップS301において、通信部11が、サーバ2のログ23より、特定の利用者、例えば、現在サーバ2によるサービスを受けている利用者について特定の閲覧画面データについての応答時間を示す情報を受信する(通知受領ステップ)。
【0065】
次に、ステップS302において、カテゴリー判別部15が、通信部11より当該利用者の応答時間を示す情報を受信するとともに、対象となる画面に対応する評価値(平均値(μ)、分散値(σ)、比率(α))をカテゴライゼーション記憶部14から読み出す。前記のように、3つの利用者特性カテゴリーが設定されている場合は、3つの正規分布の評価値9個を読み出す。
【0066】
次に、ステップS303において、カテゴリー判別部15は、ステップS302で読み出した各正規分布の評価値と、特定の利用者の応答時間から、当該利用者が対応する「候補」としての利用者特性カテゴリーを判別する(候補となるカテゴリーの判別ステップ)。候補となるカテゴリー判別の詳細手順は後述する。
【0067】
次に、ステップS304において、カテゴリー判別部15のカテゴライゼーションデータ評価部1501は、「候補」として判別したカテゴリーが、妥当なものかどうかを評価する。
【0068】
次に、ステップS305において、カテゴリー判別部15は、「評価結果」を出力する。例えば、図2に図示していないCRT表示装置等に「評価結果」を表示してもよいし、通信部11を介してサーバ2に「評価結果」を通知してもよい。この「評価結果」とは、次に説明する図10で述べるが、評価OKの場合はOKとされたカテゴリーを示す「i」であり、評価の結果、判別不能であった場合は、「判別不能」の旨である。
【0069】
(ステップS303の具体的な動作)
図10は、候補となるカテゴリーの判別ステップS303の具体的な動作例を示す図である。カテゴライゼーション処理部13で求めたパラメータα,α,αは、新たに観測したzに対する事前確率wとみなすことができる。ここで、新たな観測値zとは、特定の利用者の特定画面に対する応答時間(閲覧時間)を意味する。ベイズ推定における事後確率w’は、式に示す通りである。
【0070】
【数6】

【0071】
但し、f(z)は以下に示すとおりである。
【0072】
【数7】

【0073】
zを観測して、事後確率w’の最大のものにzを分類する。すなわち、zを観測して以下の式に従ってiを求め、このiに対応するカテゴリーΠが、当該利用者が分類される「候補」としての利用者特性カテゴリーとなる。
【0074】
【数8】

【0075】
尚、式(1.4)を使用した場合は、以下の式に従ってカテゴリー判別を行う。
【0076】
【数9】

【0077】
このようにして、カテゴリー判別部15は、カテゴリー判別を行い、「候補」となるカテゴリーを求める。
【0078】
(ステップS304の具体的な動作)
次に、「候補」に対する評価の動作を説明する。「候補」に対する評価は、カテゴリー判別部15のカテゴライゼーションデータ評価部1501が実行する。カテゴライゼーションデータ評価部1501の動作を、図11を参照して説明する。上記の図10に対する説明では、カテゴリー判別部15が候補となる「i」を求めるまでの処理を説明した。上記で述べたように、カテゴライゼーション記憶部14には、各カテゴリーの平均(μ)、分散(σ)、比率(α)が格納されている。カテゴライゼーションデータ評価部1501は、これらを引用して観測値Zに対して求めた候補が妥当かどうかの評価を行う。
【0079】
図10の説明における(式2.3)の説明で述べたように、各群の平均と分散によるf(z)に比率をかけたw(z)の最大値を示すiが判別結果の「候補」である。これに対し、カテゴライゼーションデータ評価部1501が、「候補」の妥当性の評価を行う。
【0080】
カテゴライゼーションデータ評価部1501は、カテゴリー判別部15が暫定的に決定した候補を特定のデータに対する特定の利用者の利用者特性が属するカテゴリーとして確定してよいかどうかを「所定の規則」に基づき評価する。
【0081】
カテゴライゼーションデータ評価部1501は、例えば「所定の規則」として、図11に示す処理方式によって「候補」を評価する。
【0082】
図11に示す方式では、カテゴライゼーションデータ評価部1501は、各カテゴリーの総和Σw(z)に対し、z(特定の利用者の観測値)までの和(ΣΣw(z))を求め、その値と有意水準aとして設定した値との比較(a/2≦ΣΣw(z)≦1−a/2)を行い、判定をおこなう。この方式における「ΣΣw(z)」は、図12に示すように、複数の正規分布の合成として得られる重ね合わせ分布における0〜zの発生確率を示している。
【0083】
例えば、カテゴライゼーションデータ評価部1501は、有意水準aが10%と設定されている場合は、0から観測値zまでのΣΣw(z)が0.05以上、0.95以下であればデータは判別対象内であったと評価(評価OK)する。すなわち、この場合は「候補」を利用者の利用者特性が属するカテゴリーとして確定する。また、ΣΣw(z)が0.05以上、0.95以下の範囲に属さない場合は、データは判別不能と評価(評価NG)する。
【0084】
この図11に示す方法による評価は、カテゴリーの分布が接近している場合に適用できる。評価方法が、応答時間が極端に短いものや極端に長いものを指標をもって判定対象外として除外できるので、利用者が間違って画面を表示したり、操作を放棄した事象を取り除きたいときに有効である。
【0085】
図10に示すように、カテゴライゼーションデータ評価部1501は、評価がOKの場合は候補として求めた「i」を、通信部11を介してサーバ2のWeb制御部21に返し、評価がNGの場合は「判別不能」をWeb制御部21に返す。
【0086】
実施の形態2.
次に、図13、図14を用いて、実施の形態2を示す。実施の形態2は、実施の形態1の図11で示したものとは別の評価方法を示す。
【0087】
図13は、特定の利用者の観測値zの判別結果としての候補「i」について、そのカテゴリーに対応する分布を対象として評価を行うことを説明する図である。図13では、「a/2≦Σw(z)≦1−a/2」を評価する。この式で、「i」は候補として決定された定数である。図14を用いて「a/2≦Σw(z)≦1−a/2」の意味を説明する。図14は、図7と同じ内容のグラフである。ここで「候補i=1」とすれば、図14の群1が対応する正規分布となる。そして、0からzまでのΣw(z)は、群1の正規分布における0〜zまでの発生確率を示している。
【0088】
カテゴライゼーションデータ評価部1501は、0からzまでのΣw(i=1)が、有意水準aを10%と設定した場合であれば、0.05以上、0.95以下であればデータは判別対象内であったと評価する(評価OK)。この方式では、判別結果「i」(例えばi=1)が棄却された場合、カテゴリー判別部15で決定したiについて、次点のw(z)となるカテゴリーの「i」を候補として、再度、カテゴライゼーションデータ評価部1501が評価を行うことができる。それによって次点のカテゴリーを判別結果とすることがある。具体例を挙げれば次の様である。
【0089】
図10の説明における(式2.3)おいて、w(z)が最大であり候補として決定され、次いでw(z)が大きく、w(z)が最小であったとする。この場合、カテゴライゼーションデータ評価部1501は、候補である「i=1」に対応する群1の正規分布(図14)における0〜zまでの発生確率「Σw(z)」を算出し0.05〜0.95の範囲に属するかどうかを判定する。属さない場合、「i=1」を棄却する。この場合、カテゴライゼーションデータ評価部1501は、次点のw(z)となるカテゴリーの「i=2」を候補として、再度評価する。すなわち、カテゴライゼーションデータ評価部1501は、「i=1」の場合と同様に、「i=1」とは別の候補である「i=2」に対応する群2の正規分布(図14)における0〜zまでの発生確率「Σw(z)」を算出し0.05〜0.95の範囲に属するかどうかを判定する。属する場合は「i=2」を判別結果として確定する(評価OK)。属さない場合は、さらに次点の「i=3」を候補として、同様の処理を繰り返す。評価がOKとなる候補が現れた場合、あるいは、すべての候補がNGである場合には、図10に示すように、OKと評価された候補の「i」あるいは「判別不能」をサーバ2のWeb制御部21に返す。この現象は、カテゴリーの分布が接近しており、かつ有意水準aを小さく設定している場合に起こりうる。この現象は、同一のz(特定の利用者の観測値)であるにもかかわらず、ある群(例えば群1)では評価NGとなり、他の群(例えば群2)では評価OKとなるという逆転現象である。
【0090】
この逆転現象を認めるというのも一つの考え方である。一方、この逆転現象を防ぐため、図14に示した各正規分布のそれぞれについて、あらかじめ取りうる全てのzに対し、w(z)を求め、各zで得るw(z)の最大となる「i」について、「Σwf(z)」が棄却されない範囲に有意水準aを大きくすることで回避できる。すなわち、あらかじめ、このようなシミュレーションを行い、各zで得るw(z)の最大となる「i」について、「Σwf(z)」が棄却されない範囲となるような有意水準aを特定し、この特定された有意水準aを用いて評価を行う。この特定された有意水準aによれば、群1〜群3のような複数の正規分布のうちいずれかの正規分布における発生確率が「a/2≦Σw(z)≦1−a/2」の範囲に属さない場合には、他のいずれの正規分布における発生確率もこの範囲に属さないこととなり、前記の逆転現象は発生しない。
【0091】
この実施の形態2の方法による評価は、カテゴリーの分布が離れておりヒストグラムの重なり合いが小さいもしくは無い場合にも適用できる。
【0092】
以上の実施の形態1、実施の形態2の情報処理装置はカテゴライゼーションデータ評価部1501を備えたので、誤った判別を低減した判別が行える。
【0093】
いずれもある母集団の特性を事前確率として判別する方法であるが、実システムで発生する利用者の誤操作や操作放棄は、利用者の満足度とは全くことなる要因で発生する事象であり、満足度を判別するための母集団として取り込みにくい性格のものである。一方、誤操作や操作放棄の応答時間は、個々のシステムや表示内容によって変わるもので、一律決められるものではない。以上の実施の形態では、実システムで起こりうる例外的な応答時間を、有意水準を設け、正常操作時の分布に反映して決定するため、この課題も解決している。
【0094】
以上の実施の形態では、特定のデータに対する複数の利用者の応答時間を示す応答時間情報を入力する応答時間情報入力部と、応答時間情報に基づき、応答時間と利用者数の関係を示す応答時間ヒストグラムを生成するヒストグラム生成部と、応答時間ヒストグラムが前記特定のデータに対する利用者特性を表す複数の利用者特性カテゴリーに対応する複数の正規分布の合成であるとし、それぞれの正規分布の平均値と分散値とを前記複数の利用者特性カテゴリーの設定のために導出する評価値導出部とを有することを特徴とする情報処理装置において、前記評価値導出部により導出された複数の正規分布の平均値と分散値に基づいて前記複数の利用者特性カテゴリーが設定された後に、前記特定のデータに対する特定の利用者の応答時間の通知を受け、通知された前記特定の利用者の応答時間と前記評価値導出部により導出された複数の正規分布の平均値と分散値とを用いて、前記特定のデータに対する前記特定の利用者の利用者特性が前記複数の利用者特性カテゴリーのいずれに属するかを判別するカテゴリー判別部が、発生する確率の低いデータについては判別不能とし、誤判別を防止する情報処理装置を説明した。
【0095】
以上の実施の形態では、前記カテゴリー判別部は、前記ヒストグラムの分布の両端について、発生する確率が低く判別することが不適切と見做し、判別不能とする情報処理装置を説明した。
【0096】
以上の実施の形態では、前記カテゴリー判別部は、前記複数の正規分布のそれぞれの両端について、発生する確率が低く当該正規分布のカテゴリーに属するとすることは不適切とみなし、カテゴリー判別の対象から除外する情報処理装置を説明した。
【0097】
以上の実施の形態では、判別に適用する範囲をあらかじめ決めた有意水準に基づいて決定する情報処理装置を説明した。
【0098】
以上の実施の形態では、カテゴリー判別の対象から除外した結果において、判別が逆転する事象が発生しない範囲に、判別に適用する範囲を決定する情報処理装置を説明した。
【図面の簡単な説明】
【0099】
【図1】実施の形態1に係るシステム構成例。
【図2】実施の形態1に係るカテゴライゼーション/判別装置のハードウェア構成。
【図3】実施の形態1に係るカテゴライゼーション/判別装置の動作例を示す図。
【図4】実施の形態1に係るカテゴライゼーション/判別装置の動作例を示す図。
【図5】実施の形態1に係る実験結果のヒストグラム。
【図6】実施の形態1に係る実験結果から導出した平均値、分散値、比率。
【図7】実施の形態1に係る実験における3つの正規分布のグラフと重ね合わせのグラフ。
【図8】実施の形態1に係る実験におけるヒストグラムと重ね合わせのグラフ。
【図9】実施の形態1に係るカテゴライゼーション/判別装置の動作例を示す図。
【図10】実施の形態1に係るカテゴライゼーション/判別装置の動作例を示す図。
【図11】実施の形態1に係るカテゴライゼーションデータ評価部1501の動作を示す図。
【図12】実施の形態1に係る評価方法を示す図。
【図13】実施の形態2に係るカテゴライゼーションデータ評価部1501の動作を示す図。
【図14】実施の形態2に係る評価方法を示す図。
【符号の説明】
【0100】
1 カテゴライゼーション/判別装置、11 通信部、12 応答時間情報生成部、13 カテゴライゼーション処理部、1301 応答時間情報入力部、1302 ヒストグラム生成部、1303 評価値導出部、14 カテゴライゼーション記憶部、15 カテゴリー判別部、1501 カテゴライゼーションデータ評価部、2 サーバ、21 Web制御部、22 記憶部、23 ログ、24 ネットワークインターフェース、3 クライアント、31 制御部、32 操作部、33 表示部、34 ネットワークインターフェース。

【特許請求の範囲】
【請求項1】
特定のデータに対する複数の利用者の応答時間を示す応答時間情報を入力する応答時間情報入力部と、
応答時間情報に基づき、応答時間と利用者数の関係を示す応答時間ヒストグラムを生成するヒストグラム生成部と、
応答時間ヒストグラムが前記特定のデータに対する利用者特性を表す複数の利用者特性カテゴリーに対応する複数の正規分布の合成であるとし、それぞれの利用者特性カテゴリーの占める比率とそれぞれの正規分布の平均値と分散値とを導出する評価値導出部と、
それぞれの利用者特性カテゴリーの占める比率と前記複数の正規分布の平均値と分散値とに基づいて複数の利用者特性カテゴリーが設定された後に、前記特定のデータに対する特定の利用者の応答時間の通知を受け、前記特定の利用者の応答時間とそれぞれの利用者特性カテゴリーの占める比率と前記複数の正規分布の平均値と分散値とを用いて、前記複数の利用者特性カテゴリーのうち前記特定のデータに対する前記特定の利用者の利用者特性が属する利用者特性カテゴリーを候補として暫定的に決定し、前記候補を前記特定のデータに対する前記特定の利用者の利用者特性が属するカテゴリーとして確定してよいかどうかを所定の規則に基づき評価するカテゴリー判別部と
を備えたことを特徴とする情報処理装置。
【請求項2】
前記カテゴリー判別部は、前記所定の規則として、
通知された前記特定の利用者の応答時間と前記評価値導出部により導出されたそれぞれの利用者特性カテゴリーの占める比率と正規分布の平均値と分散値とを用いることにより、通知された前記特定の利用者の応答時間の発生確率を算出する規則を適用することを特徴とする請求項1記載の情報処理装置。
【請求項3】
前記カテゴリー判別部は、前記所定の規則として、
前記複数の正規分布の合成として得られる分布における前記発生確率を算出することを特徴とする請求項2記載の情報処理装置。
【請求項4】
前記利用者カテゴリーは、
前記複数の正規分布の数だけ存在するとともに前記利用者カテゴリーと前記正規分布とは一対一に対応しており、
前記カテゴリー判別部は、前記所定の規則として、
前記候補として決定された前記利用者特性カテゴリーに対応する前記正規分布における前記発生確率を算出することを特徴とする請求項2記載の情報処理装置。
【請求項5】
前記カテゴリー判別部は、前記所定の規則として、
算出した前記発生確率が所定の範囲に属さないときには前記候補を棄却して別の候補を暫定的に決定するとともに決定した前記別の候補を評価する処理を、前記別の候補の前記発生確率が前記所定の範囲に属する場合と前記別の候補とするべき利用者特性カテゴリーが尽きた場合とのいずれかの場合となるまで、繰り返すことを特徴とする請求項4記載の情報処理装置。
【請求項6】
前記カテゴリー判別部は、前記所定の規則として、
予め定められた有意水準に基づいて定められた範囲に、前記発生確率が属するかどうかにより評価することを特徴とする請求項4記載の情報処理装置。
【請求項7】
前記カテゴリー判別部は、
事前のシミュレーションにより、前記複数の正規分布のうちいずれかの正規分布における前記発生確率が前記範囲に属さない場合には他のいずれの正規分布における前記発生確率も前記範囲に属さないこととなる有意水準を特定し、特定した有意水準に基づく範囲を使用して評価することを特徴とする請求項6記載の情報処理装置。
【請求項8】
特定のデータに対する複数の利用者の応答時間を示す応答時間情報を入力する処理と、
応答時間情報に基づき、応答時間と利用者数の関係を示す応答時間ヒストグラムを生成する処理と、
応答時間ヒストグラムが前記特定のデータに対する利用者特性を表す複数の利用者特性カテゴリーに対応する複数の正規分布の合成であるとし、それぞれの利用者特性カテゴリーの占める比率とそれぞれの正規分布の平均値と分散値とを導出する処理と、
それぞれの利用者特性カテゴリーの占める比率と複数の正規分布の平均値と分散値とに基づいて複数の利用者特性カテゴリーが設定された後に、前記特定のデータに対する特定の利用者の応答時間の通知を受け、 前記特定の利用者の応答時間とそれぞれの利用者特性カテゴリーの占める比率と前記複数の正規分布の平均値と分散値とを用いて、前記複数の利用者特性カテゴリーのうち前記特定のデータに対する前記特定の利用者の利用者特性が属する利用者特性カテゴリーを候補として暫定的に決定し、前記候補を前記特定のデータに対する前記特定の利用者の利用者特性が属するカテゴリーとして確定してよいかどうかを所定の規則に基づき評価する処理と
をコンピュータに実行させることを特徴とする情報処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公開番号】特開2008−305235(P2008−305235A)
【公開日】平成20年12月18日(2008.12.18)
【国際特許分類】
【出願番号】特願2007−152748(P2007−152748)
【出願日】平成19年6月8日(2007.6.8)
【出願人】(000006013)三菱電機株式会社 (33,312)