情報処理装置及び情報処理プログラム

【課題】カテゴリー分類を行う際、どのカテゴリーにも属する確率が低いデータについては判別不能として誤判別を低減し、判別精度を高める。
【解決手段】応答時間情報生成部１２がログ２３から得たログ情報からクライアント３の利用者の閲覧画面データに対する応答時間を示す応答時間情報を生成し、ヒストグラム生成部１３０２が応答時間情報から応答時間と利用者数とのヒストグラムを生成し、評価値導出部１３０３がヒストグラムを複数カテゴリーに対応する複数の正規分布の合成とみなし、各正規分布の平均値、分散値等をカテゴリー分類のための評価値として導出し、通信部１１がログ２３よりサーバ２を利用中の利用者の閲覧画面データに対する応答時間の情報を受信し、カテゴリー判別部１５が評価値に基づいて当該利用者を暫定的にカテゴリー分類する。カテゴライゼーションデータ評価部１５０１は、暫定的に分類されたカテゴリーが妥当かどうかを評価する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、例えば、サービスを利用するサービス利用者の特性をカテゴリー分類するための技術に関し、特に、サービス利用者の満足度を測るためのカテゴリー分類を行う技術に関する。
【背景技術】
【０００２】
従来の情報提供サービスの満足度の判別の方法は、複数の利用者の応答時間と利用者数の関係を示す応答時間ヒストグラムから、複数の正規分布の平均値と分散値に基づいて前記複数の利用者特性カテゴリーを決定し、これを事前確率とすることによって、特定データを示す利用者がどのカテゴリーに属するか、判別を行っていた（例えば、非特許文献１）。
【非特許文献１】魚住光成，村田篤，淺間一：サービス工学における満足度のセンシング方法の一案，第６回計測自動制御学会ＳＩ部門講演会ＳＭ２＿６，２００５．
【発明の開示】
【発明が解決しようとする課題】
【０００３】
従来の情報提供サービスの満足度の判別の方法は、利用者の誤操作による応答時間（応答時間が極端に小さい）や利用者の操作放棄による応答時間（応答時間が極端に長い）など、満足度を判別するのが不適切なデータについても判別を行ってしまうという課題があった。
【０００４】
この発明は、いずれの特性カテゴリーにも属する確率が低いデータについては判別不能として誤判別を低減し、判別精度を高めることを目的とする。
【課題を解決するための手段】
【０００５】
この発明の情報処理装置は、
特定のデータに対する複数の利用者の応答時間を示す応答時間情報を入力する応答時間情報入力部と、
応答時間情報に基づき、応答時間と利用者数の関係を示す応答時間ヒストグラムを生成するヒストグラム生成部と、
応答時間ヒストグラムが前記特定のデータに対する利用者特性を表す複数の利用者特性カテゴリーに対応する複数の正規分布の合成であるとし、それぞれの利用者特性カテゴリーの占める比率とそれぞれの正規分布の平均値と分散値とを導出する評価値導出部と、
それぞれの利用者特性カテゴリーの占める比率と前記複数の正規分布の平均値と分散値とに基づいて複数の利用者特性カテゴリーが設定された後に、前記特定のデータに対する特定の利用者の応答時間の通知を受け、前記特定の利用者の応答時間とそれぞれの利用者特性カテゴリーの占める比率と前記複数の正規分布の平均値と分散値とを用いて、前記複数の利用者特性カテゴリーのうち前記特定のデータに対する前記特定の利用者の利用者特性が属する利用者特性カテゴリーを候補として暫定的に決定し、前記候補を前記特定のデータに対する前記特定の利用者の利用者特性が属するカテゴリーとして確定してよいかどうかを所定の規則に基づき評価するカテゴリー判別部と
を備えたことを特徴とする。
【発明の効果】
【０００６】
この発明により、満足度を判別する際の判別精度を高めることができる。
【発明を実施するための最良の形態】
【０００７】
実施の形態１．
図１は、本実施の形態に係るカテゴライゼーション／判別装置１（情報処理装置）と、カテゴライゼーション／判別装置１が評価の対象とする機器とを含むシステム構成例を示す構成図である。
【０００８】
クライアント３は、サービス利用者が操作する端末装置でありＷｅｂブラウザを搭載している。クライアント３は、例えば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、携帯電話機、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ：ＰＤＡは登録商標）、ＡＴＭ端末、チケットの発券端末、キヨスク端末などである。クライアント３は、インターネット、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）などのネットワークを通じてサーバ２に接続可能である。クライアント３は、クライアント３の動作を制御する制御部３１、利用者が操作するための操作部３２、利用者に対して各種情報（例えば、サーバ２から送られてきたデータ）を表示する表示画面を含む表示部３３、ネットワークに接続するためのネットワークインターフェース３４から構成される。
【０００９】
サーバ２は、例えば、Ｗｅｂサーバであり、クライアント３からの要求に応じて各種のサービスを提供する。サーバ２は、クライアント３の要求に従いネットワークインターフェース２４を通じて情報を受け渡すＷｅｂ制御部２１、情報を格納する記憶部２２、クライアント３からの要求を記録するログ２３、ネットワークに接続するためのネットワークインターフェース２４から構成される。
【００１０】
カテゴライゼーション／判別装置１は、利用者の特性を示す複数の利用者特性カテゴリーを設定するための評価値を導出し、更に、複数の利用者特性カテゴリーが設定された後に、特定の利用者の特性がいずれの利用者特性カテゴリーに分類されるかの判別を行う。カテゴライゼーション／判別装置１は、サーバ２のログ２３からログ情報を取得し、ログ情報に基づき複数の利用者特性カテゴリーの設定のための評価値を導出する。
【００１１】
カテゴライゼーション／判別装置１において、通信部１１は、サーバ２と通信を行い、ログ情報を受信する。
【００１２】
応答時間情報生成部１２は、利用者が特定のデータに対して応答するまでの応答時間を示す応答時間情報をログ情報から生成する。本実施の形態では、後述するように、クライアント３の表示部３３により表示画面に表示されるデータ（閲覧画面データ）に対して応答するまでの応答時間を示す応答時間情報を生成する例を示す。
【００１３】
カテゴライゼーション処理部１３は、応答時間情報から利用者特性カテゴリー設定のための評価値を導出する。カテゴライゼーション処理部１３は、応答時間情報入力部１３０１、ヒストグラム生成部１３０２、評価値導出部１３０３から構成される。応答時間情報入力部１３０１は、応答時間情報生成部１２により生成された応答時間情報を入力する。ヒストグラム生成部１３０２は、応答時間情報に基づき、応答時間と利用者数との関係を示す応答時間ヒストグラム（以下、単にヒストグラムとも言う）を生成する。評価値導出部１３０３は、ヒストグラム生成部１３０２により生成されたヒストグラムから評価値を導出する。
【００１４】
カテゴライゼーション記憶部１４は、カテゴライゼーション処理部１３で導出された評価値を記憶し、更に、評価値に基づいて複数の利用者特性カテゴリーが設定された場合に、複数の利用者特性カテゴリーと評価値との対応づけを記憶する。
【００１５】
カテゴリー判別部１５は、特定の利用者の応答時間から、当該利用者が複数の利用者特性カテゴリーのうちのいずれのカテゴリーに属するのかを判別する。
【００１６】
カテゴライゼーションデータ評価部１５０１は、発生する確率が低く、判別するのが不適切なデータを除去するためのチェックを行う。
【００１７】
サービス工学では、サービスを提供するシステムをサービスメディアと位置づけ、これがサービスを提供するだけでなくサービスの評価計測を行い、利用者の満足度としてシステムにフィードバックするモデルを提唱している。システムが、利用者のサービスに対する評価をセンシングできれば、上記のような課題は解決することになる。
【００１８】
これまでシステムが利用者のサービスに対する評価、満足度を測定してこなかった背景には、何をセンシングすればよいか明らかでなかったことにあるといえる。例えば、直接的に利用者の評価を得ようとアンケートのメニューをユーザインターフェースに加えても、不満のある人がこのアンケートにわざわざ回答するか疑わしい。さらに、アンケートは事後になるため、利用した瞬間の満足度を表さず、先入観も加わって真実から離れた回答になりがちである。
【００１９】
利用者の満足／不満足、関心度合い等は無意識のうちに行動に現れ、行動を評価すれば利用者の満足／不満足、関心度合い等を捉えることができると考えられる。画面操作を伴うものであれば、操作画面の触れ方や操作に要する時間などが、興味を持って熱心にインタラクティブに使う人と、それほど興味が無く操作が緩慢になりがちな人で異なり、また、操作がスムーズに行える人と操作に困難を感じる人でも異なる。このため、利用者の行動が無意識のうちに、利用者の満足／不満足、関心度合い、システムが操作しやすい／操作しにくいといった利用者の特性や心象を反映した傾向を示すと考えられる。
【００２０】
本実施の形態では、Ｗｅｂサービスの利用者の行動を測定することで利用者の満足度を測るためのカテゴリー設定を行う。Ｗｅｂを使ったサービスはマウス操作による要求とその結果の画面の表示といったシンプルなプロトコルで構成されている。画面が表示されてから次のアクションをとるまでの応答時間（画面の閲覧時間）に着目し、この時間から利用者のカテゴライゼーションと判別を行うことを志向している。
【００２１】
次に、カテゴライゼーション／判別装置１のハードウェア構成を説明する。図２は、カテゴライゼーション／判別装置１のハードウェア構成例を示す図である。図２において、カテゴライゼーション／判別装置１は、プログラムを実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１３７を備えている。ＣＰＵ１３７は、バス１３８を介してＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１３９、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１４０、通信ボード１４４、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）表示装置１４１、Ｋ／Ｂ１４２、マウス１４３、ＦＤＤ（ＦｌｅｘｉｂｌｅＤｉｓｋＤｒｉｖｅ）１４５、磁気ディスク装置１４６、ＣＤＤ（ＣｏｍｐａｃｔＤｉｓｋＤｒｉｖｅ）１８６、プリンタ装置１８７、スキャナ装置１８８と接続されていてもよい。ＲＡＭは、揮発性メモリの一例である。ＲＯＭ、ＦＤＤ、ＣＤＤ、磁気ディスク装置、光ディスク装置は、不揮発性メモリの一例である。これらは、カテゴライゼーション記憶部１４の一例である。通信ボード１４４は、ＦＡＸ機３１０、電話器３２０、ＬＡＮ１０５等に接続されていてもよい。
【００２２】
ここで、通信ボードは、ＬＡＮ１０５に限らず、直接、インターネット、或いはＩＳＤＮ等のＷＡＮ（ワイドエリアネットワーク）に接続されていても構わない。本実施の形態では、インターネット、ＬＡＮ又はＷＡＮを介してサーバ２と通信を行うことができる。
【００２３】
磁気ディスク装置１４６には、オペレーティングシステム（ＯＳ）１４７、ウィンドウシステム１４８、プログラム群１４９、ファイル群１５０が記憶されている。プログラム群は、ＣＰＵ１３７、ＯＳ１４７、ウィンドウシステム１４８により実行される。
【００２４】
上記プログラム群１４９には、本明細書中の説明において「〜部」として説明する機能を実行するプログラムが記憶されている。プログラムは、ＣＰＵにより読み出され実行される。
【００２５】
ファイル群１５０には、例えば、「応答情報」、「ヒストグラム」、「評価値」、「カテゴリー判別結果」として説明するものが、ファイルとして記憶される。また、フローチャートの矢印の部分は主としてデータの入出力を示し、そのデータの入出力のためにデータは、磁気ディスク装置、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）、光ディスク、ＣＤ（コンパクトディスク）、ＭＤ（ミニディスク）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のその他の記録媒体に記録される。あるいは、信号線やその他の伝送媒体により伝送される。
【００２６】
また、「〜部」として説明するものは、ＲＯＭ１３９に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、ハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。
【００２７】
また、プログラムは、また、磁気ディスク装置、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）、光ディスク、ＣＤ（コンパクトディスク）、ＭＤ（ミニディスク）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のその他の記録媒体による記録装置を用いて記憶されても構わない。
【００２８】
次に動作について説明する。利用者によるクライアント３の操作は操作部３２が感知して、制御部３１に処理の要求を出す。例えば、あらかじめ表示部３３が表示していたアイコンを利用者がマウスでクリックしてそこに繋がったＷｅｂページの表示を要求する場合などがある。制御部３１はネットワークインターフェース３４を介してサーバ２にＷｅｂ要求を伝える。
【００２９】
サーバ２はネットワークインターフェース２４を介してＷｅｂ要求を受け取り、Ｗｅｂ制御部２１が記憶部２２から該当するＷｅｂページを探し出し、その内容をネットワークインターフェース２４を介してクライアント３に送り出すと同時にログ２３にアクセスがあったことを記録する。
【００３０】
クライアント３はネットワークインターフェース３４を介して制御部３１がその内容を受け取り、表示部３３に対してそのＷｅｂページの内容の表示を促す。表示部３３が表示画面にそのページを表示することで利用者のひとつの要求は完結する。
【００３１】
この一連の動作は利用者が目的を達成するまで繰り返され、都度ログ２３に利用者の操作が記録されることになる。
【００３２】
（評価値導出の概要）
次に、図３のフローチャートを用いて、評価値を導出して記憶するまでのカテゴライゼーション／判別装置１の動作の概要を説明する。
【００３３】
先ず、ステップＳ２０１において、カテゴライゼーション／判別装置１の通信部１１が、サーバ２のログ２３からログ情報を受信する。ログ情報は、例えば、（１）セッションＩＤ、（２）時刻、（３）画面ＩＤ、（４）利用者ＩＤといったデータを含むレコードである。ここで、（１）セッションＩＤは、ある利用者が一連の操作を行ったときに付されるユニークなコードであり、（２）時刻は、Ｗｅｂ制御部２１が要求を受け取ったときの時刻を示し、（３）画面ＩＤは、要求された画面を識別するユニークなコード、（４）利用者ＩＤは、一連の操作を行った利用者を識別するユニークなコードである。このログ情報には、複数の利用者に対して複数の画面の表示が行われたことが時系列に記録されている。
【００３４】
次に、ステップＳ２０２において、応答時間情報生成部１２が、ログ情報から応答時間情報を生成する。応答時間情報には、画面ＩＤごとに、複数の利用者の応答時間が示される。応答時間情報の生成手順の詳細は後述する。
【００３５】
次に、ステップＳ２０３において、カテゴライゼーション処理部１３の応答時間情報入力部１３０１が応答時間情報を入力する（応答時間情報入力ステップ）。
【００３６】
次に、ステップＳ２０４において、カテゴライゼーション処理部１３のヒストグラム生成部１３０２が、応答時間ヒストグラムを生成する（ヒストグラム生成ステップ）。応答時間情報は画面ＩＤごとに複数の利用者の応答時間が示された情報であり、この応答時間情報から、応答時間と利用者数の関係を示すヒストグラムを生成することができる。応答時間ヒストグラムの生成手順の詳細は、後述する。
【００３７】
次に、ステップＳ２０５において、カテゴライゼーション処理部１３の評価値導出部１３０３が、ステップＳ２０４で生成されたヒストグラムを特定のデータ（閲覧画面データ）に対する利用者特性を表す複数の利用者特性カテゴリーに対応する複数の正規分布の合成であるとみなし、そして、各正規分布の平均値（μ）、分散値（σ^２）、比率（α）を評価値として導出する（評価値導出ステップ）。ヒストグラムを構成する正規分布の合成数は、予め決定しておく。
【００３８】
本実施の形態では、ヒストグラムを３つの正規分布の合成とみなす例を説明する。これは、応答時間との関係から、「興味を持って熱心にインタラクティブに操作し、サービスに満足している利用者（応答時間が早い）」と、「それほど興味が無く操作が緩慢になりがちな、サービスに満足していない利用者（応答時間が遅い）」、「いずれでもない利用者（応答時間に特徴がない）」の３つの利用者特性カテゴリーに分類することを想定しており、このため、ヒストグラムが３つの正規分布の合成と仮定して、それぞれの正規分布の評価値を導出する。ヒストグラムが３つの正規分布の合成と仮定した場合は、１つの正規分布につき３個の評価値（平均値（μ）、分散値（σ^２）、比率（α））が導出されるので、合計で９個の評価値が導出される。
【００３９】
ステップＳ２０５を１回実行すると、１つの閲覧画面データについて応答時間と利用者数との関係を示すヒストグラムから３つの正規分布の評価値（９個）が導出される。ログ２３から取得したログ情報に複数の画面ＩＤが存在する場合は、ステップＳ２０５を閲覧画面データ数（画面ＩＤ数）だけ実行する。なお、評価値の導出手順の詳細は後述する。
【００４０】
最後に、ステップＳ２０６において、カテゴライゼーション処理部１３の評価値導出部１３０３が、導出した評価値をカテゴライゼーション記憶部１４に記憶する。
【００４１】
（評価値導出の詳細）
次に、図４を参照して、ログ情報から応答時間情報を生成する過程、応答情報からヒストグラムを生成する過程、ヒストグラムから評価値を導出する過程のそれぞれの詳細を説明する。ログ情報は、前述したように、（１）セッションＩＤ、（２）時刻、（３）画面ＩＤ、（４）利用者ＩＤから構成される。このログを、（１）セッションＩＤ、（２）時刻の順にソートすると、利用者毎の操作順序に従ったレコード順序となる。これをＷＯＲＫ１とする。
【００４２】
次に、同一利用者のレコードにおいて、各レコードに対応した画面の閲覧時間は当該画面のレコードの時刻と次レコードの時刻の差から求めることができる。但し、次レコードのセッションＩＤが当該画面のレコードと異なる場合は、閲覧時間はＮＵＬＬとし、以降の集計から除外する。つまり利用者ごとに、各画面の閲覧時間を算出する。ここで、閲覧時間は、一つの画面から次の画面に移るまでの時間であり、ある画面に対する応答時間と考えることができる。そして、閲覧時間の算出後、画面ＩＤ、閲覧時間からなるレコードを持つファイルを作成する。これをＷＯＲＫ２とする。
【００４３】
次に、ＷＯＲＫ２のファイルから、特定の画面について、同一閲覧時間を持つレコードの件数をヒストグラムとして集計する。これを画面閲覧時間をｙ_ｉ、その閲覧時間の利用者数を度数Ｇ（ｙ_ｉ）とし、カテゴライゼーション記憶部１４に置き、以降の処理で利用する。尚、Ｗｅｂ制御部２１がログ２３に直接各画面の閲覧時間を出力している場合は、それを使ってＧ（ｙ_ｉ）を求めても良い。この場合は、応答時間情報生成部１２は不要である。
【００４４】
画面閲覧時間をｙ_ｉとし、その閲覧時間の利用者数を度数Ｇ（ｙ_ｉ）するとき、その確率密度関数ｇ（ｙ_ｉ）は、次の数式と表すことができる。
【００４５】
【数１】

【００４６】
これを求めカテゴライゼーション記憶部１４に置く。ここで、カテゴライゼーションのモデルとして、確率密度関数ｆ（ｙ_ｉ）を導入する。このｆ（ｙ_ｉ）は、次の数式で表される。
【００４７】
【数２】

【００４８】
但し、ここで、μ_１，μ_２，μ_３および、σ_１^２，σ_２^２，σ_３^２は、それぞれを正規分布とした、カテゴリーΠ_１，Π_２，Π_３の利用者の分布の平均及び分散とする。α_１，α_２，α_３は、それぞれのカテゴリーの占める比率で、Σα_１＝１である。この式（１．２）は、利用者が３つの正規分布を持つ群のいずれかに属するとするものである。観測したｇ（ｙ_ｉ）に近似したｆ（ｙ_ｉ）を求めることで、利用者を３つの群Π_１，Π_２，Π_３にカテゴライゼーションすることができる。近似は、χ^２が最小となる、μ_１，μ_２，μ_３および、σ_１^２，σ_２^２，σ_３^２、α_１，α_２，α_３を導出すればよい。即ち、以下の数式において、χ^２を最小とする上記９つのパラメータの組み合わせを試行して求める。
【００４９】
【数３】

【００５０】
具体的には、それぞれのパラメータの取り得る値の範囲を想定して１８段のループ（α_ｉは２つが決まれば、のこり１つはおのずと決まる）を組み、式（１．３）の演算を繰り返す。試行するパラメータの精度は細かいほどｆ（ｙ_ｉ）の近似性は向上するが、この精度は実装上の設計事項である。これによって求めたμ_１，μ_２，μ_３および、σ_１^２，σ_２^２，σ_３^２、α_１，α_２，α_３をカテゴライゼーション記憶部１４に置く。どれ位近似できたかχ^２適合度検定を行う場合は、上記で決定したパラメータについて、式（１．３）を求め、これを、以下の数４に示す倍数にすればよい。
【００５１】
【数４】

【００５２】
尚、ここではχ^２を用いたが、最小二乗法によって近似式のパラメータを同様に求めても良い。
【００５３】
以上のような手順により、ログ情報から応答時間情報を生成し、応答時間情報から応答時間（閲覧時間）と利用者数の関係を示す応答時間ヒストグラムを生成し、応答時間ヒストグラムから利用者特性カテゴリーの設定のための評価値（各正規分布の平均値（μ）、分散値（σ^２）、比率（α））を導出し、これらの評価値をカテゴライゼーション記憶部１４に格納する。
【００５４】
そして、導出されたμ_１，μ_２，μ_３および、σ_１^２，σ_２^２，σ_３^２から、例えば、「サービスに満足している利用者（応答時間が早い）」は最小のμ_ｉをもつ利用者特性カテゴリーΠ_ｉに、「いずれでもない利用者（応答時間に特徴がない）」は最大のσ_ｉ^２をもつ利用者特性カテゴリーΠ_ｉに、「それほど興味が無く操作が緩慢になりがちな、サービスに満足していない利用者（応答時間が遅い）」は上記以外のσ_ｉ^２をもつ利用者特性カテゴリーΠ_ｉに、カテゴライズすることが考えられる。
【００５５】
なお、以下では、「サービスに満足している利用者」のカテゴリーをカテゴリー１とも呼び、「いずれでもない利用者」のカテゴリーをカテゴリー２とも呼び、「それほど興味が無く操作が緩慢になりがちな、サービスに満足していない利用者」のカテゴリーをカテゴリー３とも呼ぶ。
【００５６】
この利用者特性カテゴリーの設定（利用者特性カテゴリーと評価値の関連付け）は、カテゴライゼーション／判別装置１のオペレータが手動で行ってもよいし、カテゴライゼーション／判別装置１が自動的に行ってもよい。
【００５７】
ここで、「いずれでもない人」は大きな分散をもつ特徴を利用して、以下の式により近似してもよい。但しここではα_３を「いずれでもない人」の比率としている。
【００５８】
【数５】

【００５９】
ここで、以上にて説明した利用者のデータ（閲覧画面データ）に対する応答時間（閲覧時間）と利用者特性カテゴリーとの関係性を示す実験結果を説明する。
【００６０】
この実験では、約７０名の登録された利用者が週に何度かアクセスするシステムを対象にしている。Ｗｅｂサーバでは利用者に画面を表示する毎にその時刻を秒の単位まで記録しており、この記録から各画面が何秒表示されていたか（利用者の応答時間が何秒であったか）がわかる。尚、利用者のＰＣとＷｅｂサーバはＬＡＮで接続されており、画面に情報が表示されるまでの時間は安定して遅延がない。また、ログの採取は、システムが運用を開始してから３ヶ月後の利用者が操作に慣れた時期の１ヶ月間を対象に行った。１ヶ月で約７００回の表示が行われた特定の画面について、表示時間をｙとしたときの分布ｇ（ｙ）のヒストグラムを図５に示す。７０名それぞれがランダムに操作した結果であるが、その分布は図５のように正規分布とはならない。図５のグラフから約７０名の利用者は一様な集団ではなく、応答時間（閲覧時間）が異なるいくつかの群からなることが分かる。
【００６１】
ここで、上記したように、このヒストグラムが３つの群を表す３つの正規分布の重ね合わせであるとし、上記の式（１．１）、（１．２）、（１．３）より、３つの正規分布のそれぞれについて平均値（μ）、分散値（σ^２）、比率（α）を算出した結果を図６に示す。
【００６２】
そして、図６に示すパラメータで式（１．２）から求めた度数をグラフに表すと図７のようになる。図７には、群１を示すグラフ、群２を示すグラフ、群３を示すグラフ、群１〜群３のグラフの重ねあわせが示されている。図７によると、比較的短い閲覧時間で次のページに移る群１、閲覧時間に時間を要する群３、閲覧時間に特徴のない群２に分かれていることが分かる。実測した観測度数（ヒストグラム）（図５と式（１．２）および図６のパラメータから求めた理論度数（重ねあわせ）（図７）をグラフ上重ね合わせると図８のようになり、観測度数の特徴を表した理論度数となっていることが分かる。これを、式（１．３）に従ってχ^２適合度検定を行う。式（１．３）より図６のパラメータを用いてχ^２を算出した結果は、χ^２＝９９．１１となる。この測定は０秒から１００秒まで１０１項の度数となっているため、自由度νは１００となる。χ^２分布表から、１０％の有意水準で実測データと仮説によるデータは一致するとする本例は棄却されない。
【００６３】
（特定の利用者のカテゴリー判別）
次に、利用者特性カテゴリーが設定された後の処理を図９のフローチャートを参照して説明する。図９のＳ３０１〜Ｓ３０５は、既に設定された複数の利用者特性カテゴリーのうち、特定のデータに対する特定の利用者の利用者特性が属する利用者特性カテゴリーを「候補」として暫定的に判別（決定）する動作である。
【００６４】
先ず、ステップＳ３０１において、通信部１１が、サーバ２のログ２３より、特定の利用者、例えば、現在サーバ２によるサービスを受けている利用者について特定の閲覧画面データについての応答時間を示す情報を受信する（通知受領ステップ）。
【００６５】
次に、ステップＳ３０２において、カテゴリー判別部１５が、通信部１１より当該利用者の応答時間を示す情報を受信するとともに、対象となる画面に対応する評価値（平均値（μ）、分散値（σ^２）、比率（α））をカテゴライゼーション記憶部１４から読み出す。前記のように、３つの利用者特性カテゴリーが設定されている場合は、３つの正規分布の評価値９個を読み出す。
【００６６】
次に、ステップＳ３０３において、カテゴリー判別部１５は、ステップＳ３０２で読み出した各正規分布の評価値と、特定の利用者の応答時間から、当該利用者が対応する「候補」としての利用者特性カテゴリーを判別する（候補となるカテゴリーの判別ステップ）。候補となるカテゴリー判別の詳細手順は後述する。
【００６７】
次に、ステップＳ３０４において、カテゴリー判別部１５のカテゴライゼーションデータ評価部１５０１は、「候補」として判別したカテゴリーが、妥当なものかどうかを評価する。
【００６８】
次に、ステップＳ３０５において、カテゴリー判別部１５は、「評価結果」を出力する。例えば、図２に図示していないＣＲＴ表示装置等に「評価結果」を表示してもよいし、通信部１１を介してサーバ２に「評価結果」を通知してもよい。この「評価結果」とは、次に説明する図１０で述べるが、評価ＯＫの場合はＯＫとされたカテゴリーを示す「ｉ」であり、評価の結果、判別不能であった場合は、「判別不能」の旨である。
【００６９】
（ステップＳ３０３の具体的な動作）
図１０は、候補となるカテゴリーの判別ステップＳ３０３の具体的な動作例を示す図である。カテゴライゼーション処理部１３で求めたパラメータα_１，α_２，α_３は、新たに観測したｚに対する事前確率ｗ_ｉとみなすことができる。ここで、新たな観測値ｚとは、特定の利用者の特定画面に対する応答時間（閲覧時間）を意味する。ベイズ推定における事後確率ｗ’_ｉは、式に示す通りである。
【００７０】
【数６】

【００７１】
但し、ｆ_ｉ（ｚ）は以下に示すとおりである。
【００７２】
【数７】

【００７３】
ｚを観測して、事後確率ｗ’_ｉの最大のものにｚを分類する。すなわち、ｚを観測して以下の式に従ってｉを求め、このｉに対応するカテゴリーΠ_ｉが、当該利用者が分類される「候補」としての利用者特性カテゴリーとなる。
【００７４】
【数８】

【００７５】
尚、式（１．４）を使用した場合は、以下の式に従ってカテゴリー判別を行う。
【００７６】
【数９】

【００７７】
このようにして、カテゴリー判別部１５は、カテゴリー判別を行い、「候補」となるカテゴリーを求める。
【００７８】
（ステップＳ３０４の具体的な動作）
次に、「候補」に対する評価の動作を説明する。「候補」に対する評価は、カテゴリー判別部１５のカテゴライゼーションデータ評価部１５０１が実行する。カテゴライゼーションデータ評価部１５０１の動作を、図１１を参照して説明する。上記の図１０に対する説明では、カテゴリー判別部１５が候補となる「ｉ」を求めるまでの処理を説明した。上記で述べたように、カテゴライゼーション記憶部１４には、各カテゴリーの平均（μ）、分散（σ^２）、比率（α）が格納されている。カテゴライゼーションデータ評価部１５０１は、これらを引用して観測値Ｚに対して求めた候補が妥当かどうかの評価を行う。
【００７９】
図１０の説明における（式２．３）の説明で述べたように、各群の平均と分散によるｆ_ｉ（ｚ）に比率をかけたｗ_ｉｆ_ｉ（ｚ）の最大値を示すｉが判別結果の「候補」である。これに対し、カテゴライゼーションデータ評価部１５０１が、「候補」の妥当性の評価を行う。
【００８０】
カテゴライゼーションデータ評価部１５０１は、カテゴリー判別部１５が暫定的に決定した候補を特定のデータに対する特定の利用者の利用者特性が属するカテゴリーとして確定してよいかどうかを「所定の規則」に基づき評価する。
【００８１】
カテゴライゼーションデータ評価部１５０１は、例えば「所定の規則」として、図１１に示す処理方式によって「候補」を評価する。
【００８２】
図１１に示す方式では、カテゴライゼーションデータ評価部１５０１は、各カテゴリーの総和Σｗ_ｉｆ_ｉ（ｚ）に対し、ｚ_０（特定の利用者の観測値）までの和（ΣΣｗ_ｉｆ_ｉ（ｚ））を求め、その値と有意水準ａとして設定した値との比較（ａ／２≦ΣΣｗ_ｉｆ_ｉ（ｚ）≦１−ａ／２）を行い、判定をおこなう。この方式における「ΣΣｗ_ｉｆ_ｉ（ｚ）」は、図１２に示すように、複数の正規分布の合成として得られる重ね合わせ分布における０〜ｚ_０の発生確率を示している。
【００８３】
例えば、カテゴライゼーションデータ評価部１５０１は、有意水準ａが１０％と設定されている場合は、０から観測値ｚ_０までのΣΣｗ_ｉｆ_ｉ（ｚ）が０．０５以上、０．９５以下であればデータは判別対象内であったと評価（評価ＯＫ）する。すなわち、この場合は「候補」を利用者の利用者特性が属するカテゴリーとして確定する。また、ΣΣｗ_ｉｆ_ｉ（ｚ）が０．０５以上、０．９５以下の範囲に属さない場合は、データは判別不能と評価（評価ＮＧ）する。
【００８４】
この図１１に示す方法による評価は、カテゴリーの分布が接近している場合に適用できる。評価方法が、応答時間が極端に短いものや極端に長いものを指標をもって判定対象外として除外できるので、利用者が間違って画面を表示したり、操作を放棄した事象を取り除きたいときに有効である。
【００８５】
図１０に示すように、カテゴライゼーションデータ評価部１５０１は、評価がＯＫの場合は候補として求めた「ｉ」を、通信部１１を介してサーバ２のＷｅｂ制御部２１に返し、評価がＮＧの場合は「判別不能」をＷｅｂ制御部２１に返す。
【００８６】
実施の形態２．
次に、図１３、図１４を用いて、実施の形態２を示す。実施の形態２は、実施の形態１の図１１で示したものとは別の評価方法を示す。
【００８７】
図１３は、特定の利用者の観測値ｚ_０の判別結果としての候補「ｉ」について、そのカテゴリーに対応する分布を対象として評価を行うことを説明する図である。図１３では、「ａ／２≦Σｗ_ｉｆ_ｉ（ｚ）≦１−ａ／２」を評価する。この式で、「ｉ」は候補として決定された定数である。図１４を用いて「ａ／２≦Σｗ_ｉｆ_ｉ（ｚ）≦１−ａ／２」の意味を説明する。図１４は、図７と同じ内容のグラフである。ここで「候補ｉ＝１」とすれば、図１４の群１が対応する正規分布となる。そして、０からｚ_０までのΣｗ_ｉｆ_ｉ（ｚ）は、群１の正規分布における０〜ｚ_０までの発生確率を示している。
【００８８】
カテゴライゼーションデータ評価部１５０１は、０からｚ_０までのΣｗ_ｉｆ_ｉ（ｉ＝１）が、有意水準ａを１０％と設定した場合であれば、０．０５以上、０．９５以下であればデータは判別対象内であったと評価する（評価ＯＫ）。この方式では、判別結果「ｉ」（例えばｉ＝１）が棄却された場合、カテゴリー判別部１５で決定したｉについて、次点のｗ_ｉｆ_ｉ（ｚ）となるカテゴリーの「ｉ」を候補として、再度、カテゴライゼーションデータ評価部１５０１が評価を行うことができる。それによって次点のカテゴリーを判別結果とすることがある。具体例を挙げれば次の様である。
【００８９】
図１０の説明における（式２．３）おいて、ｗ_１ｆ_１（ｚ）が最大であり候補として決定され、次いでｗ_２ｆ_２（ｚ）が大きく、ｗ_３ｆ_３（ｚ）が最小であったとする。この場合、カテゴライゼーションデータ評価部１５０１は、候補である「ｉ＝１」に対応する群１の正規分布（図１４）における０〜ｚ_０までの発生確率「Σｗ_１ｆ_１（ｚ）」を算出し０．０５〜０．９５の範囲に属するかどうかを判定する。属さない場合、「ｉ＝１」を棄却する。この場合、カテゴライゼーションデータ評価部１５０１は、次点のｗ_２ｆ_２（ｚ）となるカテゴリーの「ｉ＝２」を候補として、再度評価する。すなわち、カテゴライゼーションデータ評価部１５０１は、「ｉ＝１」の場合と同様に、「ｉ＝１」とは別の候補である「ｉ＝２」に対応する群２の正規分布（図１４）における０〜ｚ_０までの発生確率「Σｗ_２ｆ_２（ｚ）」を算出し０．０５〜０．９５の範囲に属するかどうかを判定する。属する場合は「ｉ＝２」を判別結果として確定する（評価ＯＫ）。属さない場合は、さらに次点の「ｉ＝３」を候補として、同様の処理を繰り返す。評価がＯＫとなる候補が現れた場合、あるいは、すべての候補がＮＧである場合には、図１０に示すように、ＯＫと評価された候補の「ｉ」あるいは「判別不能」をサーバ２のＷｅｂ制御部２１に返す。この現象は、カテゴリーの分布が接近しており、かつ有意水準ａを小さく設定している場合に起こりうる。この現象は、同一のｚ_０（特定の利用者の観測値）であるにもかかわらず、ある群（例えば群１）では評価ＮＧとなり、他の群（例えば群２）では評価ＯＫとなるという逆転現象である。
【００９０】
この逆転現象を認めるというのも一つの考え方である。一方、この逆転現象を防ぐため、図１４に示した各正規分布のそれぞれについて、あらかじめ取りうる全てのｚに対し、ｗ_ｉｆ_ｉ（ｚ）を求め、各ｚで得るｗ_ｉｆ_ｉ（ｚ）の最大となる「ｉ」について、「Σｗｆ（ｚ）」が棄却されない範囲に有意水準ａを大きくすることで回避できる。すなわち、あらかじめ、このようなシミュレーションを行い、各ｚで得るｗ_ｉｆ_ｉ（ｚ）の最大となる「ｉ」について、「Σｗｆ（ｚ）」が棄却されない範囲となるような有意水準ａを特定し、この特定された有意水準ａを用いて評価を行う。この特定された有意水準ａによれば、群１〜群３のような複数の正規分布のうちいずれかの正規分布における発生確率が「ａ／２≦Σｗ_ｉｆ_ｉ（ｚ）≦１−ａ／２」の範囲に属さない場合には、他のいずれの正規分布における発生確率もこの範囲に属さないこととなり、前記の逆転現象は発生しない。
【００９１】
この実施の形態２の方法による評価は、カテゴリーの分布が離れておりヒストグラムの重なり合いが小さいもしくは無い場合にも適用できる。
【００９２】
以上の実施の形態１、実施の形態２の情報処理装置はカテゴライゼーションデータ評価部１５０１を備えたので、誤った判別を低減した判別が行える。
【００９３】
いずれもある母集団の特性を事前確率として判別する方法であるが、実システムで発生する利用者の誤操作や操作放棄は、利用者の満足度とは全くことなる要因で発生する事象であり、満足度を判別するための母集団として取り込みにくい性格のものである。一方、誤操作や操作放棄の応答時間は、個々のシステムや表示内容によって変わるもので、一律決められるものではない。以上の実施の形態では、実システムで起こりうる例外的な応答時間を、有意水準を設け、正常操作時の分布に反映して決定するため、この課題も解決している。
【００９４】
以上の実施の形態では、特定のデータに対する複数の利用者の応答時間を示す応答時間情報を入力する応答時間情報入力部と、応答時間情報に基づき、応答時間と利用者数の関係を示す応答時間ヒストグラムを生成するヒストグラム生成部と、応答時間ヒストグラムが前記特定のデータに対する利用者特性を表す複数の利用者特性カテゴリーに対応する複数の正規分布の合成であるとし、それぞれの正規分布の平均値と分散値とを前記複数の利用者特性カテゴリーの設定のために導出する評価値導出部とを有することを特徴とする情報処理装置において、前記評価値導出部により導出された複数の正規分布の平均値と分散値に基づいて前記複数の利用者特性カテゴリーが設定された後に、前記特定のデータに対する特定の利用者の応答時間の通知を受け、通知された前記特定の利用者の応答時間と前記評価値導出部により導出された複数の正規分布の平均値と分散値とを用いて、前記特定のデータに対する前記特定の利用者の利用者特性が前記複数の利用者特性カテゴリーのいずれに属するかを判別するカテゴリー判別部が、発生する確率の低いデータについては判別不能とし、誤判別を防止する情報処理装置を説明した。
【００９５】
以上の実施の形態では、前記カテゴリー判別部は、前記ヒストグラムの分布の両端について、発生する確率が低く判別することが不適切と見做し、判別不能とする情報処理装置を説明した。
【００９６】
以上の実施の形態では、前記カテゴリー判別部は、前記複数の正規分布のそれぞれの両端について、発生する確率が低く当該正規分布のカテゴリーに属するとすることは不適切とみなし、カテゴリー判別の対象から除外する情報処理装置を説明した。
【００９７】
以上の実施の形態では、判別に適用する範囲をあらかじめ決めた有意水準に基づいて決定する情報処理装置を説明した。
【００９８】
以上の実施の形態では、カテゴリー判別の対象から除外した結果において、判別が逆転する事象が発生しない範囲に、判別に適用する範囲を決定する情報処理装置を説明した。
【図面の簡単な説明】
【００９９】
【図１】実施の形態１に係るシステム構成例。
【図２】実施の形態１に係るカテゴライゼーション／判別装置のハードウェア構成。
【図３】実施の形態１に係るカテゴライゼーション／判別装置の動作例を示す図。
【図４】実施の形態１に係るカテゴライゼーション／判別装置の動作例を示す図。
【図５】実施の形態１に係る実験結果のヒストグラム。
【図６】実施の形態１に係る実験結果から導出した平均値、分散値、比率。
【図７】実施の形態１に係る実験における３つの正規分布のグラフと重ね合わせのグラフ。
【図８】実施の形態１に係る実験におけるヒストグラムと重ね合わせのグラフ。
【図９】実施の形態１に係るカテゴライゼーション／判別装置の動作例を示す図。
【図１０】実施の形態１に係るカテゴライゼーション／判別装置の動作例を示す図。
【図１１】実施の形態１に係るカテゴライゼーションデータ評価部１５０１の動作を示す図。
【図１２】実施の形態１に係る評価方法を示す図。
【図１３】実施の形態２に係るカテゴライゼーションデータ評価部１５０１の動作を示す図。
【図１４】実施の形態２に係る評価方法を示す図。
【符号の説明】
【０１００】
１カテゴライゼーション／判別装置、１１通信部、１２応答時間情報生成部、１３カテゴライゼーション処理部、１３０１応答時間情報入力部、１３０２ヒストグラム生成部、１３０３評価値導出部、１４カテゴライゼーション記憶部、１５カテゴリー判別部、１５０１カテゴライゼーションデータ評価部、２サーバ、２１Ｗｅｂ制御部、２２記憶部、２３ログ、２４ネットワークインターフェース、３クライアント、３１制御部、３２操作部、３３表示部、３４ネットワークインターフェース。

【特許請求の範囲】
【請求項１】
特定のデータに対する複数の利用者の応答時間を示す応答時間情報を入力する応答時間情報入力部と、
応答時間情報に基づき、応答時間と利用者数の関係を示す応答時間ヒストグラムを生成するヒストグラム生成部と、
応答時間ヒストグラムが前記特定のデータに対する利用者特性を表す複数の利用者特性カテゴリーに対応する複数の正規分布の合成であるとし、それぞれの利用者特性カテゴリーの占める比率とそれぞれの正規分布の平均値と分散値とを導出する評価値導出部と、
それぞれの利用者特性カテゴリーの占める比率と前記複数の正規分布の平均値と分散値とに基づいて複数の利用者特性カテゴリーが設定された後に、前記特定のデータに対する特定の利用者の応答時間の通知を受け、前記特定の利用者の応答時間とそれぞれの利用者特性カテゴリーの占める比率と前記複数の正規分布の平均値と分散値とを用いて、前記複数の利用者特性カテゴリーのうち前記特定のデータに対する前記特定の利用者の利用者特性が属する利用者特性カテゴリーを候補として暫定的に決定し、前記候補を前記特定のデータに対する前記特定の利用者の利用者特性が属するカテゴリーとして確定してよいかどうかを所定の規則に基づき評価するカテゴリー判別部と
を備えたことを特徴とする情報処理装置。
【請求項２】
前記カテゴリー判別部は、前記所定の規則として、
通知された前記特定の利用者の応答時間と前記評価値導出部により導出されたそれぞれの利用者特性カテゴリーの占める比率と正規分布の平均値と分散値とを用いることにより、通知された前記特定の利用者の応答時間の発生確率を算出する規則を適用することを特徴とする請求項１記載の情報処理装置。
【請求項３】
前記カテゴリー判別部は、前記所定の規則として、
前記複数の正規分布の合成として得られる分布における前記発生確率を算出することを特徴とする請求項２記載の情報処理装置。
【請求項４】
前記利用者カテゴリーは、
前記複数の正規分布の数だけ存在するとともに前記利用者カテゴリーと前記正規分布とは一対一に対応しており、
前記カテゴリー判別部は、前記所定の規則として、
前記候補として決定された前記利用者特性カテゴリーに対応する前記正規分布における前記発生確率を算出することを特徴とする請求項２記載の情報処理装置。
【請求項５】
前記カテゴリー判別部は、前記所定の規則として、
算出した前記発生確率が所定の範囲に属さないときには前記候補を棄却して別の候補を暫定的に決定するとともに決定した前記別の候補を評価する処理を、前記別の候補の前記発生確率が前記所定の範囲に属する場合と前記別の候補とするべき利用者特性カテゴリーが尽きた場合とのいずれかの場合となるまで、繰り返すことを特徴とする請求項４記載の情報処理装置。
【請求項６】
前記カテゴリー判別部は、前記所定の規則として、
予め定められた有意水準に基づいて定められた範囲に、前記発生確率が属するかどうかにより評価することを特徴とする請求項４記載の情報処理装置。
【請求項７】
前記カテゴリー判別部は、
事前のシミュレーションにより、前記複数の正規分布のうちいずれかの正規分布における前記発生確率が前記範囲に属さない場合には他のいずれの正規分布における前記発生確率も前記範囲に属さないこととなる有意水準を特定し、特定した有意水準に基づく範囲を使用して評価することを特徴とする請求項６記載の情報処理装置。
【請求項８】
特定のデータに対する複数の利用者の応答時間を示す応答時間情報を入力する処理と、
応答時間情報に基づき、応答時間と利用者数の関係を示す応答時間ヒストグラムを生成する処理と、
応答時間ヒストグラムが前記特定のデータに対する利用者特性を表す複数の利用者特性カテゴリーに対応する複数の正規分布の合成であるとし、それぞれの利用者特性カテゴリーの占める比率とそれぞれの正規分布の平均値と分散値とを導出する処理と、
それぞれの利用者特性カテゴリーの占める比率と複数の正規分布の平均値と分散値とに基づいて複数の利用者特性カテゴリーが設定された後に、前記特定のデータに対する特定の利用者の応答時間の通知を受け、前記特定の利用者の応答時間とそれぞれの利用者特性カテゴリーの占める比率と前記複数の正規分布の平均値と分散値とを用いて、前記複数の利用者特性カテゴリーのうち前記特定のデータに対する前記特定の利用者の利用者特性が属する利用者特性カテゴリーを候補として暫定的に決定し、前記候補を前記特定のデータに対する前記特定の利用者の利用者特性が属するカテゴリーとして確定してよいかどうかを所定の規則に基づき評価する処理と
をコンピュータに実行させることを特徴とする情報処理プログラム。

【図１】