説明

潜在クラス分析装置、潜在クラス分析方法及びプログラム

【課題】情報にアクセスする通信端末のユーザ群の潜在クラスと、その潜在クラスに対するユーザ群の帰属確率とを精度よく求める。
【解決手段】潜在クラス分析装置30は、URLとそのURLに格納された情報が属するカテゴリとを対応付けたURL辞書を記憶している。潜在クラス分析装置30は、アクセス履歴に含まれるURLをユーザIDごとに抽出し、次に、これらのURLのうち、URL辞書に記述されているURLを抽出し、さらに、これらのURLのうち、URL辞書において対応付けられているカテゴリが上位概念において共通であるURLを特定し、特定したURLの中から、当該上位概念のカテゴリに対応付けられているURLを抽出する。潜在クラス分析装置30は、これらのURLをユーザのアクセス時の意図を表す潜在クラスを分析する処理に用いる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報にアクセスするユーザに対する潜在クラス分析に関する。
【背景技術】
【0002】
インターネット上の情報の増加に伴い、情報閲覧者たるユーザにとって好ましい内容の情報を選別する技術が注目されている。この種の技術として、ユーザの過去のアクセス履歴に基づいて、そのユーザに対するプロファイリングやクラスタリングを行い、その結果に応じた情報を抽出してユーザに提示するというものが一般に知られている。例えばインターネット上のショッピングサイトでは、各ユーザの購買履歴を記録しておき、類似した購買履歴を持つ別のユーザが購買した商品を推薦する、いわゆる協調フィルタリングを用いた仕組みが採用されている。
【0003】
ユーザに対するプロファイリングの精度向上に関する技術として、非特許文献1〜3に開示されたpLSA(Probabilistic Latent Semantic Analysis)やLDA(Latent Dirichelet Allocation)といった、潜在クラス分析に基づく文書分類技術を応用した方法が注目されている。これらの方法においては、文書がその文書中の各単語の登場回数のベクトルで表されると仮定したうえで、文書はいくつかのトピックの確率分布で表されるとし、さらに各トピックは単語の確率分布により表されるとしている。ここでいうトピックは話題ないし題目であり、これが、文書を閲覧するユーザの意図、動機、目的あるいは根拠など(以下では単に、ユーザの意図という)を表した潜在クラスに相当する。
【0004】
ここで一例として、LDAのグラフィカルモデルを図10に示す。図において、zは潜在クラスであり、dは文書であり、vは単語であり、α,βはこのモデルのハイパーパラメータであり、Ndは文書の総数である。また、各文書を構成する潜在クラスの確率分布をθとし、各潜在クラスを構成する単語の確率分布をφとしている。情報にアクセスしたユーザに対するプロファイリングを行う場合、一般には、上記モデルにおける「文書」を「ユーザ」に置き換え、「単語」をユーザがアクセスした「情報」に置き換え、「潜在クラス」をユーザが情報へアクセスしたときの「意図」に置き換える。例えば非特許文献1では、ユーザである学生を上記モデルの文書とみなし、ウェブページを単語とみなし、各ユーザの各ウェブページへのアクセス回数をその文書中の単語の登場回数とみなし、さらに、ユーザが各ウェブページを見るときの意図を潜在クラスとみなしている。これにより、修士課程に関する情報を探す潜在クラスや博士課程に関する情報を探すトピックを特定するといった具合に、学生というユーザの特性に応じたプロファイリングができるようになっている。
【0005】
また、特許文献1では、ユーザがインターネット上で情報を検索する行動をひとまとまりのセッションに分割し、これらの各セッションを文書分類技術における文書に置き換え、各セッションにおいて検索された単語を文書分類技術における文書中の単語に置き換えることで、セッションという一連の検索行動に存在する潜在クラスを抽出している。そして、このようにして抽出した潜在クラスの結合によって、ユーザのプロファイルを表現している。
【0006】
上記の通り、文書分類技術で提案された潜在クラス分析モデルをユーザのプロファイリングあるいはクラスタリングに利用するという手法が注目されているが、この種の手法において重要なのは、潜在クラス分析モデルにおける「単語」に相当する情報をどのようにして正確に抽出するかということである。例えばインターネット上の情報に対する全てのアクセスを履歴として記録するようなケースにおいて、その履歴に含まれる全てのアクセスを単語とみなすようにすると、適切な潜在クラスを抽出できない可能性が高い。なぜなら、履歴に含まれる全てのアクセスがユーザの意図に基づいて行われたとは限らず、潜在クラスを決定付ける根拠としてはふさわしくないものが含まれているからである。このような例として、あるウェブページにアクセスした際に、それに付随して行われる画像や広告へのアクセスの存在が考えられる。このようなアクセスは、ユーザが意図して行ったアクセスでないにも関わらず、アクセス履歴に含まれる割合は小さくなく、ときにはアクセス履歴の大半を占める場合もある。
【0007】
また、文書中の単語に関する重要な課題として、その単語の意味を如何にして抽象化するかということがある。単語の抽象化とは、その意味がおおよそ共通ないし類似する複数の単語をより抽象的な意味の一つの単語に統一することである。文書分類技術の分野では、一つ一つの単語を抽象化することにより潜在クラス分析の精度が向上することが一般に知られている(例えば非特許文献4)。例えば「スズメ」という単語を、その「スズメ」が属するカテゴリを意味する「鳥」という単語に抽象化することにより、潜在クラス分析の精度が向上するといった具合である。
【先行技術文献】
【非特許文献】
【0008】
【非特許文献1】G.Xu,Y.Zhang, and X. Yi. Modeling User Behavior for Web Recommendation Using LDA Model.In Proc. of the 2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technol、Melbourne、2008.
【非特許文献2】D.M. Blei, A.Y. Ng, and M.I. Jordan. Latent dirichlet allocation. The Journal of Machine Learning Research archive vol. 3 (March 2003), pp. 993 - 1022.
【非特許文献3】T. Hofmann. Probabilistic Latent Semantic Analysis. In Proc. of the 22nd Annual ACM Conference on Research and Development in Information Retrieval,California, 1999.
【非特許文献4】K. Bessho. Text Segmentation Using Word Conceptual Vectors. In the Transactions of Information Processing Society of Japan vol.42(11), pp.2650-2662, 2001-11-15.
【特許文献】
【0009】
【特許文献1】特開2010−102385号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
前述したように、ユーザの意図に関係しないアクセスに関する情報を潜在クラス分析モデルで考慮するのは望ましくないが、非特許文献1〜3では、このような問題については、全く考慮されていない。また、潜在クラス分析に対して意味の抽象化という概念を適用することに関しても、非特許文献1〜3及び特許文献1のいずれにおいても考慮されていない。例えば、特許文献1では、セッションにおいて検索された単語を文書分類技術において文書中に登場した単語とみなしているが、実際には同じ意図で行われた複数の検索行動において検索された単語は、より抽象度の高い単語へと抽象化されるべきである。
【0011】
本発明は、上記に述べたような背景に鑑みてなされたものであり、情報にアクセスする通信端末のユーザ群の潜在クラスと、その潜在クラスに対するユーザ群の帰属確率とを精度よく求めることにある。
【課題を解決するための手段】
【0012】
本発明は、ネットワーク上の複数のアドレスと、各々の当該アドレスに格納された情報が属するカテゴリとが対応付けられて記述された辞書であって、これら複数のカテゴリの間に上位概念から下位概念に至る階層関係が規定されている辞書を記憶する辞書記憶手段と、各々の通信装置のユーザに割り当てられたユーザ識別情報と当該通信装置がアクセスしたアドレスとを含むアクセス履歴を取得する履歴取得手段と、前記履歴取得手段によって取得されたアクセス履歴に含まれるアドレスを、当該アドレスに対応する前記ユーザ識別情報ごとに抽出する第一抽出手段と、前記第一抽出手段によって抽出されたアドレスのうち、前記辞書に記述されているアドレスを抽出する第二抽出手段と、前記第二抽出手段によって抽出されたアドレスのうち、前記辞書において対応付けられているカテゴリが階層関係にあるアドレスを特定し、特定したアドレスの中から、当該階層関係において最上位概念のカテゴリに対応付けられているアドレスを抽出する第三抽出手段と、前記履歴取得手段によって取得されたアクセス履歴に基づき、前記通信装置が前記第三抽出手段によって抽出されたアドレスにアクセスした回数を当該アドレスごとにカウントするカウント手段と、前記カウント手段によるカウント結果を潜在クラス分析モデルに当てはめて、第三抽出手段によって抽出されたアドレスに対するアクセスの確率分布を求め、当該確率分布によって表現される潜在クラスを生成する潜在クラス生成手段と、前記潜在クラス生成手段によって生成された潜在クラスに対する、前記通信装置のユーザの帰属確率を算出する帰属確率算出手段とを備える潜在クラス分析装置を提供する。
【0013】
上記潜在クラス分析装置において、前記アクセス履歴には、前記ユーザ識別情報および前記アドレスを、1または複数のアクセスからなるセッションごとに分類するための分類情報が含まれており、前記第一抽出手段は、前記アクセス履歴に含まれる前記ユーザ識別情報および前記アドレスを前記分類情報に基づいて前記セッションごとに分類し、当該セッション単位で前記アドレスを抽出するようにしてもよい。
【0014】
上記潜在クラス分析装置において、前記第二抽出手段は、前記第一抽出手段によって抽出されたアドレスが前記辞書に記述されていれば当該アドレスを抽出するという手順を、前記第一抽出手段によって抽出された各々のアドレスについて順次行っていく過程において、既に抽出したアドレスについては新たな抽出は行わないようにしてもよい。
【0015】
上記潜在クラス分析装置において、前記第二抽出手段は、前記第一抽出手段によって抽出されたアドレスが前記辞書に記述されていない場合であっても、当該アドレスと前記辞書に記述されているアドレスとが予め決められた部分一致の条件を満たすときには、当該辞書に記述されている前記アドレスを抽出するようにしてもよい。
【0016】
上記潜在クラス分析装置において、前記第三抽出手段は、前記アドレスに加えて、前記辞書において当該アドレスに対応付けられたカテゴリを抽出し、前記潜在クラス生成手段は、前記第三抽出手段によって抽出されたアドレスに対する処理と同じ処理を、前記第三抽出手段によって抽出された前記カテゴリに対しても行うようにしてもよい。
【0017】
上記潜在クラス分析装置において、前記アクセス履歴には、前記アドレスが前記ユーザによって指定される操作がなされたことを示す操作情報が含まれており、前記第一抽出手段は、前記操作情報が対応付けられているアドレスのみを抽出するようにしてもよい。
【0018】
また、本発明は、ネットワーク上の複数のアドレスと、各々の当該アドレスに格納された情報が属するカテゴリとが対応付けられて記述された辞書であって、これら複数のカテゴリの間に上位概念から下位概念に至る階層関係が規定されている辞書を記憶するコンピュータ装置が行う潜在クラス分析方法であって、各々の通信装置のユーザに割り当てられたユーザ識別情報と当該通信装置がアクセスしたアドレスとを含むアクセス履歴を取得する履歴取得ステップと、前記履歴取得ステップにおいて取得されたアクセス履歴に含まれるアドレスを、当該当該アドレスに対応する前記ユーザ識別情報ごとに抽出する第一抽出ステップと、前記第一抽出ステップにおいて抽出されたアドレスのうち、前記辞書に記述されているアドレスを抽出する第二抽出ステップと、前記第二抽出ステップにおいて抽出されたアドレスのうち、前記辞書において対応付けられているカテゴリが階層関係にあるアドレスを特定し、特定したアドレスの中から、当該階層関係において最上位概念のカテゴリに対応付けられているアドレスを抽出する第三抽出ステップと、前記履歴取得ステップにおいて取得されたアクセス履歴に基づき、前記通信装置が前記第三抽出手段によって抽出されたアドレスにアクセスした回数を当該アドレスごとにカウントするカウントステップと、前記カウントステップによるカウント結果を潜在クラス分析モデルに当てはめて、第三抽出ステップにおいて抽出されたアドレスに対するアクセスの確率分布を求め、当該確率分布によって表現される潜在クラスを生成する潜在クラス生成ステップと、前記潜在クラス生成ステップにおいて生成された潜在クラスに対する、前記通信装置のユーザの帰属確率を算出する帰属確率算出ステップとを備える潜在クラス分析方法を提供する。
【0019】
また、本発明は、コンピュータを、ネットワーク上の複数のアドレスと、各々の当該アドレスに格納された情報が属するカテゴリとが対応付けられて記述された辞書であって、これら複数のカテゴリの間に上位概念から下位概念に至る階層関係が規定されている辞書を記憶する辞書記憶手段と、各々の通信装置のユーザに割り当てられたユーザ識別情報と当該通信装置がアクセスしたアドレスとを含むアクセス履歴を取得する履歴取得手段と、前記履歴取得手段によって取得されたアクセス履歴に含まれるアドレスを、当該アドレスに対応する前記ユーザ識別情報ごとに抽出する第一抽出手段と、前記第一抽出手段によって抽出されたアドレスのうち、前記辞書に記述されているアドレスを抽出する第二抽出手段と、前記第二抽出手段によって抽出されたアドレスのうち、前記辞書において対応付けられているカテゴリが階層関係にあるアドレスを特定し、特定したアドレスの中から、当該階層関係において最上位概念のカテゴリに対応付けられているアドレスを抽出する第三抽出手段と、前記履歴取得手段によって取得されたアクセス履歴に基づき、前記通信装置が前記第三抽出手段によって抽出されたアドレスにアクセスした回数を当該アドレスごとにカウントするカウント手段と、前記カウント手段によるカウント結果を潜在クラス分析モデルに当てはめて、第三抽出手段によって抽出されたアドレスに対するアクセスの確率分布を求め、当該確率分布によって表現される潜在クラスを生成する潜在クラス生成手段と、前記潜在クラス生成手段によって生成された潜在クラスに対する、前記通信装置のユーザの帰属確率を算出する帰属確率算出手段として機能させるためのプログラムを提供する。
【発明の効果】
【0020】
本発明によれば、情報にアクセスする通信端末のユーザ群の潜在クラスと、その潜在クラスに対するユーザ群の帰属確率とを精度よく求めることができる。
【図面の簡単な説明】
【0021】
【図1】本発明の実施形態に係る通信システムの構成を示す図である。
【図2】潜在クラス分析装置のハードウェア構成を示すブロック図である。
【図3】潜在クラス分析装置の機能構成を示すブロック図である。
【図4】URL辞書の内容を例示する図である。
【図5】潜在クラス分析装置のアクセス履歴分析機能を説明する図である。
【図6】潜在クラス分析装置の潜在クラス分析機能を説明する図である。
【図7】潜在クラス分析装置の制御部が行う処理の手順を示すフローチャートである。
【図8】潜在クラス分析装置の動作の概要を説明する図である。
【図9】潜在クラス分析装置の制御部が行う処理の手順を示すフローチャートである。
【図10】LDAのグラフィカルモデルを示す図である。
【発明を実施するための最良の形態】
【0022】
以下、本発明の実施形態について説明する。
<構成>
図1は、本発明の実施形態に係る通信システム1の構成を示す図である。通信システム1は、移動通信ネットワーク10と、複数のユーザによってそれぞれ利用される移動通信装置20と、移動通信ネットワーク10にゲートウェイ設備を介して接続されたインターネット50と、このゲートウェイ設備に設けられた潜在クラス分析装置30と、インターネット50に接続された複数のウェブサーバ装置40とを備えている。
【0023】
移動通信装置20は、例えば携帯電話機などの通信可能なコンピュータであり、CPU(Central Processing Unit)などの演算装置とROM(Read Only Memory)及びRAM(Random Access Memory)などの記憶装置からなる制御部と、EEPROM(Electronically Erasable and Programmable ROM)やバックアップ電源を備えたSRAM(Static Random Access Memory)などの記憶部と、アンテナや無線通信回路からなる無線通信部と、スピーカ、マイクロホン及び音声処理回路からなる音声入出力部と、複数のキーやタッチスクリーンなどの操作子を備えた操作部と、液晶パネルや液晶駆動回路からなる表示部とを備えている。この移動通信装置において、制御部は、操作部が受け付けたユーザの操作に応じて、通信部を制御することにより移動通信ネットワーク10及びインターネット50経由でウェブサーバ装置40にアクセスし、そのウェブサーバ装置40に蓄積されている情報(ここではウェブページとする)を取得して、表示部に表示させる。これにより、ユーザはインターネット50上にある様々な情報にアクセスし、それを閲覧することができる。
【0024】
移動通信ネットワーク10は、移動通信装置20に通信サービスを提供するネットワークである。この移動通信ネットワーク10は、自局の無線セル内に居る移動通信装置20と無線通信を行う基地局、ネットワーク内で伝送されるデータのルーティングを行う交換局、及び移動通信装置20の位置登録などを行う制御局といった各種ノードと、これらのノード間を相互に接続する通信線とを備えている。
【0025】
ウェブサーバ装置40は、コンピュータであり、CPUなどの演算装置とROM及びRAMなどの記憶装置からなる制御部と、ハードディスク装置などの記憶部と、インターネット50に接続された通信部とを備えている。このウェブサーバ装置40は、ウェブページを記憶部に蓄積する機能や、移動通信装置20とインターネット50及び移動通信ネットワーク10経由でデータ通信を行う機能を備えている。
【0026】
潜在クラス分析装置30は、移動通信装置20によるウェブサーバ装置40へのアクセスの履歴(以下、アクセス履歴という)を利用して、主に2つの機能を実現する。1つは、移動通信装置20によるウェブサーバ装置40へのアクセスの内容を分析する機能であり、もう1つは、その分析結果に基づいて移動通信装置20のユーザに対する潜在クラス分析を行う機能である。前者をアクセス履歴分析機能と呼び、後者を潜在クラス分析機能と呼ぶ。
【0027】
図2は、潜在クラス分析装置30のハードウェア構成を示すブロック図である。潜在クラス分析装置30は、コンピュータであり、制御部31と、通信部32と、記憶部33とを備えている。制御部31は、CPUなどの演算装置と、ROM及びRAMなどの記憶装置とを備えている。CPUは、RAMをワークエリアとして用いてROMや記憶部33に記憶されたプログラム群を実行することによって、潜在クラス分析装置30の各部の動作を制御する。
【0028】
通信部32は、通信インタフェースや通信回路を備えており、前述したゲートウェイ設備に設置されたゲートウェイ装置に接続されている。この通信部32は、ゲートウェイ装置が中継する、移動通信装置20とウェブサーバ装置40とが行う通信の履歴(つまり移動通信装置20のウェブサーバ装置40に対するアクセス履歴)をゲートウェイ装置から取得して、この潜在クラス分析装置30に入力する。つまり、通信部32はアクセス履歴を取得する履歴取得手段として機能する。
【0029】
記憶部33は、書き込み可能な不揮発性の記憶手段であり、例えばハードディスク装置である。この記憶部33には、制御部31が実行する処理の手順が記述されたプログラム群のほか、URL(Uniform Resource locator)辞書と呼ばれるデータベースを記憶している。つまり、記憶部33は、URL辞書を記憶する辞書記憶手段として機能する。また、記憶部33は、移動通信装置20のアクセス履歴を記憶するアクセス履歴記憶領域を有している。
【0030】
URL辞書には、インターネット50上のアドレスを示す複数のURLと、各々のURLに格納されているウェブページのカテゴリとが対応付けられて記述されている。カテゴリとは、ウェブページの内容の抽象的な意味を表す意味情報であり、例えば、ウェブページに含まれているプロ野球に関する内容に対しては、「プロ野球」とか「野球」とか「スポーツ」とか「趣味とスポーツ」といったものが、ここでいうカテゴリに相当する。この例示から分かるように、カテゴリの抽象度は複数あり、複数のカテゴリの間には上位概念から下位概念に至る階層関係が規定されている。上記の例で下位概念から上位概念の順でカテゴリを並べると、「プロ野球」、「野球」、「スポーツ」、「趣味とスポーツ」という順序になる。このようなURL辞書は例えばディレクトリ型のウェブ検索エンジンなどから生成可能である。
【0031】
ここで、図3はURL辞書の内容を例示する図である。図示のように、各URLにカテゴリが対応付けられており、さらに、各カテゴリは、他のカテゴリが連結されることによって表現されている。例えば、「http://sports.abcde.co.jp/」というURLに格納されたウェブページは、「趣味とスポーツ」という最も上位の抽象度のカテゴリに属する情報であるとともに、その下位概念の意味に相当する「スポーツ」というカテゴリに属する情報である。また、「http://sports.abcde.co.jp/」というURLに対応するカテゴリが「趣味とスポーツ>スポーツ」であるのに対し、「http://sports.abcde.co.jp/baseball」というURLに対応するカテゴリが「趣味とスポーツ>スポーツ>野球」であることから、これらの関係は、前者が上位概念で後者が下位概念であることが分かる。このようにカテゴリは、その階層関係において上位のものほどより抽象度が高い意味を持っている。
【0032】
次に、図4は潜在クラス分析装置30の機能ブロック図であり、図5は潜在クラス分析装置30のアクセス履歴分析機能を説明する図であり、図6は潜在クラス分析装置30の潜在クラス分析機能を説明する図である。図4において、アクセス履歴分析部331は、アクセス履歴分析機能を実現するものであり、第一のURL抽出部331aと、第二のURL抽出部331bと、第三のURL抽出部331cとを備えている。潜在クラス分析部332は、潜在クラス分析機能を実現するものであり、アクセス回数カウント部332aと、潜在クラス生成部332bと、帰属確率算出部332cとを備えている。第一のURL抽出部331aは第一抽出手段であり、第二のURL抽出部331bは第二抽出手段であり、第三のURL抽出部331cは第三抽出手段であり、アクセス回数カウント部332aはカウント手段であり、潜在クラス生成部332bは潜在クラス生成手段であり、帰属確率算出部332cは帰属確率算出手段である。これらの各機能は、制御部31が記憶部33に記憶されたプログラムを実行することによって実現される。
【0033】
まず、図4、5を用いて、アクセス履歴分析機能について説明する。図5に示すように、アクセス履歴は、移動通信装置20のユーザに割り当てられた識別情報であるユーザID、移動通信装置20によってウェブサーバ装置40へのアクセスが行われた時刻、及びそのアクセス先のアドレスであるURLを含むアクセス情報なるものの集合である。第一のURL抽出部331aは、アクセス履歴から、ユーザIDごとにアクセス情報を抽出し、さらに、これらアクセス情報群から、セッションと呼ばれるアクセス群単位でそれぞれのアクセス情報内のURLを抽出する。ここでいうセッションとは、ユーザがある意図に基づいて行った一連のアクセス群を意味し、例えば発生順が連続するアクセス間の時間間隔が閾値未満の場合、第一のURL抽出部331aは、これらを同一セッションに属するとみなす。このようにセッション毎に抽出されたURL群のそれぞれを第一のURL集合と呼ぶ。図4では、ユーザID「ユーザA」のユーザのアクセス履歴に含まれるURLのうち、(u1、u2、u3)、(u4、u2、u3)、(u2、u3、u4、u1)が、それぞれ1つのセッションに含まれるアクセスのアクセス先であると判断された場合を例示している。これらの各々が第一のURL集合に相当する。
【0034】
第二のURL抽出部331bは、第一のURL集合から第二のURL集合を抽出する。この第二のURL集合は、第一のURL集合の部分集合に相当するものであり、第一のURL集合に含まれるURLのうち、URL辞書からカテゴリを取得可能なURL群である。すなわち、第二のURL抽出部331bは、第一のURL集合に含まれるURLと合致するものをURL辞書において検索し、合致するものがあれば、そのURLを第二のURL集合に追加する。
【0035】
第三のURL抽出部331cは、第二のURL集合から第三のURL集合を抽出する。第三のURL集合は、第二のURL集合の部分集合であり、第二のURL集合に含まれるURLに格納されたウェブページの内容の意味をより上位概念へと抽象化した内容に相当するウェブページのURLの集合である。より具体的には、第三のURL抽出部331cは、第二のURL集合に含まれるURLのうち、URL辞書においてカテゴリが階層関係にあるURLを特定し、特定したURLの中から、その階層関係において最上位概念のカテゴリに対応付けられているURLを第三のURL集合として抽出する。
【0036】
第一のURL集合から第三のURL集合が抽出されるに至るまでの一例を挙げると、次のとおりである。ここでは、前提として、ユーザが「スポーツニュース」のウェブページにアクセスし、そこから「野球のニュース」と「サッカーのニュース」と「ホッケーのニュース」のウェブページにアクセスしたとする。そして、このとき、URL辞書には「ホッケーのニュース」のウェブページのURLに対応するカテゴリが含まれていなかったとする。この場合、第一のURL集合には、「スポーツニュース」、「野球のニュース」、「サッカーのニュース」、「ホッケーのニュース」の各ウェブページのURLとが含まれる。第二のURL集合には、URL辞書にカテゴリが登録されていなかった「ホッケーのニュース」のウェブページのURLが第一のURL集合から除外されて、「スポーツニュース」、「野球のニュース」、「サッカーのニュース」の各ウェブページのURLが含まれる。ここで、「野球のニュース」と「サッカーのニュース」というカテゴリは「スポーツニュース」というカテゴリの下位概念であるから、これら「野球のニュース」、「サッカーのニュース」及び「スポーツニュース」という3つのカテゴリはお互いに階層関係にあると言える。この場合、第三のURL集合には、それらのカテゴリを最も上位概念になるように抽象化した「スポーツニュース」のウェブページのURLだけが含まれる。ここで、「スポーツニュース」の下位概念の意味として「野球のニュース」及び「サッカーのニュース」があるという関係については、前述したURL辞書で規定されたカテゴリ間の階層関係に基づいて特定される。このようにして得られた第三のURL集合は、そのユーザが行った一連のアクセスの意図を抽象化したURLの集合に相当する。
【0037】
第三のURL集合は、pLSAやLDAに代表されるような単語集合(BOW:bag-of-words)を想定した潜在クラス分析、すなわち単語の登場回数により文書の潜在トピックを決定するという考え方を基にした文書分類技術に適用可能である。すなわち、ウェブサーバ装置40にアクセスを行うユーザを文書分類技術における「文書」とみなし、インターネット50上のURLを文書分類技術における「単語」とみなした場合に、ユーザの潜在クラスは各URLへのアクセス回数により決定される。ここで、文書分類技術では、単語の意味を抽象化することにより精度が向上することが知られているから、上記のように単語とみなされたURLの意味するところ(つまりカテゴリ)を抽象化することにより、同様の精度向上が期待される。このため、潜在クラス分析装置30は、第一のURL集合をそのまま潜在クラス分析に利用するのではなく、URLの意味を抽象化した第三のURL集合を利用するようにしている。
【0038】
次に、図4,6を用いて潜在クラス分析機能について説明する。アクセス回数カウント部332aは、アクセス履歴に基づき、第三のURL集合に含まれるURLに対する移動通信装置20のアクセス回数をそのURLごとにカウントする。具体的には、アクセス回数カウント部332aは、第三のURL集合に含まれるURLに一致するものをアクセス履歴において検索し、その検索の結果得られた各URLに対するアクセスを1つ1つ数えてゆく。潜在クラス生成部332bは、pLSAやLDAなどの潜在クラス分析モデルにアクセス回数を当てはめて、第三のURLに含まれる各URLに対するアクセスの確率分布を求め、その確率分布によって表現される潜在クラスを生成する。帰属確率算出部332cは、潜在クラス生成部332bによって生成された潜在クラスに対するユーザの帰属確率を算出する。
【0039】
文書分類技術を適用した潜在クラス分析においては、文書中の単語の登場箇所や登場順序などを無視し、単語の登場回数だけを基にして潜在クラスが生成されるが、既に述べた通り、このような潜在クラス分析では、精度向上のために単語の意味の抽象化が欠かせない。こういった理由から、アクセス回数カウント部332aは、ユーザのアクセス回数をカウントする際に、アクセス履歴に含まれるURLに対するアクセスを全てカウントするのではなく、カテゴリの抽象化がなされた第三のURL集合に対してアクセス回数をカウントすることで、潜在クラス分析の精度向上を図るようにしている。
【0040】
ここで、LDAの潜在クラス分析モデルを用いた例を説明する。このモデルの構造そのものは、前掲した図10と同じである。このモデルにおいて、dはユーザであり、vはURLであり、zは潜在クラスであり、Ndはユーザの総アクセス回数であり、α,βはそれぞれモデルのハイパーパラメータである。このモデルに対する入力は、各ユーザの各URLへのアクセス回数であり、ユーザ×URLという行列で表現される。ここでの行列要素はアクセス回数であり、この行列をNとする。潜在クラスは、潜在クラス×URLという行列で表現される。ここでの行列要素は確率分布であり、この行列をθとする。潜在クラス帰属確率は、ユーザ×潜在クラスという行列で表現され、これをφとする。すなわち、このモデルは、アクセス履歴と第三のURL集合とに基づいて生成されたNを入力とし、潜在クラスθと帰属確率φとを出力するものである。
【0041】
図4に示した各機能のうち、アクセス回数カウント部332aは、行列Nを生成する手段に相当し、潜在クラス生成部332bは、潜在クラスθを生成する手段に相当し、帰属確率算出部332cは、帰属確率φを算出する手段に相当する。ここで、潜在クラス生成部332b及び帰属確率算出部332cは、入力された行列Nに対して、例えば非特許文献2または3に開示されているような潜在クラス分析手法をそのまま適用して潜在クラスθと帰属確率φを出力するものに過ぎない。一方、入力側の行列Nの生成について詳細に説明すると、以下のとおりである。
【0042】
まず、アクセス回数カウント部332aは、アクセス履歴から全てのユーザIDを抽出する。このユーザIDの集合は、文書分類技術における文書の集合に相当し、行列Nでは「行」に相当する。次に、アクセス回数カウント部332aは、全てのユーザについて全ての第三のURL集合の和をとることにより、全ユーザがアクセスした全URLを取得する。このURLの集合は、文書分類技術における単語の集合に相当し、行列Nの「列」に相当する。そして、アクセス回数カウント部332aは、各ユーザについて、第三のURL集合に含まれるURLをカウントすることで、行列Nにおける行列要素を埋めていく。例えば、図6の例では、「ユーザA」というユーザIDのユーザのアクセス履歴から、第三のURL集合として、(u1)、(u2、u4)、(u1、u4)という3つの集合が得られている。ここで仮に、u1というURLに対しては2回のアクセスがあり、u2というURLに対しては1回のアクセスがあり、u4というURLに対しては1回のアクセスがあったと仮定すると、アクセス回数カウント部332aは、行列Nにおいて、それらのURL及びユーザIDに対応する行列要素に、上記のアクセス回数をそれぞれ当てはめる。アクセス回数カウント部332aは、全てのユーザについてこのような処理を行うことで、図6に例示するような行列Nを生成する。
【0043】
<動作>
次に図7を参照して、潜在クラス分析装置30の制御部31の動作について詳細に説明する。まず、制御部31は、アクセス履歴からそれぞれのセッションを特定し、特定したセッションに相当するアクセス履歴からURLを抽出して、第一のURL集合を生成する(ステップS101)。セッションを特定する方法の一つは、前述したように、アクセス履歴に含まれている時刻に基づき、前順と後順の各アクセスの時間間隔が閾値を超えたか否かという判断に基づいて決定する方法である。例えば、閾値を30分とした場合には、あるユーザが30分以上の期間にわたってウェブサーバ装置40にアクセスしなかった場合には、セッションが終了したとみなす、といった具合である。
【0044】
閾値の具体的な大きさは、アクセス履歴分析部331の出力結果をどのように利用するかに応じて決まる。例えば第三のURL集合を潜在クラス分析の入力に利用する場合、潜在クラス分析装置30の設計者は、潜在クラス分析結果の精度を評価することで、この閾値の大きさを決定することができる。例えば、潜在クラス分析結果を定量的に評価する指標の一つとして、パープレキシティと呼ばれるものが知られているから、設計者は、これを用いて潜在クラス分析結果の精度を評価し、この評価結果が望ましいレベルとなる範囲で、上記閾値を決めればよい。なお、このパープレキシティの詳細については、非特許文献2に詳しく説明されている。
【0045】
次に、制御部31は、URL辞書を利用して第二のURL集合を抽出する。具体的には、まず、制御部31は、第一のURL集合からいずれか一つのURLを選択し(ステップS102)、そのURLがURL辞書に記述されているか否かを判断する(ステップS103)。ここで、そのURLがURL辞書に記述されていると判断するためには、第一のURL集合に含まれるURLとURL辞書に登録されたURLとが必ずしも完全一致する必要はない。その理由は以下のとおりである。
【0046】
前述したように、インターネット上にあるディレクトリ型の検索エンジンなどを利用することでURL辞書を作成することができるが、このような検索エンジンであっても、インターネット上の全てのURLのカテゴリを調べるのは現実的には不可能である。このため、インターネット上の検索エンジンは、ウェブサーバ装置単位とか、複数のURLをまとめたウェブページ(トップページという)単位でカテゴリを割り当てる場合が多い。これに倣って、URL辞書に記述されるURLも、各ウェブサーバ装置とか複数のURLをまとめたものを単位としている。
【0047】
一方、第一のURL集合に含まれるURLは、ユーザが実際にアクセスしたURLであるため、URL辞書に記述されるURLとは完全一致しないことが多い。例えばURL辞書に記述されたURLが「http://dailynews.abcde.co.jp/」であり、第一のURL集合に含まれるURLが「http://dailynews.abcde.co.jp/xxxx.htm」である場合を想定する。ここでは、URL辞書に記述されたURLが、ニューストピックをまとめた或るウェブサイトのURLとし、第一のURL集合に含まれるURLはその中の一つの記事に付与されたもので、上記ウェブサイト内のURLであるとしている。
【0048】
このように、URLがウェブサイト単位でURL辞書に記述されている場合、制御部31は、URLの文字列について厳密な比較を行うのではなく、URL辞書に記述されたURLが、第一のURL集合中のURLと、前方からの或る範囲が部分一致した場合や、ドメイン部分が一致した場合など、予め決められた部分一致の条件を満たす場合に、両URLが一致したとみなす。上記の例の場合、制御部31は、ユーザがアクセスしたURL「http://dailynews.abcde.co.jp/xxxx.htm」を「http://dailynews.abcde.co.jp/」に一致するものと判断し、URL辞書に記述された「http://dailynews.abcde.co.jp/」を第二のURL集合として抽出する。このように予め決められた部分一致の条件を満たす場合には両URLが一致したとみなして、URL辞書に記述されているほうのURLを第二のURL集合として抽出することを、URLを統合するという。
【0049】
さて、図7において、選択した一つのURLがURL辞書に記述されていれば(ステップS103;YES)、制御部31は、そのURLが第二のURL集合に既に含まれていないことを確認してから(ステップS104;NO)、第二のURL集合に追加する(ステップS105)。一方、制御部31は、そのURLが第二のURL集合に既に含まれていれば(ステップS104;YES)、第二のURL集合には追加しない。つまり、制御部31は、第一のURL集合に含まれているURLがURL辞書に記述されていればそのURLを第二のURL集合として抽出するという手順を、第一のURL集合中の各URLについて順次行っていく過程において、既に抽出したURLについては、第二のURL集合として新たな抽出は行わないようにしている。
【0050】
第一のURL集合は、ユーザが或るセッションにおいてアクセスしたURLの集合であり、場合によっては同じURLが含まれる可能性がある。また、異なるURLであったとしても同じウェブサイトに属するURLであれば、前述したようにステップS103においてウェブサイト単位でURL辞書との比較を行うような場合には、同一のURLが第二のURL集合として重複して抽出されることもある。このような第二のURL集合への重複抽出があると、この結果、第三のURL集合にも同一のURLが複数含まれてしまう可能性があり、潜在クラス分析を行うときの処理が冗長になってしまう。このような理由から、第二のURL集合を抽出する際には、このような重複したURLが抽出されないようにしているのである。
【0051】
次に、制御部31は、第一のURL集合に含まれる全URLについてURL辞書を探索したか否かを判断し(ステップS106)、全てのURLについてURL辞書の探索を終えていなければ(ステップS106;NO)、ステップS102の処理に戻る。全てのURLについてURL辞書の探索を終えていれば(ステップS106;YES)、制御部31は、第二のURL集合を出力する(ステップS107)。
【0052】
ここで、図8は、第一のURL集合から第二のURL集合を抽出し、さらに第三のURL集合を抽出するときの様子の一例を示している。図に示した木構造Tは、URL辞書における階層関係を模式的に表したものである。各ノードに相当するc1〜c6はそれぞれカテゴリを表しており、各カテゴリには一つ以上のURLが対応付けられている。前述したように、第二のURL集合を抽出する処理は、第一のURL集合から、カテゴリを特定し得るURLを抽出する処理である。前述したステップS104の重複排除の処理により、時刻t4にアクセス先となったURLについては、時刻t1にアクセス先となったURLと重複するため、第二のURL集合には含まれていない。また、時刻t1と時刻t5にアクセス先となったURLについては、前述したようなステップS103におけるURLの統合により、URL辞書に記述されていたURL「http://x.y.z/」及び「http://x.y.z/w5/」が第二のURL集合として抽出されている。この結果、図に示したような4つのURLが第二のURL集合として抽出される。
【0053】
次に、制御部31の処理は図9に移行し、制御部31は、第二のURL集合の部分集合である第三のURL集合を抽出する。前述したように、第三のURL集合は、第二のURL集合よりも、カテゴリの上位概念化がなされたURLの集合であり、文書分類技術を適用した潜在クラス分析の観点では、各セッションにおけるユーザの潜在的な意図を表す単語の集合に相当する。
【0054】
図9において、制御部31は、まず、第三のURL集合の初期値として、ステップS107で出力された第二のURL集合をセットする(ステップS108)。これ以降の処理は、各URLに格納されたウェブページのカテゴリ、つまり意味を抽象化してゆくことで、第二のURL集合から不要なURLを削除していくという処理となる。
【0055】
次に、制御部31は、第三のURL集合のうち、木構造で表現されるURL辞書においてステップS110の部分木に対する探索を行っていないURLがあるか否かを判断する(ステップS109)。そして、制御部31は、未探索のURLがある場合には(ステップS109;YES)、未探索のURLを一つ選択し、URL辞書の階層関係において、そのURLを根としてそれよりも下位に存在するURLを含む部分木を取得する(ステップS110)。既に述べた通り、URL辞書に記述された全てのURLには、階層関係が規定されたカテゴリが付与されているため、その階層関係に基づく木構造が構築可能である。一方、第三のURL集合に含まれる全てのURLには、URL辞書においてカテゴリが与えられているはずであるから、第三のURL集合は、上記木構造のいずれかのノードに対応することになる。部分木とは、このノードを根とする木構造のことであり、この部分木に含まれるノード間には階層関係がある。
【0056】
制御部31は、この部分木に対し幅優先探索と呼ばれる手法を用いた探索を行い、部分木の根に相当するURL以外の、一つのURLを取得する(ステップS111)。そして、制御部31は、取得したURLが、その時点での第三のURL集合に含まれるURLと同じである場合には(ステップS112;YES)、そのURLを第三のURL集合から削除する(ステップS113)。このステップS111〜S113は、部分木に含まれる、根以外の全URLについて繰り返される。
【0057】
上記の処理により、URL辞書において、ステップS110において選択されたURLが属するカテゴリの下位概念のカテゴリに属するURLは全て、第三のURL集合から削除される。制御部31は、このような処理を、第三のURL集合に含まれる各URLについて繰り返すことで、最終的には、より上位概念のカテゴリに属するURLのみを第三のURL集合として残すことができる。そして、制御部31はこの第三のURL集合を出力する。
【0058】
以降、制御部31は、前述したようにして、第三のURL集合に含まれるURLに対する移動通信装置20のアクセス回数に相当する行列Nを求め、その行列NをpLSAやLDAなどの潜在クラス分析モデルに当てはめて、潜在クラスを生成するとともに、その潜在クラスに対するユーザの帰属確率を算出する。これらの潜在クラス及び帰属確率を表すデータは制御部31によって記録媒体に書き込まれるとか、通信部32により所定の宛て先に送信されるなどのように、この潜在クラス分析装置30から出力され(ステップS114)、ユーザへの情報の推薦などのサービスに利用される。
【0059】
図8の例では、第二のURL集合に含まれる四つのURLが第三のURL集合の初期値となる。ここで、時刻t1にアクセス先となったURL(そのカテゴリはc3)、時刻t3にアクセス先となったURL(そのカテゴリはc4)、及び、時刻t5にアクセス先となったURL(そのカテゴリはc5)は、1つの部分木に属するURL、つまりお互いに階層関係にあるURLとして抽出される。同様に、時刻t6にアクセス先となったURL(そのカテゴリはc2)も、1つの部分木に属するURLとして抽出される。この状態で、制御部31は、まず時刻t1にアクセス先となったURL(そのカテゴリはc3)が根となる部分木について上記探索を行い、根に相当するノード(つまり部分木における最上位概念のカテゴリに属するURL)以外のノードに対応するURLを第三のURL集合から削除する。これにより、時刻t3及び時刻t5においてアクセス先となったURL(それぞれのカテゴリはc4及びc5)が第三のURL集合から削除される。次に、制御部31は、時刻t6でアクセス先となったURL(そのカテゴリはc2)が根となる部分木について上記探索を行う。この場合、カテゴリc2に属するURLは根に相当するノードであるから削除されないし、また、その下位にあるURL(そのカテゴリはc6)は第三のURL集合にはそもそも存在しない。この結果、最終的に第三のURL集合として抽出されるURLは、図に示す通り、カテゴリc2,c3に属する2つのURLとなる。
【0060】
上述した実施形態によれば次のような効果を奏する。
制御部31は、ユーザのアクセス先となるURLのうち、より上位の意味を持つカテゴリに属するURLを抽出し、これをユーザのアクセス時の意図を表す潜在クラスの分析に用いているので、潜在クラス分析の精度が向上する。このような潜在クラス分析の精度向上は、ユーザに対する情報の推薦などのサービスに大いに有効である。
【0061】
ウェブサーバ装置40にアクセスするときのユーザの意図は、例えばそのウェブサーバ装置40への1つのセッションを始めたときから終えるときまでは有効といえるが、そのセッション中の意図が、それ以外のセッション中においてまで有効であるとは言えない。上記実施形態によれば、ユーザが同一ないし類似の意図をもってアクセスを行っていると想定されるセッション単位で第一のURL集合の抽出を行っているから、潜在クラス分析の精度が向上する。
【0062】
上記実施形態によれば、制御部31は、第一のURL集合に含まれるURLがURL辞書に記述されていればそのURLを第二のURL集合として抽出するという手順をURLについて順次行っていく過程において、既に抽出したURLについては新たに抽出しないようにしている(図7のステップS104)。これにより、処理の冗長性を排除している。一方、このステップS104のような処理を設けずに、制御部31が第二のURL集合を全て抽出し終えてから、その集合中において重複しているURLをいっせいに削除するという手順も考えられる。ただし、第二のURL集合を全て抽出し終えるまでには、制御部31が第二のURL集合に含まれるURLを全てRAM等に記憶しておく必要があり、記憶容量節約の観点からは望ましくないから、このような節約を重視する場合には、実施形態のような手順のほうが望ましい。
【0063】
実施形態において、制御部31は、URLの文字列について厳密な比較を行うのではなく、URL辞書に記述されたURLが、予め決められた部分一致の条件を満たす場合には、両URLが一致したとみなして第二のURL集合として抽出する。すなわち、URLの統合を行う。このようにすれば、第一のURL集合に含まれるURLそのものがURL辞書に記述されていなくても、このURLが属するウェブサイトのURLが記述されていた場合には、このURLを第二のURL集合として抽出可能となる。このようにして得られた第二のURL集合は、URLの統合を行わなかったときの第二のURL集合よりもそのカテゴリが上位概念へと抽象化されたものになるが、潜在クラス分析に用いることを考えた場合には、URLの属するカテゴリが上位概念に抽象化されていてもよい。
【0064】
<変形例>
上述した実施形態は次のような変形が可能である。また、以下の変形例を互いに組み合わせて実施してもよい。
<変形例1>
実施形態において、ウェブページつまり情報にアクセスする通信装置として、移動通信装置20を例示したが、通信装置の種類はこれに限らず、例えば、情報が蓄積されたネットワークに有線で接続された固定型の通信装置、例えばパーソナルコンピュータなどであってもよい。制御部31は、ユーザに割り当てられるユーザIDとして、通信端末に割り当てられる装置IDを用いてもよい。また、情報が蓄積されたネットワークは、インターネット50に限らず、どのようなネットワークでもよい。このとき、ネットワーク上において情報が格納されている位置を示すアドレスの種類は、URLに限らず、ネットワークの種類に応じて変わり得る。また、潜在クラス分析装置30は、単一の装置ではなく、互いに通信可能に接続された複数の装置から構成されていてもよい。
【0065】
<変形例2>
通信装置がアクセスする情報の抽象的な意味を表す意味情報として、カテゴリという用語を用い、URL辞書ではそのカテゴリとURLとが対応付けられて記述されていると説明した。この「カテゴリ」という用語の範疇には、アクセス対象となる情報の抽象的な意味を表し、かつ、お互いの間に上位又は下位の階層関係が規定されているものが全て含まれる。
【0066】
<変形例3>
図7のステップS101において、制御部31は、URLに加えて、URL辞書においてそのURLに対応付けられているカテゴリを抽出し、これを第一のURL集合、第二のURL集合及び第三のURL集合に含めるようにしてもよい。さらに、制御部31は、第三のURL集合に含まれるURLに対する潜在クラス分析処理と同じ処理を、その第三のURL集合に含まれるカテゴリに対しても同様に行うようにしてもよい。これにより、URLだけではなく、カテゴリそのものを単語とみなして、潜在クラス分析を行うことが可能となる。
【0067】
<変形例4>
実施形態において、制御部31は、一つのセッションに含まれるアクセス履歴を判断する根拠として、そのアクセス履歴に含まれる時刻を用いていた。制御部31がアクセス履歴を1または複数のアクセスからなるセッションごとに分類する方法はこれに限らない。要するに、アクセス履歴にはこの分類を行うための分類情報が含まれており、制御部31がこれを用いて分類を行うようにすればよい。この分類情報の一つの例が時刻であるが、これ以外にも、例えば通信装置がアクセスを行ったときの位置や、通信装置の装置IDなどが考えられる。通信装置がアクセスを行ったときの位置を用いる場合、その通信装置の位置を測位する機能をその通信装置やネットワークに設け、潜在クラス分析装置30はその位置をアクセス履歴として取得する。また、通信装置の装置IDを用いる場合、潜在クラス分析装置30は通信装置の装置IDをアクセス履歴として取得する。
【0068】
<変形例5>
ところで、制御部31は、実施形態のようなアクセス履歴をセッション単位で分類しなくてもよい。なぜなら、制御部31は、より上位の意味を持つカテゴリに属するURLを抽出し、これを潜在クラス分析に用いているので、仮にアクセス履歴をセッション単位で分類しなかったとしても、URLの抽象化を行わない場合と比べた場合には潜在クラス分析の精度が向上することを期待できるからである。このように、アクセス履歴をセッション単位で分類しない場合、第一のURL抽出部331aに相当する制御部31は、アクセス履歴から、各URLに対応するユーザIDごとにアクセス情報を抽出する処理のみを行う。つまり、第一のURL抽出部331aが発揮する機能として必須なのは、アクセス履歴から各URLに対応するユーザIDごとにアクセス情報を抽出することであって、これからさらにアクセス履歴をセッション単位で分類することは付加的な機能である。
【0069】
<変形例6>
URLがユーザによって指定される操作がなされたことを示す操作情報がアクセス履歴に含まれるようにし、制御部31は、図7のステップS101において、操作情報が対応付けられているアドレスのみを抽出して第一のURL集合を生成してもよい。この場合、通信装置が、通信装置に表示されたURLに対しユーザによる操作があったことを示す操作情報を、そのURLを含むウェブサーバ装置宛てのリクエストに付加する。潜在クラス分析装置30はそのリクエストをアクセス履歴として取得する。特にプロキシサーバ装置で蓄積されるようなアクセス履歴においては、ユーザがアクセスしたウェブページにおいてHTML(Hyper Text Markup Language)のAタグなどのリンクによって対応付けられたインラインオブジェクトの取得クエリであったり、ユーザの意図と関係なくリクエストされる広告ページのクエリであったりといった、多数のURLがアクセス先として含まれている。これらは、ユーザの潜在的な意図によってアクセスされたURLとは言えないので、第一のURL集合に含めるべきではない。上記のような操作情報を用いれば、ユーザの意図が反映されたアクセスのみを潜在クラス分析の対象とすることが可能となる。
【0070】
<変形例7>
潜在クラス分析装置30が用いる潜在クラス分析モデルは、実施形態に例示したLDAに限らず、ネットワーク上へのアドレスへのアクセス回数を入力とし、潜在クラス及び帰属確率を出力とするものであれば、どのようなものでもよい。
【0071】
<変形例8>
本発明は、潜在クラス分析装置30やこれを含む通信システム1だけでなく、コンピュータが行う潜在クラス分析方法や、コンピュータを潜在クラス分析装置として機能させるためのプログラムといった形態でも実施が可能である。かかるプログラムは、光ディスク等の記録媒体に記録した形態で提供されたり、インターネット等のネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にするなどの形態で提供されたりすることが可能である。
また、本発明を、潜在クラス分析モデルに入力する情報を生成するための第3のURL集合を抽出するアドレス抽出装置、アドレス抽出方法及びプログラムの発明として捉えることも可能である。この場合において、本発明の課題は、ネットワーク上の情報にアクセスするユーザの潜在的な意図をより正確に抽出するということである。
【符号の説明】
【0072】
1・・・通信システム、20・・・移動通信装置、30・・・潜在クラス分析装置、31・・・制御部、32・・・通信部、33・・・記憶部、40・・・ウェブサーバ装置、50・・・インターネット

【特許請求の範囲】
【請求項1】
ネットワーク上の複数のアドレスと、各々の当該アドレスに格納された情報が属するカテゴリとが対応付けられて記述された辞書であって、これら複数のカテゴリの間に上位概念から下位概念に至る階層関係が規定されている辞書を記憶する辞書記憶手段と、
各々の通信装置のユーザに割り当てられたユーザ識別情報と当該通信装置がアクセスしたアドレスとを含むアクセス履歴を取得する履歴取得手段と、
前記履歴取得手段によって取得されたアクセス履歴に含まれるアドレスを、当該アドレスに対応する前記ユーザ識別情報ごとに抽出する第一抽出手段と、
前記第一抽出手段によって抽出されたアドレスのうち、前記辞書に記述されているアドレスを抽出する第二抽出手段と、
前記第二抽出手段によって抽出されたアドレスのうち、前記辞書において対応付けられているカテゴリが階層関係にあるアドレスを特定し、特定したアドレスの中から、当該階層関係において最上位概念のカテゴリに対応付けられているアドレスを抽出する第三抽出手段と、
前記履歴取得手段によって取得されたアクセス履歴に基づき、前記通信装置が前記第三抽出手段によって抽出されたアドレスにアクセスした回数を当該アドレスごとにカウントするカウント手段と、
前記カウント手段によるカウント結果を潜在クラス分析モデルに当てはめて、第三抽出手段によって抽出されたアドレスに対するアクセスの確率分布を求め、当該確率分布によって表現される潜在クラスを生成する潜在クラス生成手段と、
前記潜在クラス生成手段によって生成された潜在クラスに対する、前記通信装置のユーザの帰属確率を算出する帰属確率算出手段と
を備える潜在クラス分析装置。
【請求項2】
前記アクセス履歴には、前記ユーザ識別情報および前記アドレスを、1または複数のアクセスからなるセッションごとに分類するための分類情報が含まれており、
前記第一抽出手段は、前記アクセス履歴に含まれる前記ユーザ識別情報および前記アドレスを前記分類情報に基づいて前記セッションごとに分類し、当該セッション単位で前記アドレスを抽出する
ことを特徴とする請求項1に記載の潜在クラス分析装置。
【請求項3】
前記第二抽出手段は、前記第一抽出手段によって抽出されたアドレスが前記辞書に記述されていれば当該アドレスを抽出するという手順を、前記第一抽出手段によって抽出された各々のアドレスについて順次行っていく過程において、既に抽出したアドレスについては新たな抽出は行わない
ことを特徴とする請求項1または2に記載の潜在クラス分析装置。
【請求項4】
前記第二抽出手段は、前記第一抽出手段によって抽出されたアドレスが前記辞書に記述されていない場合であっても、当該アドレスと前記辞書に記述されているアドレスとが予め決められた部分一致の条件を満たすときには、当該辞書に記述されている前記アドレスを抽出する
ことを特徴とする請求項1〜3のいずれか1項に記載の潜在クラス分析装置。
【請求項5】
前記第三抽出手段は、前記アドレスに加えて、前記辞書において当該アドレスに対応付けられたカテゴリを抽出し、
前記潜在クラス生成手段は、前記第三抽出手段によって抽出されたアドレスに対する処理と同じ処理を、前記第三抽出手段によって抽出された前記カテゴリに対しても行う
ことを特徴とする請求項1〜4のいずれか1項に記載の潜在クラス分析装置。
【請求項6】
前記アクセス履歴には、前記アドレスが前記ユーザによって指定される操作がなされたことを示す操作情報が含まれており、
前記第一抽出手段は、前記操作情報が対応付けられているアドレスのみを抽出する
ことを特徴とする請求項1〜5のいずれか1項に記載の潜在クラス分析装置。
【請求項7】
ネットワーク上の複数のアドレスと、各々の当該アドレスに格納された情報が属するカテゴリとが対応付けられて記述された辞書であって、これら複数のカテゴリの間に上位概念から下位概念に至る階層関係が規定されている辞書を記憶するコンピュータ装置が行う潜在クラス分析方法であって、
各々の通信装置のユーザに割り当てられたユーザ識別情報と当該通信装置がアクセスしたアドレスとを含むアクセス履歴を取得する履歴取得ステップと、
前記履歴取得ステップにおいて取得されたアクセス履歴に含まれるアドレスを、当該当該アドレスに対応する前記ユーザ識別情報ごとに抽出する第一抽出ステップと、
前記第一抽出ステップにおいて抽出されたアドレスのうち、前記辞書に記述されているアドレスを抽出する第二抽出ステップと、
前記第二抽出ステップにおいて抽出されたアドレスのうち、前記辞書において対応付けられているカテゴリが階層関係にあるアドレスを特定し、特定したアドレスの中から、当該階層関係において最上位概念のカテゴリに対応付けられているアドレスを抽出する第三抽出ステップと、
前記履歴取得ステップにおいて取得されたアクセス履歴に基づき、前記通信装置が前記第三抽出手段によって抽出されたアドレスにアクセスした回数を当該アドレスごとにカウントするカウントステップと、
前記カウントステップによるカウント結果を潜在クラス分析モデルに当てはめて、第三抽出ステップにおいて抽出されたアドレスに対するアクセスの確率分布を求め、当該確率分布によって表現される潜在クラスを生成する潜在クラス生成ステップと、
前記潜在クラス生成ステップにおいて生成された潜在クラスに対する、前記通信装置のユーザの帰属確率を算出する帰属確率算出ステップと
を備える潜在クラス分析方法。
【請求項8】
コンピュータを、
ネットワーク上の複数のアドレスと、各々の当該アドレスに格納された情報が属するカテゴリとが対応付けられて記述された辞書であって、これら複数のカテゴリの間に上位概念から下位概念に至る階層関係が規定されている辞書を記憶する辞書記憶手段と、
各々の通信装置のユーザに割り当てられたユーザ識別情報と当該通信装置がアクセスしたアドレスとを含むアクセス履歴を取得する履歴取得手段と、
前記履歴取得手段によって取得されたアクセス履歴に含まれるアドレスを、当該アドレスに対応する前記ユーザ識別情報ごとに抽出する第一抽出手段と、
前記第一抽出手段によって抽出されたアドレスのうち、前記辞書に記述されているアドレスを抽出する第二抽出手段と、
前記第二抽出手段によって抽出されたアドレスのうち、前記辞書において対応付けられているカテゴリが階層関係にあるアドレスを特定し、特定したアドレスの中から、当該階層関係において最上位概念のカテゴリに対応付けられているアドレスを抽出する第三抽出手段と、
前記履歴取得手段によって取得されたアクセス履歴に基づき、前記通信装置が前記第三抽出手段によって抽出されたアドレスにアクセスした回数を当該アドレスごとにカウントするカウント手段と、
前記カウント手段によるカウント結果を潜在クラス分析モデルに当てはめて、第三抽出手段によって抽出されたアドレスに対するアクセスの確率分布を求め、当該確率分布によって表現される潜在クラスを生成する潜在クラス生成手段と、
前記潜在クラス生成手段によって生成された潜在クラスに対する、前記通信装置のユーザの帰属確率を算出する帰属確率算出手段と
して機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2012−168582(P2012−168582A)
【公開日】平成24年9月6日(2012.9.6)
【国際特許分類】
【出願番号】特願2011−26445(P2011−26445)
【出願日】平成23年2月9日(2011.2.9)
【出願人】(392026693)株式会社エヌ・ティ・ティ・ドコモ (5,876)
【Fターム(参考)】