説明

情報推薦システム

【課題】Webページ間のアクセス履歴、Webページ内での操作情報を蓄積し、ユーザへのWebページ推薦に利用する。また、蓄積する情報をデータ容量、検索速度の点を考慮し、効率的に管理する。
【解決手段】ユーザのWebでの行動履歴からアクションパターン(Webページのアクセス履歴、Webページ内での操作情報を基に作成された情報)を作成し蓄積する手段と、蓄積したアクションパターンとアクティブユーザの行動履歴を突合せ、次にアクセスされるページを予測し、そのURLをハイパーリンク形式で送信する手段と、蓄積するアクションパターンを効率的に保持、検索できるように、アクションパターンが持つパラメタを設定する手段とを具備する情報推薦システムによって実現される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザのWeb上での一連の行動履歴に従い、ユーザがアクセスを希望すると推測されるWebページを動的に推薦する情報システムに関する。
【背景技術】
【0002】
近年、インターネット、並びにイントラネットにおいて、ユーザの嗜好に合ったWebページをユーザに推薦し提示する技術が注目されている。現在は、情報が氾濫している時代であり、ユーザは膨大なWebサイトの中から自分の望む情報を効率良く獲得しようとする。このような状況の中で、Webサイトへのアクセス状況を的確に把握し、発信したい情報を受け手に届ける、及び届いているかどうかを見極めることは重要である。企業のイントラネットにおいても、本傾向は顕著であり、大規模化、複雑化するイントラネットにおいて、ユーザが希望する情報をいかに効率良く提供するかはWebサイト管理者の重要な課題である。本課題を解決する手段として、Webページ間のアクセス履歴の解析、Webページ内でのユーザの操作解析がある。管理者はこれらの解析結果を基に取り出した情報を意思決定材料とし、ユーザの嗜好に合った情報を推薦することで、ユーザのニーズに応えることが可能である。
【0003】
このようなことを実現するものとして、例えば、特許文献1に示されるように、ユーザが閲覧しているWebページに含まれる文書から、ユーザが関心を持っている文書を判定し、ユーザのプロファイル情報を用いてページ情報を配信するものがある。この技術では、ユーザが閲覧しているWebページ内に存在するテキスト文書に対して、マウスオーバー、マウスによる選択動作が行われた際に前記ユーザのプロファイル情報を生成する手段と、前記プロファイル情報を利用して、前記ユーザの嗜好に類似した情報を推薦する手段により実現される。また、特許文献2に示されるように、Webアクセスルートを解析し、ユーザのページ間のアクセス履歴の中から高頻度なアクセスパターンを把握する手段の利用が挙げられる。また、非特許文献1に示されるように、抽出した高頻度なアクセスパターンをデータテーブルに保存し、アクティブユーザのアクセス履歴と、突合せを行うことで、ユーザが希望すると推測されるページ情報を抽出、推薦する手段の利用が挙げられる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2009-98927号公報
【特許文献2】特開2004-152209号公報
【非特許文献】
【0005】
【非特許文献1】山元理絵、小林大、吉原朋宏、小林隆志、横田治夫:アクセスログに基づくWebページ推薦におけるLCSの利用とその解析。情報処理学会論文誌Vol.48 NO.SIG 11(TOD 34)
【発明の概要】
【発明が解決しようとする課題】
【0006】
かかる従来の方法においては、次のような課題がある。
まず、特許文献1では、単一ページ内におけるテキスト文書に対してユーザが講じた操作情報から嗜好を判断し情報を推薦する。しかし、大規模イントラネットでは、ユーザが求める情報に達するには多数のページを跨ぎ、多数、多様なアクションが発生し得る。そのため、単一ページ内に存在するテキスト文書の内容のみで推薦を行うだけでは、ユーザが望む情報を十分に提供できるかが不明瞭である。
【0007】
また、特許文献2では、Webアクセスルートを解析し、ユーザのアクセスシーケンスの高頻度なパターンを把握している。しかし、この手段は、ユーザのページ間遷移のみに着目し、あくまで頻出経路を特定するものであり、ユーザに情報を推薦するという観点では検証が行われていない。
【0008】
さらに、非特許文献1では、特許文献2に示される手段を拡張している。具体的には、Webアクセスルートを解析し、ユーザのアクセスシーケンスを抽出、情報を保持するテーブルへ格納し、情報を保持するテーブルと、アクティブユーザのWebアクセス履歴とで突合せを行い、一致する情報をアクティブユーザに推薦する。しかし、この手段は、特許文献2と同様にあくまで頻出経路を推薦するものであり、情報推薦を行うための重要な判断要素であるWebページ内でのユーザの操作情報については考慮がなされていない。また、推薦を行う際の突合せ処理に要する計算時間量については考慮されておらず、大規模なイントラネットを対象とした場合には、前記計算時間量が大きく増加することが予測されるため、計算量を低減するための対応が必要である。
【課題を解決するための手段】
【0009】
本発明にかかる情報推薦システムは、従来技術の課題に鑑み為されたものであり、Webページのアクセス履歴、Webページ内での操作情報を基に作成したアクションパターンを生成、保存し、Web上でのアクティブユーザの行動履歴と突合せを行う際に用いることで、次にアクセスされるページを予測、推薦処理を行い、また、突合せを行う際の処理時間量の増加を考慮し、蓄積するアクションパターンを効率的に保持、検索できるように、アクションパターンが持つパラメタを調整する手段を具備することを特徴とする。
【発明の効果】
【0010】
本発明によれば、より好適に情報(特に、Webページ情報)を提供することが可能になる。
【図面の簡単な説明】
【0011】
【図1】本発明の情報推薦システムの一実施形態の概略構成を示す。
【図2】図1の実施形態のページ情報テーブル3に格納されている情報の例を示す。
【図3】図1の実施形態のアクションパターン情報テーブル4に格納されている情報の例を示す。
【図4】本発明の一実施形態の情報推薦システムの全体処理フロー図を示す。
【図5】図4に示されているアクションパターン情報登録処理の詳細フローを示す。
【図6】図4に示されているアクションパターン情報取得処理の詳細フローを示す。
【発明を実施するための形態】
【0012】
以下、本発明の一実施形態について図面を用いて説明する。
図1は、本発明における情報推薦システムの実施形態を示す構成図である。図1の実施形態は、ユーザ端末1、情報推薦システム2で構成されている。情報推薦システム2は、ページ情報テーブル3、アクションパターン情報テーブル4、ページ情報登録部5、アクションパターン情報テーブル更新部6、アクションパターン生成部7、アクションパターン取得部8で構成されている。
【0013】
図2は、ページ情報テーブル3の内容例であり、Webページに関しての情報が格納されている。ページ情報テーブル3に格納される情報は、Webページの名前を一意に特定する識別子であるページID(図2の301)、とWeb上でのページの所在を表すURL(Uniform Resource Locator)(図2の302)である。また、ページ情報テーブル3に登録されるページ情報は膨大な数に上るため、検索効率を考慮し、複数のテーブル領域に分散し管理を行う。テーブル領域の集合はPageTables = {T1,T2,T3,…,Tn}と表す。nはテーブル領域の数を示す。各テーブル領域には、ページの登録数量が均等に分散されるように、ページ情報の登録が行われる。各テーブル領域に保存されるページ情報のページIDには、テーブル領域名にテーブル領域に登録された順に連番数値を付与した値が設定される。具体的には、テーブル領域T1に登録されるページ情報のページIDは、T11、T12、T13のように値が設定される。
【0014】
図3は、アクションパターン情報の内容例であり、各パターン毎にマッチングページ数(図3の401)、マッチングパターンに含まれるページID(図3の402)(ページIDは1〜6の6段階の数値が設定された6つの項目から成る)、Webページ内に設置されたフォーム内に存在するSubmitボタンの押下やフォーム内に存在するテキストボックスへの文字列入力が検知された場合に1の値が設定される(通常は0の値が設定される)動的アクションフラグ(図3の403)、アクションパターンのユーザへの推薦優先度を表す重要度(図3の404)、アクションパターンが最初に登録された場合の日時が設定される初回登録日時(図3の405)、アクションパターンが更新された日時を表す最終参照日(図3の406)の情報が設定されている。また、アクションパターン情報テーブル4に登録されるアクションパターン情報は膨大な数に上るため、検索効率を考慮し、複数のテーブル領域に分割し情報の管理を行う。テーブル領域の集合はActionTables = {AT1,AT2,AT3,…,ATn}と表す。nはテーブル領域数を示す。
【0015】
図4は、本実施形態の情報推薦システムの全体の処理フローを示したものである。以下にこの処理フローについての説明を行う。
【0016】
ステップ11にて、イントラネット管理者からWebページのURL情報登録要請を受けたページ推薦システムはページ情報テーブル3を参照し、ユーザから登録要請を受けたURLがページ情報テーブル3に登録されているかを検索する。具体的には、前記ページ推薦システムは、ページ情報テーブル3の各テーブルに対して、効率的な文字列検索アルゴリズムの一種であるBoyer-Moore文字列検索アルゴリズムを用いて前記URLの検索を行う。本アルゴリズムは、検索対象文字列(キー)と検索対象テキストを重ね合わせて、末尾から先頭に向かって順番に文字の比較を行う。検索対象文字列(キー)と検索対象テキストの不一致が見つかった際に、不一致の原因になった文字に応じて検索対象文字列(キー)をずらす分量を工夫して変更することで、検索対象の照合を省略可能になる。検索できなかった場合は、ページ情報テーブル3に前記URLの登録を行う。検索できた場合は、登録処理は行わずに終了する。前記URLの登録は、より好適には、各テーブル領域のページ登録数量が均等に分散されるようにページ情報の登録を行う(厳密に等しくならなくとも構わない)。例えば、データを登録するテーブル領域を登録毎に変更してこれを実現する。このように、均等に分散する際設定されたユニークIDは、登録された前記WebページにHTMLタグとして埋め込まれ、前記Web閲覧装置から値を読み取ることができる。
【0017】
ステップ12では、イントラネット管理者から起動要請を受けたページ推薦システムが、図4に示すアクションパターン情報テーブル4に示す各領域をそれぞれ参照し、重要度が低く、最終参照日が古いレコードの削除を行う。具体的には、重要度が10未満かつ、最終参照日が現在の日時と比較して1ヶ月前のレコードを削除するといったように、予め定めた値との比較で、低い、古いを判断する。また、ページ推薦システムはアクションパターン情報テーブル4をソートキー(ページID1,ページID2,ページID3,ページID4,ページID5,ページID6,重要度)を用いてソートする。
【0018】
なお、ステップ11とステップ12は他の処理フローと別フローで実現する。すなわち、これらについては、他の処理フローと並行処理を行うなど、独立して処理してもよい。また、ステップ11,12と他のフローをシーケンシャルに処理してもよい。
【0019】
ステップ13では、前記Web閲覧装置がイントラネットにアクセスし、ユーザのイントラネット内の挙動を管理する。ステップ14では、Web閲覧装置はユーザがイントラネット内のWebページにて一連のアクションの切れ目と推測される行動を検出した際に、ステップ15にてユーザの挙動情報をページ推薦システムに送信する。一連のアクションの切れ目と推測される行動とは、Webページのフォーム上に設置されたSubmitボタンを押下する、Webページのフォーム上に設置されたテキストボックスに文字列を入力する、ページ内での滞在時間が制約時間(ここでは、60秒とする)を越える場合である。ここで、Submitボタンを押下、テキストボックスに文字列入力の行為を動的アクション、ページ内での滞在時間が制約時間を越える場合を静的アクションと呼ぶ。
【0020】
ステップ16にて、ページ推薦システムはアクションパターン情報テーブル4にアクセスし、アクションパターンを登録する。具体的には、ステップ1601にて、アクセスページのURL、アクセス時間などの中から、アクセスページのURLとアクセス時刻のペア(ページペアとする)をアクセス時刻が新しいものから順に5つ取得する(取得シーケンスとする)。情報の取得後、ステップ1602にて、ページ推薦システムがアクションパターン情報テーブル4にアクセスする。ページ推薦システムはステップ1603にて、ステップ1602においてシーケンスが取得できたかを確認する。ステップ1603にて存在が確認できた場合は、ページ情報テーブル3にアクセスを行い、ステップ1604にて、取得シーケンスの中から、3〜5の数値の範囲で最新のページペアを抽出し、それらを逆順に並べる。具体的には、取得シーケンスが、(T11,T12,T21,T22,T31)であった場合は、(T31,T22,T21,T12,T11)、(T31,T22,T21,T12)、(T31,T22,T21)の3つのパターンが選別される(これら、取得シーケンスの集合を登録用シーケンス集合とする)。次に、登録用シーケンス集合の各取得シーケンスに含まれるページIDをシーケンスの順番に利用し、アクションパターン情報テーブル4に対して検索を行う。ページペアのページID情報が順に、(T11,T12,T21,T22)であった場合は、まず、ページID= T11の頭文字T1と、アクションパターン情報テーブル4において、同一の頭文字を持つ領域Aの領域を検索対象に設定する(例えば、これらの各領域を識別する情報を所定領域に格納したり、検索対象であることを示すフラグ(情報)を対応付けて記憶する)。検索領域を設定した場合、検索キーにページペアのページID情報(T11,T12,T21,T22)を設定しアクションパターンの検索を実行する。検索の結果、既に登録が確認された場合は、登録されているアクションパターン情報の重要度のパラメタを5加算し、最終参照日の日時をアクションパターン情報テーブル4にアクセスした時刻で更新する。登録が確認されない場合は、登録用のアクションパターン情報を整形する。例えば、取得シーケンスに含まれるページペアのページIDが(T11,T12,T21,T22)であり、ステップ14にて、Webページのフォーム上に設置されたSubmitボタンを押下、若しくはWebページのフォーム上に設置されたテキストボックスに文字列を入力されていた場合は、登録するアクションパターンの各項目値は、マッチングページ数=3(ページペア数から1を減算したもの)、ページID1= T11、ページID2= T12、ページID3= T21、ページID4= T22、動的アクションフラグ=TRUE、重要度=5、初回登録日時=現在の時刻、最終参照日=現在の時刻、が設定される。ページペアのページIDが(T11,T12,T21)であり、ステップ14にて、Webページのフォーム上に設置されたSubmitボタンの押下、Webページのフォーム上に設置されたテキストボックスへの文字列入力が成されていない場合は、マッチングページ数=2、ページID1= T11、ページID2= T12、ページID3= T21、動的アクションフラグ=FALSE、重要度=5、初回登録日時=現在の時刻、最終参照日=現在の時刻、が設定される。
【0021】
ステップ17にて、Web閲覧装置は、ユーザがWebページ上のハイパーリンクを押下したことを検知した場合は、ステップ18にて挙動情報をページ推薦システムに送信する。ステップ19では、ページ推薦システムがステップ18にてWeb閲覧装置から挙動情報を受け取った際に次の処理を行う。ステップ1901にて、アクセスページのURL、アクセス時間などの中から、アクセスページのURLとアクセス時刻のページペアをアクセス時刻が新しいものから順に5つ取得し、逆順に並べて記録する(以下、これらを取得シーケンスとする)。次に、ステップ1902にて、ページ推薦システムがアクションパターン情報テーブル4にアクセスする。ページ推薦システムはステップ1903にて、ステップ1902にて取得シーケンスが取得できたかを確認する。ステップ1903にて取得シーケンスの存在が確認できた場合は、ステップ1904にて、取得シーケンスの中から、3〜5の数値の範囲で取りえる、連続するページペアの各パターンを抽出する。例えば、取得シーケンスが、(T11,T12、T21,T22,T31)であった場合は、(T11,T12,T21,T22,T31)、(T11,T12,T21,T22)、(T12,T21,T22,T31)、(T11,T12,T21)、(T12,T21,T22)、(T21,T22,T31)の6つが抽出される(これを、取得用シーケンスとする)。次に、各取得シーケンスに含まれる、ページペアのページIDをキーにページ情報テーブル3にて検索を行う。検索には、取得用シーケンスに含まれるページペアのページID情報を順に利用する。ページペアのページID情報が順に、(T11,T12,T21,T22)であった場合は、まず、ページID= T11の頭文字T1と、アクションパターン情報テーブル4において、同一の頭文字を持つ領域Aの領域を検索対象とする。検索領域の特定後は、検索キーにページペアのページID情報T11、T12、T21、T22を用いて情報検索を実行する。アクションパターン情報テーブル4において、同一の頭文字を持つ領域A:T1を検索対象とする。検索領域の特定後は、検索キーにページペアのページID情報T11、T12、T21、T22を用いて情報検索を実行する。検索の結果得られた表示用アクションパターンを重要度の昇順にソートし,重要度の高いものを順番に5つ抽出する(ここでは、より高いものが5つ抽出されればよく、その抽出順序は問わない)。ステップ1905にて,ステップ1904にて抽出した各アクションパターンについて,項目に値が設定されている最後尾のページIDを取得し、ページ情報テーブル3と突合せを行ない,当該ページIDと組になっているURLを取得する。突合せには、ページIDの頭文字を利用し,テーブル領域の特定を行った後に当該テーブル領域の検索を行う。具体的には、アクションパターンのページIDが順に(T11,T12,T13)であった場合は、T13の頭文字T1を用いてページ情報テーブル3との突合せを行い、同一の頭文字を持つ領域A:T1を検索対象とする。ステップ1906にて,ステップ1905にて取得したURLをWeb閲覧装置に送信する。ステップ20にて,Web閲覧装置はページ推薦システムから受信した各URLをハイパーリンク形式でユーザに提示する。提示したハイパーリンクがユーザに押下されたことを検知した場合は、当該アクションパターンの重要度に5を加算する。押下されなかったアクションパターンについては重要度を1減算する。
【0022】
ステップ21にて、Web閲覧装置はイントラサイトからの切断を検知した場合は、全体処理を終了する。検知しなかった場合は、ステップ13に処理を遷移する。
【0023】
本実施形態によれば、ユーザの目的と推測されるWebページの情報を推薦することで、情報へのアクセスタイムを短縮することができる。また、蓄積されたデータを分析することで、Webサイト運用者が冗長なアクセス経路を認識し、イントラサイトの再構築をスムーズに行えるよう支援に利用可能になる。また、Webページのアクセス履歴、Webページ内での操作情報を基にページ情報を推薦することで、より細やかに推薦を行うことができる。また、アクションパターンを保持する際に、各パターンに設定されたパラメタである重要度を参照し、前記重要度の低いパターンは保持しないこと、ページIDにユニークな値を設定しそれを効率良く組み合わせることで、保持する情報量の低減、検索速度の高速化が可能となる。
【符号の説明】
【0024】
1…ユーザ利用端末、2…ページ推薦システム

【特許請求の範囲】
【請求項1】
利用者のWebページに対する操作履歴に基づいて、当該利用者に対して推薦する情報であるWebページを特定する情報推薦システムにおいて、
前記利用者におけるいずれのWebページに対するアクセスしたかを示すアクセス履歴および当該アクセスしたWebページ内での操作情報の履歴の特徴を示す第1のアクションパターンを、前記利用者が利用したWebページと対応付けて記録しておく手段と、
前記利用者から、Webページへのアクセスおよび操作を受付ける手段と、
受付けた前記アクセスおよび操作の特徴を示す第2のアクションパターンを生成する手段と、
前記第2のアクションパターンに対応する第1のアクションパターンを特定する手段と、
特定された前記第1のアクションパターンに対応するWebページに遷移するための情報を出力する手段とを有することを特徴とする情報推薦システム。
【請求項2】
請求項1に記載の情報推薦システムにおいて、
前記生成する手段は、前記利用者の操作毎に第2のアクションパターンを生成し、
前記特定する手段は、生成される毎に第2のアクションパターンに対応する第1のアクションパターンを特定することを特徴とする情報推薦システム。
【請求項3】
請求項2に記載の情報推薦システムにおいて、
前記特定する手段は、前記第2のアクションパターンが、前記第1のアクションパターンの少なくともその一部に関連する場合、前記対応する第1のアクションパターンとして特定することを特徴とする情報推薦システム。
【請求項4】
請求項1乃至3のいずれかに記載の情報推薦システムにおいて、
生成された前記第2のアクションパターンが所定条件を満たす場合、前記第1のアクションパターンとして記録する手段をさらに有することを特徴とする情報推薦システム。
【請求項5】
請求項1乃至4のいずれかに記載の情報推薦システムにおいて、
前記出力する手段が出力した前記遷移するための情報が前記利用者に指定されたときに、前記第1のアクションパターンが含むパラメタである重要度に値を加算する手段と、指定されなかったときに、前記重要度の値を減算する手段とをさらに具備することを特徴とする情報推薦システム。
【請求項6】
請求項5に記載の情報推薦システムにおいて、
前記記録しておく手段において、前記重要度の値が一定値を下回り、かつ最終参照日が現在時刻から一定月以上経過している第1のアクションパターンを削除する手段をさらに有することで、前記記録しておく手段情報量の増加を調整可能であることを特徴とする情報推薦システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate