説明

文書検索装置、文書検索方法及びプログラム

【課題】ユーザの好むコンテンツをより精度よく提示できるようにする。
【解決手段】記憶部111には、文書の集合の中で複数のユーザによるアイテムごとの利用頻度の情報を含むユーザ/アイテムテーブル122と、ユーザごとの文書の集合の中から複数のアイテムが同時に利用された頻度の情報を含むアイテム/アイテムテーブル123と記憶されており、選択アイテムを選択したユーザと類似するユーザを、ユーザ/アイテムテーブル122に基づいて決定し、さらに、前記類似するユーザのアイテム/アイテムテーブル123に基づいてレコメンドスコアを算出して、レコメンドスコアが所定値よりも高いアイテムの情報を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は文書検索装置、文書検索方法及びプログラムに関し、特に、ユーザが好むと推定されたコンテンツを提示するために用いて好適な技術に関する。
【背景技術】
【0002】
従来の検索システムとしては、ユーザが入力したキーワードに一致するコンテンツを検索するタイプが主流であった。この検索システムでは、正しいキーワードを入力することができれば高速に検索結果が得られるが、ユーザは検索する度に新たにキーワードを考える必要がある。また、一般の不慣れなユーザにとっては正しいキーワードを構築することが困難であるという課題があった。
【0003】
このような課題を解決するため、ユーザがコンテンツを利用した履歴からユーザの嗜好を推定し、ユーザが好むと推定されたコンテンツを提示する情報推薦(レコメンド)技術が提案されている。例えば特許文献1には、インターネットの書籍販売サイトにおいてユーザが書籍を参照する際に、過去の他のユーザの購入履歴に基づき、参照する書籍を購入した他のユーザが別途購入した書籍を提示する技術が開示されている。この技術では、大量の購買履歴から複数のユーザが過去に購入したコンテンツの履歴を統計的に学習し、個人を特定しないままパターン化した類似の嗜好を持つユーザにコンテンツを推薦するものである。このようにインターネット上のECサイトでは、ユーザがそのコンテンツを好む条件を推定するのに「購入」という1つの指標に焦点が置かれている。
【0004】
一方、エンタープライズ環境における文書管理システムでは、ユーザは文書に対して様々な操作が可能であり、それぞれの操作の履歴は、書籍を購入する場合と比べてユーザがコンテンツを好むことを示す指標とはならない。したがって、オフィスの文書管理システムにおいては、単一の操作ではなく、複数の操作のそれぞれからユーザと文書との関連性、及び文書と文書との関連性を推定する必要がある。
【0005】
例えば特許文献2には、このようなオフィスの環境において関連文書を提示する技術が開示されている。特許文献2に記載の技術は、文書の作成から終了までのひとまとまりの操作内容を案件セッションとして管理し、該案件セッション毎の操作内容に基づいて文書同士の関連リンクを設ける。そして、ある文書が閲覧された際に、関連リンクに基づいて関連文書を表示している。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】米国特許第6266649号明細書
【特許文献2】特開2011−28447号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
オフィスなどの環境において文書を作成する際には、専門性や観点が異なり、文書を作成する目的が様々である。ユーザが同時に利用したコンテンツを提示すると、提示する文書に不要な文書が数多く出現してしまう。さらに、ユーザ間の類似度を計算して、類似するユーザが利用した文書を提示した場合も、条件によっては十分に適切な文書を提示することができない。例えば、履歴が少ない場合や、利用傾向がわずかに一致しているユーザが多数存在する場合、利用傾向が似たユーザを判断できない場合、ユーザが複数のグループに所属する場合などでは、不要な文書を数多く提示してしまう。
【0008】
本発明は前述の問題点に鑑み、ユーザの好むコンテンツをより精度よく提示できるようにすることを目的としている。
【課題を解決するための手段】
【0009】
本発明の文書検索装置は、文書の集合の中からユーザにより選択されたアイテムの情報を入力する入力手段と、前記文書の集合の中の複数のユーザによるアイテムごとの利用頻度の情報と、ユーザごとの前記文書の集合の中から複数のアイテムが同時に利用された頻度の情報とを記憶する記憶手段と、前記選択アイテムを選択したユーザと類似するユーザを、前記記憶手段に記憶されたアイテムごとの利用頻度の情報に基づいて決定する決定手段と、前記記憶手段に記憶された前記類似するユーザの前記複数のアイテムが同時に利用された頻度の情報に基づいて前記選択アイテムとの関連性を算出する算出手段と、前記算出手段によって算出された関連性が所定値よりも高いアイテムの情報を出力する出力手段とを有することを特徴とする。
【発明の効果】
【0010】
本発明によれば、ユーザの好むコンテンツをより精度よく提示することができ、ユーザの操作性を向上させることができる。
【図面の簡単な説明】
【0011】
【図1】実施形態に係る文書検索装置の構成例を示すブロック図である。
【図2】実施形態に係る文書検索システムの構成例を示す図である。
【図3】第1の実施形態におけるプロファイルを更新する処理及び文書集合の中から推薦する文書を決定する処理の手順の一例を示すフローチャートである。
【図4】ユーザ/アイテムテーブル及びアイテム/アイテムテーブルの一例を示す図である。
【図5】ユーザの操作履歴及び複数のグループの関係の一例を示す図である。
【図6】ユーザ/アイテムテーブル及びアイテム/アイテムテーブルを更新する詳細な処理手順の一例を示すフローチャートである。
【図7】第2の実施形態における文書集合の中から推薦する文書を決定する処理の手順の一例を示すフローチャートである。
【図8】第2の実施形態において、ディレクトリツリー上のアイテム間の距離及び類似度を説明する図である。
【図9】第2の実施形態において、ディレクトリツリー上のアイテム間の距離及び類似度を説明する図である。
【図10】第2の実施形態において、ディレクトリツリー上のアイテム間の距離及び利用頻度を説明する図である。
【発明を実施するための形態】
【0012】
(第1の実施形態)
以下、本発明の第1の実施形態について説明する。
図1は、本実施形態に係る文書検索装置100の構成例を示すブロック図である。
図1に示す文書検索装置100は、CPUであるデータ処理部115、記憶部111、表示部116、入力部113、及びネットワークI/F部117が含まれている。記憶部111には、操作履歴120及びプロファイル121が記憶されており、さらにプロファイル121には、ユーザ/アイテムテーブル122及びアイテム/アイテムテーブル123が格納されている。
【0013】
ユーザ/アイテムテーブル122には、ユーザとアイテムとの関係が格納されている。つまり、各ユーザの各アイテムの利用頻度の情報が格納されており、ユーザの類似性の計算に使用される。アイテム/アイテムテーブル123には、ユーザごとにアイテム間の関係が格納されている。つまり、同時に利用したアイテムの利用頻度の情報が格納されており、文書の関連性の計算に使用される。なお、アイテム/アイテムテーブル123はユーザ1人あたり1つ存在する。
【0014】
また、図1に示す文書検索装置100は、図2に示すように、ネットワーク201に接続されている。図2に示す例では、本実施形態に係る文書検索装置100は、ネットワーク201を介して第1のクライアント端末202と第2のクライアント端末203とに接続されている。
【0015】
次に、本実施形態に係る文書検索装置100における処理の流れについて、図3に基づいて説明する。なお、図3に示す各処理は、データ処理部115の制御により行われる。
図3(a)は、ユーザの操作履歴からプロファイル121を更新して記憶部111に記憶する処理手順の一例を示すフローチャートである。図3(a)の処理は、操作履歴120からユーザごとにアイテムの利用頻度を管理するユーザ/アイテムテーブルを作成する処理(S300)と、同時に利用したアイテムを管理するアイテム/アイテムテーブルを作成する処理(S301)とから構成される。
【0016】
また、図3(b)は、ユーザの操作に基づいて文書集合の中から推薦する文書を決定する処理手順の一例を示すフローチャートである。図3(b)の処理は、選択アイテムを取得する処理(S310)と、類似するユーザを決定する処理(S311)と、レコメンドスコアを算出する処理(S312)と、レコメンドアイテムを決定する処理(S313)とから構成される。
【0017】
まず、図3(a)に示す動作例を説明する。まず、入力部113またはネットワークI/F部117からユーザの操作情報が入力されると、処理を開始する。ここで、操作情報とは、ユーザがどの文書に対してどのような操作を行ったかに関する情報である。
【0018】
そして、ユーザ/アイテムテーブルを作成する処理(S300)では、記憶部111のプロファイル121に格納されるユーザ/アイテムテーブル122を作成する。図4(a)には、ユーザ/アイテムテーブル122の一例を示す。S300では、記憶部111に格納されているユーザの操作履歴120からユーザがどのアイテムを利用したかを操作履歴としてユーザ/アイテムテーブル122を作成する。なお、図5(a)には、各ユーザの操作履歴120の一例を示している。また、S300の詳細な処理手順については図6(a)の説明において後述する。
【0019】
次に、アイテム/アイテムテーブルを作成する処理(S301)では、記憶部111のプロファイル121に格納されるアイテム/アイテムテーブル123をユーザごとに作成する。図4(b)〜図4(d)には、ユーザごとのアイテム/アイテムテーブル123の一例を示している。S301では、記憶部111に格納されているユーザの操作履歴120から、図5(a)に示すように、ユーザごとに同時に利用していたアイテムの操作履歴を判別し、ユーザごとのアイテム/アイテムテーブル123を作成する。また、S301の詳細な処理手順については図6(b)の説明において後述する。
【0020】
次に、図3(b)に示す動作例を説明する。まず、入力部113またはネットワークI/F部117からの入力に応じて処理を開始し、選択アイテムを取得する処理(S310)では、クライアント端末等でユーザが選択したアイテム(フォルダや文書)の情報を取得する。具体的には、入力部113またはネットワークI/F部117からの入力に応じてデータ処理部115が選択アイテムを判別する。
【0021】
次に、類似するユーザを決定する処理(S311)では、記憶部111のプロファイル121に格納されているユーザ/アイテムテーブル122を用いてログインしたユーザと他の全てのユーザとの類似性を計算する。具体的には、ユーザ/アイテムテーブル122から、各文書の利用頻度をベクトル要素とした多次元空間上のベクトルとしてユーザを表現し、2つのベクトルを比較することによりユーザの類似度を求める。つまり、ベクトルの方向はユーザの特徴を示すものであり、2つのベクトルのなす角が小さいほどユーザの特徴が互いに似ているということになる。そこで、ユーザごとに以下の式(1)を用いてユーザの類似度sim(x,y)を算出する。
【0022】
【数1】

【0023】
ここで、xはログインしたユーザを示し、yは比較するユーザを示している。また、rx,sは、ログインしたユーザのs番目の文書の利用頻度を示し、ry,sは、比較するユーザのs番目の文書の利用頻度を示す。さらに、Sxyは、文書の集合を示している。
【0024】
次に、以下の式(2)に示す類似度正規化計算式によりユーザの類似度を正規化する。なお、正規化された類似度normalized_sim(x,y)の最大値は1となる。
【0025】
【数2】

【0026】
そして、ログインしたユーザとの類似度が閾値以上のユーザを類似するユーザに決定する。類似度が閾値以上となるユーザが複数いる場合は、類似度の順位で決定することも可能である。
【0027】
図4(a)に示す例では、User1とUser1との間の類似度はユーザが同一人物であることから1となる。一方、式(1)及び式(2)により類似度を算出すると、User1とUser2との間の類似度は0.76となり、User1とUser3との間の類似度は0.65となる。さらに、User1とUser4との間の類似度は0.07となる。したがって、閾値を0.67とした場合、User1と類似するユーザはUser2に決定される。
【0028】
次に、レコメンドスコアを算出する処理(S312)では、S310で取得した選択アイテムがフォルダの場合と文書の場合とでは処理が異なる。選択アイテムがフォルダの場合は、選択されたフォルダに格納されたアイテムのレコメンドスコアを算出する。一方、選択アイテムが文書の場合は、類似するユーザにおいて選択された文書と同時に利用したアイテムのレコメンドスコアを算出する。
【0029】
具体的な計算方法は、選択アイテムがフォルダの場合、ユーザ/アイテムテーブル122を用いて、以下の式(3)により文書毎の利用頻度に対して重み付けしてレコメンドスコアscore(a,i)を算出する。
【0030】
【数3】

ここで、aはログインしたユーザを示し、Sは類似するユーザの全てを示している。そして、uは類似するユーザの1人を示している。また、wapは、ログインしたユーザの印刷操作の重みを示し、wavは、ログインしたユーザuの閲覧操作の重みを示している。同様に、wupは、類似するユーザuの印刷操作の重みを示し、wuvは、類似するユーザの閲覧操作の重みを示している。さらに、rp(u,i)は、ユーザuのi番目のアイテムに対する印刷頻度を示し、rv(u,i)は、ユーザuのi番目のアイテムに対する閲覧頻度を示している。
【0031】
次に、以下の式(4)によりレコメンドスコアを正規化する。
【0032】
【数4】

【0033】
例えば、重みを[ログインユーザ]:[グループユーザ]=2:1、[印刷頻度]:[閲覧頻度]=2:1とした場合、レコメンドスコアは以下のように算出される。つまり、「ログインしたユーザが過去によく印刷している文書」のレコメンドスコアは[出現回数]×2×2であり、「ログインユーザと同一グループに属するユーザが過去によく閲覧している文書」のレコメンドスコアは[出現回数]×1×1である。
【0034】
図4(a)に示す例では、Item1、Item2、及びItem3が格納されたフォルダが選択された場合、式(3)及び式(4)によりItem1、Item2、及びItem3のレコメンドスコアはそれぞれ、85、0、100と算出される。
【0035】
一方、選択アイテムが文書の場合は、S311で決定された類似するユーザ(ログインしたユーザも含む)のアイテム/アイテムテーブル123を用いてレコメンドスコアを算出する。すなわち、以下の式(5)により、類似するユーザが選択アイテムと同時に利用していた頻度とユーザの類似度とからレコメンドスコアscore(a,c,d)を計算する。
【0036】
【数5】

【0037】
ここで、cは選択アイテム(選択文書)を示し、dは選択文書と同時に利用していた文書を示す。また、p(d|c,u)は、類似するユーザuにおける選択文書cと文書dとの遷移確率(同時に利用した確率)を示す。
【0038】
例えば、Item4の文書が選択アイテムであり、類似するユーザがUser1(ログインユーザ)及びUser2である場合、図4(b)及び図4(c)に示すアイテム/アイテムテーブル123を用いてレコメンドスコアが算出される。前述した式(1)及び式(2)より、類似度はsim(User1,User1)=1、sim(User1,User2)=0.76である。また、図4(b)及び図4(c)に示すようにp(Item1|Item4,User1)=1、p(Item1|Item4,User2)=0.5となる。したがって、式(5)より、Item1のレコメンドスコアは0.78となり、Item5のレコメンドスコアは0.22となる。さらに、式(4)により正規化した場合は、Item1のレコメンドスコアは100となり、Item5のレコメンドスコアは28となる。このように、ログインしたユーザと類似度の高いユーザとが過去に選択文書と同時に使っていた確率が高い文書ほど、レコメンドスコアは高くなる。
【0039】
次に、レコメンドアイテムを決定する処理(S313)では、S312で算出されたレコメンドスコアの高い上位の文書(アイテム)をレコメンド結果とする。そして、設定された個数を上限に、閾値(所定値)以上のレコメンドスコアのアイテムからなるアイテムリストを作成し、ネットワークI/F部117からクライアント端末へ出力する。
【0040】
例えば、図4に示す例の場合、類似するユーザはUser1(ログインユーザ)とUser2であり、Item4が選択されたものとする。この場合、最大個数を4、レコメンドスコアの閾値を50とすると、Item1がレコメンドアイテムとして決定される。
【0041】
図6(a)は、図3(a)のS300におけるユーザ/アイテムテーブル122を作成する詳細な処理手順の一例を示すフローチャートである。図6(a)の処理は、関連履歴を判定する処理(S600)、ユーザIDを取得する処理(S601)、文書IDを取得する処理(S602)、ユーザ/アイテムテーブルを更新する処理(S603)、及び最終履歴を判定する処理(S604)から構成される。
【0042】
まず、関連履歴を判定する処理(S600)では、記憶部111に格納されている操作履歴120に基づいて、入力された操作情報の履歴が関連する履歴であるか否かを判定する。具体的には、操作情報におけるOpenやCheck-inなど、文書の表示や編集などに関係した履歴を判定する。この判定の結果、操作履歴120と関係ない履歴である場合は、最終履歴を判定する処理(S604)へ進む。
【0043】
一方、S600の判定の結果、操作履歴120と関係がある履歴である場合は、次のユーザIDを取得する処理(S601)において、操作情報からユーザのユーザIDを取得する。そして、文書IDを取得する処理(S602)において、操作情報からユーザが利用した文書の文書IDを取得する。
【0044】
続いて、ユーザ/アイテムテーブルを更新する処理(S603)では、S601で取得したユーザIDとS602で取得した文書IDとから、記憶部111に格納されたユーザ/アイテムテーブル122を更新する。例えば、図4(a)に示す例では、該当するユーザの該当する文書(Item)の欄に+1を加える。このように、ユーザ/アイテムテーブル122には、ユーザごとに利用した文書の利用頻度が格納される。
【0045】
次に、最終履歴を判定する処理(S604)では、操作情報の履歴が最終履歴であるか否かを判定する。この判定の結果、操作情報の履歴が最終履歴である場合は、処理を終了し、最終履歴でない場合は、S600に戻る。
【0046】
図6(b)は、図3(a)のS301におけるアイテム/アイテムテーブル123を作成する詳細な処理手順の一例を示すフローチャートである。図6(b)の処理は、関連履歴を判定する処理(S610)、ユーザIDを取得する処理(S611)、文書IDを取得する処理(S612)、アイテム/アイテムテーブルを更新する処理(S613)、及び最終履歴を判定する処理(S614)から構成される。
【0047】
まず、関連履歴を判定する処理(S610)では、同時に利用した文書の履歴があるか否かを判定する。このとき、操作情報の履歴から文書を開いた時間など関連した履歴を抽出し、開いた時間の間隔が閾値以下である文書を同時に利用した文書と判定する。また、文書を開いた時間及び閉じた時間の履歴を抽出し、文書を開いている時間(表示中の状態または編集中の状態の時間)が重なっている場合に同時に利用した文書と判定してもよい。
【0048】
S610の判定の結果、同時に利用した文書の履歴である場合は、ユーザIDを取得する処理(S611)に進み、同時に利用した文書の履歴がない場合は、最終履歴を判定する処理(S614)へ進む。ユーザIDを取得する処理(S611)では、操作情報の履歴からユーザIDを取得し、ユーザIDに対応するユーザごとのアイテム/アイテムテーブル123を記憶部111から読み出す。
【0049】
次に、文書IDを取得する処理(S612)では、操作情報の履歴から、同時に利用された文書IDのペアを取得する。そして、アイテム/アイテムテーブルを更新する処理(S613)では、S612で取得した文書IDのペアからアイテム/アイテムテーブル123を更新する。例えば、図4(b)に示す例で、Item1とItem4の文書IDのペアを取得した場合は、Item1の行でItem4の列である欄と、Item4の行でItem1の列である欄とに+1を加える。
【0050】
最終履歴を判定する処理(S614)では、操作情報の履歴が最終履歴であるか否かを判定する。この判定の結果、操作情報の履歴が最終履歴である場合は、処理を終了し、最終履歴でない場合は、S610に戻る。
【0051】
以上の処理により、ユーザ/アイテムテーブルとアイテム/アイテムテーブルとが作成される。このように本実施形態によれば、類似するユーザが同時に利用しているアイテムを提示することにより、精度よくユーザの好むアイテムを提示することができ、ユーザの操作の負荷を軽減することができる。
【0052】
(第2の実施形態)
以下、本発明の第2の実施形態について説明する。第1の実施形態では、操作履歴120の情報が少ない場合は、類似するユーザがないと判定される状態が頻発する。また、類似度が低く同じ類似度のユーザが多数存在する状態も少なくない。そこで本実施形態では、この課題を解決するような類似するユーザを決定する方法について説明する。なお、本実施形態に係る文書検索装置の構成については図1と同様であるため、説明は省略する。また、ユーザ/アイテムテーブル122及びアイテム/アイテムテーブル123を作成する処理も第1の実施形態と同様であるため、説明は省略する。
【0053】
図7は、ユーザの操作に基づいて文書集合の中から推薦する文書を決定する処理手順の一例を示すフローチャートである。図7の処理は、選択アイテムを取得する処理(S700)と、類似するユーザを決定する処理(S702)と、レコメンドスコアを算出する処理(S703)と、レコメンドアイテムを決定する処理(S704)とを有している。る。さらに第1の実施形態とは異なり、図7の処理は、アイテム間の距離を算出する処理(S701)を有する。
【0054】
まず、選択アイテムを取得する処理(S700)は、図3(b)のS310と同様である。次に、アイテム間の距離を算出する処理(S701)では、S700で取得された選択アイテムと各アイテムとのディレクトリツリー上のパスの距離を算出する。比較の対象が選択したアイテム自身の場合は、距離を1とする。また、親のフォルダとの距離を2とし、同じ親のフォルダ内の異なるアイテムとの距離を3とする。同様に、親フォルダと同列のアイテムやフォルダとの距離を4とし、親フォルダと同列のフォルダに格納されているアイテムとの距離を5とする。
【0055】
例えば、図8(a)に示すようなフォルダ構成であり、選択アイテムがItem1であるものとする。この場合、図8(a)の各Item中に記載された距離Lがアイテム間の距離となる。例えば、選択アイテムであるItem1とItem1自身との距離Lは1であり、Item1とItem2との距離Lは3であり、Item1とItem4との距離Lは5である。
【0056】
次に、類似するユーザを決定する処理(S702)では、記憶部111のプロファイル121に格納されているユーザ/アイテムテーブル122を用いてログインしたユーザと他の全てのユーザとの類似性を計算する。まず、以下の式(6)により、ログインしたユーザのフォルダ単位頻度rx,Siを算出する。
【0057】
【数6】

【0058】
ここで、xはログインしたユーザを示し、rx,sは、ログインしたユーザのs番目のフォルダの利用頻度を示す。また、Lsは、選択アイテムとs番目のアイテムとのアイテム間の距離を示し、Siは、i番目のフォルダに格納されているアイテムの集合を示している。
【0059】
次に、ユーザごとに以下の式(7)を用いてユーザの類似度sim(x,y)を算出する。そして、前述した式(2)を用いてユーザの類似度を正規化する。
【0060】
【数7】

【0061】
ここで、yは比較するユーザを示し、ry,Siは、比較するユーザのフォルダ単位頻度ユを示す。さらに、Sxyは、フォルダの集合を示している。
【0062】
前述したように、図8(a)に示す例で選択アイテムがItem1である場合、図8(a)の各Item中に記載された距離Lがアイテム間の距離になる。その結果、図8(b)に示すようなユーザ/アイテムテーブル122と類似度の計算結果とが得られ、User1と類似するユーザは類似度が0.97であるUser2となる。また、選択アイテムがItem4である場合は、アイテム間の距離Lは図8(c)に示すものとなり、ユーザ/アイテムテーブル122は図9(d)に示すものとなる。この場合、User1と類似するユーザは類似度が0.98であるUser3となる。
【0063】
また、選択アイテムがItem9である場合は、アイテム間の距離Lは図9(a)に示すものとなり、ユーザ/アイテムテーブル122は図9(b)に示すものとなる。この場合、User1と類似するユーザは類似度が0.7であるUser2及びUser3となる。同様に、選択アイテムとしてfolder1を選択した場合は、各アイテム間の距離Lは図9(c)に示すものとなり、ユーザ/アイテムテーブル122は図9(d)に示すものとなる。この場合、User1と類似するユーザは類似度が0.96であるUser2となる。
【0064】
以上のような例では、図5(b)に示すような関係を推定し、複数のグループに所属したユーザがどちらに関連したことを現在行っているかを、選択したアイテムによって動的に推定している。また、Itemではなくfolderを選択している場合でも、User1が利用している各アイテムのアイテム間の距離を利用することにより各アイテムの関連性を推定できるため、有効である。
【0065】
例えば、図10(a)に示すようなディレクトリツリーでUser1が利用しているItem1、Item3及びItem4からのアイテム間の距離で割った値の総和を利用頻度とする場合、図10(b)に示すような利用頻度となる。そして、前述の式(6)及び式(7)により類似度を計算すると、User1に対するUser2の類似度は0.74であり、User3の類似度は0.68となる。したがって、類似度の閾値を0.67に設定した場合、User2及びUser3が類似するユーザと決定することができる。
【0066】
次のレコメンドスコアを算出する処理(S703)及びレコメンドアイテムを決定する処理(S704)についてはそれぞれ、図3(b)のS312、S313と同様である。
【0067】
以上のようにアイテム間の距離から類似度を求め、選択アイテムから現在の状況を推測することにより、選択したフォルダや文書がどのグループでよく利用されているかを動的に推定してレコメンデーションの精度を向上させることができる。したがって、ユーザの操作性を向上させることできる。
【0068】
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
【符号の説明】
【0069】
111 記憶部
113 入力部
115 データ処理部
117 ネットワークI/F部
120 操作履歴
121 プロファイル
122 ユーザ/アイテムテーブル
123 アイテム/アイテムテーブル

【特許請求の範囲】
【請求項1】
文書の集合の中からユーザにより選択された選択アイテムの情報を入力する入力手段と、
前記文書の集合の中の複数のユーザによるアイテムごとの利用頻度の情報と、ユーザごとの前記文書の集合の中から複数のアイテムが同時に利用された頻度の情報とを記憶する記憶手段と、
前記選択アイテムを選択したユーザと類似するユーザを、前記記憶手段に記憶されたアイテムごとの利用頻度の情報に基づいて決定する決定手段と、
前記記憶手段に記憶された前記類似するユーザの前記複数のアイテムが同時に利用された頻度の情報に基づいて前記選択アイテムとの関連性を算出する算出手段と、
前記算出手段によって算出された関連性が所定値よりも高いアイテムの情報を出力する出力手段とを有することを特徴とする文書検索装置。
【請求項2】
前記記憶手段に記憶された情報を更新する更新手段をさらに有し、
前記入力手段は、文書の操作履歴の情報をも入力し、
前記更新手段は、前記入力手段によって入力された操作履歴の情報に基づいて前記記憶手段に記憶された情報を更新することを特徴とする請求項1に記載の文書検索装置。
【請求項3】
前記決定手段は、さらに前記選択アイテムとのアイテム間の距離に基づいて前記選択アイテムを選択したユーザと類似するユーザを決定する手段であることを特徴とする請求項1または2に記載の文書検索装置。
【請求項4】
前記選択アイテムがフォルダの場合、前記算出手段は、前記フォルダに格納されたアイテムごとの利用頻度の情報に基づいて前記選択アイテムとの関連性を算出することを特徴とする請求項1〜3の何れか1項に記載の文書検索装置。
【請求項5】
文書の集合の中の複数のユーザによるアイテムごとの利用頻度の情報と、ユーザごとの前記文書の集合の中から複数のアイテムが同時に利用された頻度の情報とを記憶する記憶手段を有する文書検索装置の文書検索方法であって、
前記文書の集合の中からユーザにより選択された選択アイテムの情報を入力する入力工程と、
前記選択アイテムを選択したユーザと類似するユーザを、前記記憶手段に記憶されたアイテムごとの利用頻度の情報に基づいて決定する決定工程と、
前記記憶手段に記憶された前記類似するユーザの前記複数のアイテムが同時に利用された頻度の情報に基づいて前記選択アイテムとの関連性を算出する算出工程と、
前記算出工程において算出された関連性が所定値よりも高いアイテムの情報を出力する出力工程とを有することを特徴とする文書検索方法。
【請求項6】
文書の集合の中の複数のユーザによるアイテムごとの利用頻度の情報と、ユーザごとの前記文書の集合の中から複数のアイテムが同時に利用された頻度の情報とを記憶する記憶手段を有する文書検索装置を制御するためのプログラムであって、
前記文書の集合の中からユーザにより選択された選択アイテムの情報を入力する入力工程と、
前記選択アイテムを選択したユーザと類似するユーザを、前記記憶手段に記憶されたアイテムごとの利用頻度の情報に基づいて決定する決定工程と、
前記記憶手段に記憶された前記類似するユーザの前記複数のアイテムが同時に利用された頻度の情報に基づいて前記選択アイテムとの関連性を算出する算出工程と、
前記算出工程において算出された関連性が所定値よりも高いアイテムの情報を出力する出力工程とをコンピュータに実行させることを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2013−109734(P2013−109734A)
【公開日】平成25年6月6日(2013.6.6)
【国際特許分類】
【出願番号】特願2011−256642(P2011−256642)
【出願日】平成23年11月24日(2011.11.24)
【出願人】(000001007)キヤノン株式会社 (59,756)