説明

情報処理装置、プログラム及び記録媒体

【課題】プライバシー保護を講じつつ、ユーザの操作しているデータに関連する情報をユーザ所望の情報として自動的かつ精度良く検索してユーザに提示できるようにする。
【解決手段】情報処理装置は、データを記憶する記憶手段と、ユーザが所定期間に操作したデータを含んでなる第1データ群から第1キーワード群を抽出し、記憶手段に記憶されたデータから第1データ群を除いたデータである第2データ群又は第1データ群から第2キーワード群を抽出するキーワード抽出手段と、データの検索を行う検索装置に対して第1キーワード群による検索を要求し、検索結果を取得する検索手段と、検索結果について、第2キーワード群を用いてユーザへのデータ提示の順位付けを行う提示順位付け手段と、を有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、プログラム及び記録媒体に関し、特に、ユーザの操作しているデータに関連する情報やユーザの所望する情報の検索に好ましく適用される技術に関するものである。
【背景技術】
【0002】
今日、インターネット等のネットワーク環境の普及に伴って、ネットワーク上のサーバに対して情報検索を行う情報検索システムが広く利用されている。このような情報検索システムとしては、例えばGoogle(登録商標)やヤフー(登録商標)等から提供されるインターネット検索エンジンも含まれる。これらの情報検索システムにおいては、入力された検索キーワードのヒット件数が多いことが少なくとも含まれるいくつかの条件をもとに重要と判断される情報を上から順に紹介するのが一般的である。検索する側からは検索キーワードが唯一の制御手段であるため、ユーザは、所望の情報を検索するために検索キーワードを正確に入力する必要がある。
【0003】
しかし、ユーザがどのような検索キーワードを入力すればよいか分からない場合にシステムで支援したり、操作負担の軽減のために自動化したい場合もある。その場合、システムで検索キーワードの意味情報を理解した上で検索キーワードを作成することは技術的に困難であることから、機械的に検索キーワードを作成することになる。そして、これらの情報検索システムにおける、機械的に作成されたキーワードを用いた検索結果はノイズ(ゴミ情報)が多く、ユーザの求める情報としての質は悪くなる。
【0004】
例えば特許文献1には、ユーザがファイルを経験したときの経験の強さを用いて、ユーザが目的のファイルを迅速に見つけることができるようにした検索方法が開示されている。当該検索方法では、過去の閲覧経験の強弱(閲覧時間の長さ)に基づいて検索結果の順序を変更している。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2006−185164号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1で開示された検索方法は、過去の閲覧時間の長さに基づいて検索結果の順序を変更してユーザ所望のファイルを見つけようとするものだが、必ずしも閲覧時間の長さがユーザの望む検索結果に結び付くわけではない。むしろ、ユーザの操作している時期・期間に着目し、所定の時期・期間にユーザが操作したデータに関連する情報の方がユーザの興味が反映されているといえる。また、情報についてデータを操作した場所に着目し、所定の場所やエリアでユーザが操作したデータに関連する情報がユーザの興味に反映されている場合もある。
【0007】
また、ユーザの求める情報としての質の良い検索結果を得るためには、より多くの検索キーワードを入力すればよいが、精度の高い検索結果を得るための検索キーワードにプライバシー情報が多分に含まれる場合、このような情報までネットワークを介して情報検索システムに送ってしまうことはプライバシー保護の観点から適切とはいえない。
【0008】
そこで、本発明は、プライバシー保護を講じつつ、ユーザの操作しているデータに関連する情報をユーザ所望の情報として自動的かつ精度良く検索してユーザに提示できるようにすることを目的とする。
【課題を解決するための手段】
【0009】
本発明の一側面である情報処理装置は、データを記憶する記憶手段と、ユーザが所定期間に操作したデータを含んでなる第1データ群から第1キーワード群を抽出し、記憶手段に記憶されたデータから第1データ群を除いたデータである第2データ群又は第1データ群から第2キーワード群を抽出するキーワード抽出手段と、データの検索を行う検索装置に対して第1キーワード群による検索を要求し、検索結果を取得する検索手段と、検索結果について、第2キーワード群を用いてユーザへのデータ提示の順位付けを行う提示順位付け手段と、を有する。第1データ群には、ユーザが所定期間に操作したデータと共通する情報を含む関連データが含まれるようにしてもよい。
【0010】
一つの態様として、本発明は、上記情報処理装置において、第1キーワード群が、第1データ群に含まれるキーワードの中で、第1データ群中の出現頻度と第2データ群中の出現頻度の比が第1閾値より高いキーワードからなり、第2キーワード群が、第2データ群に含まれるキーワードの中で、第2データ群中の出現頻度と第1データ群中の出現頻度の比が第2閾値より高いキーワードからなり、提示順位付け手段が、検索結果のうち第2キーワード群を含むものはデータ提示の順位を下げるものである。
【0011】
また、別の態様として、本発明は、上記情報処理装置において、第1キーワード群が、第1データ群に含まれるキーワードの中で、第1データ群中の出現頻度と第2データ群中の出現頻度の比が第1閾値より高いキーワードからなり、第2キーワード群が、第1データ群に含まれるキーワードの中で、第1データ群中の出現頻度と第2データ群中の出現頻度の比が第1閾値より低く第3閾値より高いキーワードからなり、提示順位付け手段が、検索結果のうち第2キーワード群を含むものはデータ提示の順位を上げるものである。
【0012】
また、別の態様として、本発明は、上記情報処理装置において、第1キーワード群が、第1データ群に含まれるキーワードの中で、第1データ群中の出現頻度と第2データ群中の出現頻度の比が第1閾値より高いキーワードからなり、第2キーワード群が、第2データ群に含まれるキーワードの中で、第2データ群中の出現頻度と第1データ群中の出現頻度の比が第2閾値より高いキーワードからなる第3キーワード群、及び、第1データ群に含まれるキーワードの中で、第1データ群中の出現頻度と第2データ群中の出現頻度の比が第1閾値より低く第3閾値より高いキーワードからなる第4キーワード群からなり、提示順位付け手段が、検索結果のうち、第3キーワード群を含むものはデータ提示の順位を下げ、第4キーワード群を含むものはデータ提示の順位を上げるものである。
【0013】
本発明の一側面であるプログラムは、データを記憶する記憶手段を備える情報処理装置に用いられるプログラムであって、コンピュータに、ユーザが所定期間に操作したデータを含んでなる第1データ群から第1キーワード群を抽出し、記憶手段に記憶されたデータから第1データ群を除いたデータである第2データ群又は第1データ群から第2キーワード群を抽出するキーワード抽出処理と、データの検索を行う検索装置に対して第1キーワード群による検索を要求し、検索結果を取得する検索処理と、検索結果について、第2キーワード群を用いてユーザへのデータ提示の順位付けを行う提示順位付け処理と、を実行させる。第1データ群には、ユーザが所定期間に操作したデータと共通する情報を含む関連データが含まれるようにしてもよい。
【0014】
一つの態様として、本発明は、上記プルグラムにおいて、第1キーワード群が、第1データ群に含まれるキーワードの中で、第1データ群中の出現頻度と第2データ群中の出現頻度の比が第1閾値より高いキーワードからなり、第2キーワード群が、第2データ群に含まれるキーワードの中で、第2データ群中の出現頻度と第1データ群中の出現頻度の比が第2閾値より高いキーワードからなり、提示順位付け処理が、検索結果のうち第2キーワード群を含むものはデータ提示の順位を下げるものである。
【0015】
また、別の態様として、本発明は、上記プログラムにおいて、第1キーワード群が、第1データ群に含まれるキーワードの中で、第1データ群中の出現頻度と第2データ群中の出現頻度の比が第1閾値より高いキーワードからなり、第2キーワード群が、第1データ群に含まれるキーワードの中で、第1データ群中の出現頻度と第2データ群中の出現頻度の比が第1閾値より低く第3閾値より高いキーワードからなり、提示順位付け処理が、検索結果のうち第2キーワード群を含むものはデータ提示の順位を上げるものである。
【0016】
また、別の態様として、本発明は、上記プログラムにおいて、第1キーワード群が、第1データ群に含まれるキーワードの中で、第1データ群中の出現頻度と第2データ群中の出現頻度の比が第1閾値より高いキーワードからなり、第2キーワード群が、第2データ群に含まれるキーワードの中で、第2データ群中の出現頻度と第1データ群中の出現頻度の比が第2閾値より高いキーワードからなる第3キーワード群、及び、第1データ群に含まれるキーワードの中で、第1データ群中の出現頻度と第2データ群中の出現頻度の比が第1閾値より低く第3閾値より高いキーワードからなる第4キーワード群からなり、提示順位付け処理が、検索結果のうち、第3キーワード群を含むものはデータ提示の順位を下げ、第4キーワード群を含むものはデータ提示の順位を上げるものである。
【0017】
本発明の一側面である記録媒体は、上記のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【発明の効果】
【0018】
本発明によれば、プライバシー保護を講じつつ、ユーザの操作しているデータに関連する情報をユーザ所望の情報として自動的かつ精度良く検索してユーザに提示することが可能となる。
【図面の簡単な説明】
【0019】
【図1】本発明の実施形態に係るPCのハードウェア構成を示した図である。
【図2】本発明の実施形態に係るPCの機能構成を示した図である。
【図3】本発明の実施形態に係る情報提示処理の流れを示したチャート図である。
【図4】本発明の実施形態(第1)に係るキーワード抽出処理の流れを示したチャート図である。
【図5】本発明の実施形態(第1)に係る順位付け処理の流れを示したチャート図である。
【図6】本発明の実施形態(第2)に係るキーワード抽出処理の流れを示したチャート図である。
【図7】本発明の実施形態(第2)に係る順位付け処理の流れを示したチャート図である。
【図8】本発明の実施形態(第3)に係る順位付け処理の流れを示したチャート図である。
【図9】本発明の実施形態におけるキーワード群及びこれを用いた順位付けを説明するための図である。
【発明を実施するための形態】
【0020】
以下、本発明の実施形態について図面を参照して説明する。
【0021】
[第1実施形態]
本発明の第1実施形態は、ユーザが着目している(例えば所定期間(例えば直近)に操作した)データである第1データ群から抽出した第1キーワード群を用いて外部の検索装置から検索結果を取得し、その検索結果について、ユーザの情報処理装置が保持するデータのうち第1データ群を除いた第2データ群から抽出した第2キーワード群を用いてユーザへの提示データの順位付けを行うことにより、プライバシー情報の流出を抑制しつつ、ユーザの操作しているデータに関連する情報をユーザ所望の情報として自動的かつ精度良く検索してユーザに提示しようとするものである。
【0022】
はじめに、本実施形態に係るPCの構成について説明する。図1は、本実施形態に係るPCのハードウェア構成を示した図である。本実施形態のPC1は、一般的なハードウェア構成を持つPCであり、CPU2、メモリ3、ハードディスク4、入力装置5、出力装置6を備える。CPU2は、メモリ3に格納されたOSや本実施形態特有のプログラムに従って、情報処理装置の全体動作制御を行うとともに、第1データ群から第1キーワード群を抽出して外部の検索装置から第1キーワード群による検索結果を取得し、第2データ群から第2キーワード群を抽出して該検索結果について第2キーワード群を用いて提示データの順位付けを行う。メモリ3は、OSや本実施形態特有のプログラムを格納する記憶領域(ROM)、CPU2の各種処理等で用いる作業用の記憶領域(RAM)を持つ。ハードディスク4は、ユーザの操作対象となるデータ等、各種データを保持する外部記憶装置である。入力装置5は、ユーザによる操作情報の入力を行う装置である。出力装置6は、各種データの画面出力を行う装置である。
【0023】
図2は、本実施形態に係るPCの機能構成を示した図である。本実施形態のPCは、CPU2がメモリ3に格納された本実施形態特有のプログラムを読み込んで、第1データ群から第1キーワード群を抽出して外部の検索装置から第1キーワード群による検索結果を取得し、第2データ群から第2キーワード群を抽出して該検索結果について第2キーワード群を用いて提示データの順位付けを行うための機能部である制御部100を構成する。制御部100は、プロパティ取得手段110、キーワード抽出手段120、検索手段130、提示順位付け手段140を論理的に有する。
【0024】
プロパティ取得手段110は、ハードディスク4に記憶されたデータ(ファイル)からプロパティを取得する。例えば、記憶されたデータが画像データの場合、GPS情報、日時、タグ情報(撮影機種、撮影感度等の撮影情報)等がプロパティとなる。また、Webページの場合、タイトル、本文、入力した文字データ等がプロパティとなる。
【0025】
キーワード抽出手段120は、プロパティ取得手段110が取得したプロパティのうち時系列(操作履歴)でグルーピングした所定期間に対応するプロパティ(第1データ群)から、第1データ群特有のキーワード(第1キーワード群)を抽出する。また、プロパティ取得手段110が取得したプロパティのうち第1データ群を除くプロパティ(第2データ群)から、第2データ群特有のキーワード(第2キーワード群)を抽出する。
【0026】
なお、第1データ群には、プロパティのほか後述するようにファイルも含む。また、ユーザが所定期間に操作したデータ(プロパティ、ファイル)のほかに、該操作データと共通する情報を含む関連データが第1データ群に含まれていてもよい。ユーザが所定期間に操作したデータに共通する情報としては、例えばニューヨークへの旅行中に撮影した写真画像のプロパティとしてのGPS情報(ニューヨークの位置情報)といった場所やエリアに関する情報が考えられる。そして、関連データは、ハードディスク4に記憶された所定期間の操作データ以外のデータ(例えば所定期間が直近の場合には過去に操作したデータ)で、このような場所やエリアに関する情報を含むデータである。
【0027】
検索手段130は、データの検索を行う外部の検索装置に対して、キーワード抽出手段120が抽出した第1キーワード群による検索を要求し、その検索結果を取得する。当該検索装置は、前述のGoogle(登録商標)やヤフー(登録商標)といったインターネット検索エンジンのほか、画像検索サービスのフリッカー、明細書検索サービスの特許庁ホームページにより各種検索サービスを行うサーバ装置が含まれる。
【0028】
提示順位付け手段140は、検索手段130が取得した検索結果について、キーワード抽出手段120が抽出した第2キーワード群を用いてユーザに提示するデータの順位付けを行う。
【0029】
次に、本実施形態に係るPC1が行う動作について説明する。図3は本実施形態に係る情報提示処理の流れを示したチャート図、図4は本実施形態に係るキーワード抽出処理の流れを示したチャート図、図5は本実施形態に係る順位付け処理の流れを示したチャート図である。はじめに、本実施形態のPCが行う全体の処理(情報提示処理:検索サービス等による検索結果を順位付けしてユーザに提示する処理)について述べる。
【0030】
まず、プロパティ取得手段110は、ハードディスク4に記憶されたファイルからプロパティを取得し(S1)、時系列(操作履歴)でグルーピングしてキーワード抽出に用いるプロパティ情報として保持する(S2)。操作履歴は、データの更新日時から把握することができる。また、グルーピングは、時系列(操作履歴)のほかにファイルの種類(拡張子)に基づいて行ってもよいし、ユーザに能動的に指定させてもよい。そして、プロパティ取得手段110は、時系列(操作履歴)でグルーピングされたプロパティとファイルをキーワード抽出手段120に送信する(S3)。ファイルを一緒に送信するのは、プロパティのみでは有効なキーワード抽出が期待できない場合があるためである(例えばWord(登録商標)のプロパティはタイトル、作成者等のみで本文の内容は含まれていない)。
【0031】
次に、キーワード抽出手段120は、プロパティ取得手段110からグルーピングされたプロパティとファイルを受信した後、所定期間(ここでは直近とする)に対応するプロパティとファイル(第1データ群)から第1キーワード群を抽出し、受信したプロパティ及びファイルのうち第1データ群を除いたもの(第2データ群)から第2キーワード群を抽出する(S4)。キーワード抽出処理の詳細については後述する。そして、キーワード抽出手段120は、抽出したキーワード群のうち第1キーワード群を検索手段130に送信する(S5)。
【0032】
次に、検索手段130は、外部の検索装置(例えばWebサーバ)に対して、キーワード抽出手段120から受信した第1キーワード群とともに検索要求を送信する(S6)。外部の検索装置は、PC1(検索手段130)から検索要求を受信した後、第1キーワード群を用いてデータ検索を行い(S7)、検索結果をPC1(検索手段130)に送信する(S8)。外部の検索装置からPC1に送信される検索結果には、画面表示される結果リストのみならず、表示対象のデータであるファイルが含まれる。含まれていない場合は、結果リストをもとにデータを取得すればよい。
【0033】
次に、検索手段130は、キーワード抽出手段120に対して検索結果を受信した旨を通知するとともに(S9)、提示順位付け手段140に検索結果を送信する(S10)。キーワード抽出手段120は、検索手段130からの通知を受けて、抽出したキーワード群のうち第2キーワード群を提示順位付け手段140に送信する(S11)。
【0034】
次に、提示順位付け手段140は、キーワード抽出手段120から受信した第2キーワード群を用いて、検索手段130から受信した検索結果について、ユーザに対する検索結果の表示順位付けを行う(S12)。順位付け処理の詳細については後述する。そして、提示順位付け手段140は、順位付け処理結果を出力装置6(ここでは表示装置とする)に出力するための表示データを生成し(S13)、出力装置6(表示装置)に送信する(S14)。
【0035】
次に、出力装置6(表示装置)は、提示順位付け手段140から受信した表示データを検索結果として画面表示する(S15)。なお、出力装置6は、表示装置のほかに音声出力装置でもよく、その場合には提示順位付け手段140で生成された音声出力データを検索結果として出力する。
【0036】
キーワード群の抽出処理について説明する。はじめに、図4(a)を参照して第1キーワード群の抽出処理について述べる。キーワード抽出手段120は、プロパティ取得手段110から受信したグルーピングされたプロパティとファイルから第1データ群に含まれ、未処理のプロパティ及びファイルを取得する(S101/YES、S102)。例えば、第1データ群の判断に用いるパラメータとして、現在の日付から3ヶ月前の日付をあらかじめ設定しておき、更新日がこれらの日付の範囲に含まれる場合に第1データ群に該当すると判断するようにすることができる。また、パラメータはユーザにより任意の値を設定できるようにしてもよく、こうすることでユーザが着目したい期間のプロパティやファイルを自由に指定することが可能である。
【0037】
次に、キーワード抽出120は、取得した未処理のプロパティ及びファイルについて単語に分解する処理を行う(S103)。単語の分解は公知の形態素解析ツールを用いて行うことができる。このような形態素解析ツールでは、対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付き単語リスト)を情報源として用いて、自然言語で書かれた文を形態素(言語で意味を持つ最小単位、ここでいう単語)の列に分解する。
【0038】
次に、キーワード抽出120は、未処理の単語を取得し(S104/YES、S105)、該単語の第1データ群中の出現頻度を求める(S106)。第1データ群中の出現頻度は、該単語を用いて第1データ群のプロパティ及びファイルを検索し、出現する回数(頻度)をカウントすることで求めることができる。また、同様にして、該単語の第2データ群中の出現頻度を求める(S107)。
【0039】
次に、キーワード抽出120第1データ群中の出現頻度と第2データ群中の出現頻度との比と所定の閾値(第1閾値)を比較し(S108)、出現頻度比が第1閾値より大きい場合(S108/YES)、該単語を第1キーワード群に追加する(S109)。
【0040】
これらの処理(S104〜S109)を未処理の単語がなくなるまで行い(S104/YES)、未処理の単語がなくなったら第1データ群のうち未処理のデータについて処理を行う(S101/YES、S102以降)。第1データ群で未処理のデータがなくなったら(S101/NO)、第1キーワード群の抽出処理を終了する。
【0041】
本実施形態では、図9(a)に示すように、第1データ群に含まれる単語(単語A)の、第1データ群中の出現頻度と第2データ群中の出現頻度の比が第1閾値より大きい場合に、該単語を第1キーワード群とする。このキーワード抽出手法は、文書データベースから文書を検索する技術として用いられるTFIDF法の考え方に沿うものである。TFIDF法では、求められる文書の特徴とは関係のない単語(助詞、接続詞等)による影響を排除して、求められる文書の特徴ベクトル(評価値)を得る。本実施形態において、第1データ群中の出現頻度と第2データ群中の出現頻度の比を用いるのは、第1データ群に特有の単語をキーワードとして抽出するためである。
【0042】
次いで、図4(b)を参照して第2キーワード群の抽出処理について述べる。基本的な処理は第1キーワード群の抽出処理と同様である。キーワード抽出手段120は、プロパティ取得手段110から受信したグルーピングされたプロパティとファイルから第2データ群に含まれ(第1データ群ではなく)、未処理のプロパティ及びファイルを取得する(S111/YES、S112)。
【0043】
次に、キーワード抽出120は、取得した未処理のプロパティ及びファイルについて単語に分解する処理を行う(S113)。そして、未処理の単語を取得して(S114/YES、S115)、該単語の第2データ群中の出現頻度を求め(S116)、該単語の第1データ群中の出現頻度を求める(S117)。そして、第2データ群中の出現頻度と第1データ群中の出現頻度との比と所定の閾値(第2閾値)を比較し(S118)、出現頻度比が第2閾値より大きい場合(S118/YES)、該単語を第2キーワード群に追加する(S119)。
【0044】
これらの処理(S114〜S119)を未処理の単語がなくなるまで行い(S114/YES)、未処理の単語がなくなったら第1データ群のうち未処理のデータについて処理を行う(S111/YES、S112以降)。第1データ群で未処理のデータがなくなったら(S111/NO)、第1キーワード群の抽出処理を終了する。
【0045】
本実施形態では、図9(a)に示すように、第2データ群に含まれる単語(単語B)の、第2データ群中の出現頻度と第1データ群中の出現頻度の比が第2閾値より大きい場合に、該単語を第2キーワード群とする。第2データ群中の出現頻度と第1データ群中の出現頻度の比を用いるのは、第2データ群に特有の単語をキーワードとして抽出するためである。
【0046】
本実施形態の順位付け処理(第2キーワード群を用いた順位付け処理)について図5を参照して説明する。まず、提示順位付け手段140は、検索手段130から受信した検索結果のうち未処理のものを取得する(S121/YES、S122)。そして、取得した検索結果を第2キーワード群で検索する(S123)。当該検索結果に第2キーワード群が含まれている場合(S124/YES)、該データ(第2キーワード群が含まれていたデータ)の表示順位を最下位にする(S125)。もしくは、最下位にする代わりに、該当した第2のキーワードの出現頻度比と第2の閾値との差異の大小で決まる順位だけ順位を下げる方法を用いてもよい。当該検索結果に第2キーワード群が含まれていない場合(S124/NO)、別の未処理の検索結果について同様の処理を行う(S121/YES、S122以降)。以上の処理を未処理の検索結果がなくなるまで行い、未処理の検索結果がなくなったら(S121/NO)、第2キーワード群を用いた順位付け処理を終了する。
【0047】
本実施形態の検索・順位付け処理の概念図を図9(b)に示す。本実施形態では、第1段階として、ユーザの着目しているデータ(第1データ群)特有の単語(第1キーワード群)を用いてネット上で検索を行う。ここでの検索結果は、第1キーワード群を含むものだが、同時に、PC1が保持するデータのうち第1データ群を除く第2データ群特有の単語(第2キーワード群)を含むものもある。そして、第2段階として、第1キーワード群による検索結果を第2キーワード群で検索し、該当するものの順位を下げる。これにより、該検索結果の中から第2データ群に関連するものを排除している。結果として、第1データ群に関連したデータを優先的に表示することができる。暫定的な結果を表示することができ、またメモリ消費量も少なくて済むというメリットがある。
【0048】
[第2実施形態]
本発明の第2実施形態は、第1データ群から抽出した第1キーワード群を用いて外部の検索装置から検索結果を取得し、その検索結果について、第1データ群から抽出した第3キーワード群を用いてユーザへの提示データの順位付けを行うことにより、プライバシー情報の流出を抑制しつつ、ユーザの操作しているデータに関連する情報をユーザ所望の情報として自動的かつ精度良く検索してユーザに提示しようとするものである。第1実施形態との違いは、提示データの順位付けに、第1キーワード群とは別の閾値を用いて第1データ群から抽出したキーワード群(第3キーワード群)を用いる点である。第1実施形態と共通する点は説明を省略し、相違する点について述べる。
【0049】
本実施形態のキーワード群の抽出処理について図6を参照して説明する。キーワード抽出手段120は、プロパティ取得手段110から受信したグルーピングされたプロパティとファイルから第1データ群に含まれ、未処理のプロパティ及びファイルを取得する(S201/YES、S202)。
【0050】
次に、キーワード抽出120は、取得した未処理のプロパティ及びファイルについて単語に分解する処理を行う(S203)。そして、未処理の単語を取得し(S204/YES、S205)、該単語の第1データ群中の出現頻度を求め(S206)、該単語の第2データ群中の出現頻度を求める(S207)。
【0051】
次に、キーワード抽出120は、第1データ群中の出現頻度と第2データ群中の出現頻度との比と所定の閾値(第1閾値)を比較し(S208)、出現頻度比が第1閾値より大きい場合(S208/YES)、該単語を第1キーワード群に追加する(S209)。出現頻度比が第1閾値以下の場合(S208/NO)、出現頻度比と所定の閾値(第3閾値)を比較し(S210)、出現頻度比が第3閾値より大きい場合(S210/YES)、該単語を第3キーワード群に追加する(S211)。
【0052】
これらの処理(S204〜S211)を未処理の単語がなくなるまで行い(S204/YES)、未処理の単語がなくなったら第1データ群のうち未処理のデータについて処理を行う(S201/YES、S202以降)。第1データ群で未処理のデータがなくなったら(S201/NO)、第1及び第3キーワード群の抽出処理を終了する。
【0053】
本実施形態では、図9(a)に示すように、第1データ群に含まれる単語(単語A)の、第1データ群中の出現頻度と第2データ群中の出現頻度の比が第1閾値より大きい場合に、該単語を第1キーワード群とし、この出現頻度比が第3閾値より大きく第1閾値以下の場合に、該単語を第3キーワード群としている。第1データ群中の出現頻度と第2データ群中の出現頻度の比を用いるのは、第1データ群に特有の単語をキーワードとして抽出するためである。また、第3閾値を用いて第3キーワード群を抽出しているのは、第1キーワード群を補完するキーワードを得るためである。
【0054】
本実施形態の順位付け処理(第3キーワード群を用いた順位付け処理)について図7を参照して説明する。まず、提示順位付け手段140は、検索手段130から受信した検索結果のうち未処理のものを取得する(S221/YES、S222)。そして、取得した検索結果を第3キーワード群で検索する(S223)。当該検索結果に第3キーワード群が含まれている場合(S224/YES)、該データ(第3キーワード群が含まれていたデータ)の表示順位を最上位にする(S225)。もしくは、最上位にする代わりに、該当した第3のキーワードの出現頻度比と第3の閾値との差異の大小で決まる順位だけ順位を上げる方法を用いてもよい。当該検索結果に第3キーワード群が含まれていない場合(S224/NO)、別の未処理の検索結果について同様の処理を行う(S221/YES、S222以降)。以上の処理を未処理の検索結果がなくなるまで行い、未処理の検索結果がなくなったら(S221/NO)、第3キーワード群を用いた順位付け処理を終了する。
【0055】
本実施形態の検索・順位付け処理の概念図を図9(b)に示す。本実施形態では、第1段階として、ユーザの着目しているデータ(第1データ群)特有の単語(第1キーワード群)を用いてネット上で検索を行う。ここでの検索結果は、第1データ群特有の単語の一部(第1キーワード群)で検索したもので、精度の甘さが残っている。そして、第2段階として、第1キーワード群による検索結果を第3キーワード群で検索し、該当するものの順位を上げる。これにより、第1データ群特有の単語をさらに用いて(第3キーワード群を用いて)、第1データ群に関連するものを検索している。結果として、第1データ群に関連したデータを優先的に表示することができる。さらに、ここで優先的に表示されるデータは、ユーザが着目したデータとしての質が高い。
【0056】
[第3実施形態]
本発明の第3実施形態は、第1実施形態と第2実施形態を組み合わせたもので、プライバシー情報の流出を抑制しつつ、ユーザの操作しているデータに関連する情報をユーザ所望の情報として自動的かつ精度良く検索してユーザに提示しようとするものである。第1実施形態及び第2実施形態で触れられていない処理について述べる。
【0057】
本実施形態の順位付け処理(第2及び第3キーワード群を用いた順位付け処理)について図8を参照して説明する。まず、提示順位付け手段140は、検索手段130から受信した検索結果のうち未処理のものを取得する(S321/YES、S322)。そして、取得した検索結果を第2キーワード群で検索する(S323)。当該検索結果に第2キーワード群が含まれている場合(S324/YES)、該データ(第2キーワード群が含まれていたデータ)の表示順位を最下位にする(S325)。当該検索結果に第2キーワード群が含まれていない場合(S324/NO)、次の処理(S326以降)に進む。
【0058】
次に、提示順位付け手段140は、取得した検索結果を第3キーワード群で検索する(S326)。当該検索結果に第3キーワード群が含まれている場合(S327/YES)、該データ(第3キーワード群が含まれていたデータ)の表示順位を最上位にする(S328)。当該検索結果に第3キーワード群が含まれていない場合(S327/NO)、別の未処理の検索結果について同様の処理を行う(S221/YES、S222以降)。以上の処理を未処理の検索結果がなくなるまで行い、未処理の検索結果がなくなったら(S221/NO)、第2及び第3キーワード群を用いた順位付け処理を終了する。
【0059】
本実施形態では、第1実施形態や第2実施形態と同様に、第1データ群に関連したデータを優先的に表示することができる。また、第2実施形態でも述べたように、ここで優先的に表示されるデータは、ユーザが着目したデータとしての質が高い。さらに、第1実施形態で述べたように、暫定的な結果を表示することができ、またメモリ消費量も少なくて済むというメリットがある。
【0060】
第1実施形態から第3実施形態として述べた本発明は、具体的な例として、例えばWebページ検索、画像検索、論文検索等に適用することができる。Webページ検索では、プロパティであるタイトル、本文、入力した文字データ等から第1キーワード群、第2キーワード群等を抽出し、外部の検索装置であるGoogle(登録商標)やヤフー(登録商標)等のインターネット検索エンジンから第1キーワード群を用いた検索結果を取得し、PCにおいて第2キーワード群等を用いて検索結果の表示順位付けを行う。
【0061】
画像検索では、位置情報(GPS情報)、時間情報(日時)、タグ情報(撮影機種、撮影感度、顔画像認識結果等)をプロパティとして用いて、これらから第1キーワード群、第2キーワード群等を抽出し、外部の検索装置である画像検索サービスのフリッカーから第1キーワード群を用いた検索結果を取得し、PCにおいて第2キーワード群等を用いて検索結果の表示順位付けを行う。例えば、秋に京都で撮影した画像データが第1データ群であるとき、京都の紅葉に関連した画像を優先的に画面表示することが可能である。また、第1キーワード群に撮影機種や撮影感度が含まれる場合、撮影手法に関するWebページをインターネット検索エンジンから取得して画面表示することも可能である。
【0062】
また、清水寺、二条城、四条河原町、・・・等での撮影画像がある場合、通常、個々の位置情報では頻度が不足して第1キーワード群にはならず、第3キーワード群となる。そのため、個々の詳細な位置情報は検索サイトには送信されず、十分な頻度となる「京都」というより広範囲な概要情報だけが送信される。これにより、プライバシー情報を保護することができる。その上で、第3キーワード群である「清水寺」、「二条城」、「四条河原町」等を用いて、ユーザの興味から遠い撮影画像がない地点での情報から、有用な情報を浮き上がらせることができる。
【0063】
さらに、第1データ群に、ユーザが所定期間に操作したデータのほかに、該操作データと共通する情報を含む関連データを含めるようにした場合、以下のようなことが可能である。すなわち、例えばユーザが直近にニューヨークへの旅行写真を用いてブログの更新をしていたような場合、直近操作データに関する場所であるニューヨークを共通の情報として持つ他の保持データからも第1キーワード群を抽出でき、こうして抽出した第1キーワード群を用いることで、ユーザの興味がより反映されているデータを検索して提示することができる。
【0064】
なお、上述する実施形態は、本発明の好適な実施形態であり、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。本発明が適用される情報処理装置として、PCのほか、携帯電話機やPDA等の携帯端末が挙げられる。
【0065】
また、本実施形態のPC1で実行されるプログラムは、先に述べた各手段(プロパティ取得手段110、キーワード抽出手段120、検索手段130、提示順位付け手段140)を含むモジュール構成となっており、実際のハードウェアを用いて具体的手段を実現する。すなわち、コンピュータ(CPU)が所定の記録媒体からプログラムを読み出して実行することにより上記各手段が主記憶装置上にロードされて生成される。
【0066】
本実施形態のPC1で実行されるプログラムは、インターネット等のネットワークに接続されたコンピュータ上に格納され、ネットワーク経由でダウンロードさせることにより提供されるように構成してもよい。また、上記プログラムをインターネット等のネットワーク経由で提供あるいは配布するように構成してもよい。
【0067】
また、上記プログラムは、インストール可能な形式又は実行可能な形式のファイルで、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD、不揮発性のメモリカード等のコンピュータで読み取り可能な記録媒体に記録されて提供されるように構成してもよい。また、上記プログラムは、ROM等にあらかじめ組み込んで提供するように構成してもよい。
【0068】
この場合、上記記録媒体から読み出された又は通信回線を通じてロードし実行されたプログラムコード自体が前述の実施形態の機能を実現することになる。そして、そのプログラムコードを記録した記録媒体は本発明を構成する。
【符号の説明】
【0069】
1 PC
2 CPU
3 メモリ
4 ハードディスク
5 入力装置
6 出力装置
100 制御部
110 プロパティ取得手段
120 キーワード抽出手段
130 検索手段
140 提示順位付け手段

【特許請求の範囲】
【請求項1】
データを記憶する記憶手段と、
ユーザが所定期間に操作したデータを含んでなる第1データ群から第1キーワード群を抽出し、前記記憶手段に記憶されたデータから前記第1データ群を除いたデータである第2データ群又は前記第1データ群から第2キーワード群を抽出するキーワード抽出手段と、
データの検索を行う検索装置に対して前記第1キーワード群による検索を要求し、検索結果を取得する検索手段と、
前記検索結果について、前記第2キーワード群を用いてユーザへのデータ提示の順位付けを行う提示順位付け手段と、
を有することを特徴とする情報処理装置。
【請求項2】
前記第1データ群には、ユーザが所定期間に操作したデータと共通する情報を含む関連データが含まれることを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記第1キーワード群は、前記第1データ群に含まれるキーワードの中で、前記第1データ群中の出現頻度と前記第2データ群中の出現頻度の比が第1閾値より高いキーワードからなり、
前記第2キーワード群は、前記第2データ群に含まれるキーワードの中で、前記第2データ群中の出現頻度と前記第1データ群中の出現頻度の比が第2閾値より高いキーワードからなり、
前記提示順位付け手段は、前記検索結果のうち前記第2キーワード群を含むものはデータ提示の順位を下げることを特徴とする請求項1又は2に記載の情報処理装置。
【請求項4】
前記第1キーワード群は、前記第1データ群に含まれるキーワードの中で、前記第1データ群中の出現頻度と前記第2データ群中の出現頻度の比が第1閾値より高いキーワードからなり、
前記第2キーワード群は、前記第1データ群に含まれるキーワードの中で、前記第1データ群中の出現頻度と前記第2データ群中の出現頻度の比が前記第1閾値より低く第3閾値より高いキーワードからなり、
前記提示順位付け手段は、前記検索結果のうち前記第2キーワード群を含むものはデータ提示の順位を上げることを特徴とする請求項1又は2に記載の情報処理装置。
【請求項5】
前記第1キーワード群は、前記第1データ群に含まれるキーワードの中で、前記第1データ群中の出現頻度と前記第2データ群中の出現頻度の比が第1閾値より高いキーワードからなり、
前記第2キーワード群は、前記第2データ群に含まれるキーワードの中で、前記第2データ群中の出現頻度と前記第1データ群中の出現頻度の比が第2閾値より高いキーワードからなる第3キーワード群、及び、前記第1データ群に含まれるキーワードの中で、前記第1データ群中の出現頻度と前記第2データ群中の出現頻度の比が前記第1閾値より低く第3閾値より高いキーワードからなる第4キーワード群からなり、
前記提示順位付け手段は、前記検索結果のうち、前記第3キーワード群を含むものはデータ提示の順位を下げ、前記第4キーワード群を含むものはデータ提示の順位を上げることを特徴とする請求項1又は2に記載の情報処理装置。
【請求項6】
前記データ記憶手段に記憶されたデータからプロパティを取得するプロパティ取得手段をさらに有し、
前記キーワード抽出手段は、少なくとも前記プロパティ取得手段で取得されたプロパティを用いて前記第1キーワード群及び前記第2キーワード群を抽出することを特徴とする請求項1から5のいずれか1項に記載の情報処理装置。
【請求項7】
前記キーワード抽出手段は、キーワード抽出の際、時間に関するキーワードについて、タイムスタンプを、年、半期、四半期、季節、月、日、オフィスアワー、午前、午後、起床時間帯、通勤通学時間帯、昼食時間帯、間食時間帯、夕食時間帯に置き換え、場所に関するキーワードについて、緯度経度及び観測精度の情報を、矩形や円形の複数の大きさの距離範囲、住所情報、郵便番号情報に置き換えることを特徴とする請求項6に記載の情報処理装置。
【請求項8】
データを記憶する記憶手段を備える情報処理装置に用いられるプログラムであって、
コンピュータに、
ユーザが所定期間に操作したデータを含んでなる第1データ群から第1キーワード群を抽出し、前記記憶手段に記憶されたデータから前記第1データ群を除いたデータである第2データ群又は前記第1データ群から第2キーワード群を抽出するキーワード抽出処理と、
データの検索を行う検索装置に対して前記第1キーワード群による検索を要求し、検索結果を取得する検索処理と、
前記検索結果について、前記第2キーワード群を用いてユーザへのデータ提示の順位付けを行う提示順位付け処理と、
を実行させることを特徴とするプログラム。
【請求項9】
前記第1データ群には、ユーザが所定期間に操作したデータと共通する情報を含む関連データが含まれることを特徴とする請求項8に記載のプログラム。
【請求項10】
前記第1キーワード群は、前記第1データ群に含まれるキーワードの中で、前記第1データ群中の出現頻度と前記第2データ群中の出現頻度の比が第1閾値より高いキーワードからなり、
前記第2キーワード群は、前記第2データ群に含まれるキーワードの中で、前記第2データ群中の出現頻度と前記第1データ群中の出現頻度の比が第2閾値より高いキーワードからなり、
前記提示順位付け処理は、前記検索結果のうち前記第2キーワード群を含むものはデータ提示の順位を下げることを特徴とする請求項8又は9に記載のプログラム。
【請求項11】
前記第1キーワード群は、前記第1データ群に含まれるキーワードの中で、前記第1データ群中の出現頻度と前記第2データ群中の出現頻度の比が第1閾値より高いキーワードからなり、
前記第2キーワード群は、前記第1データ群に含まれるキーワードの中で、前記第1データ群中の出現頻度と前記第2データ群中の出現頻度の比が前記第1閾値より低く第3閾値より高いキーワードからなり、
前記提示順位付け処理は、前記検索結果のうち前記第2キーワード群を含むものはデータ提示の順位を上げることを特徴とする請求項8又は9に記載のプログラム。
【請求項12】
前記第1キーワード群は、前記第1データ群に含まれるキーワードの中で、前記第1データ群中の出現頻度と前記第2データ群中の出現頻度の比が第1閾値より高いキーワードからなり、
前記第2キーワード群は、前記第2データ群に含まれるキーワードの中で、前記第2データ群中の出現頻度と前記第1データ群中の出現頻度の比が第2閾値より高いキーワードからなる第3キーワード群、及び、前記第1データ群に含まれるキーワードの中で、前記第1データ群中の出現頻度と前記第2データ群中の出現頻度の比が前記第1閾値より低く第3閾値より高いキーワードからなる第4キーワード群からなり、
前記提示順位付け処理は、前記検索結果のうち、前記第3キーワード群を含むものはデータ提示の順位を下げ、前記第4キーワード群を含むものはデータ提示の順位を上げることを特徴とする請求項8又は9に記載のプログラム。
【請求項13】
前記記憶手段に記憶されたデータからプロパティを取得するプロパティ取得処理をコンピュータにさらに実行させ、
前記キーワード抽出処理は、少なくとも前記プロパティ取得処理で取得されたプロパティを用いて前記第1キーワード群及び前記第2キーワード群を抽出することを特徴とする請求項8から12のいずれか1項に記載のプログラム。
【請求項14】
前記キーワード抽出処理は、キーワード抽出の際、時間に関するキーワードについて、タイムスタンプを、年、半期、四半期、季節、月、日、オフィスアワー、午前、午後、起床時間帯、通勤通学時間帯、昼食時間帯、間食時間帯、夕食時間帯に置き換え、場所に関するキーワードについて、緯度経度及び観測精度の情報を、矩形や円形の複数の大きさの距離範囲、住所情報、郵便番号情報に置き換えることを特徴とする請求項13に記載のプログラム。
【請求項15】
請求項8から14のいずれか1項に記載のプログラムを記録しコンピュータ読み取り可能なことを特徴とする記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2011−164851(P2011−164851A)
【公開日】平成23年8月25日(2011.8.25)
【国際特許分類】
【出願番号】特願2010−25640(P2010−25640)
【出願日】平成22年2月8日(2010.2.8)
【出願人】(302069930)NECパーソナルプロダクツ株式会社 (738)
【Fターム(参考)】