情報処理装置及びプログラム
【課題】検索キーワードを含まないが検索キーワードに関連している文書を検索の処理対象文に含まれる各単語と検索キーワードとの文法上の関係を示す情報を用いて検索する。
【解決手段】制御部は、検索キーワードに基づいて検索された複数の電子文書からなるクラスタの特徴を表す主成分ベクトルを算出する(S104)。また、制御部は、上記クラスタに属する複数の文書において検索キーワードと係り受け関係にある注目単語、を含む文書を検索する(S108)。そして、制御部は、検索した文書それぞれから注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における注目単語との構文的距離を算出するとともに、構文的距離に基づいて、検索した文書それぞれの特徴ベクトルを算出する(S109)。そして、制御部は、検索した文書のうち、その特徴ベクトルが上記クラスタの主成分ベクトルと類似する文書を特定する(S111)。
【解決手段】制御部は、検索キーワードに基づいて検索された複数の電子文書からなるクラスタの特徴を表す主成分ベクトルを算出する(S104)。また、制御部は、上記クラスタに属する複数の文書において検索キーワードと係り受け関係にある注目単語、を含む文書を検索する(S108)。そして、制御部は、検索した文書それぞれから注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における注目単語との構文的距離を算出するとともに、構文的距離に基づいて、検索した文書それぞれの特徴ベクトルを算出する(S109)。そして、制御部は、検索した文書のうち、その特徴ベクトルが上記クラスタの主成分ベクトルと類似する文書を特定する(S111)。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及びプログラムに関する。
【背景技術】
【0002】
近点のシステムのIT化に伴い、大量のデータ(例えば、文書など)がデータベースに蓄積されるようになった。それに伴い、蓄積されたデータの有効利用が各所で求められている。データベースから特定の情報を検索する際、ユーザはキーワードを入力する(以下、入力キーワードと表記する)。通常、入力キーワードを含まない文書は検索結果に現れないが、ユーザが必要とする文書の中には、入力キーワードを含まずとも例えば入力キーワードの同義語を含む文書が存在する。
【0003】
そこで、下記特許文献1には、入力キーワードの同義語、類義語、上位概念語、及び下位概念語等をシソーラス等の類語辞書を用いて求め、それを用いて検索を行うこと、が記載されている。
【0004】
ところで、例えば入力キーワードが最近生まれた語句である場合、類語辞書を用いても、入力キーワードの同義語、類義語、上位概念語、及び下位概念語などを求められない場合がある。そこで、下記特許文献2には、入力キーワードに基づいて検索された文書中に含まれる入力キーワード以外の語句を新たな入力キーワードとして再帰的に検索を行うこと、が記載されている。具体的には、特許文献2では、入力キーワードに基づいて検索された文書に含まれる、入力キーワードの近傍の語句が新たな入力キーワードとして用いられている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平09−198393号公報
【特許文献2】特開平08−153112号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明の目的は、検索キーワードを含まないが検索キーワードに関連している文書を検索の処理対象文に含まれる各単語と検索キーワードとの文法上の関係を示す情報を用いて検索できる情報処理装置を提供することである。
【課題を解決するための手段】
【0007】
上記課題を解決するための請求項1の発明は、所与の検索キーワードに基づいて検索された複数の文書から前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出する第1算出手段と、前記第1算出手段により算出された構文的距離に基づいて、前記複数の文書の各々の特徴ベクトルを算出する第1特徴ベクトル算出手段と、前記複数の文書の各々の特徴ベクトルに基づいて、前記複数の文書からなる文書群の特徴を表す主成分ベクトルを算出する主成分ベクトル算出手段と、前記複数の文書から抽出された文に含まれる単語のうちから前記文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である注目単語を含む文書を検索する検索手段と、前記検索手段により検索された文書それぞれから前記注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記注目単語との構文的距離を算出する第2算出手段と、前記第2算出手段により算出された構文的距離に基づいて、前記検索手段により検索された文書それぞれの特徴ベクトルを算出する第2特徴ベクトル算出手段と、前記検索手段により検索された文書のうち、その特徴ベクトルが前記文書群の主成分ベクトルと類似する文書を特定する特定手段と、前記特定手段により特定された文書を出力手段に出力させる出力制御手段と、を含む情報処理装置である。
【0008】
また、請求項2の発明は、請求項1の発明において、前記第1特徴ベクトル算出手段は、前記複数の文書から抽出された文に含まれる単語それぞれの評価値を、当該当該単語の構文的距離に基づいて算出する評価手段と、前記評価手段により算出された評価値に基づいて、前記複数の文書の各々の特徴ベクトルを算出する手段と、を含むことを特徴とする。
【0009】
また、請求項3の発明は、請求項2の発明において、前記第1特徴ベクトル算出手段は、前記複数の文書から抽出された文に含まれる単語と、前記複数の文書から抽出された文に含まれる他の単語と、が所定関係にある場合に、当該単語と当該他の単語をグループ化するグループ化手段と、前記複数の文書から抽出された文に含まれる単語と、前記複数の文書から抽出された文に含まれる他の単語と、が前記所定関係にある場合に、当該単語と当該他の単語とが所属するグループの評価値を、当該単語の評価値と当該他の単語の評価値と、に基づいて算出する手段と、をさらに含むこと、を特徴とする。
【0010】
ここで、単語と他の単語とが所定関係にある場合とは、例えば「両者のうちの一方が他方の類義語又は同義語である場合」である。また、例えば、単語と他の単語とが所定関係にある場合とは、「両者のうちの一方が動詞である場合において他方がその動詞の名詞形である場合」である。
【0011】
また、請求項4の発明は、請求項1の発明において、前記第1算出手段は、前記所与の検索キーワードに基づいて検索された他の複数の文書からも前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出し、前記第1特徴ベクトル算出手段は、前記他の複数の文書から抽出された文に含まれる単語それぞれの構文的距離に基づいて、前記他の複数の文書の各々の特徴ベクトルも算出し、前記主成分ベクトル算出手段は、前記他の複数の文書の各々の特徴ベクトルに基づいて、前記他の複数の文書からなる他の文書群の特徴を表す主成分ベクトルも算出し、前記検索手段は、前記他の複数の文書から抽出された文に含まれる単語のうちから前記他の文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である他の注目単語を含む他の文書も検索し、前記第2算出手段は、前記検索手段により検索された他の文書それぞれから前記他の注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記他の注目単語との構文的距離も算出し、前記第2特徴ベクトル算出手段は、前記他の文書のそれぞれから抽出した文に含まれる単語それぞれの構文的距離に基づいて、前記他の文書それぞれの特徴ベクトルも算出し、前記特定手段は、前記検索手段により検索された他の文書のうち、その特徴ベクトルが前記他の文書群の主成分ベクトルと類似する文書も特定し、前記出力制御手段は、前記特定手段により特定された文書及び他の文書を出力手段に出力させ、前記出力制御手段は、前記特定手段により特定された文書の特徴ベクトルと前記文書群の特徴を表す主成分ベクトルとの類似度と、前記特定手段により特定された他の文書の特徴ベクトルと前記他の文書群の特徴を表す主成分ベクトルとの類似度と、に応じた出力順位で、前記特定手段により特定された文書及び他の文書を前記出力手段に出力させること、を特徴とする。
【0012】
また、上記課題を解決するための請求項5の発明は、所与の検索キーワードに基づいて検索された複数の文書から前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出する第1算出手段、前記第1算出手段により算出された構文的距離に基づいて、前記複数の文書の各々の特徴ベクトルを算出する第1特徴ベクトル算出手段、前記複数の文書の各々の特徴ベクトルに基づいて、前記複数の文書からなる文書群の特徴を表す主成分ベクトルを算出する主成分ベクトル算出手段、前記複数の文書から抽出された文に含まれる単語のうちから前記文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である注目単語を含む文書を検索する検索手段、前記検索手段により検索された文書それぞれから前記注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記注目単語との構文的距離を算出する第2算出手段、前記第2算出手段により算出された構文的距離に基づいて、前記検索手段により検索された文書それぞれの特徴ベクトルを算出する第2特徴ベクトル算出手段、前記検索手段により検索された文書のうち、その特徴ベクトルが前記文書群の主成分ベクトルと類似する文書を特定する特定手段、前記特定手段により特定された文書を出力手段に出力させる出力制御手段、としてコンピュータを機能させるためのプログラムである。
【0013】
なお、上記プログラムは、インターネットなどの通信ネットワークを介して提供されてもよいし、フレキシブルディスク、CD−ROM、DVD−ROMなどのコンピュータ読み取り可能な各種情報記録媒体に格納されて提供されてもよい。
【0014】
また、上記プログラムは、コンピュータ読み取り可能な情報記録媒体に記憶されてもよい。情報記録媒体としては、例えば、磁気テープ、フレキシブルディスク、ハードディスク、CD−ROM、MO、MD、DVD−ROM、ICカードなどを用いてもよい。
【発明の効果】
【0015】
請求項1、請求項5の発明によれば、検索キーワードを含まないが処理対象文に含まれる各単語と検索キーワードとの構文的距離に基づいて、検索キーワードに関連している文書を検索し、特定することができる。
【0016】
請求項2の発明によれば、検索キーワードを含まないが検索キーワードに関連している文書を、本構成を有しない場合に比して精度よく検索できる。
【0017】
請求項3の発明によれば、検索キーワードを含まないが検索キーワードに関連している文書の検索に必要なデータ量を本構成を有しない場合に比して低減することができる。
【0018】
請求項4の発明によれば、処理対象文書、処理対象文書群の特徴を表すベクトルの類似度に応じた出力順位で検索結果を得ることができる。
【図面の簡単な説明】
【0019】
【図1】情報処理装置の構成を例示する図である。
【図2】文書データベースの記憶内容を例示する図である。
【図3】第1テーブルを例示する図である。
【図4】制御部が実行する処理を例示するフロー図である。
【図5】制御部が実行する処理を例示するフロー図である。
【図6】制御部が実行する処理を例示するフロー図である。
【図7】各単語の評価値Sを例示する図である。
【図8】各単語の評価値Sを例示する図である。
【図9】第3テーブルを例示する図である。
【図10A】第4テーブルを例示する図である。
【図10B】第4テーブルを例示する図である。
【発明を実施するための形態】
【0020】
以下、本発明の実施形態の例について図面に基づき詳細に説明する。
【0021】
図1は、本発明の一実施形態に係る情報処理装置1の構成を例示する図である。情報処理装置1は、例えばサーバであり、制御部2、主記憶4、表示部6、及びハードディスク8を備える。なお、情報処理装置1は、キーボードやマウスなどの操作入力手段(不図示)及び通信インタフェース(不図示)なども備えている。
【0022】
制御部2は、マイクロプロセッサであり、各種情報処理内容に応じて主記憶4に記憶されるプログラムに従って各種情報処理を実行する。主記憶4は、上記プログラムをハードディスク8などから読み込み格納している。このプログラムは、DVD(登録商標)−ROM等のコンピュータ読取可能な情報記憶媒体から読み出されて主記憶4、ハードディスク8に格納されてもよいし、ネットワーク等の通信網から供給されて主記憶4、ハードディスク8に格納されてもよい。また、主記憶4には、情報処理の過程で必要となる各種データも読み出され、格納される。
【0023】
表示部6は、CRTディスプレイや液晶ディスプレイなどであり、制御部2から入力される情報を出力する。
【0024】
ハードディスク8は、前述のプログラムの他、各種情報を記憶する情報記憶媒体であり、本実施形態の場合、ハードディスク8は、文書データベースを記憶している。図2は、文書データベースの記憶内容を例示する図である。同図に示すように、文書データベースには、複数の電子文書が格納される。同図に示すように、各電子文書に、固有の識別情報であるDidが付与されている。また、電子文書中の各文に、固有の識別情報であるSidが付与されている。また、図2に図示していないが、電子文書中の各単語に、固有の識別情報であるWidが付与されている。なお、同じ単語には同じWidが付与される。
【0025】
この情報処理装置1では、文書データベースに格納される各文書に対して形態素解析処理、構文解析、及び意味解析等の自然言語処理が実行され、自然言語処理の結果を示す第1テーブルが、各文ごとにハードディスク8に記憶されるようになっている。図3は、第1テーブルを例示する図である。ここでは、図3は、Did「D001」の電子文書に含まれるSid「S003」の文「勉強のあとの睡眠は記憶の定着に関係する。」の第1テーブルを例示している。同図に示すように、第1テーブルには、文中の各単語のWid及び品詞が格納されている。また、第1テーブルには、各単語の受け語のWidが格納されている。例えば、「勉強」と「あと」とは係り受け関係にあり、「あと」が「勉強」の受け語となっているので、第1テーブルには、「あと」のWidである「W002」が「勉強」の受け語として格納されている。なお、「関係する」は受け語を有さないので、「関係する」の受け語のWidとして「0」が格納される。そのため、「0」は受け語がないことを示すことになる。
【0026】
なお、第1テーブルには、各単語のtf−idf値なども格納される。
【0027】
この情報処理装置1では、ユーザが検索キーワードを入力すると、検索キーワードを含む電子文書が文書データベースのうちで検索されるようになっている。それだけでなく、この情報処理装置1では、検索キーワードを含まないが検索キーワードに関連している電子文書が漏れなく検索されるようになっている。以下、この点について説明する。
【0028】
図4は、キーボードやマウスなどの操作入力手段、あるいは通信インタフェースなど通信手段を経由して、検索キーワードが入力された場合に制御部2が実行する処理を例示するフロー図である。図4に示す処理は、制御部2が上記プログラムに従って動作することで実行される。以下、図4に示す処理を説明する。なお、ここでは、検索キーワードが「定着」であるものとする。
【0029】
制御部2は、文書データベースのうちで検索キーワードを含む電子文書を検索し、検索された複数の電子文書のDidを取得する(S101)。そして、制御部2(第1算出手段、第1特徴ベクトル算出手段)は、図5に示す処理を検索された電子文書それぞれに対して行うことにより、検索された電子文書それぞれの特徴ベクトルを算出する。以下図5に示す処理について説明する。なお、以下、処理対象となっている電子文書のことを処理対象文書と表記する。
【0030】
すなわち、制御部2(第1算出手段)は、処理対象文書から検索キーワードを含む文を抽出し、抽出した文それぞれのSidを取得する(S201)。そして、制御部2(第1算出手段、第1特徴ベクトル算出手段)は、抽出した文それぞれに対して図6に示す処理を実行することにより、それぞれの文の特徴ベクトルを算出する(S202)。以下、図6に示す処理について説明する。なお、以下、処理対象となっている文のことを処理対象文と表記する。
【0031】
すなわち、制御部2(第1算出手段)は、処理対象文の第1テーブルを参照して、処理対象文に含まれる各単語の検索キーワードからの構文的距離rを算出する(S301)。具体的には、制御部2は、検索キーワードとなっている単語の構文的距離rを「1」とする。また、制御部2は、検索キーワードの受け語となっている単語(以下、意味キーワードと表記する)の構文的距離rも「1」とする。また、制御部2は、構文的距離rが「N」(Nは正の整数)の単語に直接係っている単語の構文的距離rを「N+1」とする。図7に、文「勉強のあとの睡眠は記憶の定着に関係する。」が処理対象文である場合を例示した。同図に示すように、検索キーワードとなっている単語「定着」の構文的距離r、及び意味キーワードとなっている単語「関係する」の構文的距離rが「1」となっている。また、構文的距離rが「1」である単語「定着」に係っている単語「記憶」の構文的距離rと、構文的距離rが「1」である単語「関係する」に係っている単語「睡眠」の構文的距離rと、がともに「2」となっている。また、構文的距離rが「2」である単語「睡眠」に係っている単語「あと」の構文的距離が「3」となっている。また、構文的距離rが「3」である単語「あと」に係っている単語「勉強」の構文的距離が「4」となっている。
【0032】
そして、制御部2(第1特徴ベクトル算出手段)は、処理対象文に含まれる各単語の構文的距離rに基づいて、処理対象文の特徴ベクトルを算出する(S302)。具体的には、制御部2は、処理対象文に含まれる各単語につき、その構文的距離rに基づいて、評価値Sを算出する。本実施形態の場合、制御部2は、処理対象文に含まれる単語の構文的距離rの逆数を、その単語の評価値Sとして算出する。図7に、「勉強のあとの睡眠は記憶の定着に関係する。」が処理対象文である場合における各単語の評価値Sを例示した。また、図8に、他の処理対象文に含まれる各単語の評価値Sも例示した。こうして、処理対象文に含まれる単語の評価値Sを成分とする特徴ベクトルが算出される。各評価値Sにより処理対象文の特徴ベクトルが表される。例えば、「勉強のあとの睡眠は記憶の定着に関係する。」が処理対象文である場合、図7より、当該処理対象文の特徴ベクトルは、(0.25,0.33,0.5,0.5,1.0,1.0)となる。なお、図7及び図8に示すテーブル(以下、第2テーブルと表記する)は、処理対象文ごとに生成され、主記憶4に保持される。
【0033】
図6に示す処理をS202のステップで実行することにより、処理対象文書から抽出された文それぞれの特徴ベクトルを算出すると、制御部2(第1特徴ベクトル算出手段)は、それらの特徴ベクトルに基づいて、処理対象文書の特徴ベクトルを算出する(S203)。具体的には、制御部2は、処理対象文書から抽出された文それぞれの特徴ベクトルを統合することにより、処理対象文書の特徴ベクトルを算出する。例えば、処理対象文書から抽出された文それぞれについて図7に示す第2テーブルと図8に示す第2テーブルとが生成されている場合、制御部2は、それぞれの第2テーブルを統合して、第3テーブルを生成し、主記憶4に保存する。制御部2は、処理対象文書ごとに第3テーブルを生成することにより、処理対象文書それぞれの特徴ベクトルを算出する。
【0034】
図9は、図7に示す第2テーブルと第8に示す第2テーブルとを統合してなる第3テーブルを例示する図である。本実施形態の場合、第2テーブルに格納される単語が他の第2テーブルに格納される単語の類義語又は同義語であるか否かを制御部2がハードディスク8に予め記憶されるシソーラスに基づき判定するようになっており、前者の単語が後者の単語の類義語又は同義語である場合、制御部2が、両単語をグループ化し、且つ、それぞれの単語の評価値Sの和を、両単語が属するグループの評価値Sとして算出するようになっている。例えば、例えば、Wid「W001」の単語「勉強」はWid「W009」の単語「学習」の類義語であるため(図9参照)、両単語がグループ化され、且つ、両単語の評価値Sの和が、両単語が属するグループの評価値Sとして算出される。また、本実施形態の場合、第2テーブルに格納される名詞である単語が他の第2テーブルに格納される動詞である単語の名詞形の単語であるか否を制御部2が第1テーブルの記憶内容に基づいて判定するようになっており、前者の単語が後者の単語の名詞形の単語である場合、制御部2が、両単語をグループ化し、且つ、それぞれの単語の評価値Sの和を、両単語が属するグループの評価値Sとして算出するようになっている。例えば、Wid「W003」の単語「睡眠」はWid「W007」の単語「睡眠する」の名詞形の単語であるため(図9参照)、両単語がグループ化され、且つ、両単語の評価値Sの和が、両単語が属するグループの評価値Sとして算出される。なお、ここでは、グループに属する単語のいずれかのWidが、そのグループの識別情報として用いられる。
【0035】
各評価値Sにより処理対象文書の特徴ベクトルが表される。本実施形態の場合、第3テーブルに格納されていない単語の評価値Sは「0」に設定される。そのため、図9の場合、処理対象文書の特徴ベクトルは、(0.75,0.33,1.0,0.5,2.0,1.0,0.5,0,0,…,0)となる。
【0036】
こうして、S101のステップで検索された複数の電子文書の各々の特徴ベクトルを算出すると、制御部2は、S103のステップで、これらの電子文書を、所定のクラスタリング手法に従って、複数のクラスタに分類する。本実施形態の場合、クラスタリング手法として、Repeated Bisection法が用いられる。なお、他のクラスタリング手法(例えば、K-means法、leader-follower法)が用いられてもよい。
【0037】
また、制御部2(主成分ベクトル算出手段)は、S103のステップで、各クラスタに対して公知の主成分分析処理を行うことにより、クラスタごとに、当該クラスタの特徴を表す主成分ベクトルを、当該グループに属する複数の電子文書それぞれの特徴ベクトルに基づいて算出することも行う。本実施形態の場合、制御部2は、主成分ベクトル算出処理を行うことによりクラスタごとに第4テーブルを生成する。図10AにあるクラスタX(複数の文書、文書群)の第4テーブルを例示した。同図に示すように、第4テーブルには主成分となっている単語(以下、主成分語と表記する)ごとに、主成分ベクトル算出処理で算出されたその主成分語の評価値S1が格納される。なお、図10Bに、他のクラスタY(他の複数の文書、他の文書群)の第4テーブルも例示した。
【0038】
各評価値S1によりクラスタの主成分ベクトルが表される。本実施形態の場合、第4テーブルに格納されていない単語の評価値S1は「0」に設定される。そのため、図10Aの場合、クラスタXの主成分ベクトルは、(0,0,0.5661,0.7659,0,…,0)となる。
【0039】
こうして、各クラスタの主成分ベクトルを算出すると、制御部2は、各クラスタに対して、S104〜S112のステップの処理を実行する。以下、S104〜S112のステップについて説明する。なお、以下、処理対象となっているクラスタのことを、処理対象クラスタと表記する。
【0040】
すなわち、制御部2は、処理対象クラスタに属する電子文書の各々につき、検索キーワード(ここでは、「定着」)との一致度を示す数値を算出する(S104)。
【0041】
また、制御部2は、いわゆるbag of words検索処理を行うことにより、文書データベースのうちで、処理対象クラスタの主成分語(以下、Gキーワードと表記する)を含む電子文書を検索し、検索した電子文書のDidを取得する(S105)。そして、制御部2は、検索した電子文書それぞれにつき、Gキーワードとの一致度を示す数値を算出する(S106)。
【0042】
また、制御部2(検索手段)は、処理対象クラスタの主成分語ごとに、当該主成分語を含む第1テーブルを読み出し、読み出した第1テーブルに基づいて、処理対象クラスタの主成分語のうちで、検索キーワードを含む語と係り受け関係にある主成分語(以下、注目語と表記する)を特定する(S107)。ここでは、制御部2は、検索キーワードを含む語が受け語となっている主成分語、すなわち、検索キーワードを含む語の係り語となっている主成分語、を特定するが、検索キーワードを含む語の受け語となっている主成分語を特定してもよい。
【0043】
そして、制御部2(検索手段)は、文書データベースのうちで、注目語を含む電子文書を検索する(S108)。
【0044】
そして、制御部2(第2算出手段、第2特徴ベクトル算出手段)は、注目語を検索キーワードとしてS102のステップと同様の処理を行うことにより、S108で検索された電子文書それぞれの特徴ベクトルを算出する(S109)。
【0045】
そして、制御部2(特定手段)は、S108で検索された電子文書ごとに、その特徴ベクトルと処理対象クラスタの主成分ベクトルとの類似度を示す数値を算出する(S110)。具体的には、制御部2は、S108で検索された電子文書ごとに、その特徴ベクトルの単位ベクトルと、処理対象クラスタの主成分ベクトルの単位ベクトルと、の内積を算出する。
【0046】
そして、制御部2(特定手段)は、S108で検索された電子文書のうちで、その特徴ベクトルと処理対象クラスタの主成分ベクトルとの類似度が閾値以上の電子文書を特定する(S111)。そして、制御部2は、S105で検索された電子文書それぞれと、S111で特定された電子文書それぞれと、につき、上記検索キーワード(すなわち、「定着」)との一致度を算出する(S112)。S105で検索された電子文書については、原則、S106で算出された「Gキーワードとの一致度」が、当該電子文書の「検索キーワードとの一致度」として設定される。また、S111で特定された電子文書については、原則、S110で算出された類似度が、当該電子文書の「検索キーワードとの一致度」として設定される。但し、S105で検索され、且つ、S111で特定もされた電子文書については、制御部2は、S106で算出された「Gキーワードとの一致度」とS110で算出された類似度との平均値を、当該電子文書の「検索キーワードとの一致度」として算出する。
【0047】
こうして、S104〜S112のステップにより、処理対象クラスタに属する電子文書、S105で検索された電子文書、及びS111で特定された電子文書、のそれぞれにつき、検索キーワードとの一致度が算出される。また、S104〜S112のステップが全クラスタに対して行われることにより、S101のステップで検索された電子文書、クラスタごとにS105で検索された電子文書、及びクラスタごとにS111で特定された電子文書、のそれぞれにつき、検索キーワードとの一致度が算出される。
【0048】
全クラスタに対してS104〜S112のステップを実行すると、制御部2(出力制御手段)は、S101のステップで検索された電子文書それぞれ、クラスタごとにS105で検索された電子文書それぞれ、及びクラスタごとにS111で特定された電子文書それぞれのリストを、検索結果として表示部6(出力手段)に表示させる(S113)。この際、制御部2は、電子文書のリストを、電子文書それぞれの「検索キーワードとの一致度」に応じた表示順位で表示させる。例えば、制御部2は、電子文書の「検索キーワードとの一致度」が高いほどその電子文書のタイトルを上部に表示させる。
【0049】
以上のように、情報処理装置1では、特にS107乃至S111のステップが実行されるので、検索キーワードを含まないが検索キーワードに関連していると判定できる電子文書が検索されるようになる。
【0050】
なお、本発明の実施形態は上記実施形態だけに限らない。
【0051】
例えば、制御部2は、再帰的に電子文書のクラスタリングを行ってもよい。例えば、制御部2は、S103のステップのあと、クラスタごとに、当該クラスタの主成分ベクトルと、当該クラスタに属する電子文書それぞれの特徴ベクトルと、の類似度を算出するとともに、クラスタごとに、類似度が低い電子文書、すなわち、クラスタへの所属度が低い電子文書を特定してもよい。そして、制御部2が、所属度が低い電子文書として特定された電子文書の集合を対象に再度S103のステップを実行してもよい。
【0052】
また、例えばハードディスク8(すなわち、文書データベース)は、情報処理装置1と通信可能なデータベースサーバに設けられてもよい。
【符号の説明】
【0053】
1 情報処理装置、2 制御部、4 主記憶、6 表示部、8 ハードディスク。
【技術分野】
【0001】
本発明は、情報処理装置及びプログラムに関する。
【背景技術】
【0002】
近点のシステムのIT化に伴い、大量のデータ(例えば、文書など)がデータベースに蓄積されるようになった。それに伴い、蓄積されたデータの有効利用が各所で求められている。データベースから特定の情報を検索する際、ユーザはキーワードを入力する(以下、入力キーワードと表記する)。通常、入力キーワードを含まない文書は検索結果に現れないが、ユーザが必要とする文書の中には、入力キーワードを含まずとも例えば入力キーワードの同義語を含む文書が存在する。
【0003】
そこで、下記特許文献1には、入力キーワードの同義語、類義語、上位概念語、及び下位概念語等をシソーラス等の類語辞書を用いて求め、それを用いて検索を行うこと、が記載されている。
【0004】
ところで、例えば入力キーワードが最近生まれた語句である場合、類語辞書を用いても、入力キーワードの同義語、類義語、上位概念語、及び下位概念語などを求められない場合がある。そこで、下記特許文献2には、入力キーワードに基づいて検索された文書中に含まれる入力キーワード以外の語句を新たな入力キーワードとして再帰的に検索を行うこと、が記載されている。具体的には、特許文献2では、入力キーワードに基づいて検索された文書に含まれる、入力キーワードの近傍の語句が新たな入力キーワードとして用いられている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平09−198393号公報
【特許文献2】特開平08−153112号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明の目的は、検索キーワードを含まないが検索キーワードに関連している文書を検索の処理対象文に含まれる各単語と検索キーワードとの文法上の関係を示す情報を用いて検索できる情報処理装置を提供することである。
【課題を解決するための手段】
【0007】
上記課題を解決するための請求項1の発明は、所与の検索キーワードに基づいて検索された複数の文書から前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出する第1算出手段と、前記第1算出手段により算出された構文的距離に基づいて、前記複数の文書の各々の特徴ベクトルを算出する第1特徴ベクトル算出手段と、前記複数の文書の各々の特徴ベクトルに基づいて、前記複数の文書からなる文書群の特徴を表す主成分ベクトルを算出する主成分ベクトル算出手段と、前記複数の文書から抽出された文に含まれる単語のうちから前記文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である注目単語を含む文書を検索する検索手段と、前記検索手段により検索された文書それぞれから前記注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記注目単語との構文的距離を算出する第2算出手段と、前記第2算出手段により算出された構文的距離に基づいて、前記検索手段により検索された文書それぞれの特徴ベクトルを算出する第2特徴ベクトル算出手段と、前記検索手段により検索された文書のうち、その特徴ベクトルが前記文書群の主成分ベクトルと類似する文書を特定する特定手段と、前記特定手段により特定された文書を出力手段に出力させる出力制御手段と、を含む情報処理装置である。
【0008】
また、請求項2の発明は、請求項1の発明において、前記第1特徴ベクトル算出手段は、前記複数の文書から抽出された文に含まれる単語それぞれの評価値を、当該当該単語の構文的距離に基づいて算出する評価手段と、前記評価手段により算出された評価値に基づいて、前記複数の文書の各々の特徴ベクトルを算出する手段と、を含むことを特徴とする。
【0009】
また、請求項3の発明は、請求項2の発明において、前記第1特徴ベクトル算出手段は、前記複数の文書から抽出された文に含まれる単語と、前記複数の文書から抽出された文に含まれる他の単語と、が所定関係にある場合に、当該単語と当該他の単語をグループ化するグループ化手段と、前記複数の文書から抽出された文に含まれる単語と、前記複数の文書から抽出された文に含まれる他の単語と、が前記所定関係にある場合に、当該単語と当該他の単語とが所属するグループの評価値を、当該単語の評価値と当該他の単語の評価値と、に基づいて算出する手段と、をさらに含むこと、を特徴とする。
【0010】
ここで、単語と他の単語とが所定関係にある場合とは、例えば「両者のうちの一方が他方の類義語又は同義語である場合」である。また、例えば、単語と他の単語とが所定関係にある場合とは、「両者のうちの一方が動詞である場合において他方がその動詞の名詞形である場合」である。
【0011】
また、請求項4の発明は、請求項1の発明において、前記第1算出手段は、前記所与の検索キーワードに基づいて検索された他の複数の文書からも前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出し、前記第1特徴ベクトル算出手段は、前記他の複数の文書から抽出された文に含まれる単語それぞれの構文的距離に基づいて、前記他の複数の文書の各々の特徴ベクトルも算出し、前記主成分ベクトル算出手段は、前記他の複数の文書の各々の特徴ベクトルに基づいて、前記他の複数の文書からなる他の文書群の特徴を表す主成分ベクトルも算出し、前記検索手段は、前記他の複数の文書から抽出された文に含まれる単語のうちから前記他の文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である他の注目単語を含む他の文書も検索し、前記第2算出手段は、前記検索手段により検索された他の文書それぞれから前記他の注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記他の注目単語との構文的距離も算出し、前記第2特徴ベクトル算出手段は、前記他の文書のそれぞれから抽出した文に含まれる単語それぞれの構文的距離に基づいて、前記他の文書それぞれの特徴ベクトルも算出し、前記特定手段は、前記検索手段により検索された他の文書のうち、その特徴ベクトルが前記他の文書群の主成分ベクトルと類似する文書も特定し、前記出力制御手段は、前記特定手段により特定された文書及び他の文書を出力手段に出力させ、前記出力制御手段は、前記特定手段により特定された文書の特徴ベクトルと前記文書群の特徴を表す主成分ベクトルとの類似度と、前記特定手段により特定された他の文書の特徴ベクトルと前記他の文書群の特徴を表す主成分ベクトルとの類似度と、に応じた出力順位で、前記特定手段により特定された文書及び他の文書を前記出力手段に出力させること、を特徴とする。
【0012】
また、上記課題を解決するための請求項5の発明は、所与の検索キーワードに基づいて検索された複数の文書から前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出する第1算出手段、前記第1算出手段により算出された構文的距離に基づいて、前記複数の文書の各々の特徴ベクトルを算出する第1特徴ベクトル算出手段、前記複数の文書の各々の特徴ベクトルに基づいて、前記複数の文書からなる文書群の特徴を表す主成分ベクトルを算出する主成分ベクトル算出手段、前記複数の文書から抽出された文に含まれる単語のうちから前記文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である注目単語を含む文書を検索する検索手段、前記検索手段により検索された文書それぞれから前記注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記注目単語との構文的距離を算出する第2算出手段、前記第2算出手段により算出された構文的距離に基づいて、前記検索手段により検索された文書それぞれの特徴ベクトルを算出する第2特徴ベクトル算出手段、前記検索手段により検索された文書のうち、その特徴ベクトルが前記文書群の主成分ベクトルと類似する文書を特定する特定手段、前記特定手段により特定された文書を出力手段に出力させる出力制御手段、としてコンピュータを機能させるためのプログラムである。
【0013】
なお、上記プログラムは、インターネットなどの通信ネットワークを介して提供されてもよいし、フレキシブルディスク、CD−ROM、DVD−ROMなどのコンピュータ読み取り可能な各種情報記録媒体に格納されて提供されてもよい。
【0014】
また、上記プログラムは、コンピュータ読み取り可能な情報記録媒体に記憶されてもよい。情報記録媒体としては、例えば、磁気テープ、フレキシブルディスク、ハードディスク、CD−ROM、MO、MD、DVD−ROM、ICカードなどを用いてもよい。
【発明の効果】
【0015】
請求項1、請求項5の発明によれば、検索キーワードを含まないが処理対象文に含まれる各単語と検索キーワードとの構文的距離に基づいて、検索キーワードに関連している文書を検索し、特定することができる。
【0016】
請求項2の発明によれば、検索キーワードを含まないが検索キーワードに関連している文書を、本構成を有しない場合に比して精度よく検索できる。
【0017】
請求項3の発明によれば、検索キーワードを含まないが検索キーワードに関連している文書の検索に必要なデータ量を本構成を有しない場合に比して低減することができる。
【0018】
請求項4の発明によれば、処理対象文書、処理対象文書群の特徴を表すベクトルの類似度に応じた出力順位で検索結果を得ることができる。
【図面の簡単な説明】
【0019】
【図1】情報処理装置の構成を例示する図である。
【図2】文書データベースの記憶内容を例示する図である。
【図3】第1テーブルを例示する図である。
【図4】制御部が実行する処理を例示するフロー図である。
【図5】制御部が実行する処理を例示するフロー図である。
【図6】制御部が実行する処理を例示するフロー図である。
【図7】各単語の評価値Sを例示する図である。
【図8】各単語の評価値Sを例示する図である。
【図9】第3テーブルを例示する図である。
【図10A】第4テーブルを例示する図である。
【図10B】第4テーブルを例示する図である。
【発明を実施するための形態】
【0020】
以下、本発明の実施形態の例について図面に基づき詳細に説明する。
【0021】
図1は、本発明の一実施形態に係る情報処理装置1の構成を例示する図である。情報処理装置1は、例えばサーバであり、制御部2、主記憶4、表示部6、及びハードディスク8を備える。なお、情報処理装置1は、キーボードやマウスなどの操作入力手段(不図示)及び通信インタフェース(不図示)なども備えている。
【0022】
制御部2は、マイクロプロセッサであり、各種情報処理内容に応じて主記憶4に記憶されるプログラムに従って各種情報処理を実行する。主記憶4は、上記プログラムをハードディスク8などから読み込み格納している。このプログラムは、DVD(登録商標)−ROM等のコンピュータ読取可能な情報記憶媒体から読み出されて主記憶4、ハードディスク8に格納されてもよいし、ネットワーク等の通信網から供給されて主記憶4、ハードディスク8に格納されてもよい。また、主記憶4には、情報処理の過程で必要となる各種データも読み出され、格納される。
【0023】
表示部6は、CRTディスプレイや液晶ディスプレイなどであり、制御部2から入力される情報を出力する。
【0024】
ハードディスク8は、前述のプログラムの他、各種情報を記憶する情報記憶媒体であり、本実施形態の場合、ハードディスク8は、文書データベースを記憶している。図2は、文書データベースの記憶内容を例示する図である。同図に示すように、文書データベースには、複数の電子文書が格納される。同図に示すように、各電子文書に、固有の識別情報であるDidが付与されている。また、電子文書中の各文に、固有の識別情報であるSidが付与されている。また、図2に図示していないが、電子文書中の各単語に、固有の識別情報であるWidが付与されている。なお、同じ単語には同じWidが付与される。
【0025】
この情報処理装置1では、文書データベースに格納される各文書に対して形態素解析処理、構文解析、及び意味解析等の自然言語処理が実行され、自然言語処理の結果を示す第1テーブルが、各文ごとにハードディスク8に記憶されるようになっている。図3は、第1テーブルを例示する図である。ここでは、図3は、Did「D001」の電子文書に含まれるSid「S003」の文「勉強のあとの睡眠は記憶の定着に関係する。」の第1テーブルを例示している。同図に示すように、第1テーブルには、文中の各単語のWid及び品詞が格納されている。また、第1テーブルには、各単語の受け語のWidが格納されている。例えば、「勉強」と「あと」とは係り受け関係にあり、「あと」が「勉強」の受け語となっているので、第1テーブルには、「あと」のWidである「W002」が「勉強」の受け語として格納されている。なお、「関係する」は受け語を有さないので、「関係する」の受け語のWidとして「0」が格納される。そのため、「0」は受け語がないことを示すことになる。
【0026】
なお、第1テーブルには、各単語のtf−idf値なども格納される。
【0027】
この情報処理装置1では、ユーザが検索キーワードを入力すると、検索キーワードを含む電子文書が文書データベースのうちで検索されるようになっている。それだけでなく、この情報処理装置1では、検索キーワードを含まないが検索キーワードに関連している電子文書が漏れなく検索されるようになっている。以下、この点について説明する。
【0028】
図4は、キーボードやマウスなどの操作入力手段、あるいは通信インタフェースなど通信手段を経由して、検索キーワードが入力された場合に制御部2が実行する処理を例示するフロー図である。図4に示す処理は、制御部2が上記プログラムに従って動作することで実行される。以下、図4に示す処理を説明する。なお、ここでは、検索キーワードが「定着」であるものとする。
【0029】
制御部2は、文書データベースのうちで検索キーワードを含む電子文書を検索し、検索された複数の電子文書のDidを取得する(S101)。そして、制御部2(第1算出手段、第1特徴ベクトル算出手段)は、図5に示す処理を検索された電子文書それぞれに対して行うことにより、検索された電子文書それぞれの特徴ベクトルを算出する。以下図5に示す処理について説明する。なお、以下、処理対象となっている電子文書のことを処理対象文書と表記する。
【0030】
すなわち、制御部2(第1算出手段)は、処理対象文書から検索キーワードを含む文を抽出し、抽出した文それぞれのSidを取得する(S201)。そして、制御部2(第1算出手段、第1特徴ベクトル算出手段)は、抽出した文それぞれに対して図6に示す処理を実行することにより、それぞれの文の特徴ベクトルを算出する(S202)。以下、図6に示す処理について説明する。なお、以下、処理対象となっている文のことを処理対象文と表記する。
【0031】
すなわち、制御部2(第1算出手段)は、処理対象文の第1テーブルを参照して、処理対象文に含まれる各単語の検索キーワードからの構文的距離rを算出する(S301)。具体的には、制御部2は、検索キーワードとなっている単語の構文的距離rを「1」とする。また、制御部2は、検索キーワードの受け語となっている単語(以下、意味キーワードと表記する)の構文的距離rも「1」とする。また、制御部2は、構文的距離rが「N」(Nは正の整数)の単語に直接係っている単語の構文的距離rを「N+1」とする。図7に、文「勉強のあとの睡眠は記憶の定着に関係する。」が処理対象文である場合を例示した。同図に示すように、検索キーワードとなっている単語「定着」の構文的距離r、及び意味キーワードとなっている単語「関係する」の構文的距離rが「1」となっている。また、構文的距離rが「1」である単語「定着」に係っている単語「記憶」の構文的距離rと、構文的距離rが「1」である単語「関係する」に係っている単語「睡眠」の構文的距離rと、がともに「2」となっている。また、構文的距離rが「2」である単語「睡眠」に係っている単語「あと」の構文的距離が「3」となっている。また、構文的距離rが「3」である単語「あと」に係っている単語「勉強」の構文的距離が「4」となっている。
【0032】
そして、制御部2(第1特徴ベクトル算出手段)は、処理対象文に含まれる各単語の構文的距離rに基づいて、処理対象文の特徴ベクトルを算出する(S302)。具体的には、制御部2は、処理対象文に含まれる各単語につき、その構文的距離rに基づいて、評価値Sを算出する。本実施形態の場合、制御部2は、処理対象文に含まれる単語の構文的距離rの逆数を、その単語の評価値Sとして算出する。図7に、「勉強のあとの睡眠は記憶の定着に関係する。」が処理対象文である場合における各単語の評価値Sを例示した。また、図8に、他の処理対象文に含まれる各単語の評価値Sも例示した。こうして、処理対象文に含まれる単語の評価値Sを成分とする特徴ベクトルが算出される。各評価値Sにより処理対象文の特徴ベクトルが表される。例えば、「勉強のあとの睡眠は記憶の定着に関係する。」が処理対象文である場合、図7より、当該処理対象文の特徴ベクトルは、(0.25,0.33,0.5,0.5,1.0,1.0)となる。なお、図7及び図8に示すテーブル(以下、第2テーブルと表記する)は、処理対象文ごとに生成され、主記憶4に保持される。
【0033】
図6に示す処理をS202のステップで実行することにより、処理対象文書から抽出された文それぞれの特徴ベクトルを算出すると、制御部2(第1特徴ベクトル算出手段)は、それらの特徴ベクトルに基づいて、処理対象文書の特徴ベクトルを算出する(S203)。具体的には、制御部2は、処理対象文書から抽出された文それぞれの特徴ベクトルを統合することにより、処理対象文書の特徴ベクトルを算出する。例えば、処理対象文書から抽出された文それぞれについて図7に示す第2テーブルと図8に示す第2テーブルとが生成されている場合、制御部2は、それぞれの第2テーブルを統合して、第3テーブルを生成し、主記憶4に保存する。制御部2は、処理対象文書ごとに第3テーブルを生成することにより、処理対象文書それぞれの特徴ベクトルを算出する。
【0034】
図9は、図7に示す第2テーブルと第8に示す第2テーブルとを統合してなる第3テーブルを例示する図である。本実施形態の場合、第2テーブルに格納される単語が他の第2テーブルに格納される単語の類義語又は同義語であるか否かを制御部2がハードディスク8に予め記憶されるシソーラスに基づき判定するようになっており、前者の単語が後者の単語の類義語又は同義語である場合、制御部2が、両単語をグループ化し、且つ、それぞれの単語の評価値Sの和を、両単語が属するグループの評価値Sとして算出するようになっている。例えば、例えば、Wid「W001」の単語「勉強」はWid「W009」の単語「学習」の類義語であるため(図9参照)、両単語がグループ化され、且つ、両単語の評価値Sの和が、両単語が属するグループの評価値Sとして算出される。また、本実施形態の場合、第2テーブルに格納される名詞である単語が他の第2テーブルに格納される動詞である単語の名詞形の単語であるか否を制御部2が第1テーブルの記憶内容に基づいて判定するようになっており、前者の単語が後者の単語の名詞形の単語である場合、制御部2が、両単語をグループ化し、且つ、それぞれの単語の評価値Sの和を、両単語が属するグループの評価値Sとして算出するようになっている。例えば、Wid「W003」の単語「睡眠」はWid「W007」の単語「睡眠する」の名詞形の単語であるため(図9参照)、両単語がグループ化され、且つ、両単語の評価値Sの和が、両単語が属するグループの評価値Sとして算出される。なお、ここでは、グループに属する単語のいずれかのWidが、そのグループの識別情報として用いられる。
【0035】
各評価値Sにより処理対象文書の特徴ベクトルが表される。本実施形態の場合、第3テーブルに格納されていない単語の評価値Sは「0」に設定される。そのため、図9の場合、処理対象文書の特徴ベクトルは、(0.75,0.33,1.0,0.5,2.0,1.0,0.5,0,0,…,0)となる。
【0036】
こうして、S101のステップで検索された複数の電子文書の各々の特徴ベクトルを算出すると、制御部2は、S103のステップで、これらの電子文書を、所定のクラスタリング手法に従って、複数のクラスタに分類する。本実施形態の場合、クラスタリング手法として、Repeated Bisection法が用いられる。なお、他のクラスタリング手法(例えば、K-means法、leader-follower法)が用いられてもよい。
【0037】
また、制御部2(主成分ベクトル算出手段)は、S103のステップで、各クラスタに対して公知の主成分分析処理を行うことにより、クラスタごとに、当該クラスタの特徴を表す主成分ベクトルを、当該グループに属する複数の電子文書それぞれの特徴ベクトルに基づいて算出することも行う。本実施形態の場合、制御部2は、主成分ベクトル算出処理を行うことによりクラスタごとに第4テーブルを生成する。図10AにあるクラスタX(複数の文書、文書群)の第4テーブルを例示した。同図に示すように、第4テーブルには主成分となっている単語(以下、主成分語と表記する)ごとに、主成分ベクトル算出処理で算出されたその主成分語の評価値S1が格納される。なお、図10Bに、他のクラスタY(他の複数の文書、他の文書群)の第4テーブルも例示した。
【0038】
各評価値S1によりクラスタの主成分ベクトルが表される。本実施形態の場合、第4テーブルに格納されていない単語の評価値S1は「0」に設定される。そのため、図10Aの場合、クラスタXの主成分ベクトルは、(0,0,0.5661,0.7659,0,…,0)となる。
【0039】
こうして、各クラスタの主成分ベクトルを算出すると、制御部2は、各クラスタに対して、S104〜S112のステップの処理を実行する。以下、S104〜S112のステップについて説明する。なお、以下、処理対象となっているクラスタのことを、処理対象クラスタと表記する。
【0040】
すなわち、制御部2は、処理対象クラスタに属する電子文書の各々につき、検索キーワード(ここでは、「定着」)との一致度を示す数値を算出する(S104)。
【0041】
また、制御部2は、いわゆるbag of words検索処理を行うことにより、文書データベースのうちで、処理対象クラスタの主成分語(以下、Gキーワードと表記する)を含む電子文書を検索し、検索した電子文書のDidを取得する(S105)。そして、制御部2は、検索した電子文書それぞれにつき、Gキーワードとの一致度を示す数値を算出する(S106)。
【0042】
また、制御部2(検索手段)は、処理対象クラスタの主成分語ごとに、当該主成分語を含む第1テーブルを読み出し、読み出した第1テーブルに基づいて、処理対象クラスタの主成分語のうちで、検索キーワードを含む語と係り受け関係にある主成分語(以下、注目語と表記する)を特定する(S107)。ここでは、制御部2は、検索キーワードを含む語が受け語となっている主成分語、すなわち、検索キーワードを含む語の係り語となっている主成分語、を特定するが、検索キーワードを含む語の受け語となっている主成分語を特定してもよい。
【0043】
そして、制御部2(検索手段)は、文書データベースのうちで、注目語を含む電子文書を検索する(S108)。
【0044】
そして、制御部2(第2算出手段、第2特徴ベクトル算出手段)は、注目語を検索キーワードとしてS102のステップと同様の処理を行うことにより、S108で検索された電子文書それぞれの特徴ベクトルを算出する(S109)。
【0045】
そして、制御部2(特定手段)は、S108で検索された電子文書ごとに、その特徴ベクトルと処理対象クラスタの主成分ベクトルとの類似度を示す数値を算出する(S110)。具体的には、制御部2は、S108で検索された電子文書ごとに、その特徴ベクトルの単位ベクトルと、処理対象クラスタの主成分ベクトルの単位ベクトルと、の内積を算出する。
【0046】
そして、制御部2(特定手段)は、S108で検索された電子文書のうちで、その特徴ベクトルと処理対象クラスタの主成分ベクトルとの類似度が閾値以上の電子文書を特定する(S111)。そして、制御部2は、S105で検索された電子文書それぞれと、S111で特定された電子文書それぞれと、につき、上記検索キーワード(すなわち、「定着」)との一致度を算出する(S112)。S105で検索された電子文書については、原則、S106で算出された「Gキーワードとの一致度」が、当該電子文書の「検索キーワードとの一致度」として設定される。また、S111で特定された電子文書については、原則、S110で算出された類似度が、当該電子文書の「検索キーワードとの一致度」として設定される。但し、S105で検索され、且つ、S111で特定もされた電子文書については、制御部2は、S106で算出された「Gキーワードとの一致度」とS110で算出された類似度との平均値を、当該電子文書の「検索キーワードとの一致度」として算出する。
【0047】
こうして、S104〜S112のステップにより、処理対象クラスタに属する電子文書、S105で検索された電子文書、及びS111で特定された電子文書、のそれぞれにつき、検索キーワードとの一致度が算出される。また、S104〜S112のステップが全クラスタに対して行われることにより、S101のステップで検索された電子文書、クラスタごとにS105で検索された電子文書、及びクラスタごとにS111で特定された電子文書、のそれぞれにつき、検索キーワードとの一致度が算出される。
【0048】
全クラスタに対してS104〜S112のステップを実行すると、制御部2(出力制御手段)は、S101のステップで検索された電子文書それぞれ、クラスタごとにS105で検索された電子文書それぞれ、及びクラスタごとにS111で特定された電子文書それぞれのリストを、検索結果として表示部6(出力手段)に表示させる(S113)。この際、制御部2は、電子文書のリストを、電子文書それぞれの「検索キーワードとの一致度」に応じた表示順位で表示させる。例えば、制御部2は、電子文書の「検索キーワードとの一致度」が高いほどその電子文書のタイトルを上部に表示させる。
【0049】
以上のように、情報処理装置1では、特にS107乃至S111のステップが実行されるので、検索キーワードを含まないが検索キーワードに関連していると判定できる電子文書が検索されるようになる。
【0050】
なお、本発明の実施形態は上記実施形態だけに限らない。
【0051】
例えば、制御部2は、再帰的に電子文書のクラスタリングを行ってもよい。例えば、制御部2は、S103のステップのあと、クラスタごとに、当該クラスタの主成分ベクトルと、当該クラスタに属する電子文書それぞれの特徴ベクトルと、の類似度を算出するとともに、クラスタごとに、類似度が低い電子文書、すなわち、クラスタへの所属度が低い電子文書を特定してもよい。そして、制御部2が、所属度が低い電子文書として特定された電子文書の集合を対象に再度S103のステップを実行してもよい。
【0052】
また、例えばハードディスク8(すなわち、文書データベース)は、情報処理装置1と通信可能なデータベースサーバに設けられてもよい。
【符号の説明】
【0053】
1 情報処理装置、2 制御部、4 主記憶、6 表示部、8 ハードディスク。
【特許請求の範囲】
【請求項1】
所与の検索キーワードに基づいて検索された複数の文書から前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出する第1算出手段と、
前記第1算出手段により算出された構文的距離に基づいて、前記複数の文書の各々の特徴ベクトルを算出する第1特徴ベクトル算出手段と、
前記複数の文書の各々の特徴ベクトルに基づいて、前記複数の文書からなる文書群の特徴を表す主成分ベクトルを算出する主成分ベクトル算出手段と、
前記複数の文書から抽出された文に含まれる単語のうちから前記文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である注目単語を含む文書を検索する検索手段と、
前記検索手段により検索された文書それぞれから前記注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記注目単語との構文的距離を算出する第2算出手段と、
前記第2算出手段により算出された構文的距離に基づいて、前記検索手段により検索された文書それぞれの特徴ベクトルを算出する第2特徴ベクトル算出手段と、
前記検索手段により検索された文書のうち、その特徴ベクトルが前記文書群の主成分ベクトルと類似する文書を特定する特定手段と、
前記特定手段により特定された文書を出力手段に出力させる出力制御手段と、
を含む情報処理装置。
【請求項2】
前記第1特徴ベクトル算出手段は、
前記複数の文書から抽出された文に含まれる単語それぞれの評価値を、当該当該単語の構文的距離に基づいて算出する評価手段と、
前記評価手段により算出された評価値に基づいて、前記複数の文書の各々の特徴ベクトルを算出する手段と、を含むこと、
を特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記第1特徴ベクトル算出手段は、
前記複数の文書から抽出された文に含まれる単語と、前記複数の文書から抽出された文に含まれる他の単語と、が所定関係にある場合に、当該単語と当該他の単語をグループ化するグループ化手段と、
前記複数の文書から抽出された文に含まれる単語と、前記複数の文書から抽出された文に含まれる他の単語と、が前記所定関係にある場合に、当該単語と当該他の単語とが所属するグループの評価値を、当該単語の評価値と当該他の単語の評価値と、に基づいて算出する手段と、をさらに含むこと、
を特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記第1算出手段は、
前記所与の検索キーワードに基づいて検索された他の複数の文書からも前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出し、
前記第1特徴ベクトル算出手段は、
前記他の複数の文書から抽出された文に含まれる単語それぞれの構文的距離に基づいて、前記他の複数の文書の各々の特徴ベクトルも算出し、
前記主成分ベクトル算出手段は、
前記他の複数の文書の各々の特徴ベクトルに基づいて、前記他の複数の文書からなる他の文書群の特徴を表す主成分ベクトルも算出し、
前記検索手段は、
前記他の複数の文書から抽出された文に含まれる単語のうちから前記他の文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である他の注目単語を含む他の文書も検索し、
前記第2算出手段は、
前記検索手段により検索された他の文書それぞれから前記他の注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記他の注目単語との構文的距離も算出し、
前記第2特徴ベクトル算出手段は、
前記他の文書のそれぞれから抽出した文に含まれる単語それぞれの構文的距離に基づいて、前記他の文書それぞれの特徴ベクトルも算出し、
前記特定手段は、
前記検索手段により検索された他の文書のうち、その特徴ベクトルが前記他の文書群の主成分ベクトルと類似する文書も特定し、
前記出力制御手段は、
前記特定手段により特定された文書及び他の文書を出力手段に出力させ、
前記出力制御手段は、
前記特定手段により特定された文書の特徴ベクトルと前記文書群の特徴を表す主成分ベクトルとの類似度と、前記特定手段により特定された他の文書の特徴ベクトルと前記他の文書群の特徴を表す主成分ベクトルとの類似度と、に応じた出力順位で、前記特定手段により特定された文書及び他の文書を前記出力手段に出力させること、
を特徴とする請求項1に記載の情報処理装置。
【請求項5】
所与の検索キーワードに基づいて検索された複数の文書から前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出する第1算出手段、
前記第1算出手段により算出された構文的距離に基づいて、前記複数の文書の各々の特徴ベクトルを算出する第1特徴ベクトル算出手段、
前記複数の文書の各々の特徴ベクトルに基づいて、前記複数の文書からなる文書群の特徴を表す主成分ベクトルを算出する主成分ベクトル算出手段、
前記複数の文書から抽出された文に含まれる単語のうちから前記文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である注目単語を含む文書を検索する検索手段、
前記検索手段により検索された文書それぞれから前記注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記注目単語との構文的距離を算出する第2算出手段、
前記第2算出手段により算出された構文的距離に基づいて、前記検索手段により検索された文書それぞれの特徴ベクトルを算出する第2特徴ベクトル算出手段、
前記検索手段により検索された文書のうち、その特徴ベクトルが前記文書群の主成分ベクトルと類似する文書を特定する特定手段、
前記特定手段により特定された文書を出力手段に出力させる出力制御手段、
としてコンピュータを機能させるプログラム。
【請求項1】
所与の検索キーワードに基づいて検索された複数の文書から前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出する第1算出手段と、
前記第1算出手段により算出された構文的距離に基づいて、前記複数の文書の各々の特徴ベクトルを算出する第1特徴ベクトル算出手段と、
前記複数の文書の各々の特徴ベクトルに基づいて、前記複数の文書からなる文書群の特徴を表す主成分ベクトルを算出する主成分ベクトル算出手段と、
前記複数の文書から抽出された文に含まれる単語のうちから前記文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である注目単語を含む文書を検索する検索手段と、
前記検索手段により検索された文書それぞれから前記注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記注目単語との構文的距離を算出する第2算出手段と、
前記第2算出手段により算出された構文的距離に基づいて、前記検索手段により検索された文書それぞれの特徴ベクトルを算出する第2特徴ベクトル算出手段と、
前記検索手段により検索された文書のうち、その特徴ベクトルが前記文書群の主成分ベクトルと類似する文書を特定する特定手段と、
前記特定手段により特定された文書を出力手段に出力させる出力制御手段と、
を含む情報処理装置。
【請求項2】
前記第1特徴ベクトル算出手段は、
前記複数の文書から抽出された文に含まれる単語それぞれの評価値を、当該当該単語の構文的距離に基づいて算出する評価手段と、
前記評価手段により算出された評価値に基づいて、前記複数の文書の各々の特徴ベクトルを算出する手段と、を含むこと、
を特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記第1特徴ベクトル算出手段は、
前記複数の文書から抽出された文に含まれる単語と、前記複数の文書から抽出された文に含まれる他の単語と、が所定関係にある場合に、当該単語と当該他の単語をグループ化するグループ化手段と、
前記複数の文書から抽出された文に含まれる単語と、前記複数の文書から抽出された文に含まれる他の単語と、が前記所定関係にある場合に、当該単語と当該他の単語とが所属するグループの評価値を、当該単語の評価値と当該他の単語の評価値と、に基づいて算出する手段と、をさらに含むこと、
を特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記第1算出手段は、
前記所与の検索キーワードに基づいて検索された他の複数の文書からも前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出し、
前記第1特徴ベクトル算出手段は、
前記他の複数の文書から抽出された文に含まれる単語それぞれの構文的距離に基づいて、前記他の複数の文書の各々の特徴ベクトルも算出し、
前記主成分ベクトル算出手段は、
前記他の複数の文書の各々の特徴ベクトルに基づいて、前記他の複数の文書からなる他の文書群の特徴を表す主成分ベクトルも算出し、
前記検索手段は、
前記他の複数の文書から抽出された文に含まれる単語のうちから前記他の文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である他の注目単語を含む他の文書も検索し、
前記第2算出手段は、
前記検索手段により検索された他の文書それぞれから前記他の注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記他の注目単語との構文的距離も算出し、
前記第2特徴ベクトル算出手段は、
前記他の文書のそれぞれから抽出した文に含まれる単語それぞれの構文的距離に基づいて、前記他の文書それぞれの特徴ベクトルも算出し、
前記特定手段は、
前記検索手段により検索された他の文書のうち、その特徴ベクトルが前記他の文書群の主成分ベクトルと類似する文書も特定し、
前記出力制御手段は、
前記特定手段により特定された文書及び他の文書を出力手段に出力させ、
前記出力制御手段は、
前記特定手段により特定された文書の特徴ベクトルと前記文書群の特徴を表す主成分ベクトルとの類似度と、前記特定手段により特定された他の文書の特徴ベクトルと前記他の文書群の特徴を表す主成分ベクトルとの類似度と、に応じた出力順位で、前記特定手段により特定された文書及び他の文書を前記出力手段に出力させること、
を特徴とする請求項1に記載の情報処理装置。
【請求項5】
所与の検索キーワードに基づいて検索された複数の文書から前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出する第1算出手段、
前記第1算出手段により算出された構文的距離に基づいて、前記複数の文書の各々の特徴ベクトルを算出する第1特徴ベクトル算出手段、
前記複数の文書の各々の特徴ベクトルに基づいて、前記複数の文書からなる文書群の特徴を表す主成分ベクトルを算出する主成分ベクトル算出手段、
前記複数の文書から抽出された文に含まれる単語のうちから前記文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である注目単語を含む文書を検索する検索手段、
前記検索手段により検索された文書それぞれから前記注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記注目単語との構文的距離を算出する第2算出手段、
前記第2算出手段により算出された構文的距離に基づいて、前記検索手段により検索された文書それぞれの特徴ベクトルを算出する第2特徴ベクトル算出手段、
前記検索手段により検索された文書のうち、その特徴ベクトルが前記文書群の主成分ベクトルと類似する文書を特定する特定手段、
前記特定手段により特定された文書を出力手段に出力させる出力制御手段、
としてコンピュータを機能させるプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10A】
【図10B】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10A】
【図10B】
【公開番号】特開2013−105295(P2013−105295A)
【公開日】平成25年5月30日(2013.5.30)
【国際特許分類】
【出願番号】特願2011−248369(P2011−248369)
【出願日】平成23年11月14日(2011.11.14)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【公開日】平成25年5月30日(2013.5.30)
【国際特許分類】
【出願日】平成23年11月14日(2011.11.14)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
[ Back to top ]