説明

文書検索システム、文書検索方法及び文書検索プログラム

【課題】言語横断型の文書検索システムで検索語とその対応語を表示できるようにする。
【解決手段】本発明の文書検索システムは、翻訳用辞書を用いて各原文文書を検索文字列の言語に翻訳すると共に、原文文字列とそれに対応する翻訳文字列との関係を示す文字列対応情報を作成する文書翻訳手段と、文書翻訳手段による、各原文文書の各翻訳文書と文字列対応情報とを蓄積する翻訳文書蓄積手段と、翻訳文書蓄積手段に蓄積されている各翻訳文書の中から、検索文字列を含む1又は複数の文書を検索する翻訳文書検索手段と、文字列対応情報に基づいて翻訳文書検索手段が検索した各翻訳文書中の検索文字列と、それに対応する各原文文書中の原文文字列とに対して強調表示処理を行うと共に、少なくとも翻訳文書検索手段が検索した各翻訳文書とその各原文文書とを出力させる文書出力手段とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書検索システム、文書検索方法及び文書検索プログラムに関し、例えば、様々な言語が用いられた文書群の中から検索する言語横断文書検索システムに適用し得る。
【背景技術】
【0002】
従来、言語の壁を超えて、ある言語の検索語を用いて、様々な言語の文書群の中から、検索語を含む文書を検索する言語横断型文書検索システムがあり、この文書横断型の文書検索方式は、大別して2種類の方式がある。
【0003】
1つは、第1言語の検索語を第2言語に翻訳し、その翻訳された第2言語の検索語を用いて、第2言語の文書を対象として検索する方式である(以下、クエリ翻訳方式という)。
【0004】
2つは、あらかじめ全ての文書を第2言語から第1言語に翻訳して、検索語(第1言語)を用いて文書検索する方式である(以下、ドキュメント翻訳方式という)。
【0005】
そして、クエリ翻訳方式の一例として特許文献1に開示される技術がある。特許文献1は、特許文献を検索する技術が開示され、まず第1言語の特許文献を検索し、その検索した特許文献から特徴単語(第1言語)を抽出し、その特徴単語を第1言語から第2言語に翻訳した後、翻訳した特徴単語を用いて第2言語の特許文献を検索するものである。
【0006】
【特許文献1】特開2003−150623号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかしながら、従来の言語横断文書検索システムは、検索語と異なる他の言語の文書を検索結果として出力する際、ユーザが入力した検索語に対応する語がどの語であるかを示すことができないという問題がある。
【0008】
例えば、クエリ翻訳方式の場合、検索結果を第1言語で表示しようとすると、検索結果(第2言語)を第1言語に翻訳する必要がある。ところが、クエリ翻訳方式の場合、第2言語に翻訳した検索語を用いて第2言語の文書を検索するため、検索結果を第1言語に翻訳することとなる。従って、検索後に翻訳処理を行うため、その検索結果のどこに検索語(第1言語)が含まれているかがユーザは分からない。
【0009】
さらに、検索においては、同義語に関連する問題がある。すなわち、ユーザが入力する検索語に同義語がある場合、検索対象文書には検索語と同じ語ではなく、同義語が使われている可能性がある。
【0010】
その場合、クエリ翻訳方式では、検索語に同義語を加えて翻訳すればよいが、ドキュメント翻訳方式では、検索対象文書の翻訳の際に同義語が一意の訳語に翻訳されてしまうため、同義語による検索もれが起きるという問題点がある。
【0011】
そのため、言語横断型の文書検索方式において、検索した文書を検索語の言語に翻訳して表示する際に、検索語に対応する語がどの語に相当するのかという情報も出力することができる、かつ検索語の同義語拡張にも対応可能な文書検索システム、文書検索方法及び文書検索プログラムが求められている。
【課題を解決するための手段】
【0012】
かかる課題を解決するため、第1の本発明の文書検索システムは、入力された検索文字列を用いて、1又は複数の各言語でなる文書群の中から、検索文字列及び又はそれに対応する文字列を含む1又は複数の文書を検索する文書検索システムにおいて、(1)翻訳用辞書を用いて、1又は複数の各言語でなる各原文文書を検索文字列の言語に翻訳すると共に、翻訳前の原文文字列とそれに対応する1又は複数の翻訳文字列との関係を示す文字列対応情報を作成する文書翻訳手段と、(2)文書翻訳手段による、各原文文書の各翻訳文書と文字列対応情報とを蓄積する翻訳文書蓄積手段と、(3)翻訳文書蓄積手段に蓄積されている各翻訳文書の中から、検索文字列を含む1又は複数の文書を検索する翻訳文書検索手段と、(4)文字列対応情報に基づいて、翻訳文書検索手段が検索した各翻訳文書中の検索文字列と、それに対応する各原文文書中の原文文字列とに対して強調表示処理を行うと共に、少なくとも翻訳文書検索手段が検索した各翻訳文書とその各原文文書とを出力させる文書出力手段とを備えることを特徴とする。
【0013】
第2の本発明の文書検索システムは、入力された検索文字列を用いて、1又は複数の各言語でなる文書群の中から、検索文字列及び又はそれに対応する文字列を含む1又は複数の文書を検索する文書検索システムにおいて、(1)検索対象とする1又は複数の各言語でなる1又は複数の原文文書を蓄積する原文文書蓄積手段と、(2)翻訳用辞書を用いて、検索用文字列を各原文文書の言語に翻訳すると共に、翻訳用辞書における、翻訳後の翻訳検索文字列とそれに対応する1又は複数の翻訳検索文字列との関係を示す文字列対応情報を作成する検索文字列翻訳手段と、(3)検索文字列翻訳手段による文字列対応情報を記憶する文字列対応情報記憶手段と、(4)原文文書蓄積手段に蓄積されている各原文文書の中から、翻訳検索文字列を含む1又は複数の文書を検索する原文文書検索手段と、(5)原文文書検索手段が検索した各原文文書を、翻訳用辞書を用いて検索文字列の言語に翻訳する原文文書翻訳手段と、(6)文字列対応情報に基づいて、原文文書検索手段が検索した各原文文書中の翻訳検索文字列と、それに対応する各翻訳文書中の文字列とに対して強調表示処理を行うと共に、少なくとも原文文書検索手段が検索した各原文文書とその各翻訳文書とを出力させる文書出力手段とを備えることを特徴とする。
【0014】
第3の本発明の文書検索方法は、入力された検索文字列を用いて、1又は複数の各言語でなる文書群の中から、検索文字列及び又はそれに対応する文字列を含む1又は複数の文書を検索する文書検索方法において、(1)文書翻訳手段が、翻訳用辞書を用いて、1又は複数の各言語でなる各原文文書を検索文字列の言語に翻訳すると共に、翻訳前の原文文字列とそれに対応する1又は複数の翻訳文字列との関係を示す文字列対応情報を作成する文書翻訳工程と、(2)翻訳文書蓄積手段が、文書翻訳手段による、各原文文書の各翻訳文書と文字列対応情報とを蓄積する翻訳文書蓄積工程と、(3)翻訳文書検索手段が、翻訳文書蓄積手段に蓄積されている各翻訳文書の中から、検索文字列を含む1又は複数の文書を検索する翻訳文書検索工程と、(4)文書出力手段が、文字列対応情報に基づいて、翻訳文書検索手段が検索した各翻訳文書中の検索文字列と、それに対応する各原文文書中の原文文字列とに対して強調表示処理を行うと共に、少なくとも翻訳文書検索手段が検索した各翻訳文書とその各原文文書とを出力させる文書出力工程とを備えることを特徴とする。
【0015】
第4の本発明の文書検索方法は、入力された検索文字列を用いて、1又は複数の各言語でなる文書群の中から、検索文字列及び又はそれに対応する文字列を含む1又は複数の文書を検索する文書検索方法において、(1)原文文書蓄積手段が、検索対象とする1又は複数の各言語でなる1又は複数の原文文書を蓄積する原文文書蓄積工程と、(2)検索文字列翻訳手段が、翻訳用辞書を用いて、検索用文字列を各原文文書の言語に翻訳すると共に、翻訳用辞書における、翻訳後の翻訳検索文字列とそれに対応する1又は複数の翻訳検索文字列との関係を示す文字列対応情報を作成する検索文字列翻訳工程と、(3)文字列対応情報記憶手段が、検索文字列翻訳手段による文字列対応情報を記憶する文字列対応情報記憶工程と、(4)原文文書検索手段が、原文文書蓄積手段に蓄積されている各原文文書の中から、翻訳検索文字列を含む1又は複数の文書を検索する原文文書検索工程と、(5)原文文書翻訳手段が、原文文書検索手段が検索した各原文文書を、翻訳用辞書を用いて検索文字列の言語に翻訳する原文文書翻訳工程と、(6)文書出力手段が、文字列対応情報に基づいて、原文文書検索手段が検索した各原文文書中の翻訳検索文字列と、それに対応する上記各翻訳文書中の文字列とに対して強調表示処理を行うと共に、少なくとも原文文書検索手段が検索した各原文文書とその各翻訳文書とを出力させる文書出力工程とを備えることを特徴とする。
【0016】
第5の本発明の文書検索プログラムは、入力された検索文字列を用いて、1又は複数の各言語でなる文書群の中から、検索文字列及び又はそれに対応する文字列を含む1又は複数の文書を検索させる文書検索プログラムにおいて、コンピュータに、(1)翻訳用辞書を用いて、1又は複数の各言語でなる各原文文書を検索文字列の言語に翻訳すると共に、翻訳前の原文文字列とそれに対応する1又は複数の翻訳文字列との関係を示す文字列対応情報を作成する文書翻訳手段、(2)文書翻訳手段による、各原文文書の各翻訳文書と文字列対応情報とを蓄積する翻訳文書蓄積手段、(3)翻訳文書蓄積手段に蓄積されている各翻訳文書の中から、検索文字列を含む1又は複数の文書を検索する翻訳文書検索手段、(4)文字列対応情報に基づいて、翻訳文書検索手段が検索した各翻訳文書中の検索文字列と、それに対応する各原文文書中の原文文字列とに対して強調表示処理を行うと共に、少なくとも翻訳文書検索手段が検索した各翻訳文書とその各原文文書とを出力させる文書出力手段として機能させることを特徴とする。
【0017】
第6の本発明の文書検索プログラムは、入力された検索文字列を用いて、1又は複数の各言語でなる文書群の中から、検索文字列及び又はそれに対応する文字列を含む1又は複数の文書を検索させる文書検索プログラムにおいて、コンピュータに、(1)検索対象とする1又は複数の各言語でなる1又は複数の原文文書を蓄積する原文文書蓄積手段、(2)翻訳用辞書を用いて、検索用文字列を各原文文書の言語に翻訳すると共に、翻訳用辞書における、翻訳後の翻訳検索文字列とそれに対応する1又は複数の翻訳検索文字列との関係を示す文字列対応情報を作成する検索文字列翻訳手段、(3)検索文字列翻訳手段による文字列対応情報を記憶する文字列対応情報記憶手段、(4)原文文書蓄積手段に蓄積されている各原文文書の中から、翻訳検索文字列を含む1又は複数の文書を検索する原文文書検索手段、(5)原文文書検索手段が検索した各原文文書を、翻訳用辞書を用いて検索文字列の言語に翻訳する原文文書翻訳手段、(6)文字列対応情報に基づいて、原文文書検索手段が検索した各原文文書中の翻訳検索文字列と、それに対応する各翻訳文書中の文字列とに対して強調表示処理を行うと共に、少なくとも原文文書検索手段が検索した各原文文書とその各翻訳文書とを出力させる文書出力手段として機能させることを特徴とする。
【発明の効果】
【0018】
本発明によれば、言語横断型の文書検索方式において、検索した文書を検索語の言語に翻訳して表示する際に、検索文字列及びそれに対応する文字列を強調表示することができるので、原文文書中及び翻訳文書中の検索文字列及びそれに対応する文字列の出現位置を示すことができる。
【発明を実施するための最良の形態】
【0019】
(A)第1の実施形態
以下、本発明の文書検索システム、文書検索方法及び文書検索プログラムの実施形態を図面を参照して説明する。
【0020】
本実施形態は、ドキュメント翻訳方式を採用した言語横断型文書検索システムに本発明を適用する場合であり、ユーザが入力する検索語の言語(第1言語)を日本語とし、検索対象の文書の言語(第2言語)を英語としたときを説明する。
【0021】
(A−1)第1の実施形態の構成
図1は、本実施形態の文書検索システムを実現する機能構成を示す機能ブロック図である。
【0022】
なお、本実施形態の文書検索システム10は、例えば、CPU、ROM、RAM、不揮発性の読み書き可能なメモリ等を有する情報処理装置により実現されるものであり、例えば、CPUが、RAMをワーキングエリアとし、ROMに格納されている固定データやRAMに格納されているテンポラリーデータ等を用いて、ROMに格納されている処理プログラムを実行することにより実現されるものである。
【0023】
図1に示すように、本実施形態の文書検索システム10は、翻訳手段1100と文書検索手段1200を有して構成される。
【0024】
翻訳手段1100は、検索対象とする文書を英語(第2言語)から日本語(第1言語)に翻訳し、表示用の翻訳文書を作成すると共に、原文の文書と翻訳文書との間における翻訳関係情報を示す検索用翻訳文書を作成するものである。
【0025】
これにより、同義語による検索もれの問題を防ぐために、同義語を検索可能なように、全ての同義語を出力した検索用翻訳文書と、ユーザに提示する表示用翻訳文書を別に用意する。これらの翻訳文は、分野別辞書を用いて適切な訳語で翻訳を行う。
【0026】
文書検索手段120は、ユーザ入力された日本語(第1言語)の検索語を取り込み、翻訳手段1100が翻訳した検索用翻訳文書から検索語を含む文書を検索すると共に、日本語に翻訳した文書を出力(表示)するものである。
【0027】
以下では、まず、翻訳手段1100の機能構成を図面を参照して説明する。図1において、翻訳手段1100は、分野別辞書1110、文書データベース1120、翻訳処理部1130、検索用翻訳文書データベース1140、表示用翻訳文書データベース1150を少なくとも有する。
【0028】
分野別辞書1110は、後述する翻訳処理部1130による文書翻訳のために用いられる辞書である。また、分野別辞書1110は、ある見出し語の訳語と同等の意義で使用される語や同じように使用される語等(本実施形態では、このような語を同義語という)を予め対応付けて記録するものである。
【0029】
例えば、「生物」の分野では、英語の「cell」のに対して、その訳語である「細胞」と「セル」とは同義語といえるため、「生物」分野辞書に、「細胞」、「セル」を「cell」に対応付けて記録させるようにする。
【0030】
本実施形態が分野別辞書1110を用いることとしたのは、その文書が属す分野に応じて、ある語の訳語が異なることがあるためである。そこで、本実施形態では、例えば「生物」や「電気」というような文書のある程度の話題に応じた分野の辞書を用いることとした。分野別辞書を用いることにより、同義語の選定がその分野における同義語に限定されるため、検索精度を向上させることができる。
【0031】
また、分野別辞書1110は、複数の辞書を有して構成されてもよいし、又はある分野に関連する他の分野辞書と連携できるようにしてもよい。また、分野別辞書1110は、後述する翻訳処理部1130がアクセス可能であれば、その態様は特に限定されず、例えば、ハードディスクに格納されている情報や、CD−ROM等の記録媒体に格納されている情報や、ネットワーク上のデータベース装置内に蓄積されている情報等としてもよい。
【0032】
文書データベース1120は、検索対象となる英語(第2言語)の文書を蓄積するデータベースであり、翻訳処理部1130により文書が読み出され得るものである。なお、文書データベース1120は、翻訳処理部1130からアクセス可能であれば、その態様は特に限定されず、例えば、ハードディスクに格納されている情報や、CD−ROM等の記録媒体に格納されている情報や、ネットワーク上のデータベース装置内に蓄積されている情報等としてもよい。
【0033】
図2は、文書データベース1120に蓄積される文書の構成例であり、図2の文書20のように、英語(第2言語)でなる文書が蓄積される。
【0034】
翻訳処理部1130は、文書データベース1120に蓄積されている文書を読み出し、分野別辞書1110を用いてその文書を翻訳し、翻訳結果を検索用翻訳文書及び表示用翻訳文書として検索用翻訳文書データベース1140及び表示用翻訳文書データベース1150に与えて蓄積させるものである。
【0035】
ここで、翻訳処理部1130は、ユーザの指定や文書の分野情報(例えば、文書が特許文献の場合には、例えば国際特許分類等)を利用して、使用する分野別辞書1110を決定する。また、翻訳処理部1130による翻訳手法は、特に限定されず一般的な機械翻訳手法を用いることができるので、ここでの詳細な説明は省略する。
【0036】
また、表示用翻訳文書は、翻訳処理部1130の一般的な機械翻訳処理による翻訳結果であり、分野別辞書1110中に、ある語に対応する訳語の同義語が複数あったとしても、その語に対して一意の訳語を出力したものである。図3は、表示用翻訳文書30の例を示す。
【0037】
さらに、検索用翻訳文書は、翻訳処理部1130により表示用翻訳文書が作成されると、原文とする文書と表示用翻訳文書との文書間の対応関係、翻訳前の単語とその訳語との間の対応関係、翻訳前と翻訳後との文書における単語の位置関係などの情報を有するものである。
【0038】
図4は、検索用翻訳文書の構成例である。図4に示すように検索用翻訳文書が有する情報の項目例は、「文書番号」、「原文位置」、「原文単語」、「表示用訳文位置」、「表示用訳語」、「検索用訳語」である。
【0039】
ここで、「文書番号」は、原文文書を識別するための識別情報であり、翻訳後の表示用翻訳文書も同一の識別情報で管理される。「原文位置」は、原文文書中の単語の位置であり、例えば、単語の最初の文字が原文中の何文字目に出現するか等の情報を示す。「原文単語」は、翻訳前の単語である。「表示用訳文位置」は、翻訳後の文書中で、原文単語の訳語の位置であり、「原文位置」と同様に、例えば、単語の最初の文字が訳文の何文字目に出現するか等の情報を示す。「表示用訳語」は、原文単語の訳語である。「検索用訳語」は、分野別辞書1110に格納されている訳語の全ての同義語である。
【0040】
検索用翻訳文書データベース1140は、翻訳処理部1130が作成した検索用翻訳文書40を蓄積するものである。また、検索用翻訳文書データベース1140は、文書検索処理の際に、後述する文書検索手段1200からアクセスされ得るものである。
【0041】
表示用翻訳文書データベース1150は、翻訳処理部1130が作成した表示用翻訳文書を蓄積するものである。文書検索処理の際、後述する文書検索手段1200からアクセスされ得るものである。
【0042】
図1に戻り、文書検索手段1200の機能構成を図面を参照して説明する。図1に示すように、文書検索手段1200は、検索語入力手段1210、検索処理部1220、強調表示処理部1230を少なくとも有する。
【0043】
検索語入力手段1210は、文書検索に係る検索語を取り込むものであり、例えば、キーボードやマウス等からの操作指示に基づく検索語を受け取り、検索処理部1220に与えるものである。
【0044】
検索処理部1220は、検索語入力手段1210から検索語を受け取ると、その検索語を用いて、検索用翻訳データベース1220の蓄積文書の中から検索語を含む文書を検索するものである。
【0045】
このとき、検索処理部1220による文書検索方法は、一般的な文書検索方法を適用することができるが、検索処理部1220は、検索用翻訳データベース1220に格納されている検索用翻訳文書40の「検索用訳語」に検索語が含まれている否かを検索する。そして、「検索用訳語」に検索語が含まれている場合、その文書を検索結果として出力する。
【0046】
なお、検索処理部1220は、図1には図示しないが、文書検索に必要な辞書や所定規則のデータベースと接続可能である。
【0047】
また、検索処理部1220は、「検索用訳語」に検索語が含まれている場合、その文書の「文書番号」を読み取り、その「文書番号」の検索用翻訳文書40を検索結果として強調表示処理部1230に与えるものである。
【0048】
なお、検索用翻訳文書データベース1140は、検索処理部1220からアクセス可能であれば、その態様は特に限定されない。
【0049】
強調表示処理部1230は、検索処理部1220による文書検索の結果に対して所定の出力処理を行い検索結果を出力するものである。強調表示処理部1230は、例えば、検索語入力手段1210から受け取った検索語と、検索処理部1220からの「文書番号」に基づいて文書データベース1120及び表示用翻訳文書データベース1150から読み出した文書(すなわち、原文文書と表示用翻訳文書)とを検索結果として表示する。
【0050】
ここで、強調表示処理部1230は、検索用翻訳文書40を用いて、原文文書及び表示用翻訳文書において、検索語及び又は検索語の同義語を強調表示する。例えば、強調表示は、文書がHTMLなどで記述されているのであれば、強調表示する語の前後に表示形態を変更するHTMLタグを挿入するなどの方法で実現する。例えば、強調表示の例は、赤色、太字又はこれらを組み合わせて表示したりする方法がある。
【0051】
これにより、第2言語で検索結果の文書を表示させると共に、これをユーザの入力した検索語の言語である第1言語に翻訳したものを表示することができる。また、ユーザが第1言語で入力した検索語と、それに対応する第2言語での語が検索結果の文中のどこに出現しているか見易いように強調表示を行う。
【0052】
(A−2)第1の実施形態の動作
次に、本実施形態の文書検索システム10の動作を図面を参照して説明する。
【0053】
図5は、翻訳手段1100による検索対象文書の翻訳処理の動作を示すフローチャートである。
【0054】
翻訳手段1100による翻訳処理は、文書データベース1120に検索対象となる文書が存在する場合に実行され、文書検索手段1200による文書検索処理のために予め実行される。
【0055】
文書データベース1120に文書が入力されると、翻訳処理部1130は、文書データベース1120から入力文書を読み出す(ステップ10)。
【0056】
文書データベース1120から文書が読み出されると、翻訳処理部1130は、所定の機械翻訳方式に従って、分野別辞書1110を用いて文書を機械翻訳する(ステップ11)。
【0057】
翻訳処理部1130により機械翻訳されると、その翻訳結果(表示用翻訳文書30)が表示用翻訳文書データベース1150に与えられ、蓄積される(ステップ12)。
【0058】
例えば、翻訳処理部1130は、文書データベース1120から文書20(図2参照)を読み出す。そして、翻訳処理部1130は、文書20が属する分野別辞書1110を用いて文書20を機械翻訳し、表示用翻訳文書30を作成し、表示用翻訳文書データベース1150に蓄積させる。
【0059】
表示用翻訳文書30が作成されると、翻訳処理部1130は、原文文書の文書番号、原文中の単語とその訳語の対応関係、翻訳前の単語の位置と翻訳語の訳語の位置との関係、検索用訳語等を検索用翻訳文書に記録する。そして、作成された検索用翻訳文書が、検索用翻訳文書データベース1140に与えられ、蓄積される(ステップ13)。
【0060】
このとき、例えば、文書20中「These new composite springs can be molded …」の「be」のように訳語が明確でない語については検索用翻訳文書40から除く。
【0061】
図4の検索用翻訳文書40において、例えば、「原文位置」及び「表示用訳語位置」は、例えば、原文又は訳文それぞれの先頭から数えた、単語又は訳語の先頭文字の文字数などを示す。
【0062】
例えば、図4において、文書20の「原文位置」が「0」の単語「These」(図2参照)は、表示用翻訳文書30においては、「表示用訳文位置」が「0」の表示用訳語の「これら」に訳出されたことを意味する。
【0063】
また、翻訳処理部1130は、参照する分野別辞書1110の単語に複数の訳語が有る場合には、それら訳語をすべて「検索用訳語」として検索用翻訳文書40に記録する。
【0064】
例えば、分野別辞書1110に、単語「spring」に対した「ばね」と「スプリング」が訳語として格納されている場合、それら2個の訳語を「検索用訳語」に記録する。
【0065】
続いて、文書検索手段1200による文書検索処理の動作について図面を参照して説明する。
【0066】
ユーザにより検索語が入力されると、検索語が検索語入力手段1210により取り込まれ、検索語が検索処理部1220及び強調表示処理部1230に与えられる(ステップ21)。
【0067】
例えば、検索語入力手段1210により取り込まれた検索語を「カーボンファイバー」として説明する。
【0068】
検索処理部1220に検索語が与えられると、検索処理部1220は、検索用翻訳文書データベース1140に蓄積されている検索用翻訳文書を用いて検索語を含む文書を検索する(ステップ22)。
【0069】
例えば、検索語として「カーボンファイバー」が入力されると、検索処理部1220は、検索用翻訳文書データベース1140の検索用翻訳文書40の「検索用訳語」に記録されている訳語と、検索語「カーボンファイバー」とを比較し、検索語「カーボンファイバー」の有無を検索する。
【0070】
そして、検索語「カーボンファイバー」が「検索用訳語」に出現すると、検索語が出現した文書20が検索結果として強調表示処理部1230に与えられる。
【0071】
検索処理部1220による検索結果が強調表示処理部1230に与えられると、強調表示処理部1230は、検索処理部1220が検索した文書番号に基づいて、文書データベース1120及び表示用翻訳文書データベース1150から検索語を含む文書の原文及び訳文を読み出す。
【0072】
そして、強調表示処理部1230において、原文文書については、検索処理部1220が検索した「検索用訳語」に対応する「原文単語」に対して強調表示処理を施し、表示用翻訳文書については、「検索用訳語」に対応する「表示用訳語」に対して強調表示処理を施す(ステップ23)。
【0073】
例えば、検索処理部1220に「文書20」が検索されると、「文書番号20」に基づいて、文書データベース1120から原文文書である「文書20」と、表示用翻訳文書データベース1150から文書20に対応する「表示用翻訳文書30」とが取得される。
【0074】
そして、図7に示すように、原文文書である「文書20」については、検索用訳語「カーボンファイバー」に対する原文単語「carbon fiber」が原文位置「92」に基づいて語の位置特定され、その位置の語が強調表示される。
【0075】
また、「表示用翻訳文書30」については、検索用訳語「カーボンファイバー」に対する表示用訳語「炭素繊維」が表示用訳文位置「33」に基づいて語の位置が特定され、その位置の語が強調表示される。
【0076】
このとき、強調処理部1230は、「原文位置」又は「表示用訳文位置」に特定される語が、検索用翻訳文書40における「原文単語」又は「表示用訳語」であるか否かを判定する機能を備え、原文単語又は訳語が正当であるか否かを確認するようにしてもよい。
【0077】
なお、強調表示には、文書がHTMLなどで記述されているのであれば、強調表示する語の前後に表示形態を変更するHTMLタグを挿入するといった方法で実現する。
【0078】
原文文書及び表示用翻訳文書中の原文単語及び表示用訳語について、強調表示処理が施されると、原文文書と表示用翻訳文書とが並べて表示される(ステップ24)。
【0079】
(A−3)第1の実施形態の効果
以上のように、本実施形態によれば、文書検索前に、翻訳手段1100が、文書の単語について、適切な同義語を対応付けた検索用翻訳文書を作成し、文書検索手段1200が検索用翻訳文書に基づいて文書を検索することにより、検索語の同義語も含めた文書検索をすることができる。その結果、検索もれを防止することができる。
【0080】
また、本実施形態では、文書検索前に検索用翻訳文書を作成するので、文書検索のレスポンスを早くすることができる。
【0081】
さらに、本実施形態によれば、少なくとも検索結果の文書を検索語の言語で出力することができる。また、原文文書と翻訳文書を同時に又はいずれを表示することができる。
【0082】
(B)第2の実施形態
以下、本発明の文書検索システム、文書検索方法及び文書検索プログラムの第2の実施形態を図面を参照して説明する。
【0083】
本実施形態は、文書検索用の翻訳文書を作成する翻訳処理が、単語の羅列を出力するものであり、この点が第1の実施形態と異なる。なお、第2の実施形態の機能構成とすることで検索用翻訳処理の計算負荷を減らすことができる。
【0084】
(B−1)第2の実施形態の構成
図8は、本実施形態の文書検索システムの機能構成を示す機能ブロック図であり、本実施形態の文書検索システム11は、翻訳手段6100と文書検索手段6200を有して構成される。
【0085】
また、翻訳手段6200は、分野別辞書6110、文書データベース6120、検索用翻訳処理部6130、表示用翻訳処理部6140、検索用翻訳文書データベース6150、表示用翻訳文書データベース6160を少なくとも有する。
【0086】
翻訳手段6200の分野別辞書6110及び文書データベース6120は、第1の実施形態で説明した分野別辞書1110及び文書データベース1120に対応するのでこれらの機能構成の詳細は省略する。
【0087】
検索用翻訳処理部6130は、文書データベース6120に存在する文書に対して、分野別辞書6110を用いて翻訳処理を行うものである。また、検索用翻訳処理部6130の翻訳方式は一般的な機械翻訳方式を採用することができ、また分野別辞書6110の決定は第1の実施形態と同様にユーザ指定や文書情報等を利用する。また、検索用翻訳処理部6130は、翻訳に利用する分野別辞書6110に同義語が記録されていれば、その全ての訳語の同義語を出力する。
【0088】
図9は、検索用翻訳処理部6130が出力する検索用翻訳文書の例である。図9の検索用翻訳文書70は、原文文書の第2言語の単語と、翻訳文書の第1言語の単語(訳語:同義語を含む)を羅列した形式でなる。なお、検索用翻訳文書の形式は、特に限定されず、検索に利用することができれば、単語の対応を並べただけのものでもよい。また、図9では、表記上、同義語の羅列を「[ ]」で囲っているが、同義語関係が判別可能ならばどのような表記でも構わない。
【0089】
また、検索用翻訳処理部6130は、作成した検索用翻訳文書を検索用翻訳文書データベース6150に蓄積する。
【0090】
表示用翻訳処理部6140は、文書データベース6120に存在する文書に対して、分野別辞書6110を用いて翻訳処理を行うものである。また、表示用翻訳処理部6140の翻訳方式も一般的な機械翻訳方式を採用することができ、また分野別辞書6110の決定方法も第1の実施形態と同様の方法を採用できる。また、表示用翻訳文書は、ある語に対して一意の訳語で構成されるものである。図10は、表示用翻訳文書の構成例である。
【0091】
また、表示用翻訳処理部6140は、作成した表示用翻訳文書を表示用翻訳文書6160に蓄積する。
【0092】
検索用翻訳文書データベース6150は、検索用翻訳処理部6130に作成された検索用翻訳文書を蓄積するものである。また、表示用翻訳文書データベース6160は、表示用翻訳処理部6140に作成された表示用翻訳文書を蓄積するものである。
【0093】
なお、原文文書、検索用翻訳文書及び表示用翻訳文書はそれぞれ、文書番号(識別情報)で対応付けられているものとする。
【0094】
次に、図8に戻り、文書検索手段6200の機能構成を説明する。図8において、文書検索手段6200は、検索語入力手段6210、検索処理部6220、強調表示処理部6230を少なくとも有する。
【0095】
検索語入力手段6210は、第1の実施形態で説明した検索語入力手段1210に対応するものである。
【0096】
検索処理部1220は、検索語入力手段1210から検索語を受け取ると、その検索語を用いて、検索用翻訳データベース1220の蓄積文書の中から検索語を含む文書を検索するものである。また、検索処理部1220は、文書検索結果を強調表示処理部6230に与えるものである。
【0097】
このとき、検索処理部1220による文書検索方法は、一般的な文書検索方法を適用できるが、例えば、検索用翻訳文書中の解析した単語と検索語とを比較し、一致するか否かを判定し、一致する場合を当該文書が検索語を含むと判断する方法がある。
【0098】
強調表示処理部6230は、検索処理部6210から与えられた文書検索結果と検索語入力手段6210から与えられた検索語とに基づいて、文書データベース6120及び表示用翻訳文書データベース6160から原文文書及び表示用翻訳文書を読み出し、それら原文文書及び表示用翻訳文書中の検索語に対応する語を強調表示処理を行い、それぞれの文書を検索結果として並べて表示する。
【0099】
このとき、表示用翻訳文書データベース6160から得られる文書中の検索語に対応する語が、検索語と異なる場合は、検索語に置き換えて強調表示を行う。
【0100】
(B−2)第2の実施形態の動作
次に、本実施形態の文書検索システム11の動作を図面を参照して説明する。
【0101】
まず、本実施形態の翻訳手段6100による文書の翻訳処理について説明する。第1の実施形態と同様に、文書の翻訳処理は文書検索処理前に予め行う。
【0102】
文書データベース6120に文書が存在する場合、検索用翻訳処理部6130は、文書データベース6120から文書を読み出し、分野別辞書6110を用いて所定の機械翻訳方式に従って翻訳処理を行う。
【0103】
例えば、文書データベース6120に文書20(図2)が存在する場合、検索用翻訳処理部6130は、図9に示すように、原文文書中の単語とその訳語(同義語を含む)とを「[ ]」で囲み、単語を並べて構成される検索用翻訳文書70を作成する。
【0104】
図9において、例えば、原文文書の単語「spring」については、「ばね」、「スプリング」という訳語が分野別辞書6110にある場合、「[spring ばね スプリング]」と表記する。ここで、単語に対する訳語を列記する順序は、予め設定した優先順位に従って列記させてよく、例えば、[原文の単語、最も優先される訳語、訳語の同義語全て]という形式で出力を行うことができる。これは、分野別辞書6110の記録順序を設定することで実現することができる。
【0105】
検索用翻訳処理部6130において翻訳処理が行われると、作成された検索用翻訳文書70は、検索用翻訳文書データベース6150に蓄積される。
【0106】
また、文書データベース6120に文書が存在する場合、表示用翻訳処理部6140は、文書データベース6120から文書を読み出し、分野別辞書6110を用いて所定の機械翻訳方式に従って翻訳処理を行う。
【0107】
なお、ここでは、表示用翻訳処理部6140より検索用翻訳処理部6130の処理を先に説明したが処理順序は関係ない。
【0108】
例えば、表示用翻訳処理部6140は、文書20に対して、一意の訳語に翻訳した図10の表示用翻訳文書80を作成する。なお、一意の訳語とは、例えば、図10において、「spring」の訳語の例では、最も優先される訳語である「ばね」をさす。
【0109】
表示用翻訳処理部6140による翻訳処理が行われると、作成された表示用翻訳文書80は、表示用翻訳文書データベース6160に蓄積される。
【0110】
次に、本実施形態の文書検索手段6200による文書検索処理の動作を説明する。なお、入力された検索語を「カーボンファイバー」として説明する。
【0111】
まず、検索語入力手段6210がユーザ入力された検索語「カーボンファイバー」を取り込むと、検索語は、検索処理部6220及び強調表示処理部6230に与えられる。
【0112】
検索処理部6220に検索語が与えられると、検索処理部6220は、検索用翻訳文書データベース6150から検索語を含む文書を検索する。なお、原文単語や同義語の判別する「[ ]」や、[ ]内の先頭に記述している原文の単語は検索対象としない。
【0113】
例えば、検索用翻訳文書70には、検索語「カーボンファイバー」が出現するため、検索用翻訳文書70は検索結果に含まれる。
【0114】
検索処理部6220により文書検索が行われると、その文書検索の結果が強調表示処理部6230に与えられ、強調表示処理部6230において、検索結果に対応する表示用翻訳文書80と、対応する第2言語の原文文書とが並べて表示される。このとき、検索語に対応する語をそれぞれ強調表示する。
【0115】
例えば、強調表示部6230は、文書データベース6120中から検索結果に含まれる検索用翻訳文書70に対応する文書20を読み出し、同様に、表示用翻訳文書データベース6160中から表示用翻訳文書80を読み出す。
【0116】
そして、検索用翻訳文書70から検索語入力手段6210で得られた検索語「カーボンファイバー」を検知し、「[ ]」内を参照することにより、対応する原文の単語「carbon fiber」を得る。
【0117】
文書20中から、「carbon fiber」の文字列を検出し、強調表示を行う。また、同様に検索語「カーボンファイバー」から、表示用訳語「炭素繊維」を得る。
【0118】
このとき、得られた表示用訳語「炭素繊維」と「カーボンファイバー」は同一の文字列か判定を行う。この場合、「炭素繊維」と「カーボンファイバー」は異なる文字列なので、表示用翻訳文書80の「炭素繊維」の文字列を「カーボンファイバー」へ置換し、置換された「カーボンファイバー」を強調表示する。
【0119】
強調表示された、表示用翻訳文書80と文書20を検索結果として並べて表示する。図11は、その表示例である。
【0120】
(B−3)第2の実施形態の効果
以上のように、本実施形態によれば、検索用翻訳処理と表示用翻訳処理とを別処理で行うことにより、翻訳処理にかかる負荷を分散でき、計算負荷を比較的低くすることができる。これにより、大量の文書を翻訳することができる。
【0121】
例えば、特許文献の検索であれば、特許全文を検索対象することで検索範囲を広げ、検索結果の表示にはタイトルとアブストラクトのみを表示するというようにすれば、検索精度の向上と、翻訳処理時間の短縮及びデータベースの容量削減という、相反する要素を両立させるという効果が得られる。
【0122】
(C)第3の実施形態
次に、本発明の文書検索システム、文書検索方法及び文書検索プログラムの第2の実施形態を図面を参照して説明する。
【0123】
第1及び第2の実施形態では、検索用翻訳文書データベースと表示用翻訳文書データベースとの2個の翻訳文書データベースを用意するものとして説明したが、本実施形態では、翻訳文書データベースを1個とし、検索結果を表示する際に、不要な情報を消去するようにしたものである。
【0124】
(C−1)第3の実施形態の構成
図12は、本実施形態の文書検索システムの機能構成を示す機能ブロック図であり、文書検索システム12は、翻訳手段10100、文書検索手段10200を有する。
【0125】
また、翻訳手段10100は、分野別辞書10110、文書データベース10120、翻訳処理部10130、翻訳文書データベース10140を少なくとも有する。
【0126】
分野別辞書10110及び文書データベース10130は、第1の実施形態の分野別辞書1110及び文書データベース1120に対応するものである。
【0127】
翻訳処理部10130は、文書データベース10120の文書に対して、分野別辞書10110を用いて翻訳処理を行うものである。
【0128】
ここで、翻訳処理部10130の翻訳処理の方法は、一般的な機械翻訳方法を採用することができる。また、翻訳処理部10130の出力結果は、原文単語とその訳語とを関係付けたものであり、例えば、翻訳文書の例を図13に示す。
【0129】
図13に示すように、原文文書の英語(第2言語)の単語と、訳語である日本語(第1言語)の単語を羅列したものを出力する。また、分野別辞書10110に同義語が記録されていればその全ての訳語を出力するようにする。この例では、表記上、同義語の羅列を「[ ]」で囲っているが、同義語関係が判別可能ならばどのような表記でも構わない。
【0130】
また、翻訳処理部10130は、翻訳処理した翻訳文書110を翻訳文書データベース10140に蓄積する。
【0131】
次に、図12に戻り、文書検索手段10200の機能構成を説明する。図12において、文書検索手段10200は、検索語入力手段10210、検索処理部10220、強調表示処理部10230を少なくとも有する。
【0132】
検索処理部10220は、検索語入力手段10210から検索語を受け取ると、検索語を用いて翻訳文書データベース10140に格納されている文書の検索を行うものである。また、検索処理部10220は、文書検索の結果を強調表示処理部10220に与える。
【0133】
強調表示処理部10230では、検索処理部10220で得られた検索結果と、検索語入力手段10210で得られた検索語から、検索結果の文書中にある検索語を強調表示する。検索結果の文書中に同義語が複数出力されていれば、一意の訳語のみを表示する。
【0134】
このような、複数の訳語の同義語から訳語を選ぶときは、検索語となった語は必ず出力されるようにする。また、文書データベース10130に格納されている文書のうち、検索結果に対応する文書の検索語に対応する語を強調表示し、検索処理部10220の結果と並べて表示する。
【0135】
(C−2)第3の実施形態の動作
以下、本実施形態の文書検索システム12の動作を図面を参照して説明する。
【0136】
翻訳手段10100による文書の翻訳処理は、第1及び第2の実施形態と同様に文書検索処理の前に予め行う。
【0137】
まず、第1及び第2の実施形態と同様に、文書データベース10120に文書が存在する場合、翻訳処理部10130は、文書データベース10120から文書を読み出し、その文書について分野別辞書10110を用いて翻訳処理を行う。
【0138】
このとき、翻訳処理部10130の翻訳処理は、第2の実施形態の検索用翻訳処理部6130の翻訳処理に対応するので詳細な説明は省略する。
【0139】
次に、文書検索手段10200による文書検索処理の動作を説明する。
【0140】
検索語「カーボンファイバー」の取り込みから検索処理部10220による文書検索までの動作は第2の実施形態と同様であるので詳細な説明を省略する。
【0141】
検索処理部10220から文書検索の結果が強調表示処理部10230に与えられると、強調表示処理部10230は、文書検索の結果である翻訳文書中の不必要な情報を消去し、不必要情報消去した翻訳文書と文書データベース10120から読み出した原文文書を出力する。
【0142】
ここで、強調表示処理は、第2の実施形態と同様の処理を適用することができ、また検索結果の表示例は、図14に示すように、翻訳文書と原文文書とを並べて出力する。
【0143】
不必要な情報の消去する方法は、例えば、[ ]内にある原文単語や、[ ](カッコ)自体を消去する。
【0144】
また、訳語が複数ある場合には、それら訳語のうち優先順位が高い語(例えば、最初に出現する訳語)を残し、それ以外の語を消去する。
【0145】
例えば、図13において、「[spring ばね スプリング]」のように、複数の訳語がある場合、優先順位が高い「ばね」を出力し、「スプリング」を消去する(図14参照)。
【0146】
また、訳語が複数ある場合には検索語を表示するようにし、それ以外の語を消去する。
【0147】
例えば、翻訳文書110中の「[carbon fiber カーボンファイバー 炭素繊維 カーボン繊維]」のうち、検索語である「カーボンファイバー」のみを残し、それ以外を消去する(図14参照)。
【0148】
(C−3)第3の実施形態の効果
以上のように、本実施形態によれば、第1及び第2の実施形態と同様の効果を得ることができる。
【0149】
また、本実施形態によれば、翻訳文書から表示に不必要な情報を消去して表示するようにしたので、用意する翻訳用データベースを1個で済み、データ保持量が少なく済む。
【0150】
(D)第4の実施形態
次に、本発明の文書検索システム、文書検索方法及び文書検索プログラムの第2の実施形態を図面を参照して説明する。
【0151】
本実施形態は、クエリ翻訳方式を採用した言語横断型文書検索システムに本発明を適用した場合である。
【0152】
(D−1)第4の実施形態の構成
図15は、本実施形態の文書検索システムの機能構成を示す機能ブロック図であり、本実施形態の文書検索システム13は、分野別辞書13110、文書データベース13120、検索語入力手段13130、検索語翻訳処理部13140、検索語対応記憶部13150、検索処理部13160、検索結果翻訳処理部13170、強調表示処理部13180を少なくとも有する。
【0153】
分野別辞書13110及び文書データベース13120は第1の実施形態で説明した分野別辞書1110及び文書データベース1120に対応する。
【0154】
検索語入力手段13130は、ユーザ入力された日本語(第1言語)の検索語を取り込み、検索語翻訳処理部13140及び検索語対応記憶部13150に与えるものである。
【0155】
検索語翻訳処理部13140は、検索語入力手段13130から検索語を受け取ると、分野別辞書13110を用いて検索語に対して英語(第2言語)に翻訳処理を行い、翻訳した検索語を検索処理部13160に与えるものである。
【0156】
また、検索語翻訳処理部13140は、検索語を英語に翻訳した後、更に、分野別辞書13110においてその英語に翻訳した検索語に対応付けられている訳語(同義語も含む)を読み出し、その読み出した情報を検索語対応記憶部13150に与える。
【0157】
検索語対応記憶部13150は、検索語翻訳処理部13140により検索語の訳語を受け取ると、その検索語の訳語を、検索語入力手段13130からの検索語と対応付けて記憶するものである。
【0158】
検索処理部13160は、検索語翻訳処理部13140から翻訳された検索語を受け取ると、翻訳された検索語を用いて、文書データベース13120から検索語を含む文書を検索するものである。また、検索処理部13160は、文書検索処理の結果を検索結果翻訳処理部13170に与えるものである。なお、検索処理部13160による文書検索の手法は一般的な文書検索の手法を用いる。
【0159】
検索結果翻訳処理部13170は、検索処理部13160から文書検索の結果を受け取ると、分野別辞書13110を用いて検索結果である文書を翻訳処理を行うものである。また、検索結果翻訳処理部13170は、翻訳した文書を強調表示処理部13180に与えるものである。
【0160】
ここで、検索結果翻訳処理部13170は、原文文書を翻訳する際、検索語対応記憶部13150の格納内容を監視し、文書中に検索語対応記憶部13150に記憶されている単語がある場合には、その単語に対応する訳語を優先的に用いて翻訳処理を行うようにする。
【0161】
また、検索結果翻訳処理部13170は、原文文書を翻訳すると、原文文書中の単語(第2言語)の位置と、その単語の訳語の翻訳文書中における位置とを対応付けて、検索語対応記憶部13150に記憶させるものである。
【0162】
強調表示処理部13180は、検索結果翻訳処理部13170から検索結果の翻訳文書を受け取ると、その原文文書中及び翻訳文書中における検索語の訳語及び検索語を強調表示し、原文文書と翻訳文書とを並べて表示するものである。
【0163】
ここで、強調表示処理は、検索結果翻訳処理部13170が検索語対応記憶部13150に記憶させた原文中の単語の位置と翻訳文中の訳語の位置とに基づいて強調表示する単語を特定し、その単語に対して行なう。なお、強調表示方法は、第1の実施形態と同様の方法を適用できる。
【0164】
(D−2)第4の実施形態の動作
次に、本実施形態の文書検索システム13の動作を説明する。図16は、本実施形態の文書検索システム13の文書検索処理の動作を示すフローチャートである。
【0165】
まず、検索語「カーボンファイバー」がユーザにより入力されると、検索語入力手段13130は検索語を取り込み、検索語翻訳処理部13140及び検索語対応記憶部13150に与える(ステップ31)。
【0166】
検索語入力手段13130から検索語が与えられると、検索語翻訳処理部13140は、分野別辞書13110を用いて検索語を翻訳する(ステップ32)。
【0167】
例えば、ユーザから文書分野の入力を受け付け、例えば、分野「繊維」と入力されると、検索語翻訳処理部13140は、「繊維」分野の分野別辞書13110を使用して、検索語「カーボンファイバー」を翻訳し、訳語「carbon fiber」を取得する。なお、分野別辞書13110の分野の指定がない場合には全ての分野の辞書を用いることができる。
【0168】
検索語翻訳処理部13140による検索語の翻訳処理がなされると、検索語対応記憶部13150において、検索語「カーボンファイバー」とその訳語「carbon fiber」とが対応付けられて記憶される(ステップ33)。
【0169】
また、検索語翻訳処理部13140により検索語が翻訳処理されると、検索語の訳語が検索処理部13160に与えられる。そして、検索処理部13160において、検索語の訳語「carbon fiber」に基づいて、文書データベース13120中の文書が検索される(ステップ34)。
【0170】
検索処理部13160により文書検索がなされると、その文書検索の結果が、検索結果翻訳処理部13170に与えられる。そして、検索結果翻訳処理部13170において、検索結果の文書に対して、分野指定された分野別辞書13110を用いて翻訳処理が行われる(ステップ35)。
【0171】
このとき、検索語対応記録部13150に記録された「carbon fiber」と「カーボンファイバー」の対応を参照し、「carbon fiber」の訳語が分野別辞書13110中に「炭素繊維」「カーボン繊維」「カーボンファイバー」のように複数あった場合は、検索語対応記録部13150に記録されている訳語「カーボンファイバー」を翻訳文へ出力する。
【0172】
また、検索結果で得られた文中での検索語の訳語「carbon fiber」の位置と、その翻訳文での検索語「カーボンファイバー」の位置の情報を検索語対応記録部13150に追記する。
【0173】
検索結果翻訳処理部13170による検索結果の翻訳処理がなされると、その翻訳文書及び原文文書が強調表示処理部13180に与えられる。そして、強調表示処理部13180は、検索結果の原文文書とその翻訳文書とを並べて表示する。このとき、検索語対応記憶部13150を参照することにより、検索結果の原文、翻訳文での検索語の位置を受け取り、該当部分を強調表示する(図17参照)。
【0174】
(D−3)第4の実施形態の効果
以上、本実施形態によれば、第1〜第3の実施形態の効果と同様の効果を得ることができる。
【0175】
また、本実施形態によれば、クエリ翻訳方式を採用したため、検索対象文書を予め翻訳しておく必要がないので、ドキュメント翻訳方式に比べて、計算負荷が低く済み、また翻訳文書を蓄積しておくデータベースも不要である。
【0176】
(E)他の実施形態
(E−1)上述した第1〜第4の実施形態の言語を横断した検索において、ユーザの母国語で、外国語文書を検索することができ、また、検索結果もユーザの母国で表示するため、検索結果から目的文書を見つけ出すことを容易にするものである。
【0177】
このとき、分野別辞書を用いた翻訳によって、分野に適切な訳語を用いた翻訳文を提示する。分野に応じた同義語を拡張するため、検索精度が向上される。
【0178】
また、検索語に対応した語を、翻訳文、原文ともに表示するため、翻訳文からの目的文書の発見と、原文の精読する際の理解の助けにもなる。
【0179】
(E−2)上述した第1〜第4の実施形態では、第2言語の文書を英語で作成された文書を例に挙げて説明したが、他の言語で作成された文書にも適用できる。
【0180】
また、それぞれの言語でなる文書データベース及び辞書を備えることで、例えば、英語の文書と中国語の文書等のように、1システムで複数の各言語でなる文書を同時に検索することができる。
【0181】
勿論、本発明のシステムは、検索語と同じ言語でなる文書検索を妨げるものではない。すなわち、本発明のシステムは、検索語と同じ言語の文書と、言語が異なる1又は複数の各言語でなる文書とを同時に検索することができる。
【0182】
(E−3)上述した第1〜第4の実施形態で説明した文書検索システム10、11,12及び13の機能構成は、図示した構成に限定されず広く適用できる。
【0183】
例えば、第1〜第4の実施形態で説明したシステムの各構成要件が、それぞれネットワークを通じて接続可能であれば、それぞれの構成要件を分散配置させ、分散処理を可能としてもよい。
【0184】
また例えば、文書データベース、分野別辞書、図示しないが形態素解析などに使用する辞書や所定規則等は、ネットワーク(例えばインターネット等)を通じて接続可能なものであってもよい。
【0185】
また、上述した第1〜第4の実施形態において、原文文書における文字列と、翻訳文書における翻訳した文字列との間の位置関係を明確にすることができれば、他の機能構成に広く適用できる。
【図面の簡単な説明】
【0186】
【図1】第1の実施形態の文書検索システムの機能構成を示す機能ブロック図である。
【図2】第1の実施形態の文書データベースに存在する文書例を示す図である。
【図3】第1の実施形態の表示翻訳文書の例を示す図である。
【図4】第1の実施形態の検索用翻訳文書の例を示す図である。
【図5】第1の実施形態の翻訳処理を示すフローチャートである。
【図6】第1の実施形態の文書検索処理を示すフローチャートである。
【図7】第1の実施形態の検索結果の表示例を示す図である。
【図8】第2の実施形態の文書検索システムの機能構成を示す機能ブロック図である。
【図9】第2の実施形態の検索用翻訳文書の例を示す図である。
【図10】第2の実施形態の表示用翻訳文書の例を示す図である。
【図11】第2の実施形態の検索結果の表示例を示す図である。
【図12】第3の実施形態の文書検索システムの機能構成を示す機能ブロック図である。
【図13】第3の実施形態の翻訳文書の例を示す図である。
【図14】第3の実施形態の検索結果の表示例を示す図である。
【図15】第4の実施形態の文書検索システムの機能構成を示す機能ブロック図である。
【図16】第4の実施形態の文書検索処理を示すフローチャートである。
【図17】第4の実施形態の検索結果の表示例を示す図である。
【符号の説明】
【0187】
10、11、12及び13…文書検索システム、1100、6100及び10100…翻訳手段、1200、6200及び10200…文書検索手段、1110、6110、10110及び13110…分野別辞書、1130及び10130…翻訳処理部、6130…検索用翻訳処理部、6140…表示用翻訳処理部、1220、6220、10220及び13160…検索処理部、1230、6230、10230及び13180…強調表示処理部。

【特許請求の範囲】
【請求項1】
入力された検索文字列を用いて、1又は複数の各言語でなる文書群の中から、上記検索文字列及び又はそれに対応する文字列を含む1又は複数の文書を検索する文書検索システムにおいて、
翻訳用辞書を用いて、1又は複数の各言語でなる各原文文書を上記検索文字列の言語に翻訳すると共に、翻訳前の原文文字列とそれに対応する1又は複数の翻訳文字列との関係を示す文字列対応情報を作成する文書翻訳手段と、
上記文書翻訳手段による、上記各原文文書の各翻訳文書と上記文字列対応情報とを蓄積する翻訳文書蓄積手段と、
上記翻訳文書蓄積手段に蓄積されている上記各翻訳文書の中から、上記検索文字列を含む1又は複数の文書を検索する翻訳文書検索手段と、
上記文字列対応情報に基づいて、上記翻訳文書検索手段が検索した上記各翻訳文書中の上記検索文字列と、それに対応する上記各原文文書中の上記原文文字列とに対して強調表示処理を行うと共に、少なくとも上記翻訳文書検索手段が検索した上記各翻訳文書とその各原文文書とを出力させる文書出力手段と
を備えることを特徴とする文書検索システム。
【請求項2】
入力された検索文字列を用いて、1又は複数の各言語でなる文書群の中から、上記検索文字列及び又はそれに対応する文字列を含む1又は複数の文書を検索する文書検索システムにおいて、
検索対象とする1又は複数の各言語でなる1又は複数の原文文書を蓄積する原文文書蓄積手段と、
翻訳用辞書を用いて、上記検索用文字列を上記各原文文書の言語に翻訳すると共に、上記翻訳用辞書における、翻訳後の翻訳検索文字列とそれに対応する1又は複数の翻訳検索文字列との関係を示す文字列対応情報を作成する検索文字列翻訳手段と、
上記検索文字列翻訳手段による上記文字列対応情報を記憶する文字列対応情報記憶手段と、
上記原文文書蓄積手段に蓄積されている上記各原文文書の中から、上記翻訳検索文字列を含む1又は複数の文書を検索する原文文書検索手段と、
上記原文文書検索手段が検索した各原文文書を、上記翻訳用辞書を用いて上記検索文字列の言語に翻訳する原文文書翻訳手段と、
上記文字列対応情報に基づいて、上記原文文書検索手段が検索した上記各原文文書中の上記翻訳検索文字列と、それに対応する上記各翻訳文書中の上記文字列とに対して強調表示処理を行うと共に、少なくとも上記原文文書検索手段が検索した上記各原文文書とその各翻訳文書とを出力させる文書出力手段と
を備えることを特徴とする文書検索システム。
【請求項3】
上記翻訳用辞書が、文書検索カテゴリーの分野別辞書であり、ある見出し文字列に対して複数の同等意義の翻訳文字列が対応付けられた見出し文字列を有することを特徴とする請求項1又は2に記載の文書検索システム。
【請求項4】
上記文字列対応情報は、上記各原文文書における上記各原文文字列の位置情報と、それに対応する上記各翻訳文書における上記各翻訳文字列の位置情報とを対応付けた情報を有するものであり、
上記文書出力手段は、上記文字列対応情報に基づいて、上記各翻訳文書と上記各原文文書内での強調表示させる文字列の位置を特定することを特徴とする請求項1又は3に記載の文書検索システム。
【請求項5】
上記文字列対応情報は、上記各翻訳文書中に、上記各原文文字列と上記各翻訳文字列とが対応付けをもって、並べて示されたものであり、
上記文書出力手段は、上記各原文文字列と並べられた上記各翻訳文字列と、上記検索文字列とを比較することで、上記各翻訳文書と上記各原文文書内での強調表示させる文字列の位置を特定することを特徴とする請求項1又は3に記載の文書検索システム。
【請求項6】
上記文書出力手段は、上記検索文字列を特定すると、特定した上記検索文字列情報以外の上記文字列対応情報を削除することを特徴とする請求項5に記載の文書検索システム。
【請求項7】
上記文字列対応情報は、上記各原文文書における上記各原文文字列の位置情報と、それに対応する上記各翻訳文書における上記各翻訳文字列の位置情報とを有するものであり、
上記文書出力手段は、上記文字列対応情報に基づいて、上記各翻訳文書と上記各原文文書内での強調表示させる文字列の位置を特定することを特徴とする請求項2又は3に記載の文書検索システム。
【請求項8】
入力された検索文字列を用いて、1又は複数の各言語でなる文書群の中から、上記検索文字列及び又はそれに対応する文字列を含む1又は複数の文書を検索する文書検索方法において、
文書翻訳手段が、翻訳用辞書を用いて、1又は複数の各言語でなる各原文文書を上記検索文字列の言語に翻訳すると共に、翻訳前の原文文字列とそれに対応する1又は複数の翻訳文字列との関係を示す文字列対応情報を作成する文書翻訳工程と、
翻訳文書蓄積手段が、上記文書翻訳手段による、上記各原文文書の各翻訳文書と上記文字列対応情報とを蓄積する翻訳文書蓄積工程と、
翻訳文書検索手段が、上記翻訳文書蓄積手段に蓄積されている上記各翻訳文書の中から、上記検索文字列を含む1又は複数の文書を検索する翻訳文書検索工程と、
文書出力手段が、上記文字列対応情報に基づいて、上記翻訳文書検索手段が検索した上記各翻訳文書中の上記検索文字列と、それに対応する上記各原文文書中の上記原文文字列とに対して強調表示処理を行うと共に、少なくとも上記翻訳文書検索手段が検索した上記各翻訳文書とその各原文文書とを出力させる文書出力工程と
を備えることを特徴とする文書検索方法。
【請求項9】
入力された検索文字列を用いて、1又は複数の各言語でなる文書群の中から、上記検索文字列及び又はそれに対応する文字列を含む1又は複数の文書を検索する文書検索方法において、
原文文書蓄積手段が、検索対象とする1又は複数の各言語でなる1又は複数の原文文書を蓄積する原文文書蓄積工程と、
検索文字列翻訳手段が、翻訳用辞書を用いて、上記検索用文字列を上記各原文文書の言語に翻訳すると共に、上記翻訳用辞書における、翻訳後の翻訳検索文字列とそれに対応する1又は複数の翻訳検索文字列との関係を示す文字列対応情報を作成する検索文字列翻訳工程と、
文字列対応情報記憶手段が、上記検索文字列翻訳手段による上記文字列対応情報を記憶する文字列対応情報記憶工程と、
原文文書検索手段が、上記原文文書蓄積手段に蓄積されている上記各原文文書の中から、上記翻訳検索文字列を含む1又は複数の文書を検索する原文文書検索工程と、
原文文書翻訳手段が、上記原文文書検索手段が検索した各原文文書を、上記翻訳用辞書を用いて上記検索文字列の言語に翻訳する原文文書翻訳工程と、
文書出力手段が、上記文字列対応情報に基づいて、上記原文文書検索手段が検索した上記各原文文書中の上記翻訳検索文字列と、それに対応する上記各翻訳文書中の上記文字列とに対して強調表示処理を行うと共に、少なくとも上記原文文書検索手段が検索した上記各原文文書とその各翻訳文書とを出力させる文書出力工程と
を備えることを特徴とする文書検索方法。
【請求項10】
入力された検索文字列を用いて、1又は複数の各言語でなる文書群の中から、上記検索文字列及び又はそれに対応する文字列を含む1又は複数の文書を検索させる文書検索プログラムにおいて、
コンピュータに、
翻訳用辞書を用いて、1又は複数の各言語でなる各原文文書を上記検索文字列の言語に翻訳すると共に、翻訳前の原文文字列とそれに対応する1又は複数の翻訳文字列との関係を示す文字列対応情報を作成する文書翻訳手段、
上記文書翻訳手段による、上記各原文文書の各翻訳文書と上記文字列対応情報とを蓄積する翻訳文書蓄積手段、
上記翻訳文書蓄積手段に蓄積されている上記各翻訳文書の中から、上記検索文字列を含む1又は複数の文書を検索する翻訳文書検索手段、
上記文字列対応情報に基づいて、上記翻訳文書検索手段が検索した上記各翻訳文書中の上記検索文字列と、それに対応する上記各原文文書中の上記原文文字列とに対して強調表示処理を行うと共に、少なくとも上記翻訳文書検索手段が検索した上記各翻訳文書とその各原文文書とを出力させる文書出力手段
として機能させることを特徴とする文書検索プログラム。
【請求項11】
入力された検索文字列を用いて、1又は複数の各言語でなる文書群の中から、上記検索文字列及び又はそれに対応する文字列を含む1又は複数の文書を検索させる文書検索プログラムにおいて、
コンピュータに、
検索対象とする1又は複数の各言語でなる1又は複数の原文文書を蓄積する原文文書蓄積手段、
翻訳用辞書を用いて、上記検索用文字列を上記各原文文書の言語に翻訳すると共に、上記翻訳用辞書における、翻訳後の翻訳検索文字列とそれに対応する1又は複数の翻訳検索文字列との関係を示す文字列対応情報を作成する検索文字列翻訳手段、
上記検索文字列翻訳手段による上記文字列対応情報を記憶する文字列対応情報記憶手段、
上記原文文書蓄積手段に蓄積されている上記各原文文書の中から、上記翻訳検索文字列を含む1又は複数の文書を検索する原文文書検索手段、
上記原文文書検索手段が検索した各原文文書を、上記翻訳用辞書を用いて上記検索文字列の言語に翻訳する原文文書翻訳手段、
上記文字列対応情報に基づいて、上記原文文書検索手段が検索した上記各原文文書中の上記翻訳検索文字列と、それに対応する上記各翻訳文書中の上記文字列とに対して強調表示処理を行うと共に、少なくとも上記原文文書検索手段が検索した上記各原文文書とその各翻訳文書とを出力させる文書出力手段
として機能させることを特徴とする文書検索プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2007−58706(P2007−58706A)
【公開日】平成19年3月8日(2007.3.8)
【国際特許分類】
【出願番号】特願2005−245306(P2005−245306)
【出願日】平成17年8月26日(2005.8.26)
【出願人】(000000295)沖電気工業株式会社 (6,645)
【Fターム(参考)】