説明

対訳情報検索装置及びプログラム

【課題】複数の言語間の対応関係を表すのに必要な情報量を低減する。
【解決手段】対訳情報検索装置10は、複数の言語ごとに、該言語の複数の文字列を識別する識別情報をそれぞれ関連づけて格納した辞書情報と、複数の言語ごとに、当該言語の文字列を識別する識別情報と、当該言語の文字列に対応する他の1又は複数の言語の文字列を識別する識別情報とをそれぞれ対応付けて格納した言語間対応情報と、を記憶し、検索文字列と、原言語と、目標言語の情報を受け付け、原言語の辞書情報から、検索文字列に対応する識別情報を検索し、検索された識別情報に対応付けて言語間対応情報に格納される目標言語の文字列を識別する識別情報を取得し、目標言語の辞書情報から、前記取得された識別情報により識別される文字列を取得し出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対訳情報検索装置及びプログラムに関する。
【背景技術】
【0002】
指定した検索文に対応する他の言語の訳文を検索する検索システムがある。例えば、下記の特許文献1には、指定した検索文に基づいて、当該検索文や当該検索文に対応する他の言語の訳文を含む電子文書を検索する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2007−25939号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明の目的は、受け付けた検索文字列に対応する他の言語の対訳文字列を検索するシステムにおいて、複数の言語における各言語間の対応関係を表すために、言語の組ごとに両言語の対応する文字列同士を関連付けた辞書情報を設けた場合に、複数の言語における言語の組ごとに両言語の対応する文字列同士を関連付けた辞書情報を設けるときに比べて、複数の言語間の対応関係を表すのに必要な情報量を低減できる対訳情報検索装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0005】
上記目的を達成するために、請求項1に記載の発明は、複数の言語ごとに、当該言語の複数の文字列を識別する識別情報をそれぞれ関連づけて格納した辞書情報と、前記複数の言語ごとに、当該言語の文字列を識別する識別情報と、当該言語の文字列に対応する他の1又は複数の言語の文字列を識別する識別情報とをそれぞれ対応付けて格納した言語間対応情報と、を記憶する記憶手段と、検索文字列と、当該検索文字列の言語である原言語と、当該原言語とは異なる少なくとも1つの目標言語の情報を受け付ける受付手段と、前記原言語の辞書情報から、前記検索文字列に対応する識別情報を検索する検索手段と、前記検索手段により検索された識別情報に対応付けて前記言語間対応情報に格納される前記目標言語の文字列を識別する識別情報を取得する識別情報取得手段と、前記目標言語の辞書情報から、前記識別情報取得手段により取得された識別情報により識別される文字列を取得する文字列取得手段と、前記文字列取得手段により取得された文字列を出力する出力手段と、を含むことを特徴とする対訳情報検索装置である。
【0006】
また、請求項2に記載の発明は、文字列の索引情報を生成する生成手段をさらに含み、前記記憶手段は、前記複数の言語ごとに、当該言語の複数の文字列の識別情報と、当該複数の文字列について前記生成手段によりそれぞれ生成された索引情報とを関連づけて格納した索引表情報をさらに記憶し、前記検索手段は、前記索引表情報から、前記検索文字列について前記生成手段により生成された索引情報に基づいて識別情報を検索することを特徴とする請求項1に記載の対訳情報検索装置である。
【0007】
また、請求項3に記載の発明は、前記対訳情報検索装置は、文字列から予め定められた数の連続する文字からなる文字群を抽出する抽出手段をさらに含み、前記記憶手段は、予め定められた文字群ごとに、当該文字群を含む文字列の識別情報を関連付けて格納した類似文字列検索情報をさらに記憶し、前記検索手段は、前記類似文字列検索情報から、前記検索文字列について前記抽出手段により抽出された文字群を含む文字列の識別情報を検索し、前記対訳情報検索装置は、前記検索手段により検索された識別情報の文字列の中から、当該文字列について前記抽出手段により抽出された文字群と、前記検索文字列について抽出された文字群との一致度に基づいて、類似文字列を選択する選択手段をさらに含み、前記識別情報取得手段は、前記選択手段により選択された類似文字列の識別情報に関連づけて前記言語間対応情報に格納される前記目標言語の文字列を識別する識別情報を取得することを特徴とする請求項1又は2に記載の対訳情報検索装置である。
【0008】
また、請求項4に記載の発明は、前記複数の文字列は、文字が固定されている固定部分と、文字が可変である可変部分からなり、当該可変部分の文字の条件が定められた類型文字列を含み、前記記憶手段は、前記複数の言語のうち一つの言語の類型文字列における可変部分と、当該類型文字列に対応する他の言語の類型文字列における可変部分との対応関係を格納した類型文字列対応関係情報をさらに記憶し、前記検索文字列は、類型文字列であり、前記識別情報取得手段は、前記言語間対応情報において、前記検索手段により検索された識別情報に対応付けられる前記目標言語の類型文字列の識別情報を取得し、前記文字列取得手段は、前記目標言語の辞書情報から、前記識別情報取得手段により取得された識別情報に関連づけられた類型文字列を取得し、前記出力手段は、前記類型文字列対応関係情報に基づき、前記検索文字列の可変部分と、前記文字列取得手段により取得された類型文字列の可変部分とを対応させた態様で出力することを特徴とする請求項1乃至3のいずれかに記載の対訳情報検索装置である。
【0009】
また、請求項5に記載の発明は、前記言語間対応情報において、第1の言語の文字列の識別情報に対応関係が定められていない第2の言語を特定する手段と、前記言語間対応情報において、前記第1の言語の文字列の識別情報に対応付けられる第3の言語の文字列の識別情報であって、当該第3の言語の文字列の識別情報が前記第2の言語の文字列の識別情報と対応付けられている場合に、前記第1の言語の文字列の識別情報と、前記第2の言語の文字列の識別情報とを対応付けることで、前記言語間対応情報を更新する更新手段と、をさらに含むことを特徴とする請求項1乃至4のいずれかに記載の対訳情報検索装置である。
【0010】
また、請求項6に記載の発明は、複数の言語ごとに、当該言語の複数の文字列を識別する識別情報をそれぞれ関連づけて格納した辞書情報と、前記複数の言語ごとに、当該言語の文字列を識別する識別情報と、当該言語の文字列に対応する他の1又は複数の言語の文字列を識別する識別情報とをそれぞれ対応付けて格納した言語間対応情報と、を参照する手段と、検索文字列と、当該検索文字列の言語である原言語と、当該原言語とは異なる少なくとも1つの目標言語の情報を受け付ける受付手段と、前記原言語の辞書情報から、前記検索文字列に対応する識別情報を検索する検索手段と、前記検索手段により検索された識別情報に対応付けて前記言語間対応情報に格納される前記目標言語の文字列を識別する識別情報を取得する識別情報取得手段と、前記目標言語の辞書情報から、前記識別情報取得手段により取得された識別情報により識別される文字列を取得する文字列取得手段と、前記文字列取得手段により取得された文字列を出力する出力手段と、を含むことを特徴とする対訳情報検索装置である。
【0011】
また、請求項7に記載の発明は、複数の言語ごとに、当該言語の複数の文字列を識別する識別情報をそれぞれ関連づけて格納した辞書情報と、前記複数の言語ごとに、当該言語の文字列を識別する識別情報と、当該言語の文字列に対応する他の1又は複数の言語の文字列を識別する識別情報とをそれぞれ対応付けて格納した言語間対応情報と、を参照する手段と、検索文字列と、当該検索文字列の言語である原言語と、当該原言語とは異なる少なくとも1つの目標言語の情報を受け付ける受付手段と、前記原言語の辞書情報から、前記検索文字列に対応する識別情報を検索する検索手段と、前記検索手段により検索された識別情報に対応付けて前記言語間対応情報に格納される前記目標言語の文字列を識別する識別情報を取得する識別情報取得手段と、前記目標言語の辞書情報から、前記識別情報取得手段により取得された識別情報により識別される文字列を取得する文字列取得手段と、前記文字列取得手段により取得された文字列を出力する出力手段としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0012】
請求項1に記載の発明によれば、受け付けた検索文字列に対応する他の言語の対訳文字列を検索するシステムにおいて、複数の言語における各言語間の対応関係を表すために、言語の組ごとに両言語の対応する文字列同士を関連付けた辞書情報を設けた場合に、複数の言語における言語の組ごとに両言語の対応する文字列同士を関連付けた辞書情報を設けるときに比べて、複数の言語間の対応関係を表すのに必要な情報量を低減できる。
【0013】
請求項2に記載の発明によれば、本構成を有しない場合と比較して、検索文字列に対応する目標言語の対訳文字列を高速に検索できる。
【0014】
請求項3に記載の発明によれば、検索文字列の構文解析をせずに、検索文字列の類似文字列に対応する目標言語の対訳文字列を検索できる。
【0015】
請求項4に記載の発明によれば、可変部分を含む類型文字列に対応する目標言語の類型文字列を、それぞれの可変部分の対応関係を明示した態様で出力できる。
【0016】
請求項5に記載の発明によれば、一部の言語間の対応関係情報を他の言語間の対応関係情報を用いて補完できる。
【0017】
請求項6及び7に記載の発明によれば、複数の言語における言語の組ごとに両言語の対応する文字列同士を関連付けた辞書情報を設ける場合に比べて情報量を低減させた、複数の言語間の対応関係を表す情報を利用して、受け付けた検索文字列に対応する他の言語の対訳文字列を検索できる。
【図面の簡単な説明】
【0018】
【図1A】本実施形態に係る対訳情報検索装置の機能ブロック図である。
【図1B】データ記憶部に記憶されるデータの一例である。
【図2】例文辞書情報の一例を示す図である。
【図3A】例文パターン辞書情報の一例を示す図である。
【図3B】例文パターンデータの一例を示す図である。
【図4】例文/例文パターンハッシュ索引表の一例を示す図である。
【図5】文字コード検索表及び例文/例文パターンバイグラム索引表の一例を示す図である。
【図6】例文/例文パターン対訳データ表の一例を示す図である。
【図7】例文パターン要素対応表の一例を示す図である。
【図8】検索条件入力画面の一例を示す図である。
【図9】対応訳文情報の検索処理のフローチャートである。
【図10】類似訳文情報の検索処理のフローチャートである。
【図11】表示画面の一例を示す図である。
【発明を実施するための形態】
【0019】
以下、本発明を実施するための実施の形態(以下、実施形態という)を、図面に従って説明する。
【0020】
図1Aには、本実施形態に係る対訳情報検索装置10の機能ブロック図を示した。図1Aに示されるように、対訳情報検索装置10は、データ記憶部100、検索条件受付部102、対応訳文情報検索部104、類似訳文情報検索部106、検索結果出力部108、及びデータ更新部110を備える。
【0021】
上記の各部の機能は、CPU等の制御手段、メモリ等の記憶手段、外部デバイスとデータを送受信する入出力手段等を備えたコンピュータが、コンピュータ読み取り可能な情報記憶媒体に格納されたプログラムを読み込み実行することで実現されるものとしてよい。なお、プログラムは光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等の情報記憶媒体によってコンピュータたる対訳情報検索装置10に供給されることとしてもよいし、インターネット等のデータ通信網を介して当該コンピュータに供給されることとしてもよい。
【0022】
データ記憶部100は、複数の言語の例文及び例文パターン等の文字列をそれぞれ格納した辞書情報と、複数の各言語の例文及び例文パターン同士の対応関係を定めた対応関係情報等のデータを記憶する。以下、データ記憶部100に記憶されるデータの一例を、図1Bを参照して説明する。
【0023】
図1Bに示されるように、本実施形態では、データ記憶部100は、言語別辞書データベース200、対応訳文検索用データベース300、類似訳文検索用データベース400、言語間対応関係データベース500を含む。
【0024】
言語別辞書データベース200には、複数の言語のそれぞれについて辞書情報が記憶される。本実施形態では、辞書情報には、固定文字列からなる文を示す例文情報を格納した例文辞書情報202(202A〜C)、固定文字列と可変文字列からなる文を示す例文パターン情報を格納した例文パターン辞書情報204(204A〜C)を含むこととする。もちろん辞書情報は例文辞書情報202と例文パターン辞書情報204に限られず、固定文字列と可変文字列からなる句を示す句パターン情報を格納した句パターン情報をさらに含むこととしてもよい。
【0025】
図2には、例文辞書情報の一例を示した。図2に示されるように、例文辞書情報は、例文を識別する例文ID、例文(テキストデータ)の格納位置を示すアドレス(ポインタ)、例文のデータ長、例文を示すテキストデータをそれぞれ関連付けて構成することとしてよい。例えば、例文IDは、例文の言語を識別する言語IDを含めて構成する等して、例文IDは対訳情報検索装置10において固有の識別子となるように生成することとしてよい。なお、例文IDと例文のアドレス情報と、例文のデータ長及びテキストデータとは別のテーブル情報として構成することとしてもよい。
【0026】
図3Aには、例文パターン辞書情報の一例を示した。図3Aに示されるように、例文パターン辞書情報は、例文パターンを識別する例文パターンID、例文パターン(テキストデータ)の格納位置を示すアドレス(ポインタ)、例文パターンのデータ長、例文パターンを示すテキストデータをそれぞれ関連付けて構成することとしてよい。例えば、例文パターンIDは、例文パターンの言語を識別する言語IDを含めて構成する等して、例文パターンIDは対訳情報検索装置10において固有の識別子となるように生成することとしてよい。なお、例文パターンIDと例文パターンのアドレス情報と、例文パターンのデータ長及びテキストデータとは別のテーブル情報として構成することとしてもよい。
【0027】
図3Bには、例文パターンデータの一例を示した。図3Bに示されるように、例文パターンデータは、可変部分と固定部分とを含む。例えば、可変部分は、タイプ情報、変数情報、位置情報、語彙体系情報等のデータにより表される。タイプ情報は、可変部分(1)か固定部分(0)かを指定する真偽値が格納され、変数情報には、NP(1:名詞句)、AP(2:形容詞句)、DP(3:副詞句)、MP(4:数量詞句)、SP(5:地名句)、TP(6:時間句)、VP(7:動詞句)、PP(8:助詞句)等を指定するデータが格納される。位置情報には、可変部分の例文パターンにおける位置(先頭から何番目の要素であるかの情報)を示す情報が格納され、語彙体系情報には、日本語(J)や中国語(C)等の言語情報が格納される。また、固定部分は、タイプ情報、固定内容、位置情報、語彙体系情報等のデータにより表される。固定内容には、例文パターンの固定部分を構成する単語、句等のテキストデータが格納される。
【0028】
対応訳文検索用データベース300には、例文/例文パターンハッシュ索引表302(302A〜C)が記憶される。例文/例文パターンハッシュ索引表302は、言語ごとに設けることとしてよい。
【0029】
図4には、例文/例文パターンハッシュ索引表の一例を示した。図4に示されるように、例文/例文パターンハッシュ索引表は、例文/例文パターンハッシュ索引表の各レコードを識別する索引ID、例文/例文パターンのハッシュ値、辞書(例文辞書又は例文パターン辞書)を指定する辞書指定情報、辞書指定情報により指定された辞書における識別情報、例文/例文パターンが関連する例文/例文パターン対訳データ表におけるレコードID、同じハッシュ値を持つ他の索引IDを示すリンク情報を関連付けたレコードから構成される。
【0030】
ハッシュ値は、文字列S=s1s2・・・sn(si(i=1〜n)は文字列Sにおける一文字を表す)に対してハッシュ関数Hash(S)により演算される。なお、ハッシュ関数は以下のようにしてハッシュ値を演算することとしてよい。
Hash(S)=0;
for(i=0;i<n;i++)
Hash^=(si << (i & 0x0f));
Hash(S)=Hash(S)%L;
なお、演算子^=はビットXOR、&がビットAND、<<iが左にiビット移動、%がMODであり、Lは例文/例文パターンハッシュ索引表におけるハッシュの範囲(異なるハッシュ値の数の上限値)である。
【0031】
類似訳文検索用データベース400には、文字コード検索表402(402A〜C)及び例文/例文パターンバイグラム索引表404(404A〜C)が記憶される。文字コード検索表402及び例文/例文パターンバイグラム索引表404は、言語ごとに設けることとしてよい。なお、本実施形態ではバイグラムを用いているが、Nグラムを用いることとしても構わない。
【0032】
図5には、文字コード検索表及び例文/例文パターンバイグラム索引表の一例を示した。図5に示されるように、文字コード検索表には、バイグラム(二文字からなる文字列)の先頭文字の文字コード(C)と、他のレコードへのアドレス(ポインタ、リンク情報)とが関連付けて記憶されている。
【0033】
例文/例文パターンバイグラム索引表には、文字コード検索表に記憶された先頭文字に続く二文字目の文字コード(Cij)、それらの文字からなるバイグラムを含む例文辞書のレコードリストデータ、当該バイグラムを含む例文パターン辞書のレコードリストデータ、先頭文字に続く他の二文字目がある場合にはそのバイグラムのレコードへのアドレス(ポインタ)が格納される。レコードリストデータには、例えば例文ID又は例文パターンIDのリストを格納することとしてもよい。図5に示した例であれば、先頭文字の文字コードCに対して二文字目の文字コードC11があるとすると、C11のレコードには、C11を含む全ての例文辞書のレコードリストデータと、C11を含む全ての例文パターン辞書のレコードリストデータとが記憶されると共に、Cに続く他の二文字目の文字コードC12があるためそのC12のレコードのアドレスが関連付けられて記憶される。先頭文字に続く他の二文字目がない場合には、アドレスにN(空)の情報を格納することとしてよい。
【0034】
言語間対応関係データベース500には、例文/例文パターン対訳データ表502(502A〜C)、例文パターン要素対応表(アライメント表)504(504A〜C)が記憶される。例文/例文パターン対訳データ表502は、1つの言語の辞書情報に記憶される例文/例文パターンと、他の1又は複数の言語の辞書情報に記憶される例文/例文パターンとの対応関係(対訳関係)を定めた情報である。
【0035】
図6には、例文/例文パターン対訳データ表の一例を示した。図6に示されるように、例文/例文パターン対訳データ表は、原文の言語を識別する原言語ID(例えばID=0を中国語、ID=1を日本語、ID=2を英語、ID=3を韓国語等)、対応関係を指定する他の言語を識別する目標言語ID、辞書(例文、例文パターン等)を指定する辞書指定情報、例文/例文パターン(原言語)の例文/例文パターンハッシュ索引表における索引ID、例文/例文パターン(原言語)の原言語の辞書情報における識別情報、例文/例文パターン(目標言語)の例文/例文パターンハッシュ索引表における索引ID、例文/例文パターン(目標言語)の目標言語の辞書情報における識別情報、例文パターン要素対応表におけるアライメントID、他のレコードへのリンク情報をそれぞれ関連付けて記憶するレコードから構成される。なお、他のレコードへのリンク情報は、複数の対訳データがある場合や、目標言語が異なる他の言語の対訳データがある場合にそれらへのリンク情報を含むこととしてよい。
【0036】
図7には、例文パターン要素対応表の一例を示した。図7に示されるように、例文パターン要素対応表は、原言語の例文パターン(原文パターン)と目標言語の例文パターン(訳文パターン)のそれぞれの文を構成する要素間の対応関係を示すアライメント情報を識別するアライメントIDと、アドレス(ポインタ)、アライメント情報のデータ長、アライメント情報をそれぞれ関連付けて格納している。アライメント情報は、対応関係の個数と、原文パターンの要素の位置情報と対応する訳文パターンの要素の位置情報とを対応付けた情報とを含むこととしてよい。図7に示した例において、アライメント情報2:s1−S2;s3−S4は、対応関係の個数が2、原文パターンの位置s1の要素が、訳文パターンの位置S2の要素に対応し、原文パターンの位置s3の要素が、訳文パターンの位置S4の要素に対応することを表している。なお、アライメントIDとアドレスを格納するテーブルと、アライメント情報のデータ長とアライメント情報を格納するテーブルとはそれぞれ分けて構成することとしてもよい。
【0037】
検索条件受付部102は、検索文字列、検索文字列の言語を示す原言語情報、検索文字列に対して検索する訳文の言語を示す目標言語情報、一致検索や類似検索等の検索タイプを含む検索条件を受け付ける。例えば、検索条件受付部102は、クライアント装置20において起動するウェブブラウザに表示される検索条件入力画面に入力された検索条件を、クライアント装置20から受け付けることとしてよい。
【0038】
図8には、検索条件入力画面600の一例を示した。図8に示されるように、検索条件入力画面600は、検索文字列の入力欄602と、検索文字列の言語を指定する原言語指定欄604と、目標言語を指定する目標言語指定欄606と、検索タイプを指定する検索タイプ指定欄608を含む。原言語指定欄604には言語の一覧から選択する言語を指定するラジオボタン(1つのみ選択可能)が表示され、目標言語指定欄606には、言語の一覧から選択する1又は複数の言語を指定するチェックボックスが表示される。また、検索タイプ指定欄608には、一致検索、類似検索についてチェックボックスが表示され、どちらか一方を選択した場合には一致検索又は類似検索となり、両方を選択した場合には、一致するか類似する文の対訳文を検索するOR検索となる。
【0039】
対応訳文情報検索部104は、検索条件受付部102により受け付けた検索条件に含まれる検索タイプが一致検索を含む場合に、当該検索条件に含まれる検索文字列に一致する例文/例文パターンを検索し、当該検索された例文/例文パターンに対応する目標言語の対訳データを検索する。以下、図9に示されるフローチャートを参照しながら、対応訳文情報検索部104により行われる検索処理の詳細について説明する。
【0040】
図9には、対応訳文情報の検索処理のフローチャートを示した。図9に示されるように、対応訳文情報検索部104は、検索条件受付部102で受け付けた検索条件に含まれる検索文字列Sのハッシュ値を演算する(S1001)。
【0041】
対応訳文情報検索部104は、検索条件に含まれる原言語情報に対応する言語の例文/例文パターン索引表から、演算されたハッシュ値に該当するレコードRhashを検索する(S1002)。
【0042】
対応訳文情報検索部104は、検索したレコードRhashの内容を参照し(S1003)、当該レコードRhashに含まれる辞書指定情報と識別情報に基づいて、原言語の例文/例文パターン辞書から該当するレコードを参照する(S1004)。
【0043】
対応訳文情報検索部104は、参照したレコードに格納される例文/例文パターンのデータを読み出し(S1005)、読み出したデータと、検索文字列とが対応するか否か(例えば一致するか否か)を判断する(S1006)。
【0044】
対応訳文情報検索部104は、S1006で対応していないと判断した場合には(S1006:N)、レコードRhashに同じハッシュ値の他のレコードへのリンク情報が含まれているときには(S1007:Y)、当該リンク情報によるリンク先のレコードを読み出して新たなレコードRhashとして(S1008)、処理S1003以降の処理を繰り返し、他のレコードへのリンク情報が含まれていないときには(S1007:N)、処理を終了する。
【0045】
対応訳文情報検索部104は、S1006で対応していると判断した場合には(S1006:Y)、レコードRhashに格納される例文/例文パターン対訳データ表におけるレコードIDに基づいて、例文/例文パターン対訳データ表から該当するレコードRbispを参照する(S1009)。
【0046】
対応訳文情報検索部104は、参照したレコードRbispに含まれる目標言語が検索条件に含まれる目標言語と一致しない場合には(S1010:N)、レコードRbispに含まれる他のレコードを新たなレコードRbispに設定する(S1011)。対応訳文情報検索部104は、レコードRbispに含まれる目標言語が検索条件に含まれる目標言語と一致する場合には(S1010:Y)、レコードRbispに含まれる目標言語の例文/例文パターンの辞書情報における識別情報を読み出して(S1012)、読み出した識別情報に該当する例文/例文パターンを読み出して(S1013)、処理を終了する。
【0047】
対応訳文情報検索部104は、検索条件に目標言語が複数含まれている場合には、各目標言語について、検索文字列と対応する例文/例文パターンを上記フローに基づいて検索することとしてよい。
【0048】
類似訳文情報検索部106は、検索条件受付部102により受け付けた検索条件に含まれる検索タイプが類似検索を含む場合に、当該検索条件に含まれる検索文字列に類似する例文/例文パターンを検索し、当該検索された例文/例文パターンに対応する目標言語の対訳データを検索する。以下、図10に示されるフローチャートを参照しながら、類似訳文情報検索部106により行われる検索処理の詳細について説明する。
【0049】
図10には、類似訳文情報の検索処理のフローチャートを示した。図10に示されるように、類似訳文情報検索部106は、検索条件受付部102で受け付けた検索条件に含まれる検索文字列Sのバイグラム(bi−gram)を生成する(S2001)。バイグラムの生成処理の一例を以下説明する。
【0050】
検索文字列S=s・・・s(s,s,・・・,sはSに含まれる文字)とすると、まずs,s,・・・,sn−1をバイグラムの候補として取得する。そして、取得されたバイグラムの候補から、予め定められた禁止文字又は禁止バイグラムを除外して、検索文字列Sに対するバイグラムb1,・・・,bkを生成する。
【0051】
類似訳文情報検索部106は、生成したバイグラムのうち未選択のバイグラムを1つ選択し(S2002)、検索条件に含まれる原言語情報に対応する言語の辞書情報から、上記選択したバイグラム(biとする)を含む例文/例文パターンを検索する(S2003)。具体的には、類似訳文情報検索部106は、文字コード検索表から、biのうち先頭の文字コードに該当するレコードを検索し、当該検索したレコードが参照するレコードを辿って、バイグラムbiの第2文字目が出現するレコードを特定する。ここで、類似訳文情報検索部106は、特定したレコードに格納されるバイグラムbiを含む例文/例文パターンのレコードリスト情報を取得し、当該取得したレコードリスト情報に基づいて例文/例文パターンの辞書情報から該当する例文/例文パターン(A1,A2,・・・,At)を取得する。
【0052】
類似訳文情報検索部106は、未選択のバイグラムが残っている場合には(S2004:Y)、S2002に戻ってそれ以降の処理を繰り返し、未選択のバイグラムが残っていない場合には(S2004:N)、各バイグラムについて検索された例文/例文パターン(A1,A2,・・・,At)のバイグラムの数(g1,g2,・・・,gt)を求める(S2005)。
【0053】
類似訳文情報検索部106は、例文/例文パターン(A1,A2,・・・,At)が検索文字列Sのバイグラム(b1,・・・,bk)をそれぞれいくつ含むかを求め(S2006)、以下の式(1)により各例文Ai(i=1〜t)と検索文字列Sとの類似度を算出する(S2007)。
類似度Sim(S,Ai)=(2*ni)/(k+gi) ・・・式(1)
また、類似度にはカバー率Cov(S,Ai)=ni/kを用いてもよい。
【0054】
類似訳文情報検索部106は、算出された類似度の大きい順に例文/例文パターン(A1,A2,・・・,At)を並び替え(S2008)、予め定められた順位までの例文/例文パターン(B1,B2,・・・,Bs)を選択する(S2009)。
【0055】
類似訳文情報検索部106は、選択された例文/例文パターン(B1,B2,・・・,Bs)のそれぞれについて、図9に示したフローに基づいて対応する対訳データを検索し(S2010)、処理を終了する。
【0056】
検索結果出力部108は、対応訳文情報検索部104と類似訳文情報検索部106により検索された対訳データを出力する。例えば、検索結果出力部108は、検索条件を受け付けたクライアント装置20に対して、検索条件に基づいて検索された対訳データを表示させる表示データを送信することとしてもよい。
【0057】
図11には、検索結果出力部108により出力される表示データに基づき表示される表示画面の一例を示した。図11に示される検索結果は、原言語を日本語、目標言語を中国語、検索タイプを類似検索、検索文字列を「を確認してください」とした場合の一例である。
【0058】
データ更新部110は、データ記憶部100に記憶される言語間の文の対応関係を示すデータにおいて、対応関係が記憶されていない言語間の文の対応関係を、対応関係が記憶されている他の言語間の文の対応関係に基づいて更新する。以下、データ更新部110の具体的処理について説明する。
【0059】
データ更新部110は、例えば言語iの例文パターンPijとして表し、例文パターンPij,Pklの対応関係データを<Pij,Pkl>と表す場合に、データ記憶部100に記憶される例文/例文パターン対訳データ表に<P11,P21>及び<P21,P31>が格納されているときに、両対応関係データに基づいて<P21,P31>を生成して、例文/例文パターン対訳データ表に記憶する。同様にデータ更新部110は、例文パターンPij,Pklのアライメント情報を[Pij,Pkl]と表す場合に、データ記憶部100に記憶される例文パターン要素対応表に[P11,P21]及び[P21,P31]が格納されているときに、両アライメント情報に基づいて[P21,P31]を生成して、例文パターン要素対応表に記憶する。
【0060】
データ更新部110は、例文/例文パターン対訳データ表において、第1の言語の文の識別情報に対応関係が定められていない第2の言語を特定し、例文/例文パターン対訳データ表において、第1の言語の文の識別情報に関連付けられる第3の言語の文の識別情報であって、当該第3の言語の文の識別情報が第2の言語の文の識別情報と対応関係が定められている場合に、第1の言語の文の識別情報と、第2の言語の文の識別情報とを関連付けて、例文/例文パターン対訳データ表を更新するようにしてもよい。これは、例文パターン要素対応表についても同様である。
【0061】
以上説明した対訳情報検索装置10では、例文と例文パターンとのハッシュ索引表を統合することにより、それぞれを別々に設ける場合に比べて、データ記憶部100の記憶量を低減させると共に、計算量も低減させている。
【0062】
また、対訳情報検索装置10では、言語ごとに例文/例文パターンを格納した辞書情報と、各言語の例文/例文パターンの対応関係とを独立させたことにより、言語ペアごとに例文/例文パターン間の対応関係を定める場合に比べて、情報の重複を無くしている。さらに、辞書情報自体は言語ごとに独立させたことで、1つの言語の辞書情報の更新に合わせて他の言語の辞書情報の更新をする必要がないため、辞書情報の管理が容易となる。
【0063】
また、対訳情報検索装置10では、例文/例文パターンのハッシュ値による索引表を設けたことにより、こうした構成を設けない場合と比べて、例文/例文パターンの一致検索が高速となる。
【0064】
また、対訳情報検索装置10では、Nグラム(一例としてバイグラム)の検索法を用いて例文/例文パターンの類似検索を行うことにより、形態素解析を行う必要がないため、多言語への適用が容易となる。
【0065】
本発明は、以上説明した実施形態に限定されるものではない。例えば、対訳情報検索装置10に備えられるデータ記憶部100は、外部のデータベースサーバーに設けられ、対訳情報検索装置10がデータベースサーバーにアクセスして参照することとしてもよい。
【符号の説明】
【0066】
10 対訳情報検索装置、20 クライアント装置、100 データ記憶部、102 検索条件受付部、104 対応訳文情報検索部、106 類似訳文情報検索部、108 検索結果出力部、110 データ更新部、200 言語別辞書データベース、202(202A〜C) 例文辞書情報、204(204A〜C) 例文パターン辞書情報、300 対応訳文検索用データベース、302(302A〜C) 例文/例文パターンハッシュ索引表、400 類似訳文検索用データベース、402(402A〜C) 文字コード検索表、404(404A〜C) 例文/例文パターンバイグラム索引表、500 言語間対応関係データベース、502(502A〜C) 例文/例文パターン対訳データ表、504(504A〜C) 例文パターン要素対応表、600 検索条件入力画面、602 入力欄、604 原言語指定欄、606 目標言語指定欄、608 検索タイプ指定欄。

【特許請求の範囲】
【請求項1】
複数の言語ごとに、当該言語の複数の文字列を識別する識別情報をそれぞれ関連づけて格納した辞書情報と、前記複数の言語ごとに、当該言語の文字列を識別する識別情報と、当該言語の文字列に対応する他の1又は複数の言語の文字列を識別する識別情報とをそれぞれ対応付けて格納した言語間対応情報と、を記憶する記憶手段と、
検索文字列と、当該検索文字列の言語である原言語と、当該原言語とは異なる少なくとも1つの目標言語の情報を受け付ける受付手段と、
前記原言語の辞書情報から、前記検索文字列に対応する識別情報を検索する検索手段と、
前記検索手段により検索された識別情報に対応付けて前記言語間対応情報に格納される前記目標言語の文字列を識別する識別情報を取得する識別情報取得手段と、
前記目標言語の辞書情報から、前記識別情報取得手段により取得された識別情報により識別される文字列を取得する文字列取得手段と、
前記文字列取得手段により取得された文字列を出力する出力手段と、を含む
ことを特徴とする対訳情報検索装置。
【請求項2】
文字列の索引情報を生成する生成手段をさらに含み、
前記記憶手段は、前記複数の言語ごとに、当該言語の複数の文字列の識別情報と、当該複数の文字列について前記生成手段によりそれぞれ生成された索引情報とを関連づけて格納した索引表情報をさらに記憶し、
前記検索手段は、前記索引表情報から、前記検索文字列について前記生成手段により生成された索引情報に基づいて識別情報を検索する
ことを特徴とする請求項1に記載の対訳情報検索装置。
【請求項3】
前記対訳情報検索装置は、文字列から予め定められた数の連続する文字からなる文字群を抽出する抽出手段をさらに含み、
前記記憶手段は、予め定められた文字群ごとに、当該文字群を含む文字列の識別情報を関連付けて格納した類似文字列検索情報をさらに記憶し、
前記検索手段は、前記類似文字列検索情報から、前記検索文字列について前記抽出手段により抽出された文字群を含む文字列の識別情報を検索し、
前記対訳情報検索装置は、前記検索手段により検索された識別情報の文字列の中から、当該文字列について前記抽出手段により抽出された文字群と、前記検索文字列について抽出された文字群との一致度に基づいて、類似文字列を選択する選択手段をさらに含み、
前記識別情報取得手段は、前記選択手段により選択された類似文字列の識別情報に関連づけて前記言語間対応情報に格納される前記目標言語の文字列を識別する識別情報を取得する
ことを特徴とする請求項1又は2に記載の対訳情報検索装置。
【請求項4】
前記複数の文字列は、文字が固定されている固定部分と、文字が可変である可変部分からなり、当該可変部分の文字の条件が定められた類型文字列を含み、
前記記憶手段は、前記複数の言語のうち一つの言語の類型文字列における可変部分と、当該類型文字列に対応する他の言語の類型文字列における可変部分との対応関係を格納した類型文字列対応関係情報をさらに記憶し、
前記検索文字列は、類型文字列であり、
前記識別情報取得手段は、前記言語間対応情報において、前記検索手段により検索された識別情報に対応付けられる前記目標言語の類型文字列の識別情報を取得し、
前記文字列取得手段は、前記目標言語の辞書情報から、前記識別情報取得手段により取得された識別情報に関連づけられた類型文字列を取得し、
前記出力手段は、前記類型文字列対応関係情報に基づき、前記検索文字列の可変部分と、前記文字列取得手段により取得された類型文字列の可変部分とを対応させた態様で出力する
ことを特徴とする請求項1乃至3のいずれかに記載の対訳情報検索装置。
【請求項5】
前記言語間対応情報において、第1の言語の文字列の識別情報に対応関係が定められていない第2の言語を特定する手段と、
前記言語間対応情報において、前記第1の言語の文字列の識別情報に対応付けられる第3の言語の文字列の識別情報であって、当該第3の言語の文字列の識別情報が前記第2の言語の文字列の識別情報と対応付けられている場合に、前記第1の言語の文字列の識別情報と、前記第2の言語の文字列の識別情報とを対応付けることで、前記言語間対応情報を更新する更新手段と、をさらに含む
ことを特徴とする請求項1乃至4のいずれかに記載の対訳情報検索装置。
【請求項6】
複数の言語ごとに、当該言語の複数の文字列を識別する識別情報をそれぞれ関連づけて格納した辞書情報と、前記複数の言語ごとに、当該言語の文字列を識別する識別情報と、当該言語の文字列に対応する他の1又は複数の言語の文字列を識別する識別情報とをそれぞれ対応付けて格納した言語間対応情報と、を参照する手段と、
検索文字列と、当該検索文字列の言語である原言語と、当該原言語とは異なる少なくとも1つの目標言語の情報を受け付ける受付手段と、
前記原言語の辞書情報から、前記検索文字列に対応する識別情報を検索する検索手段と、
前記検索手段により検索された識別情報に対応付けて前記言語間対応情報に格納される前記目標言語の文字列を識別する識別情報を取得する識別情報取得手段と、
前記目標言語の辞書情報から、前記識別情報取得手段により取得された識別情報により識別される文字列を取得する文字列取得手段と、
前記文字列取得手段により取得された文字列を出力する出力手段と、を含む
ことを特徴とする対訳情報検索装置。
【請求項7】
複数の言語ごとに、当該言語の複数の文字列を識別する識別情報をそれぞれ関連づけて格納した辞書情報と、前記複数の言語ごとに、当該言語の文字列を識別する識別情報と、当該言語の文字列に対応する他の1又は複数の言語の文字列を識別する識別情報とをそれぞれ対応付けて格納した言語間対応情報と、を参照する手段と、
検索文字列と、当該検索文字列の言語である原言語と、当該原言語とは異なる少なくとも1つの目標言語の情報を受け付ける受付手段と、
前記原言語の辞書情報から、前記検索文字列に対応する識別情報を検索する検索手段と、
前記検索手段により検索された識別情報に対応付けて前記言語間対応情報に格納される前記目標言語の文字列を識別する識別情報を取得する識別情報取得手段と、
前記目標言語の辞書情報から、前記識別情報取得手段により取得された識別情報により識別される文字列を取得する文字列取得手段と、
前記文字列取得手段により取得された文字列を出力する出力手段
としてコンピュータを機能させるためのプログラム。

【図1A】
image rotate

【図1B】
image rotate

【図2】
image rotate

【図3A】
image rotate

【図3B】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2012−48418(P2012−48418A)
【公開日】平成24年3月8日(2012.3.8)
【国際特許分類】
【出願番号】特願2010−188861(P2010−188861)
【出願日】平成22年8月25日(2010.8.25)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】