説明

文一致度分析装置および方法、ならびに言語変換装置および方法

【課題】単語の表面的な一致度と構文の一致度を適切に加味して一致度を判別する。
【解決手段】翻訳条件指定部101により翻訳条件を指定する。統合一致度算出部102は、単語集合一致度記憶部108および構文一致度記憶部109から該当する単語集合一致度および構文一致度を読み出して、r×(単語集合一致度)+(1−r)×(構文一致度)により、統合一致度を算出する。文選択部103は、条件を満たすコーパス内の1または複数の文を特定し、それに対応する翻訳先の文を選択する。翻訳文出力部104は選択された翻訳結果の文をコーパス記憶部106から読み出して出力する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、文の間の一致度を分析する技術に関し、また文を言語変換する言語変換技術(翻訳または通訳技術)に関する。
【背景技術】
【0002】
アナロジーに基づく機械翻訳として用例翻訳が提唱されている。用例翻訳では、あらかじめ二つの言語(3つ以上の言語でも良い)で同じ意味を表す対訳からなる対訳コーパスを準備する。そしてこの対訳コーパスから対訳表現を抽出し、翻訳すべき文を構成する各部分に適合する対訳表現を見つけ、それらを組み合わせて翻訳文を生成する。特許文献1はその一例であり、用例翻訳の一つとしてDP(Dynamic Programming)マッチに基づいた翻訳を行う。
【0003】
また、関連検索(自然文検索)を行う際に入力検索文を構文解析して検索語を複数取り出し、それぞれの検索語についてプロセスを立ち上げて検索を実行してその後例えば積を取って検索結果とすることを提案している。
【0004】
文の間の一致度を適切に求めること、ならびに文の間の一致度を適切に求めて言語変換に用いることが求められる。
【0005】
なお、上述の従来技術やその問題点は、この発明の背景の一部を説明するためにのみ説明している。この発明は上述の従来技術や問題点に限定されるものではないことに留意されたい。
【特許文献1】特開2003−6193公報
【特許文献2】特開2005−165521公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
この発明は、以上の事情を考慮してなされたものであり、文の間の一致度を適切に求める文一致度分析技術、ならびに文の間の一致度を適切に求めて言語変換に用いる言語変換技術を提供することを目的としている。
【課題を解決するための手段】
【0007】
この発明によれば、上述の課題を解決するために、特許請求の範囲に記載のとおりの構成を採用している。ここでは、発明を詳細に説明するのに先だって、特許請求の範囲の記載について補充的に説明を行なっておく。
【0008】
すなわち、この発明の一側面によれば、上述の課題を解決するために、一致度分析装置に:異なる文の間の構文の一致度を算出する第1の算出手段と;異なる文の間の形態素の一致度を算出する第2の算出手段と;上記第1の算出手段および第2の算出手段によりそれぞれ算出した構文の一致度および形態素の一致度から異なる文の間の総合的な一致度を算出する第3の算出手段とを設けている。
【0009】
この構成によれば、単語の表面的な一致度と構文の一致度を適切に加味して一致度を判別できる。
【0010】
この構成において、上記第3の算出手段は、上記構文の一致度および上記形態素の一致度の内挿を求めてもよい。
【0011】
また、上記内挿におけるパラメータの指定を入力する手段をさらに設けても良い。パラメータはデフォルトで指定できても良く、また固定でもよい。
【0012】
また、上記第1の算出手段は、上記構文の一致度を、文の構文に含まれる構文要素集合の和集合の要素数に対する構文要素集合の積集合の要素数の比により算出してもよい。構文要素は例えば係り受け関係の種類である。
【0013】
また、上記第2の算出手段は、上記形態素の一致度を、文に含まれる形態素の集合の和集合の要素数に対する形態素の集合の積集合の要素数の比により算出してもよい。形態素は例えば単語である。
【0014】
また、この発明の他の側面によれば、上述の課題を解決するために、言語翻訳装置に:複数の文からなる集合に対してそれぞれ異なる言語で準備された複数の文書データセットを記憶する文書データセット記憶手段と;処理候補の文と当該処理候補の文の言語で準備されている文書データセット中の文との間の構文の一致度と形態素の一致度とを記憶する一致度記憶手段と;上記構文の一致度および上記形態素の一致度の重み付けパラメータを入力するパラメータ入力手段と;処理候補の文を指定する処理候補指定手段と;上記重み付けパラメータと上記一致度記憶手段に記憶されている構文の一致度および形態素の一致度とに基づいて、入力された上記処理候補の文と当該処理候補の文の言語で準備されている文書データセット中の文との間の統合した一致度を算出する算出手段と;上記算出手段により算出した一致度に基づいて上記処理候補の文の言語で準備されている文書データセットから1または複数の文を選択し、選択された文について上記処理候補の文の言語と異なる言語で準備されている1または複数の文書データセットから上記選択された文に対応する文を選択する選択手段と;上記選択手段により選択された文を出力する出力手段とを設けるようにしている。
【0015】
この構成によれば、単語の表面的な一致度と構文の一致度を適切に加味して一致度を判別して用例による翻訳を行うことができる。
【0016】
また、この発明のさらに他の側面によれば、上述の課題を解決するために、言語変換装置に:複数の文からなる集合に対してそれぞれ異なる言語で準備された複数の文書データセットを記憶する記憶手段と;処理対象の文を指定する指定手段と;処理対象の文と当該処理対象の文の言語で準備されている文書データセット中の文との間の一致度を算出する算出手段と;上記一致度に基づいて上記処理対象の文の言語で準備されている文書データセットから1または複数の文を選択し、選択された文について上記処理対象の文の言語と異なる言語で準備されている1または複数の文書データセットから上記選択された文に対応する文を選択する選択手段と:上記選択手段により選択された文を出力する出力手段とを設け、上記算出手段は、文の間の構文の一致度を算出する第1の手段と、文の間の形態素の一致度を算出する第2の手段と、上記第1の手段および第2の手段によりそれぞれ算出した構文の一致度および形態素の一致度から文の一致度を算出する第3の手段とを有する。
【0017】
この構成においても、単語の表面的な一致度と構文の一致度を適切に加味して一致度を判別して用例による翻訳を行うことができる。
【0018】
また、この発明のさらに他の側面によれば、上述の課題を解決するために、言語変換装置に:複数の文からなる集合に対してそれぞれ異なる言語で準備された複数の文書データセットを記憶する文書データセット記憶手段と;処理候補の文と当該処理候補の文の言語で準備されている文書データセット中の文との間の一致度を記憶する一致度記憶手段と;処理候補の文を入力する入力手段と;上記一致度に基づいて上記処理候補の文の言語で準備されている文書データセットから1または複数の文を選択し、選択された文について上記処理候補の文の言語と異なる言語で準備されている1または複数の文書データセットから上記選択された文に対応する文を選択する選択手段と;上記選択手段により選択された文を出力する手段とを設け、上記一致度を、文の間の構文の一致度と文の間の形態素の一致度とから算出している。
【0019】
この構成においても、単語の表面的な一致度と構文の一致度を適切に加味して一致度を判別して用例による翻訳を行うことができる。
【0020】
なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。
【0021】
この発明の上述の側面および他の側面は特許請求の範囲に記載され以下実施例を用いて詳述される。
【発明の効果】
【0022】
この発明によれば、単語の表面的な一致度と構文の一致度を適切に加味して一致度を判別することができる。
【発明を実施するための最良の形態】
【0023】
以下、この発明の実施例について説明する。
【実施例1】
【0024】
まず、この発明を翻訳装置に適用した実施例1について説明する。
【0025】
図1は、実施例1の翻訳装置の構成を全体として示すものである。この例では、翻訳装置100をコンピュータ200上のソフトウェアとして実現している。ソフトウェアは周知の手法により、記録媒体201を用いたり、通信回線を用いてコンピュータ200にインストールできる。コンピュータ200は周知のとおりCPU、主メモリ、バス、外部記憶装置等を含んで構成されている。図ではスタンドアローンの構成となっているが、ネットワークにより接続されたサーバ装置およびクライアント装置で構成しても良い。以下では、翻訳装置100を構成する各部を機能ブロックとして示すが、この機能ブロックは、典型的には、ソフトウェアおよびハードウェア資源が協働して構成されるものである。
【0026】
この例では、基準言語、例えば、英語で準備された翻訳対象の文と一致または似通った文を基準言語コーパスから選択し、この文に対応する翻訳対象言語コーパスの文の翻訳結果として出力する。コーパス中には必ずしも一致する文があるわけではなく似通った文を出力することもあるけれども、若干の手直しで正しい翻訳文を取得できる。翻訳先言語コースは例えば、日本語、ハングル、中国語等のコーパスであり、各種コーパスは相互に対応する文を保持している。
【0027】
この例では、基準言語で準備された翻訳対象の文の集合すべてを前処理して、翻訳対象の文の各々と基準言語コーパスの文の各々との間の単語集合一致度および構文一致度を算出しておき、それら単語集合一致度および構文一致度の重みを規定するパラメータを加減して統合的な一致度を算出し、この統合的な一致度に基づいて適切な1または複数の文が基準言語コーパスから選択され、これに対応する翻訳先言語コーパス中の文が翻訳結果またはその中間物として出力される。中間物は手直しを受けて最終的な翻訳結果となる。単語集合一致度、構文一致度および統合的な一致度については後述する。
【0028】
もちろん、翻訳元の言語を1つに限らず複数または準備したすべての言語としてもよい。この点についても後述する。
【0029】
図1において、翻訳装置100は、翻訳条件指定部101、統合一致度算出部102、文選択部103、翻訳文出力部104、データベース105等を含んで構成されている。データベース105は、基準言語コーパス記憶部106A、翻訳先言語コーパス記憶部106B〜106N、対象文集合記憶部107、単語集合一致度記憶部108、構文一致度記憶部109等を構成する。
【0030】
基準言語コーパス記憶部106Aおよび翻訳先言語コーパス記憶部106B〜106Nに記憶されている各言語で準備されたコーパスは一群の文の電子化されたデータである。コーパスは場合によっては構文解析情報等を含んでいても良いが、ここではそれら情報を含まないものとして説明する。なお、各種コーパス記憶部106A〜106Nを代表してコーパス記憶部106と呼ぶこともある。
【0031】
翻訳条件指定部101は、翻訳条件、例えば1の処理対象の文、翻訳先言語、翻訳元言語、単語集合一致度および構文一致度の重みを規定するパラメータr、出力条件(例えば、出力する際の単語集合一致度の閾値、統合一致度の閾値、統合一致度の閾値、出力数)を指定する。この指定はグラフィカルユーザインタフェースを用いて行える。
【0032】
統合一致度算出部102は、パラメータr、単語集合一致度記憶部108の単語集合記憶部、および、構文一致度記憶部109の構文一致度から、対象文について、基準言語コーパス中の各文との間の統合一致度を算出するものである。統合一致度は例えば図13に示すように、統合一致度=r×(単語集合一致度)+(1−r)(構文一致度)から内挿により算出される。このほか非線形補間を採用して統合一致度を算出しても良い。
【0033】
文選択部103は、統合一致度の値が条件を満たす1または文を特定し、翻訳先に対応する文を選択する。翻訳文出力部104は、翻訳先言語コーパスから、特定された文に対応して選択された翻訳先の文を取り出して出力するものである。出力画面には例えば処理対処の文、翻訳結果をなす1または複数の文が表示され、必要な場合には、翻訳結果を選択して編集することが可能である。
【0034】
単語集合一致度記憶部108および構文一致度記憶部109にそれぞれ記憶されている単語集合一致度および構文一致度は図8および図9に示すように準備される。図8および図9において、基準言語コーパス記憶部106Aおよび対象文集合記憶部107からそれぞれ基準言語コーパスの各文および対象文集号の各文を取り出して構文解析部110で構文解析し(S20、S21)、その構文解析結果をそれぞれ基準言語コーパス構文解析結果記憶部113Aおよび対象文集合構文解析結果記憶部114に記憶する。この後、単語集合一致度算出部111が、基準言語コーパス構文解析結果記憶部113および対象文集合構文解析結果記憶部114からそれぞれ基準言語コーパスの各文および対象文集号の各文を取り出して対象文の各々の基準言語コーパス中の文に対する単語集合一致度を算出し、単語集合一致度記憶部108に記憶する(S22)。また、構文一致度算出部112が、基準言語コーパス構文解析結果記憶部113Aおよび対象文集合構文解析結果記憶部114からそれぞれ基準言語コーパスの各文および対象文集号の各文を取り出して対象文の各々の基準言語コーパス中の文に対する構文一致度を算出し、構文一致度記憶部109に記憶する(S23)。
【0035】
なお、広くコーパス構文解析結果記憶部を表すときには符号113を用いる。
【0036】
対象文およびコーパス中の文の構文解析結果は例えば図10に示すようなものであり、この構文解析結果から単語集合および係り受け関係が取り出される。単語集合一致度は、例えば図11に示すように、対象文およびコーパスの文の単語集合の積集合および和集合を生成して、積集合の語長(要素数)を和集合の語長(要素数)で除して算出される。図11の例では、積集合の要素数は3であり、和集合の要素数は7であるので、単語集合一致度は3/7=43%である。構文一致度は、図12に示すように、対象文およびコーパスの文の係り受け関係の集合の積集合および和集合を生成して、積集合の語長(要素数)を和集合の語長(要素数)で除して算出される。図12の例では、対象文およびコーパスの文ともに係り受け関係の種類は同じでその数は4であるので、和集合も積集合もその要素数は4であり、構文一致度は4/4=100%である。rが0.5の場合、統合一致度は43%×(0.5)+100%×(1−0.5)=72%となる(図13参照)。
【0037】
コーパス記憶部106およびコーパス構文解析結果記憶部113中にそれぞれ記憶されている文および構文解析結果は、図3に示すように、インデックス1(コーパス名_言語種類)およびインデックス2(コーパス内文ID)により指定することができる。また、対象文集合記憶部107および対象文集合構文解析結果記憶部114中にそれぞれ記憶されている文および構文解析結果は、図4に示すように、インデックス3(集合名_言語種類)およびインデックス4(集合内文ID)により指定することができる。そして、単語集合一致度記憶部108および構文一致度記憶部109にそれぞれ記憶されている対象文のコーパスの文に対する単語集合一致度および構文一致度は、図5および図6に示すように、インデックス1(コーパス名_言語種類)、インデックス2(コーパス内文ID)、インデックス3(集合名_言語種類)およびインデックス4(集合内文ID)により指定できる。
【0038】
図2は実施例1の翻訳装置の動作を示すフローチャートであり、図7は同趣旨の模式図である。図2および図7において、翻訳条件指定部101により翻訳条件を指定する(S10)。翻訳条件、例えば1の処理対象の文、翻訳先言語、翻訳元言語、単語集合一致度および構文一致度の重みを規定するパラメータr、出力条件(例えば、出力する際の単語集合一致度の閾値、統合一致度の閾値、統合一致度の閾値、出力数)である。統合一致度算出部102は、インデックス1(コーパス名_言語種類)、インデックス2(コーパス内文ID)、インデックス3(集合名_言語種類)およびインデックス4(集合内文ID)を指定して、単語集合一致度記憶部108および構文一致度記憶部109から該当する単語集合一致度および構文一致度を読み出して、例えば、図13に示すように、r×(単語集合一致度)+(1−r)×(構文一致度)により、統合一致度を算出する(S11)。この例では、インデックス1は「コーパス名_基準言語」例えば「コーパス名_英語」であり、インデックス2はコーパス内の各文IDであり、インデックス3は「集合名_基準言語」例えば「集合名_英語」であり、インデックス4は翻訳対象の文のIDである。なお、翻訳元が基準言語(英語)でなく各種の言語である場合には、インデックス1およびインデックス3はこれに応じて変更される。文選択部103は、条件を満たすコーパス内の1または複数の文(インデックス1(コーパス名_基準言語)、インデックス2(コーパス内ID))を特定し、それに対応する翻訳先の文(インデックス1(コーパス名_翻訳先言語)、インデックス2(コーパス内ID))を選択する(S12)。翻訳文出力部104は選択された翻訳結果の文をインデックス1(コーパス名_翻訳先言語)、インデックス2(コーパス内ID)を用いてコーパス記憶部106から読み出して出力する(S13)。
【0039】
図14は、英語対象文「Could not close archive’[Var]’」に対する英語コーパスの一部分の各文の統合一致度をr=0、r=0.5、およびr=1にして選択したものである。rを適宜選択することにより単語の一致度と構文の一致度の重みが加減され適切な閾値を統合一致度に設定して所望の文を選択し、さらに、これに対応する翻訳先のコーパスの文を翻訳結果またはその中間物(編集可能)として出力できる。構文一致は構文が正しい範囲で修正が容易であり、また単語集合一致度は全体の表面上の一致度を優先する場合に好適であり、翻訳者は自分の意図にあわせてパラメータrを設定する。
【0040】
なお、図15〜図17は、日本語を基準言語とした場合に、日本語文「まして学校にもっていくのはあまりにマナー違反だと思います。」という入力に対して日本語コーパスから選択した文を示す。図15は、r=1の場合であり、図16はr=0の場合であり、図17はr=0.5の場合である(ただしr=0、r=1の場合の一致度がともに0.4以上のものに限定した)。統合一致度の上位N個または統合一致度が閾値以上のものを表示しその中から所望のものをユーザが選択して目的の翻訳結果を取得するようにしてもよい。また図17に示すように、統合一致度だけでなく、単語集合一致度や構文一致度で絞込みを行っても良い。
【0041】
なお、日本語の場合には、形態素解析を行う必要があり、また単語として自立語のみを考慮してもよい。
【0042】
なお、上述の例では、翻訳元の言語は1つとしてそれを基準言語と呼んだが、翻訳もとの言語が複数ある場合には、図3〜図6に破線で示すように、各言語の構文解析結果データ、単語集合一致殿データ、構文一致殿データを準備しておけば良い。
【実施例2】
【0043】
つぎにこの発明の実施例2の翻訳装置300について説明する。この翻訳装置300は、翻訳予定の対象文の集合について事前に単語集合一致度および構文一致度を求めておくのでなく、対象文を入力した後に該当する単語集合一致度および構文一致度を算出してその後に統合一致度を算出するものである。
【0044】
図18は実施例2の翻訳装置300の構成を全体と示している。図18において図1と対応する箇所には対応する符号を付した。
【0045】
図19は実施例2の動作を示している。
【0046】
図18および図19において、構文解析部110を用いて基準言語コーパス記憶部106Aに記憶されている基準言語コーパスの各文を、予め、構文解析して基準言語コーパス構文解析結果記憶部113Aに記憶しておくことが好ましい。つぎに、翻訳条件指定部101により翻訳条件を指定する(S30)。翻訳条件、例えば1の処理対象の文、翻訳先言語、翻訳元言語、単語集合一致度および構文一致度の重みを規定するパラメータr、出力条件(例えば、出力する際の単語集合一致度の閾値、統合一致度の閾値、統合一致度の閾値、出力数)である。構文解析部110は処理対象の文を構文解析する(S31)。単語集合一致度算出部111は、処理対象の文と基準言語コーパス内の文との間の単語集合一致度をそれらの構文解析結果のデータに基づいて算出し、単語集合一致度記憶部108に記憶する(S32)。構文一致度算出部112は、処理対象の文と基準言語コーパス内の文との間の構文一致度をそれらの構文解析結果のデータに基づいて算出し、構文一致度記憶部109に記憶する(S33)。統合一致度算出部102は、単語集合一致度記憶部108および構文一致度記憶部109から該当する単語集合一致度および構文一致度を読み出して、例えば、図13に示すように、r×(単語集合一致度)+(1−r)×(構文一致度)により、統合一致度を算出する(S33)。文選択部103は、条件を満たすコーパス内の1または複数の文を特定し、それに対応する翻訳先の文を選択する(S34)。翻訳文出力部104は選択された翻訳結果の文をコーパス記憶部106から読み出して出力する(S35)。
【実施例3】
【0047】
つぎにこの発明を検索装置に適用した実施例3について説明する。実施例3の検索装置400は、検索文とコーパス中の文との間の文の一致度を算出し、一致または類似の文をコーパス中から選択するものである。なお、この一致度算出技術は他の任意の装置のフロントエンドとしても利用可能である。
【0048】
図20はこの実施例3の検索装置を全体として示しており、この図において図1または図18と対応する箇所には対応する符号を付した。
【0049】
図21はこの実施例3の動作を示している。
【0050】
図20および図21において、構文解析部110を用いてコーパス記憶部106に記憶されているコーパスの各文を、予め、構文解析してコーパス構文解析結果記憶部113に記憶しておくことが好ましい。つぎに、検索条件指定部401により検索条件を指定する(S40)。検索条件、例えば1の検索文、検索対象コーパス、単語集合一致度および構文一致度の重みを規定するパラメータr、出力条件(例えば、出力する際の単語集合一致度の閾値、統合一致度の閾値、統合一致度の閾値、出力数)である。構文解析部110は検索分を構文解析する(S41)。単語集合一致度算出部111は、検索文とコーパス内の文との間の単語集合一致度をそれらの構文解析結果のデータに基づいて算出し、単語集合一致度記憶部108に記憶する(S42)。構文一致度算出部112は、検索文とコーパス内の文との間の構文一致度をそれらの構文解析結果のデータに基づいて算出し、構文一致度記憶部109に記憶する(S43)。統合一致度算出部102は、単語集合一致度記憶部108および構文一致度記憶部109から該当する単語集合一致度および構文一致度を読み出して、例えば、図13に示すように、r×(単語集合一致度)+(1−r)×(構文一致度)により、統合一致度を算出する(S43)。文選択部103は、条件を満たすコーパス内の1または複数の文を特定して選択する(S44)。出力部402は選択されたコーパス内の文をコーパス記憶部106から読み出して出力する(S45)。
【0051】
なお、この発明は特許請求の範囲の記載に基づいて決定されるものであり、実施例の具体的な構成、課題、および効果には限定されない。この発明は上述の実施例に限定されるものではなくその趣旨を逸脱しない範囲で種々変更が可能である。
【図面の簡単な説明】
【0052】
【図1】この発明の実施例1の翻訳装置を全体として示すブロック図である。
【図2】上述実施例1の動作を説明するフローチャートである。
【図3】上述実施例においてコーパスの文およびその構文解析結果を指定するインデックスを説明する図である。
【図4】上述実施例において対象文集合中の文およびその構文解析結果を指定するインデックスを説明する図である。
【図5】上述実施例において単語集合一致度を指定するインデックスを説明する図である。
【図6】上述実施例において構文一致度を指定するインデックスを説明する図である。
【図7】上述実施例における動作をインデックスとの関係で模式的に説明する図である。
【図8】上述実施例において単語集合一致度および構文一致度を準備する構成を説明する図である。
【図9】上述実施例において単語集合一致度および構文一致度を準備する動作を説明するフローチャートである。
【図10】上述実施例の単語集合一致度および構文一致度を構文解析例との関係で説明する図である。
【図11】上述実施例の単語集合一致度の例を説明する図である。
【図12】上述実施例の構文一致度の例を説明する図である。
【図13】上述実施例の統合的な一致度の例を説明する図である。
【図14】上述実施例で一致度に基づいて表示されるコーパス文の例を説明する図である。
【図15】上述実施例で一致度に基づいて表示されるコーパス文の他の例(r=1)を説明する図である。
【図16】上述実施例で一致度に基づいて表示されるコーパス文の他の例(r=0)を説明する図である。
【図17】上述実施例で一致度に基づいて表示されるコーパス文の他の例(r=0.5)を説明する図である。
【図18】この発明の実施例2の翻訳装置の構成を全体として示すブロック図である。
【図19】上述実施例2の動作を説明するフローチャートである。
【図20】この発明の実施例3の検装置置の構成を全体として示すブロック図である。
【図21】上述実施例3の動作を説明するフローチャートである。
【符号の説明】
【0053】
100 翻訳装置
101 翻訳条件指定部
102 統合一致度算出部
103 文選択部
104 翻訳文出力部
105 データベース
106 コーパス記憶部
106A 基準言語コーパス記憶部
106B〜106N 翻訳先言語コーパス記憶部
107 対象文集合記憶部
108 単語集合一致度記憶部
109 構文一致度記憶部
110 構文解析部
111 単語集合一致度算出部
112 構文一致度算出部
113 コーパス構文解析結果記憶部
113A 基準言語コーパス構文解析結果記憶部
114 対象文集合構文解析結果記憶部
200 コンピュータ
201 記録媒体
300 翻訳装置
400 検索装置
401 検索条件指定部
402 出力部

【特許請求の範囲】
【請求項1】
異なる文の間の構文の一致度を算出する第1の算出手段と、
異なる文の間の形態素の一致度を算出する第2の算出手段と、
上記第1の算出手段および第2の算出手段によりそれぞれ算出した構文の一致度および形態素の一致度から異なる文の間の総合的な一致度を算出する第3の算出手段とを有することを特徴とする文一致度分析装置。
【請求項2】
上記第3の算出手段は、上記構文の一致度および上記形態素の一致度の内挿を求める請求項1記載の文一致度分析装置。
【請求項3】
上記内挿におけるパラメータの指定を入力する手段を有する請求項1記載の文一致度分析装置。
【請求項4】
上記第1の算出手段は、上記構文の一致度を、文の構文に含まれる構文要素集合の和集合の要素数に対する構文要素集合の積集合の要素数の比により算出する請求項1〜3のいずれかに記載の文一致度分析装置。
【請求項5】
上記第2の算出手段は、上記形態素の一致度を、文に含まれる形態素の集合の和集合の要素数に対する形態素の集合の積集合の要素数の比により算出する請求項1〜4のいずれかに記載の文一致分析装置。
【請求項6】
複数の文からなる集合に対してそれぞれ異なる言語で準備された複数の文書データセットを記憶する文書データセット記憶手段と、
処理候補の文と当該処理候補の文の言語で準備されている文書データセット中の文との間の構文の一致度と形態素の一致度とを記憶する一致度記憶手段と、
上記構文の一致度および上記形態素の一致度の重み付けパラメータを入力するパラメータ入力手段と、
処理候補の文を指定する処理候補指定手段と、
上記重み付けパラメータと上記一致度記憶手段に記憶されている構文の一致度および形態素の一致度とに基づいて、入力された上記処理候補の文と当該処理候補の文の言語で準備されている文書データセット中の文との間の統合した一致度を算出する算出手段と、
上記算出手段により算出した一致度に基づいて上記処理候補の文の言語で準備されている文書データセットから1または複数の文を選択し、選択された文について上記処理候補の文の言語と異なる言語で準備されている1または複数の文書データセットから上記選択された文に対応する文を選択する選択手段と、
上記選択手段により選択された文を出力する出力手段とを有することを特徴とする言語変換装置。
【請求項7】
複数の文からなる集合に対してそれぞれ異なる言語で準備された複数の文書データセットを記憶する記憶手段と、
処理対象の文を指定する指定手段と、
処理対象の文と当該処理対象の文の言語で準備されている文書データセット中の文との間の一致度を算出する算出手段と、
上記一致度に基づいて上記処理対象の文の言語で準備されている文書データセットから1または複数の文を選択し、選択された文について上記処理対象の文の言語と異なる言語で準備されている1または複数の文書データセットから上記選択された文に対応する文を選択する選択手段と、
上記選択手段により選択された文を出力する出力手段とを有し、
上記算出手段は、
文の間の構文の一致度を算出する第1の手段と、
文の間の形態素の一致度を算出する第2の手段と、
上記第1の手段および第2の手段によりそれぞれ算出した構文の一致度および形態素の一致度から文の一致度を算出する第3の手段とを有することを特徴とする言語変換装置。
【請求項8】
複数の文からなる集合に対してそれぞれ異なる言語で準備された複数の文書データセットを記憶する文書データセット記憶手段と、
処理候補の文と当該処理候補の文の言語で準備されている文書データセット中の文との間の一致度を記憶する一致度記憶手段と、
処理候補の文を入力する入力手段と、
上記一致度に基づいて上記処理候補の文の言語で準備されている文書データセットから1または複数の文を選択し、選択された文について上記処理候補の文の言語と異なる言語で準備されている1または複数の文書データセットから上記選択された文に対応する文を選択する選択手段と、
上記選択手段により選択された文を出力する手段とを有し、
上記一致度は、文の間の構文の一致度と文の間の形態素の一致度とから算出されていることを特徴とする言語変換装置。
【請求項9】
第1の算出手段が、異なる文の間の構文の一致度を算出するステップと、
第2の算出手段が、異なる文の間の形態素の一致度を算出するステップと、
第3の算出手段が、上記第1の算出手段および第2の算出手段によりそれぞれ算出した構文の一致度および形態素の一致度から異なる文の間の総合的な一致度を算出するステップとを有することを特徴とする文一致度分析方法。
【請求項10】
文書データセット記憶手段が、複数の文からなる集合に対してそれぞれ異なる言語で準備された複数の文書データセットを記憶するステップと、
一致度記憶手段が、処理候補の文と当該処理候補の文の言語で準備されている文書データセット中の文との間の構文の一致度と形態素の一致度とを記憶するステップと、
パラメータ入力手段が、上記構文の一致度および上記形態素の一致度の重み付けパラメータを入力するステップと、
処理候補入力手段が、処理候補の文を入力するステップと、
算出手段が、上記重み付けパラメータと上記一致度記憶手段に記憶されている構文の一致度および形態素の一致度とに基づいて、入力された上記処理候補の文と当該処理候補の文の言語で準備されている文書データセット中の文との間の統合した一致度を算出するステップと、
選択手段が、上記算出手段により算出した一致度に基づいて上記処理候補の文の言語で準備されている文書データセットから1または複数の文を選択し、選択された文について上記処理候補の文の言語と異なる言語で準備されている1または複数の文書データセットから上記選択された文に対応する文を選択するステップと、
出力手段が、上記選択手段により選択された文を出力するステップとを有することを特徴とする言語変換方法。
【請求項11】
文書データセット記憶手段が、複数の文からなる集合に対してそれぞれ異なる言語で準備された複数の文書データセットを記憶するステップと、
一致度記憶手段が、処理候補の文と当該処理候補の文の言語で準備されている文書データセット中の文との間の一致度を記憶するステップと、
入力手段が、処理候補の文を入力するステップと、
選択手段が、上記一致度に基づいて上記処理候補の文の言語で準備されている文書データセットから1または複数の文を選択し、選択された文について上記処理候補の文の言語と異なる言語で準備されている1または複数の文書データセットから上記選択された文に対応する文を選択するステップと、
出力手段が、上記選択手段により選択された文を出力するステップとを有し、
上記一致度は、文の間の構文の一致度と文の間の形態素の一致度とから算出されていることを特徴とする言語変換方法。
【請求項12】
第1の算出手段が、異なる文の間の構文の一致度を算出するステップと、
第2の算出手段が、異なる文の間の形態素の一致度を算出するステップと、
第3の算出手段が、上記第1の算出手段および第2の算出手段によりそれぞれ算出した構文の一致度および形態素の一致度から異なる文の間の総合的な一致度を算出するステップとをコンピュータに実行させるために用いられることを特徴とする文一致度分析用コンピュータプログラム。
【請求項13】
文書データセット記憶手段が、複数の文からなる集合に対してそれぞれ異なる言語で準備された複数の文書データセットを記憶するステップと、
一致度記憶手段が、処理候補の文と当該処理候補の文の言語で準備されている文書データセット中の文との間の構文の一致度と形態素の一致度とを記憶するステップと、
パラメータ入力手段が、上記構文の一致度および上記形態素の一致度の重み付けパラメータを入力するステップと、
処理候補入力手段が、処理候補の文を入力するステップと、
算出手段が、上記重み付けパラメータと上記一致度記憶手段に記憶されている構文の一致度および形態素の一致度とに基づいて、入力された上記処理候補の文と当該処理候補の文の言語で準備されている文書データセット中の文との間の統合した一致度を算出するステップと、
選択手段が、上記算出手段により算出した一致度に基づいて上記処理候補の文の言語で準備されている文書データセットから1または複数の文を選択し、選択された文について上記処理候補の文の言語と異なる言語で準備されている1または複数の文書データセットから上記選択された文に対応する文を選択するステップと、
出力手段が、上記選択手段により選択された文を出力するステップとをコンピュータに実行させるために用いられることを特徴とする言語変換用コンピュータプログラム。
【請求項14】
文書データセット記憶手段が、複数の文からなる集合に対してそれぞれ異なる言語で準備された複数の文書データセットを記憶するステップと、
一致度記憶手段が、処理候補の文と当該処理候補の文の言語で準備されている文書データセット中の文との間の一致度を記憶するステップと、
入力手段が、処理候補の文を入力するステップと、
選択手段が、上記一致度に基づいて上記処理候補の文の言語で準備されている文書データセットから1または複数の文を選択し、選択された文について上記処理候補の文の言語と異なる言語で準備されている1または複数の文書データセットから上記選択された文に対応する文を選択するステップと、
出力手段が、上記選択手段により選択された文を出力するステップとをコンピュータに実行させるために用いられ、
上記一致度は、文の間の構文の一致度と文の間の形態素の一致度とから算出されていることを特徴とする言語変換用コンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2007−317140(P2007−317140A)
【公開日】平成19年12月6日(2007.12.6)
【国際特許分類】
【出願番号】特願2006−149027(P2006−149027)
【出願日】平成18年5月29日(2006.5.29)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】