説明

機械翻訳辞書作成装置、機械翻訳辞書作成方法、およびプログラム

【課題】機械翻訳用の辞書への新語の登録において、簡易な処理で、世の中で広く用いられている訳語を登録する。
【解決手段】検索に用いられた検索キーワードについて、検索回数と検索キーワードの翻訳辞書8への登録の有無を検索履歴6として記録する検索履歴生成部5と、翻訳辞書8に登録されていない検索キーワードについて、翻訳辞書8に登録されている複数の単語に分解し、各々の単語に対して複数の訳語が登録されている場合には、それぞれの訳語を組み合わせて複数の訳語候補を作成し、各々の訳語候補について翻訳辞書8への登録の有無を確認し、登録されている場合には、検索回数が最も多いものを訳語に決定して翻訳辞書8に登録する翻訳辞書生成部7と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械翻訳辞書作成装置、機械翻訳辞書作成方法、およびプログラムに関する。
【背景技術】
【0002】
機械翻訳は、さまざまな場面で利用されており、インターネットから海外の最新の情報を収集することはその主要な目的のひとつである。このため、翻訳の品質を保つためには日々新しく発生する言葉に対応していく必要があり、そのためには翻訳辞書を作成することが重要である。
【0003】
特許文献1には、機械翻訳装置において、複合語の先頭と末尾の単語の訳語をそれぞれ1つ以上求め、それらの訳語のうちで複合語の訳語の先頭または末尾の単語と一致するものがあるか否かを調べ、一致するものがある時、訳語が一致する単語を除いた複合語の残りの部分と、複合語の訳語から一致した訳語を除いた部分とを対応させて、新語として辞書に登録する方法が記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−18571号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1の方法では、新語の訳語の登録処理が複雑であった。また、登録された訳語が世の中で一般的に使用されている訳語とはかけ離れたものになる場合もあった。
【0006】
そこで、本発明は、機械翻訳用の辞書への新語の登録において、簡易な処理で、世の中で広く用いられている訳語を登録することを一つの目的とする。
【課題を解決するための手段】
【0007】
本発明に係る機械翻訳辞書作成装置は、検索に用いられた検索キーワードについて、検索回数と前記検索キーワードの翻訳辞書への登録の有無を検索履歴として記録する検索履歴生成部と、前記翻訳辞書に登録されていない検索キーワードについて、前記翻訳辞書に登録されている複数の単語に分解し、各々の単語に対して複数の訳語が登録されている場合には、それぞれの訳語を組み合わせて複数の訳語候補を作成し、各々の訳語候補について前記翻訳辞書への登録の有無を確認し、登録されている場合には、前記検索回数が最も多いものを訳語に決定して前記翻訳辞書に登録する翻訳辞書生成部と、を備えている。
【発明の効果】
【0008】
本発明によれば、機械翻訳用の辞書への新語の登録において、簡易な処理で、世の中で広く用いられている訳語を登録することができる。
【図面の簡単な説明】
【0009】
【図1】本発明の実施の形態による、機械翻訳辞書作成装置の構成を示すブロック図。
【図2】本発明の実施の形態による、機械翻訳辞書作成装置の動作のフローチャート。
【図3】本発明の実施の形態による、検索履歴の例を示す図。
【図4】本発明の実施の形態による、機械翻訳辞書作成装置の動作のフローチャート。
【発明を実施するための形態】
【0010】
実施の形態
次に、本発明を実施するための形態について、図面を参照して詳細に説明する。
【0011】
図1は、本発明の実施の形態による機械翻訳辞書作成装置10の構成を示すブロック図である。図に示すように、機械翻訳辞書作成装置10は、入力部1、出力部2、検索部3、検索インデックス4、検索履歴生成部5、検索履歴6、翻訳辞書生成部7、および翻訳辞書8を備えている。
【0012】
機械翻訳辞書作成装置10は、CPU、ROMやRAM等のメモリ、各種の情報を格納する外部記憶装置、入力インタフェース、出力インタフェース、通信インタフェース及びこれらを結ぶバスを備える専用又は汎用のコンピュータを適用することができる。また、機械翻訳辞書作成装置10は、単一のコンピュータにより構成されるものであっても、通信回線を介して互いに接続された複数のコンピュータにより構成されるものであってもよい。
【0013】
入力部1、出力部2、検索部3、検索履歴生成部5、翻訳辞書生成部7は、CPUがROM等に格納された所定のプログラムを実行することにより実現される機能のモジュールに相当する。検索インデックス4、検索履歴6、および翻訳辞書8は、外部記憶装置により実装される。
【0014】
検索部3は、入力部1を介して検索用キーワードを取得し、インターネット上の全文検索エンジン等を利用して検索処理を行う。検索部3は、出力部2を介して検索結果を表示する。また、検索部3は検索時に検索インデックス4を用いる。また、検索部3は、検索用キーワードを検索履歴生成部5に供給する。
【0015】
検索履歴生成部5は、検索部3より検索キーワードを受信し、それを検索履歴6に登録する。検索履歴6は、キーワード、検索回数、辞書の有無の3つの情報を含んでいる。
【0016】
翻訳辞書生成部7は、検索履歴6に基づいて自動的に翻訳辞書8を生成する。翻訳辞書生成部7は、検索履歴6の中で辞書が「無し」の検索キーワードについて、辞書「有り」の単語に分解できる複合語であるかどうかを判定する。このような複合語以外のキーワードについては、人手等により登録する必要がある。さらに、翻訳辞書生成部7は、各単語の訳語を組み合わせて、複数の訳語パターン(訳語候補)を生成し、それらの訳語が検索履歴6に存在するかどうか調べ、存在すれば検索回数が最も多いものを訳語として採用する。作成した訳語候補がいずれも検索履歴6にない場合は、別途人手等により登録する。
【0017】
次に、機械翻訳辞書作成装置10の動作について説明する。
【0018】
図2は、機械翻訳辞書作成装置10の検索履歴生成部5の動作のフローチャートである。
【0019】
検索履歴生成部5は、まず検索部3から検索に用いられた検索キーワードを受け取り、既に検索履歴6に存在するかどうか判定する(ステップS201)。存在する場合(YES)、その検索キーワードの「検索回数」の値を1加算して処理を終了する(ステップS202)。
【0020】
検索履歴6にキーワードが存在しない場合(ステップS201;NO)、検索履歴6に新たにレコードを追加し、「検索回数」として初期値「1」を設定する(ステップS203)。また、翻訳辞書8を参照してそのキーワードの翻訳辞書8への登録有無を判定し(ステップS204)、登録の有無の情報を記録する(ステップS205、S206)。図3は、検索履歴6の例を示す図である。
【0021】
図4は、翻訳辞書生成部7の動作のフローチャートである。翻訳辞書生成部7はタイマー処理などにより、所定のタイミングで自動的に動作を開始する。
【0022】
まず、翻訳辞書生成部7は、検索履歴6から翻訳辞書に登録されていない検索キーワードを順次取得する(ステップS301)。次に、取得したキーワードを翻訳辞書8に登録されている単語に分割可能か否か判定する(ステップS302、S303)。分割できない場合は(ステップS303;NO)、処理を終了する。
【0023】
分割できた場合(ステップS303;YES)、分割した各単語の訳語を組み合わせて訳語候補を生成する(ステップS304)。
【0024】
例えば、キーワードが単語1、単語2の2単語に分割でき、単語1の訳語として訳語11と訳語12、単語2の訳語として訳語21と訳語22が登録されている場合、訳語11+訳語21、訳語11+訳語22、訳語12+訳語21、訳語12+訳語22がキーワードに対する訳語候補となる。
【0025】
例えば、キーワード「音声認識」は、「音声」(単語1)と「認識」(単語2)の2語に分割でき、それぞれの単語の訳語として括弧内のものが登録されている場合、「音声認識」の訳語候補は以下のように生成される。
単語1:音声(sound, voice, speech sound, phonic)
単語2:認識(cognition, recognition, acknowledgement)
訳語候補:sound cognition, sound recognition, sound acknowledgement, voice cognition, …
次に、翻訳辞書生成部7は、生成された訳語候補のいずれかが検索履歴6に登録されているか否かを判定し(ステップS305)、登録されている場合は(YES)、登録されている訳語候補のうち最も検索回数が多いものを訳語として翻訳辞書8に登録する(ステップS306)。これにより、最も一般的に利用されていると考えられる訳語を翻訳辞書8に登録することができる。また、検索履歴生成部5は、新たに翻訳辞書8に登録されたキーワードについて検索履歴6の辞書登録の項目を「有り」に設定する。
【0026】
以上のように、本実施形態によれば、翻訳辞書に登録されていない新語について、訳語が辞書に登録されている単語に分解し、各単語について複数の訳語が登録されている場合は、それぞれの訳語を組み合わせて新語の訳語候補を生成し、それらの訳語候補の中で、検索キーワードとして頻繁に利用されているものを訳語に決定して辞書に登録するようにしたので、新語の辞書作成において、簡易な処理で、世の中で広く用いられている訳語を登録することができる。
【0027】
なお、本実施形態では、訳語候補の中から検索キーワードとして使用される回数の多いものを訳語として選んでいるが、例えば、各々の訳語候補をキーワードとして検索部3で検索処理を実行し、ヒット件数が最も多い訳語候補を訳語として選ぶようにしてもよい。
【0028】
上記の実施の形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)検索に用いられた検索キーワードについて、検索回数と前記検索キーワードの翻訳辞書への登録の有無を検索履歴として記録する検索履歴生成部と、
前記翻訳辞書に登録されていない検索キーワードについて、前記翻訳辞書に登録されている複数の単語に分解し、各々の単語に対して複数の訳語が登録されている場合には、それぞれの訳語を組み合わせて複数の訳語候補を作成し、各々の訳語候補について前記翻訳辞書への登録の有無を確認し、登録されている場合には、前記検索回数が最も多いものを訳語に決定して前記翻訳辞書に登録する翻訳辞書生成部と、を備えた機械翻訳辞書作成装置。
(付記2)入力されたキーワードを用いて検索処理を行う検索部を備え、
前記検索部は、前記翻訳辞書生成部が作成した各々の訳語候補をキーワードとして検索処理を実行し、
前記翻訳辞書生成部は、前記検索処理によるヒット数に基づいて、前記翻訳辞書に登録する訳語を決定する、付記1に記載の機械翻訳辞書作成装置。
(付記3)検索に用いられた検索キーワードについて、検索回数と前記検索キーワードの翻訳辞書への登録の有無を検索履歴として記録する工程と、
前記翻訳辞書に登録されていない検索キーワードについて、前記翻訳辞書に登録されている複数の単語に分解する工程と、
各々の単語に対して複数の訳語が登録されている場合には、それぞれの訳語を組み合わせて複数の訳語候補を作成する工程と、
各々の訳語候補について前記翻訳辞書への登録の有無を確認し、登録されている場合には、前記検索回数が最も多いものを訳語に決定して前記翻訳辞書に登録する工程と、を有する機械翻訳辞書作成方法。
(付記4)コンピュータを、
検索に用いられた検索キーワードについて、検索回数と前記検索キーワードの翻訳辞書への登録の有無を検索履歴として記録する検索履歴生成部と、
前記翻訳辞書に登録されていない検索キーワードについて、前記翻訳辞書に登録されている複数の単語に分解し、各々の単語に対して複数の訳語が登録されている場合には、それぞれの訳語を組み合わせて複数の訳語候補を作成し、各々の訳語候補について前記翻訳辞書への登録の有無を確認し、登録されている場合には、前記検索回数が最も多いものを訳語に決定して前記翻訳辞書に登録する翻訳辞書生成部と、して機能させるプログラム。
【符号の説明】
【0029】
1 入力部、2 出力部、3 検索部、4 検索インデックス、5 検索履歴生成部、6 検索履歴、7 翻訳辞書生成部、8 翻訳辞書、10 機械翻訳辞書作成装置

【特許請求の範囲】
【請求項1】
検索に用いられた検索キーワードについて、検索回数と前記検索キーワードの翻訳辞書への登録の有無を検索履歴として記録する検索履歴生成部と、
前記翻訳辞書に登録されていない検索キーワードについて、前記翻訳辞書に登録されている複数の単語に分解し、各々の単語に対して複数の訳語が登録されている場合には、それぞれの訳語を組み合わせて複数の訳語候補を作成し、各々の訳語候補について前記翻訳辞書への登録の有無を確認し、登録されている場合には、前記検索回数が最も多いものを訳語に決定して前記翻訳辞書に登録する翻訳辞書生成部と、を備えた機械翻訳辞書作成装置。
【請求項2】
入力されたキーワードを用いて検索処理を行う検索部を備え、
前記検索部は、前記翻訳辞書生成部が作成した各々の訳語候補をキーワードとして検索処理を実行し、
前記翻訳辞書生成部は、前記検索処理によるヒット数に基づいて、前記翻訳辞書に登録する訳語を決定する、請求項1に記載の機械翻訳辞書作成装置。
【請求項3】
検索に用いられた検索キーワードについて、検索回数と前記検索キーワードの翻訳辞書への登録の有無を検索履歴として記録する工程と、
前記翻訳辞書に登録されていない検索キーワードについて、前記翻訳辞書に登録されている複数の単語に分解する工程と、
各々の単語に対して複数の訳語が登録されている場合には、それぞれの訳語を組み合わせて複数の訳語候補を作成する工程と、
各々の訳語候補について前記翻訳辞書への登録の有無を確認し、登録されている場合には、前記検索回数が最も多いものを訳語に決定して前記翻訳辞書に登録する工程と、を有する機械翻訳辞書作成方法。
【請求項4】
コンピュータを、
検索に用いられた検索キーワードについて、検索回数と前記検索キーワードの翻訳辞書への登録の有無を検索履歴として記録する検索履歴生成部と、
前記翻訳辞書に登録されていない検索キーワードについて、前記翻訳辞書に登録されている複数の単語に分解し、各々の単語に対して複数の訳語が登録されている場合には、それぞれの訳語を組み合わせて複数の訳語候補を作成し、各々の訳語候補について前記翻訳辞書への登録の有無を確認し、登録されている場合には、前記検索回数が最も多いものを訳語に決定して前記翻訳辞書に登録する翻訳辞書生成部と、して機能させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2013−69126(P2013−69126A)
【公開日】平成25年4月18日(2013.4.18)
【国際特許分類】
【出願番号】特願2011−207345(P2011−207345)
【出願日】平成23年9月22日(2011.9.22)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】