翻訳装置、翻訳方法およびプログラム
【課題】省略語の本来の意味を表す翻訳結果を得ることのできる技術の提供を目的とする。
【解決手段】原文の記載された原稿の画像を入力し、原文のレイアウトを解析して、語句の省略語とその定義内容とを関連付けた省略語定義領域を抽出する。抽出された省略語定義領域に含まれる定義内容に対応する翻訳語を辞書から抽出し、翻訳語の先頭文字を用いて翻訳省略語を生成する。翻訳省略語と原文の省略語とを対応付けて省略語辞書に記憶させる。そして、原文の文字列に対応する翻訳語および翻訳省略語を辞書および省略語辞書から抽出して翻訳文を生成して出力する。
【解決手段】原文の記載された原稿の画像を入力し、原文のレイアウトを解析して、語句の省略語とその定義内容とを関連付けた省略語定義領域を抽出する。抽出された省略語定義領域に含まれる定義内容に対応する翻訳語を辞書から抽出し、翻訳語の先頭文字を用いて翻訳省略語を生成する。翻訳省略語と原文の省略語とを対応付けて省略語辞書に記憶させる。そして、原文の文字列に対応する翻訳語および翻訳省略語を辞書および省略語辞書から抽出して翻訳文を生成して出力する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書を異なる言語の文書に翻訳する技術に関する。
【背景技術】
【0002】
文書の記載を簡潔にするために、語句の先頭文字を用いた省略語を用いることが行われる。図4は、省略語を用いた文書の例を示す図である。この例では、各店舗が取り扱っている商品の品目を商品の名称の先頭文字である「海」、「土」、「菓」などの省略語を用いて表し、また営業時間の項目を「営」という省略語を用いて表している。そして、表の上部にこれらの省略語とその定義内容との対応を表す判例を記載し、表中では省略語を用いて記載している。このように省略語を用いることによって、記載が簡潔になり、ユーザが情報を迅速に把握することができるようになる。
語句の先頭文字を用いた文書処理技術としては、例えば特許文献1に開示されている技術が知られている。特許文献1においては、住所録の例が示されており、画面上で区分された領域(都道府県名、市町村名、氏名)の各々に対してキーワード(先頭文字)とその内容が関連付けられて記憶されている。画面上でカーソルを所望の領域に移動させてキーワードを入力することによって、そのキーワードを先頭文字とする内容が表示されるようになっている。
【0003】
ところで、ある言語で記載された文書を読み取ってその文書を他の言語の文書に翻訳する翻訳装置の開発が行われている。このような翻訳装置を用いて図4に示すような表を翻訳する場合、以下のような問題が生じる。例えば、「土産」を英語に翻訳すると「souvenir」であるから、その先頭文字は「S」である。ところが、省略語である「土」を英訳すると「earth」であるからその先頭文字は「E」となり、本来の意味を表すことができなくなってしまう。このような問題は、特許文献1の技術を用いても解決されない。
【特許文献1】特開昭63−95566号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
本発明は、上述した背景の下になされたものであり、省略語の本来の意味を表す翻訳結果を得ることのできる技術の提供を目的とする。
【課題を解決するための手段】
【0005】
上述の課題を解決するために、本発明は、異種言語間で同じ意味の単語を対応付けて記憶した辞書と、原文の記載された原稿の画像を入力する入力手段と、前記入力手段で入力された画像で表される原文のレイアウトを解析して、語句の省略語(または記号)とその定義内容とを関連付けた省略語定義領域を抽出する画像解析手段と、前記入力手段で入力された画像に含まれている原文の文字列を認識する文字認識手段と、前記画像解析手段で抽出された省略語定義領域に含まれる定義内容に対応する翻訳語を前記辞書から抽出する定義内容翻訳手段と、前記定義内容翻訳手段で抽出された翻訳語の先頭文字を用いて翻訳省略語(または翻訳記号)を生成する省略語生成手段と、前記省略語生成手段で生成された翻訳省略語(または翻訳記号)とこれに対応する前記省略語(または記号)とを対応付けて記憶する省略語辞書と、前記原文の文字列に対応する翻訳語および翻訳省略語(または翻訳記号)を前記辞書および前記省略語辞書から抽出して翻訳文を生成して出力する翻訳手段とを有することを特徴とする翻訳装置を提供する。
【0006】
また、本発明は、原文の記載された原稿の画像を入力する入力ステップと、前記入力ステップで入力された画像で表される原文のレイアウトを解析して、語句の省略語(または記号)とその定義内容とを関連付けた省略語定義領域を抽出する画像解析ステップと、前記入力ステップで入力された画像に含まれている原文の文字列を認識する文字認識ステップと、前記画像解析ステップで抽出された省略語定義領域に含まれる定義内容に対応する翻訳語を、異種言語間で同じ意味の単語を対応付けて記憶した辞書から抽出する定義内容翻訳ステップと、前記定義内容翻訳ステップで抽出された翻訳語の先頭文字を用いて翻訳省略語(または翻訳記号)を生成する省略語生成ステップと、前記省略語生成ステップで生成された翻訳省略語(または翻訳記号)とこれに対応する前記省略語(または記号)とを対応付けた省略語辞書を作成する省略語辞書作成ステップと、前記原文の文字列に対応する翻訳語および翻訳省略語(または翻訳記号)を前記辞書および前記省略語辞書から抽出して翻訳文を生成して出力する翻訳ステップとを有することを特徴とする翻訳方法を提供する。
【0007】
また、本発明は、コンピュータ装置を、異種言語間で同じ意味の単語を対応付けて記憶した辞書と、原文の記載された原稿の画像を入力する入力手段と、前記入力手段で入力された画像で表される原文のレイアウトを解析して、語句の省略語(または記号)とその定義内容とを関連付けた省略語定義領域を抽出する画像解析手段と、前記入力手段で入力された画像に含まれている原文の文字列を認識する文字認識手段と、前記画像解析手段で抽出された省略語定義領域に含まれる定義内容に対応する翻訳語を前記辞書から抽出する定義内容翻訳手段と、前記定義内容翻訳手段で抽出された翻訳語の先頭文字を用いて翻訳省略語(または翻訳記号)を生成する省略語生成手段と、前記省略語生成手段で生成された翻訳省略語(または翻訳記号)とこれに対応する前記省略語(または記号)とを対応付けて記憶する省略語辞書と、前記原文の文字列に対応する翻訳語および翻訳省略語(または翻訳記号)を前記辞書および前記省略語辞書から抽出して翻訳文を生成して出力する翻訳手段として機能させるためのプログラムを提供する。
上記の翻訳装置、または翻訳方法、またはプログラムによれば、原文の記載された原稿の画像から省略語定義領域が抽出され、省略語の定義内容を目的言語に翻訳する。そして、翻訳語の先頭文字を用いて翻訳省略語が生成され、生成された翻訳省略語が省略語辞書に記憶される。そして、この省略語辞書に記憶された省略語を用いて文書の翻訳が行われ、翻訳文が出力される。
【発明の効果】
【0008】
本発明によれば、省略語の本来の意味を表す翻訳結果を得ることができる。
【発明を実施するための最良の形態】
【0009】
以下、図面を参照して、本発明の実施形態について説明する。
<第1実施形態>
<構成>
翻訳装置1は、入力された原文を翻訳して目的言語の翻訳文を得る翻訳機能と、原稿を読み取って複製物を作成する複写機能とを有している。
まず、翻訳装置1のハードウェア構成について説明する。図1は、本発明の実施形態における翻訳装置1のハードウェア構成を示す図である。
翻訳装置1は、図示しないCPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等(いずれも図示省略)からなる制御部4を有し、ROMに格納されているOS(Operating System)プログラムをCPUが実行することによって翻訳装置1各部の制御を行う。
【0010】
記憶部5は、ハードディスク装置等の不揮発性メモリである。記憶部5には、原稿の読取、翻訳、出力等の手順を記述したプログラムが記憶されている。
指示入力部41は、テンキー、スタートボタン等からなるキーボード40、タッチパネル機能を有する液晶パネルからなる表示部39を備えており、翻訳装置1に対する指示をユーザが入力することができる。また、翻訳装置1に異常等が発生した場合に、表示部39に翻訳装置1の状態に関する情報を表示することができる。
【0011】
給紙トレイ9には画像を形成するためのシート10が収容される。ユーザが指示入力部41により画像形成の指示を入力すると、給紙ローラ33が回転駆動され、給紙トレイ9からシート10を1枚ずつ送り出す。給紙トレイ9から送り出されたシート10はローラ対34、35、37によって搬送路36に沿って搬送される。
【0012】
画像入力部12は、原稿を光学的に読み取って画像データを生成するスキャナ装置である。プラテンガラス2上に載置された原稿に対して光源13により光が照射され、この反射光が光学系3によって処理される。反射光は、ミラー14、15、16を介して受光部17で受光される。そして、画像処理部18が反射光を電気信号に変換し、イエロー、マゼンタ、シアン、ブラックの各色からなる画像データを生成する。
【0013】
画像形成部6は、画像形成エンジン7Y、7M、7C、7K、転写ベルト8等からなる。
画像形成エンジン7Y、7M、7C、7Kは、それぞれイエロー(Y)、マゼンタ(M)、シアン(C)、ブラック(K)の各色のトナー像を形成する。各画像形成エンジンの構成は共通であるから、ここでは画像形成エンジン7Yについてのみ説明する。
画像形成エンジン7Yは、静電潜像が形成される像担持体としての感光体ドラム20Yの周囲に、帯電装置21Y、露光装置19Y、現像装置22Y、クリーナ24Y等を設けて構成されている。
【0014】
帯電装置21Yは、矢印Aの方向に回転駆動される感光体ドラム20Yの表面を所定の電位に帯電させる。
露光装置19Yは、所定の電位に帯電した感光体ドラム20Yに対して、画像データに基づいた露光用ビームLBを照射するROS(Raster Output Scanner)である。露光装置19Yは、図示しない半導体レーザーから画像データに基づいてレーザー光を出射し、このレーザー光を偏向走査することにより感光体ドラム20Yの表面に静電潜像を形成する。感光体ドラム20Yの表面では、レーザー光が照射された部分の電位が、感光体ドラム20Yの有する光導電性により所定のレベルまで減少する。このように、感光体ドラム20Yの表面電位が変化することにより、感光体ドラム20Yの表面には画像データにもとづいた静電潜像が形成される。
【0015】
現像装置22Yは、感光体ドラム20Y表面に形成された静電潜像を顕像化する装置である。トナータンク23Yからはトナー(帯電色材)が供給され、感光体ドラム20Yの帯電極性と同極性に帯電したトナーによって静電潜像を反転現像することによってトナー像を得る。
転写ベルト8は、ローラ26、27、28、29に張架されており、矢印Bの方向に循環駆動される。感光体ドラム20Yはその下方に位置する転写ベルト8と圧接しており、上記のようにして形成されたトナー像が転写ベルト8に転写される。
クリーナ24Yは、感光体ドラム20Yに残存したトナーを除去する装置である。
【0016】
以上が画像形成エンジン7Yの構成である。画像形成エンジン7M、7C、7Kにおいても各色に対応したトナー像が形成され、転写ベルト8に重ねて転写される。なお、これ以降、画像形成エンジン7Y、7M、7C、7Kを区別する必要のない場合には、単に画像形成エンジン7と称する。他の構成要素についても同様に、Y、M、C、Kの別を区別する必要のない場合には、Y、M、C、Kの表記を省略するものとする。
【0017】
給紙トレイ9から搬送路36上に送り出されたシート10は、転写ベルト8と転写ローラ30とが形成するニップ部に進入し、転写ベルト8に圧接される。この圧接力および静電吸引力によってトナー像がシート10の表面に転写される。
トナー像が転写されたシート10は、ローラ対31によって定着装置11に導かれる。定着装置11においては、シート10に対して加圧および加熱が施され、トナー像がシート10に定着される。このようにして画像形成が行われたシート10は、排紙トレイ32に排出される。
【0018】
次に、翻訳装置1の機能構成について説明する。図2は、翻訳装置1の機能構成を表す図である。CPUが記憶部5に記憶されているプログラムを実行することによってこれらの機能が実現される。
辞書201は、異種言語間で同じ意味の単語を対応付けて記憶したものであり、記憶部5に格納されている。辞書201は、日本語、英語、中国語など種々の言語に対応したものが記憶されている。
【0019】
省略語辞書202は、語句の省略語とその定義内容、省略語を他言語に翻訳した翻訳省略語、定義内容を他言語に翻訳したものが対応付けられて記憶したものであり、記憶部5に格納されている。省略語辞書202も、日本語、英語、中国語など種々の言語に対応したものが記憶されている。図5は、日本語を英語に翻訳するための省略語辞書202の例を示す図である。例えば、定義内容が「海産品」の場合、省略語は「海」である。定義内容の翻訳語は「Marine products」であり、これの先頭文字を用いた翻訳省略語は「M」となる。省略語辞書202には、このように、種々の定義内容に対応する省略語、翻訳省略語、および定義内容の翻訳語が対応付けられて記憶される。省略語辞書202には、後述する省略語生成手段によって生成された翻訳省略語が登録される。
【0020】
入力手段101は、原文の記載された原稿を読み取ってこの原稿の画像を入力する。具体的には、入力手段101は、画像入力部12を用いて文書原稿の画像を入力する。
画像解析手段102は、入力手段101で入力された画像を解析して、語句の省略語とその定義内容とを関連付けた省略語定義領域を抽出する。省略語定義領域とは、図表の周囲、文書の先頭あるいは末尾などに記載されている判例である。例えば、図4の例では、矩形で囲まれた「海」の文字が省略語であり、後続の「海産品」が定義内容である。画像解析手段102は、公知のレイアウト解析手法を用いて文書画像のレイアウトを解析し、図表領域や文章領域を判別する。そして、これらの領域の周囲に存在する省略語定義領域を抽出する。省略語は、図4の例のように矩形で囲まれている場合や、丸印、括弧などで囲まれている場合もある。あるいは、省略語と定義内容とをコロンや斜線で区切っている場合などもある。画像解析手段102は、これらの態様に当てはまるものを省略語定義領域として抽出する。また、ユーザが蛍光ペン等でマーキングした部分を省略語定義領域として抽出ようにしてもよい。
【0021】
文字認識手段103は、入力手段101で入力された画像に含まれている原文の文字列を認識する。記憶部5には公知のOCR(Optical Character Recognition)プログラムが記憶されており、CPUがこのOCRプログラムを実行することによって文字認識が行われる。
定義内容翻訳手段104は、画像解析手段102で抽出された定義内容に対応する翻訳語を辞書201から抽出する。
省略語生成手段105は、定義内容翻訳手段104で抽出された翻訳語の先頭文字を用いて翻訳省略語を生成する。省略語辞書202は、省略語生成手段105で生成された翻訳省略語とこれに対応する省略語とを対応付けて記憶する。例えば、定義内容が「海産品」の場合、翻訳語は「Marine products」となり、翻訳省略語はその先頭文字を用いて「M」となる。そして、省略語「海」、定義内容「海産品」、翻訳省略語「M」、定義内容の翻訳語「Marine products」が対応付けられて図5に示すように省略語辞書202に記憶される。
【0022】
翻訳手段106は、入力手段101で入力された原文の文字列に対応する翻訳語および翻訳省略語を辞書201および省略語辞書202から抽出して原文の翻訳文を生成する。
出力手段107は、翻訳手段106で生成された翻訳文を表す画像データを出力する。出力された画像データは、画像形成部6に供給され、翻訳文を表す画像がシート表面に形成されて排紙トレイ32に排出される。
【0023】
<動作>
次に、翻訳装置1の動作について説明する。ここで、翻訳装置1には電源が投入されており、CPUがプログラムを実行中であるものとする。図3は、翻訳装置1の動作のフローを示す図である。
最初にステップA01では、CPUは、入力手段101を用いて、原文の記載された紙文書(原稿)の入力を行う。原稿の例を図4に示す。ユーザは、原稿の読み取り面がプラテンガラス2に接するように原稿を載置し、指示入力部41のスタートボタンを押下する。すると、ステップA02では、画像入力部12が画像の読み取りを開始する。画像入力部12は、読み取った原稿の画像データを生成し、記憶部5に記憶する。
【0024】
次に、ステップA03では、CPUは、画像解析手段102を用いて、画像を解析し、画像を解析して、語句の省略語とその定義内容とを関連付けた省略語定義領域を抽出する。図4の例では、矩形で囲まれた「海」の文字が省略語であり、後続の「海産品」が定義内容である。また、「土」と「土産」のペア、「菓」と「菓子」のペア、「営」と「営業時間」のペアも省略語と定義内容のペアである。
ステップA04では、CPUは、省略語定義領域が存在するか否かを判断する。省略語定義領域が存在する場合(ステップA04:YES)には、ステップA05に進み、省略語定義領域が存在しない場合(ステップA04:NO)には、ステップA08に進む。
【0025】
ステップA05では、CPUは、文字認識手段103を用いて省略語定義領域における文字列を認識する。そして、CPUは、定義内容翻訳手段104を用いて、抽出された定義内容に対応する翻訳語を辞書201から抽出する。例えば、「海産品」の場合には、翻訳語は「Marine products」となる。
ステップA06では、CPUは、省略語生成手段105を用いて、翻訳語の先頭文字を用いて翻訳省略語を生成する。例えば、「海産品」の場合、翻訳語「Marine products」の先頭文字「M」が翻訳省略語となる。
ステップA07では、CPUは、ステップA06で生成された翻訳省略語、原文における省略語、原文における定義内容、翻訳語の定義内容とを対応付けて記憶する。例えば、定義内容が「海産品」の場合、省略語「海」、定義内容「海産品」、翻訳省略語「M」、定義内容の翻訳語「Marine products」が対応付けられて図5に示すように省略語辞書202に記憶される。
【0026】
ステップA08では、CPUは、翻訳手段106を用いて、入力された原文の文字列に対応する翻訳語および翻訳省略語を辞書201および省略語辞書202から抽出して原文の翻訳文を生成する。このようにして、図6に示す翻訳文が生成される。そして、CPUは、生成された翻訳文を表す画像データを出力する。出力された画像データは、画像形成部6に供給され、翻訳文を表す画像がシート表面に形成されて排紙トレイ32に排出される。
以上が、翻訳装置1の動作の全体のフローである。
【0027】
次に、定義内容の翻訳から翻訳省略語の記憶までの動作の詳細について図7を用いて説明する。この部分は、図3に示すフローのステップA05からステップA07の部分に該当する。
まず、ステップB01では、CPUは、抽出された定義内容に対応する翻訳語を辞書201から抽出する。ステップB02では、CPUは、ステップB01で抽出された翻訳語の先頭文字を抽出する。ステップB03では、CPUは、ステップB02で抽出された先頭文字が省略語辞書202に既に記憶されているか否かを判断する。先頭文字が既に記憶されている場合(ステップB03:YES)にはステップB04に進み、登録されていない場合(ステップB03:NO)にはステップB05に進む。
【0028】
ステップB04では、定義内容に含まれる後続の単語の先頭文字、または先頭単語の先頭文字の後続文字を抽出し、ステップB02で抽出された先頭文字に連結して翻訳省略語を生成する。そして、CPUは、ステップB03に戻り、ステップB04で生成された翻訳省略語が省略語辞書202に記憶されているか否かを判断する。この翻訳省略語が省略語辞書202に記憶されている場合(ステップB03:YES)にはステップB04に進み、記憶されていない場合(ステップB03:NO)にはステップB05に進む。
【0029】
ステップB05では、CPUは、生成された翻訳省略語を原文の省略語、原文の定義内容、翻訳語の定義内容と対応付けて省略語辞書202に記憶させる。
ステップB06では、翻訳処理のなされていない省略語定義領域が残っているか否かを判断し、残っていない場合(ステップB06:NO)には処理を終了し、残っている場合(ステップB06:YES)にはステップB01に戻る。
上記のフローに従って作成された省略語辞書202の例を図10に示す。例えば、「Type of industry」から作成した翻訳省略語「T」と「Transportation expenses」から作成した翻訳省略語「T」は同じだが、「Transportation expenses」から「Te」という省略語が作成され、これによって両者を区別することができるようになる。
【0030】
以上説明したように、本発明によれば、原文から省略語の定義領域を抽出し、省略語の定義内容を翻訳し、翻訳された定義内容の先頭文字を用いて翻訳省略語を生成する。これによって、省略語の本来の意味を表す翻訳省略語を生成することができる。また、同一の翻訳省略語が既に省略語辞書に登録されている場合には文字を追加することによって別の翻訳省略語を生成することができる。
【0031】
<第2実施形態>
次に本発明の第2実施形態について説明する。ここでは、第1実施形態との相違点についてのみ説明する。
図8は、定義内容の翻訳から翻訳省略語の記憶までの動作のフローを示す図である。この部分は、図3に示すフローのステップA05からステップA07の部分に該当する。
ステップC01からステップC03までは、第1実施形態における図7のステップB01からステップB03までと同一である。
【0032】
ステップC04では、CPUは、生成された翻訳省略語の文字数が所定の文字数未満であるか否かを判断し、所定文字数未満である場合(ステップC04:YES)にはステップC05に進み、所定文字数未満でない場合(ステップC04:NO)にはステップC06に進む。例えば、所定文字数として2文字と定めておくと、翻訳省略語の文字数が2文字に達した場合にはステップC06に進む。ステップC05における処理は図7のステップB04と同一である。
ステップC06では、翻訳省略語の文字修飾の態様を変更する。例えば、文字の字体を変更してもよいし、文字の色を変更してもよい。あるいは、文字の背景色を設定してもよいし、文字を枠で囲むようにしてもよい。
ステップC07以降の処理は、図7のステップB05以降の処理と同一である。
【0033】
上記のフローに従って作成された省略語辞書202の例を図10に示す。例えば、「Type of industry」から作成した翻訳省略語「T」と「Transportation expenses」から作成した翻訳省略語「T」は同じだが、文字修飾(例えばfont-color)を変えることによって区別をつけることができるようになる。
本実施形態によれば、翻訳省略語の文字数が所定文字数に達した場合にはそれ以上文字数を増やさずに文字の修飾の態様を変更するから、翻訳省略語の文字数が多くなりすぎることを防ぐことができる。
【0034】
<第3実施形態>
次に、本発明の第3実施形態について説明する。ここでは、第1実施形態との相違点についてのみ説明する。
図9は、定義内容の翻訳から翻訳省略語の記憶までの動作のフローを示す図である。この部分は、図3に示すフローのステップA05からステップA07の部分に該当する。
ステップD01からステップD03までは、第1実施形態における図7のステップB01からステップB03までと同一である。
【0035】
ステップD04では、CPUは、定義内容の同義語が辞書201に存在するか否かを判断し、同義語が存在する場合(ステップD04:YES)にはステップD05に進み、同義語が存在しない場合(ステップD04:NO)にはステップD06に進む。ステップD06における処理は図7のステップB04と同一である。
ステップD05では、CPUは、定義内容の同義語を辞書201から抽出し、ステップD02に戻る。
【0036】
ステップC06以降の処理は、図7のステップB05以降の処理と同一である。
上記のフローに従えば、例えば、「Type of industry」から作成した翻訳省略語「T」と「Transportation expenses」から作成した翻訳省略語「T」は区別できないが、「Transportation expenses」の同義語「Fare」から「F」という翻訳省略語を生成され、両者を区別することができるようになる。
本実施形態によれば、同一の翻訳省略語が既に省略語辞書に記憶されている場合に定義内容の同義語を用いて翻訳省略語を生成することができる。
【0037】
<変形例>
以上説明した形態に限らず、本発明は種々の形態で実施可能である。例えば、上述の実施形態を以下のように変形した形態でも実施可能である。
上述の実施形態では、原文の省略語が定義内容の先頭文字を用いたものである例を示したが、省略語の代わりに記号を用いる場合にも本発明は適用可能である。例えば、図12(a)に示すように郵便マークの「〒」や株式会社を表す(株)、図12(b)に示すような地図記号などがこれに該当する。これらの記号群を定義内容と対応付けて記憶させておき、その定義内容を目的言語に翻訳し、上述の実施形態と同様に先頭文字を用いて省略記号を作成する。
【0038】
図11は、この動作のフローを示す図である。例えば、入力文書中に高等学校を表す「文」を丸で囲んだ記号が使用されており、目的言語には高等学校を表す記号がない場合を想定する。ステップE01で紙文書を入力し、ステップE02では文書の画像が読み取られる。ステップE03では読み取られた文書画像に含まれている記号あるいは記号文字列が抽出される。ステップE04では、抽出された記号/記号文字列がパターン辞書に登録されているか否かが判定され、登録されていない場合(ステップE04:NO)にはステップE05に進み、登録されている場合(ステップE04:YES)にはステップE08に進む。
ステップE05では、記号/記号文字列の表す内容を目的言語に翻訳する。ステップE06では、翻訳結果の先頭文字を用いて省略記号を生成する。ステップE07では、生成された省略記号をパターン辞書に記憶させる。ステップE08では文書全体の翻訳を行い、パターン辞書を用いて、記号部分の変換を行う。
このようにすれば、記号の意味である「高等学校」が目的言語に翻訳され、翻訳結果「High School」が得られる。そして、「HS」という省略記号が生成される。
【0039】
画像入力部12は、翻訳装置1にネットワークを介して接続された別体のスキャナ装置であってもよい。また、画像形成部6は、翻訳装置1にネットワークを介して接続された別体のプリンタ装置であってもよい。
【図面の簡単な説明】
【0040】
【図1】翻訳装置1のハードウェア構成を示す図である。
【図2】翻訳装置1の機能構成を表す図である。
【図3】翻訳装置1の動作のフローを示す図である。
【図4】省略語を用いた文書の例を示す図である。
【図5】日本語を英語に翻訳するための省略語辞書の例を示す図である。
【図6】翻訳文の例を示す図である。
【図7】翻訳装置1の動作のフローを示す図である。
【図8】翻訳装置1の動作のフローを示す図である。
【図9】翻訳装置1の動作のフローを示す図である。
【図10】日本語を英語に翻訳するための省略語辞書の例を示す図である。
【図11】翻訳装置1の動作のフローを示す図である。
【図12】記号のテーブルの例を示す図である。
【符号の説明】
【0041】
1…翻訳装置、4…制御部、5…記憶部、41…指示入力部、9…給紙トレイ、10…シート、12…画像入力部、6…画像形成部、7Y、7M、7C、7K…画像形成エンジン、8…転写ベルト、201…辞書、202…省略語辞書、101…入力手段、102…画像解析手段、103…文字認識手段、104…定義内容翻訳手段、105…省略語生成手段、106…翻訳手段、107…出力手段。
【技術分野】
【0001】
本発明は、文書を異なる言語の文書に翻訳する技術に関する。
【背景技術】
【0002】
文書の記載を簡潔にするために、語句の先頭文字を用いた省略語を用いることが行われる。図4は、省略語を用いた文書の例を示す図である。この例では、各店舗が取り扱っている商品の品目を商品の名称の先頭文字である「海」、「土」、「菓」などの省略語を用いて表し、また営業時間の項目を「営」という省略語を用いて表している。そして、表の上部にこれらの省略語とその定義内容との対応を表す判例を記載し、表中では省略語を用いて記載している。このように省略語を用いることによって、記載が簡潔になり、ユーザが情報を迅速に把握することができるようになる。
語句の先頭文字を用いた文書処理技術としては、例えば特許文献1に開示されている技術が知られている。特許文献1においては、住所録の例が示されており、画面上で区分された領域(都道府県名、市町村名、氏名)の各々に対してキーワード(先頭文字)とその内容が関連付けられて記憶されている。画面上でカーソルを所望の領域に移動させてキーワードを入力することによって、そのキーワードを先頭文字とする内容が表示されるようになっている。
【0003】
ところで、ある言語で記載された文書を読み取ってその文書を他の言語の文書に翻訳する翻訳装置の開発が行われている。このような翻訳装置を用いて図4に示すような表を翻訳する場合、以下のような問題が生じる。例えば、「土産」を英語に翻訳すると「souvenir」であるから、その先頭文字は「S」である。ところが、省略語である「土」を英訳すると「earth」であるからその先頭文字は「E」となり、本来の意味を表すことができなくなってしまう。このような問題は、特許文献1の技術を用いても解決されない。
【特許文献1】特開昭63−95566号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
本発明は、上述した背景の下になされたものであり、省略語の本来の意味を表す翻訳結果を得ることのできる技術の提供を目的とする。
【課題を解決するための手段】
【0005】
上述の課題を解決するために、本発明は、異種言語間で同じ意味の単語を対応付けて記憶した辞書と、原文の記載された原稿の画像を入力する入力手段と、前記入力手段で入力された画像で表される原文のレイアウトを解析して、語句の省略語(または記号)とその定義内容とを関連付けた省略語定義領域を抽出する画像解析手段と、前記入力手段で入力された画像に含まれている原文の文字列を認識する文字認識手段と、前記画像解析手段で抽出された省略語定義領域に含まれる定義内容に対応する翻訳語を前記辞書から抽出する定義内容翻訳手段と、前記定義内容翻訳手段で抽出された翻訳語の先頭文字を用いて翻訳省略語(または翻訳記号)を生成する省略語生成手段と、前記省略語生成手段で生成された翻訳省略語(または翻訳記号)とこれに対応する前記省略語(または記号)とを対応付けて記憶する省略語辞書と、前記原文の文字列に対応する翻訳語および翻訳省略語(または翻訳記号)を前記辞書および前記省略語辞書から抽出して翻訳文を生成して出力する翻訳手段とを有することを特徴とする翻訳装置を提供する。
【0006】
また、本発明は、原文の記載された原稿の画像を入力する入力ステップと、前記入力ステップで入力された画像で表される原文のレイアウトを解析して、語句の省略語(または記号)とその定義内容とを関連付けた省略語定義領域を抽出する画像解析ステップと、前記入力ステップで入力された画像に含まれている原文の文字列を認識する文字認識ステップと、前記画像解析ステップで抽出された省略語定義領域に含まれる定義内容に対応する翻訳語を、異種言語間で同じ意味の単語を対応付けて記憶した辞書から抽出する定義内容翻訳ステップと、前記定義内容翻訳ステップで抽出された翻訳語の先頭文字を用いて翻訳省略語(または翻訳記号)を生成する省略語生成ステップと、前記省略語生成ステップで生成された翻訳省略語(または翻訳記号)とこれに対応する前記省略語(または記号)とを対応付けた省略語辞書を作成する省略語辞書作成ステップと、前記原文の文字列に対応する翻訳語および翻訳省略語(または翻訳記号)を前記辞書および前記省略語辞書から抽出して翻訳文を生成して出力する翻訳ステップとを有することを特徴とする翻訳方法を提供する。
【0007】
また、本発明は、コンピュータ装置を、異種言語間で同じ意味の単語を対応付けて記憶した辞書と、原文の記載された原稿の画像を入力する入力手段と、前記入力手段で入力された画像で表される原文のレイアウトを解析して、語句の省略語(または記号)とその定義内容とを関連付けた省略語定義領域を抽出する画像解析手段と、前記入力手段で入力された画像に含まれている原文の文字列を認識する文字認識手段と、前記画像解析手段で抽出された省略語定義領域に含まれる定義内容に対応する翻訳語を前記辞書から抽出する定義内容翻訳手段と、前記定義内容翻訳手段で抽出された翻訳語の先頭文字を用いて翻訳省略語(または翻訳記号)を生成する省略語生成手段と、前記省略語生成手段で生成された翻訳省略語(または翻訳記号)とこれに対応する前記省略語(または記号)とを対応付けて記憶する省略語辞書と、前記原文の文字列に対応する翻訳語および翻訳省略語(または翻訳記号)を前記辞書および前記省略語辞書から抽出して翻訳文を生成して出力する翻訳手段として機能させるためのプログラムを提供する。
上記の翻訳装置、または翻訳方法、またはプログラムによれば、原文の記載された原稿の画像から省略語定義領域が抽出され、省略語の定義内容を目的言語に翻訳する。そして、翻訳語の先頭文字を用いて翻訳省略語が生成され、生成された翻訳省略語が省略語辞書に記憶される。そして、この省略語辞書に記憶された省略語を用いて文書の翻訳が行われ、翻訳文が出力される。
【発明の効果】
【0008】
本発明によれば、省略語の本来の意味を表す翻訳結果を得ることができる。
【発明を実施するための最良の形態】
【0009】
以下、図面を参照して、本発明の実施形態について説明する。
<第1実施形態>
<構成>
翻訳装置1は、入力された原文を翻訳して目的言語の翻訳文を得る翻訳機能と、原稿を読み取って複製物を作成する複写機能とを有している。
まず、翻訳装置1のハードウェア構成について説明する。図1は、本発明の実施形態における翻訳装置1のハードウェア構成を示す図である。
翻訳装置1は、図示しないCPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等(いずれも図示省略)からなる制御部4を有し、ROMに格納されているOS(Operating System)プログラムをCPUが実行することによって翻訳装置1各部の制御を行う。
【0010】
記憶部5は、ハードディスク装置等の不揮発性メモリである。記憶部5には、原稿の読取、翻訳、出力等の手順を記述したプログラムが記憶されている。
指示入力部41は、テンキー、スタートボタン等からなるキーボード40、タッチパネル機能を有する液晶パネルからなる表示部39を備えており、翻訳装置1に対する指示をユーザが入力することができる。また、翻訳装置1に異常等が発生した場合に、表示部39に翻訳装置1の状態に関する情報を表示することができる。
【0011】
給紙トレイ9には画像を形成するためのシート10が収容される。ユーザが指示入力部41により画像形成の指示を入力すると、給紙ローラ33が回転駆動され、給紙トレイ9からシート10を1枚ずつ送り出す。給紙トレイ9から送り出されたシート10はローラ対34、35、37によって搬送路36に沿って搬送される。
【0012】
画像入力部12は、原稿を光学的に読み取って画像データを生成するスキャナ装置である。プラテンガラス2上に載置された原稿に対して光源13により光が照射され、この反射光が光学系3によって処理される。反射光は、ミラー14、15、16を介して受光部17で受光される。そして、画像処理部18が反射光を電気信号に変換し、イエロー、マゼンタ、シアン、ブラックの各色からなる画像データを生成する。
【0013】
画像形成部6は、画像形成エンジン7Y、7M、7C、7K、転写ベルト8等からなる。
画像形成エンジン7Y、7M、7C、7Kは、それぞれイエロー(Y)、マゼンタ(M)、シアン(C)、ブラック(K)の各色のトナー像を形成する。各画像形成エンジンの構成は共通であるから、ここでは画像形成エンジン7Yについてのみ説明する。
画像形成エンジン7Yは、静電潜像が形成される像担持体としての感光体ドラム20Yの周囲に、帯電装置21Y、露光装置19Y、現像装置22Y、クリーナ24Y等を設けて構成されている。
【0014】
帯電装置21Yは、矢印Aの方向に回転駆動される感光体ドラム20Yの表面を所定の電位に帯電させる。
露光装置19Yは、所定の電位に帯電した感光体ドラム20Yに対して、画像データに基づいた露光用ビームLBを照射するROS(Raster Output Scanner)である。露光装置19Yは、図示しない半導体レーザーから画像データに基づいてレーザー光を出射し、このレーザー光を偏向走査することにより感光体ドラム20Yの表面に静電潜像を形成する。感光体ドラム20Yの表面では、レーザー光が照射された部分の電位が、感光体ドラム20Yの有する光導電性により所定のレベルまで減少する。このように、感光体ドラム20Yの表面電位が変化することにより、感光体ドラム20Yの表面には画像データにもとづいた静電潜像が形成される。
【0015】
現像装置22Yは、感光体ドラム20Y表面に形成された静電潜像を顕像化する装置である。トナータンク23Yからはトナー(帯電色材)が供給され、感光体ドラム20Yの帯電極性と同極性に帯電したトナーによって静電潜像を反転現像することによってトナー像を得る。
転写ベルト8は、ローラ26、27、28、29に張架されており、矢印Bの方向に循環駆動される。感光体ドラム20Yはその下方に位置する転写ベルト8と圧接しており、上記のようにして形成されたトナー像が転写ベルト8に転写される。
クリーナ24Yは、感光体ドラム20Yに残存したトナーを除去する装置である。
【0016】
以上が画像形成エンジン7Yの構成である。画像形成エンジン7M、7C、7Kにおいても各色に対応したトナー像が形成され、転写ベルト8に重ねて転写される。なお、これ以降、画像形成エンジン7Y、7M、7C、7Kを区別する必要のない場合には、単に画像形成エンジン7と称する。他の構成要素についても同様に、Y、M、C、Kの別を区別する必要のない場合には、Y、M、C、Kの表記を省略するものとする。
【0017】
給紙トレイ9から搬送路36上に送り出されたシート10は、転写ベルト8と転写ローラ30とが形成するニップ部に進入し、転写ベルト8に圧接される。この圧接力および静電吸引力によってトナー像がシート10の表面に転写される。
トナー像が転写されたシート10は、ローラ対31によって定着装置11に導かれる。定着装置11においては、シート10に対して加圧および加熱が施され、トナー像がシート10に定着される。このようにして画像形成が行われたシート10は、排紙トレイ32に排出される。
【0018】
次に、翻訳装置1の機能構成について説明する。図2は、翻訳装置1の機能構成を表す図である。CPUが記憶部5に記憶されているプログラムを実行することによってこれらの機能が実現される。
辞書201は、異種言語間で同じ意味の単語を対応付けて記憶したものであり、記憶部5に格納されている。辞書201は、日本語、英語、中国語など種々の言語に対応したものが記憶されている。
【0019】
省略語辞書202は、語句の省略語とその定義内容、省略語を他言語に翻訳した翻訳省略語、定義内容を他言語に翻訳したものが対応付けられて記憶したものであり、記憶部5に格納されている。省略語辞書202も、日本語、英語、中国語など種々の言語に対応したものが記憶されている。図5は、日本語を英語に翻訳するための省略語辞書202の例を示す図である。例えば、定義内容が「海産品」の場合、省略語は「海」である。定義内容の翻訳語は「Marine products」であり、これの先頭文字を用いた翻訳省略語は「M」となる。省略語辞書202には、このように、種々の定義内容に対応する省略語、翻訳省略語、および定義内容の翻訳語が対応付けられて記憶される。省略語辞書202には、後述する省略語生成手段によって生成された翻訳省略語が登録される。
【0020】
入力手段101は、原文の記載された原稿を読み取ってこの原稿の画像を入力する。具体的には、入力手段101は、画像入力部12を用いて文書原稿の画像を入力する。
画像解析手段102は、入力手段101で入力された画像を解析して、語句の省略語とその定義内容とを関連付けた省略語定義領域を抽出する。省略語定義領域とは、図表の周囲、文書の先頭あるいは末尾などに記載されている判例である。例えば、図4の例では、矩形で囲まれた「海」の文字が省略語であり、後続の「海産品」が定義内容である。画像解析手段102は、公知のレイアウト解析手法を用いて文書画像のレイアウトを解析し、図表領域や文章領域を判別する。そして、これらの領域の周囲に存在する省略語定義領域を抽出する。省略語は、図4の例のように矩形で囲まれている場合や、丸印、括弧などで囲まれている場合もある。あるいは、省略語と定義内容とをコロンや斜線で区切っている場合などもある。画像解析手段102は、これらの態様に当てはまるものを省略語定義領域として抽出する。また、ユーザが蛍光ペン等でマーキングした部分を省略語定義領域として抽出ようにしてもよい。
【0021】
文字認識手段103は、入力手段101で入力された画像に含まれている原文の文字列を認識する。記憶部5には公知のOCR(Optical Character Recognition)プログラムが記憶されており、CPUがこのOCRプログラムを実行することによって文字認識が行われる。
定義内容翻訳手段104は、画像解析手段102で抽出された定義内容に対応する翻訳語を辞書201から抽出する。
省略語生成手段105は、定義内容翻訳手段104で抽出された翻訳語の先頭文字を用いて翻訳省略語を生成する。省略語辞書202は、省略語生成手段105で生成された翻訳省略語とこれに対応する省略語とを対応付けて記憶する。例えば、定義内容が「海産品」の場合、翻訳語は「Marine products」となり、翻訳省略語はその先頭文字を用いて「M」となる。そして、省略語「海」、定義内容「海産品」、翻訳省略語「M」、定義内容の翻訳語「Marine products」が対応付けられて図5に示すように省略語辞書202に記憶される。
【0022】
翻訳手段106は、入力手段101で入力された原文の文字列に対応する翻訳語および翻訳省略語を辞書201および省略語辞書202から抽出して原文の翻訳文を生成する。
出力手段107は、翻訳手段106で生成された翻訳文を表す画像データを出力する。出力された画像データは、画像形成部6に供給され、翻訳文を表す画像がシート表面に形成されて排紙トレイ32に排出される。
【0023】
<動作>
次に、翻訳装置1の動作について説明する。ここで、翻訳装置1には電源が投入されており、CPUがプログラムを実行中であるものとする。図3は、翻訳装置1の動作のフローを示す図である。
最初にステップA01では、CPUは、入力手段101を用いて、原文の記載された紙文書(原稿)の入力を行う。原稿の例を図4に示す。ユーザは、原稿の読み取り面がプラテンガラス2に接するように原稿を載置し、指示入力部41のスタートボタンを押下する。すると、ステップA02では、画像入力部12が画像の読み取りを開始する。画像入力部12は、読み取った原稿の画像データを生成し、記憶部5に記憶する。
【0024】
次に、ステップA03では、CPUは、画像解析手段102を用いて、画像を解析し、画像を解析して、語句の省略語とその定義内容とを関連付けた省略語定義領域を抽出する。図4の例では、矩形で囲まれた「海」の文字が省略語であり、後続の「海産品」が定義内容である。また、「土」と「土産」のペア、「菓」と「菓子」のペア、「営」と「営業時間」のペアも省略語と定義内容のペアである。
ステップA04では、CPUは、省略語定義領域が存在するか否かを判断する。省略語定義領域が存在する場合(ステップA04:YES)には、ステップA05に進み、省略語定義領域が存在しない場合(ステップA04:NO)には、ステップA08に進む。
【0025】
ステップA05では、CPUは、文字認識手段103を用いて省略語定義領域における文字列を認識する。そして、CPUは、定義内容翻訳手段104を用いて、抽出された定義内容に対応する翻訳語を辞書201から抽出する。例えば、「海産品」の場合には、翻訳語は「Marine products」となる。
ステップA06では、CPUは、省略語生成手段105を用いて、翻訳語の先頭文字を用いて翻訳省略語を生成する。例えば、「海産品」の場合、翻訳語「Marine products」の先頭文字「M」が翻訳省略語となる。
ステップA07では、CPUは、ステップA06で生成された翻訳省略語、原文における省略語、原文における定義内容、翻訳語の定義内容とを対応付けて記憶する。例えば、定義内容が「海産品」の場合、省略語「海」、定義内容「海産品」、翻訳省略語「M」、定義内容の翻訳語「Marine products」が対応付けられて図5に示すように省略語辞書202に記憶される。
【0026】
ステップA08では、CPUは、翻訳手段106を用いて、入力された原文の文字列に対応する翻訳語および翻訳省略語を辞書201および省略語辞書202から抽出して原文の翻訳文を生成する。このようにして、図6に示す翻訳文が生成される。そして、CPUは、生成された翻訳文を表す画像データを出力する。出力された画像データは、画像形成部6に供給され、翻訳文を表す画像がシート表面に形成されて排紙トレイ32に排出される。
以上が、翻訳装置1の動作の全体のフローである。
【0027】
次に、定義内容の翻訳から翻訳省略語の記憶までの動作の詳細について図7を用いて説明する。この部分は、図3に示すフローのステップA05からステップA07の部分に該当する。
まず、ステップB01では、CPUは、抽出された定義内容に対応する翻訳語を辞書201から抽出する。ステップB02では、CPUは、ステップB01で抽出された翻訳語の先頭文字を抽出する。ステップB03では、CPUは、ステップB02で抽出された先頭文字が省略語辞書202に既に記憶されているか否かを判断する。先頭文字が既に記憶されている場合(ステップB03:YES)にはステップB04に進み、登録されていない場合(ステップB03:NO)にはステップB05に進む。
【0028】
ステップB04では、定義内容に含まれる後続の単語の先頭文字、または先頭単語の先頭文字の後続文字を抽出し、ステップB02で抽出された先頭文字に連結して翻訳省略語を生成する。そして、CPUは、ステップB03に戻り、ステップB04で生成された翻訳省略語が省略語辞書202に記憶されているか否かを判断する。この翻訳省略語が省略語辞書202に記憶されている場合(ステップB03:YES)にはステップB04に進み、記憶されていない場合(ステップB03:NO)にはステップB05に進む。
【0029】
ステップB05では、CPUは、生成された翻訳省略語を原文の省略語、原文の定義内容、翻訳語の定義内容と対応付けて省略語辞書202に記憶させる。
ステップB06では、翻訳処理のなされていない省略語定義領域が残っているか否かを判断し、残っていない場合(ステップB06:NO)には処理を終了し、残っている場合(ステップB06:YES)にはステップB01に戻る。
上記のフローに従って作成された省略語辞書202の例を図10に示す。例えば、「Type of industry」から作成した翻訳省略語「T」と「Transportation expenses」から作成した翻訳省略語「T」は同じだが、「Transportation expenses」から「Te」という省略語が作成され、これによって両者を区別することができるようになる。
【0030】
以上説明したように、本発明によれば、原文から省略語の定義領域を抽出し、省略語の定義内容を翻訳し、翻訳された定義内容の先頭文字を用いて翻訳省略語を生成する。これによって、省略語の本来の意味を表す翻訳省略語を生成することができる。また、同一の翻訳省略語が既に省略語辞書に登録されている場合には文字を追加することによって別の翻訳省略語を生成することができる。
【0031】
<第2実施形態>
次に本発明の第2実施形態について説明する。ここでは、第1実施形態との相違点についてのみ説明する。
図8は、定義内容の翻訳から翻訳省略語の記憶までの動作のフローを示す図である。この部分は、図3に示すフローのステップA05からステップA07の部分に該当する。
ステップC01からステップC03までは、第1実施形態における図7のステップB01からステップB03までと同一である。
【0032】
ステップC04では、CPUは、生成された翻訳省略語の文字数が所定の文字数未満であるか否かを判断し、所定文字数未満である場合(ステップC04:YES)にはステップC05に進み、所定文字数未満でない場合(ステップC04:NO)にはステップC06に進む。例えば、所定文字数として2文字と定めておくと、翻訳省略語の文字数が2文字に達した場合にはステップC06に進む。ステップC05における処理は図7のステップB04と同一である。
ステップC06では、翻訳省略語の文字修飾の態様を変更する。例えば、文字の字体を変更してもよいし、文字の色を変更してもよい。あるいは、文字の背景色を設定してもよいし、文字を枠で囲むようにしてもよい。
ステップC07以降の処理は、図7のステップB05以降の処理と同一である。
【0033】
上記のフローに従って作成された省略語辞書202の例を図10に示す。例えば、「Type of industry」から作成した翻訳省略語「T」と「Transportation expenses」から作成した翻訳省略語「T」は同じだが、文字修飾(例えばfont-color)を変えることによって区別をつけることができるようになる。
本実施形態によれば、翻訳省略語の文字数が所定文字数に達した場合にはそれ以上文字数を増やさずに文字の修飾の態様を変更するから、翻訳省略語の文字数が多くなりすぎることを防ぐことができる。
【0034】
<第3実施形態>
次に、本発明の第3実施形態について説明する。ここでは、第1実施形態との相違点についてのみ説明する。
図9は、定義内容の翻訳から翻訳省略語の記憶までの動作のフローを示す図である。この部分は、図3に示すフローのステップA05からステップA07の部分に該当する。
ステップD01からステップD03までは、第1実施形態における図7のステップB01からステップB03までと同一である。
【0035】
ステップD04では、CPUは、定義内容の同義語が辞書201に存在するか否かを判断し、同義語が存在する場合(ステップD04:YES)にはステップD05に進み、同義語が存在しない場合(ステップD04:NO)にはステップD06に進む。ステップD06における処理は図7のステップB04と同一である。
ステップD05では、CPUは、定義内容の同義語を辞書201から抽出し、ステップD02に戻る。
【0036】
ステップC06以降の処理は、図7のステップB05以降の処理と同一である。
上記のフローに従えば、例えば、「Type of industry」から作成した翻訳省略語「T」と「Transportation expenses」から作成した翻訳省略語「T」は区別できないが、「Transportation expenses」の同義語「Fare」から「F」という翻訳省略語を生成され、両者を区別することができるようになる。
本実施形態によれば、同一の翻訳省略語が既に省略語辞書に記憶されている場合に定義内容の同義語を用いて翻訳省略語を生成することができる。
【0037】
<変形例>
以上説明した形態に限らず、本発明は種々の形態で実施可能である。例えば、上述の実施形態を以下のように変形した形態でも実施可能である。
上述の実施形態では、原文の省略語が定義内容の先頭文字を用いたものである例を示したが、省略語の代わりに記号を用いる場合にも本発明は適用可能である。例えば、図12(a)に示すように郵便マークの「〒」や株式会社を表す(株)、図12(b)に示すような地図記号などがこれに該当する。これらの記号群を定義内容と対応付けて記憶させておき、その定義内容を目的言語に翻訳し、上述の実施形態と同様に先頭文字を用いて省略記号を作成する。
【0038】
図11は、この動作のフローを示す図である。例えば、入力文書中に高等学校を表す「文」を丸で囲んだ記号が使用されており、目的言語には高等学校を表す記号がない場合を想定する。ステップE01で紙文書を入力し、ステップE02では文書の画像が読み取られる。ステップE03では読み取られた文書画像に含まれている記号あるいは記号文字列が抽出される。ステップE04では、抽出された記号/記号文字列がパターン辞書に登録されているか否かが判定され、登録されていない場合(ステップE04:NO)にはステップE05に進み、登録されている場合(ステップE04:YES)にはステップE08に進む。
ステップE05では、記号/記号文字列の表す内容を目的言語に翻訳する。ステップE06では、翻訳結果の先頭文字を用いて省略記号を生成する。ステップE07では、生成された省略記号をパターン辞書に記憶させる。ステップE08では文書全体の翻訳を行い、パターン辞書を用いて、記号部分の変換を行う。
このようにすれば、記号の意味である「高等学校」が目的言語に翻訳され、翻訳結果「High School」が得られる。そして、「HS」という省略記号が生成される。
【0039】
画像入力部12は、翻訳装置1にネットワークを介して接続された別体のスキャナ装置であってもよい。また、画像形成部6は、翻訳装置1にネットワークを介して接続された別体のプリンタ装置であってもよい。
【図面の簡単な説明】
【0040】
【図1】翻訳装置1のハードウェア構成を示す図である。
【図2】翻訳装置1の機能構成を表す図である。
【図3】翻訳装置1の動作のフローを示す図である。
【図4】省略語を用いた文書の例を示す図である。
【図5】日本語を英語に翻訳するための省略語辞書の例を示す図である。
【図6】翻訳文の例を示す図である。
【図7】翻訳装置1の動作のフローを示す図である。
【図8】翻訳装置1の動作のフローを示す図である。
【図9】翻訳装置1の動作のフローを示す図である。
【図10】日本語を英語に翻訳するための省略語辞書の例を示す図である。
【図11】翻訳装置1の動作のフローを示す図である。
【図12】記号のテーブルの例を示す図である。
【符号の説明】
【0041】
1…翻訳装置、4…制御部、5…記憶部、41…指示入力部、9…給紙トレイ、10…シート、12…画像入力部、6…画像形成部、7Y、7M、7C、7K…画像形成エンジン、8…転写ベルト、201…辞書、202…省略語辞書、101…入力手段、102…画像解析手段、103…文字認識手段、104…定義内容翻訳手段、105…省略語生成手段、106…翻訳手段、107…出力手段。
【特許請求の範囲】
【請求項1】
異種言語間で同じ意味の単語を対応付けて記憶した辞書と、
原文の記載された原稿の画像を入力する入力手段と、
前記入力手段で入力された画像で表される原文のレイアウトを解析して、語句の省略語(または記号)とその定義内容とを関連付けた省略語定義領域を抽出する画像解析手段と、
前記入力手段で入力された画像に含まれている原文の文字列を認識する文字認識手段と、
前記画像解析手段で抽出された省略語定義領域に含まれる定義内容に対応する翻訳語を前記辞書から抽出する定義内容翻訳手段と、
前記定義内容翻訳手段で抽出された翻訳語の先頭文字を用いて翻訳省略語(または翻訳記号)を生成する省略語生成手段と、
前記省略語生成手段で生成された翻訳省略語(または翻訳記号)とこれに対応する前記省略語(または記号)とを対応付けて記憶する省略語辞書と、
前記原文の文字列に対応する翻訳語および翻訳省略語(または翻訳記号)を前記辞書および前記省略語辞書から抽出して翻訳文を生成して出力する翻訳手段と
を有することを特徴とする翻訳装置。
【請求項2】
前記省略語生成手段で生成した翻訳省略語が前記省略語辞書に既に記憶されている場合には、前記先頭文字の後続文字、または、前記先頭文字を含む単語に後続する単語の先頭文字を前記翻訳省略語に連結することを特徴とする請求項1に記載の翻訳装置。
【請求項3】
前記省略語生成手段で生成した翻訳省略語が前記省略語辞書に既に記憶されている場合には、前記翻訳省略語の文字修飾の態様を異ならせることを特徴とする請求項1に記載の翻訳装置。
【請求項4】
前記省略語生成手段で生成した翻訳省略語が前記省略語辞書に既に記憶されている場合には、前記定義内容翻訳手段で抽出された翻訳語と同義の翻訳語を前記辞書から抽出することを特徴とする請求項1に記載の翻訳装置。
【請求項5】
原文の記載された原稿の画像を入力する入力ステップと、
前記入力ステップで入力された画像で表される原文のレイアウトを解析して、語句の省略語(または記号)とその定義内容とを関連付けた省略語定義領域を抽出する画像解析ステップと、
前記入力ステップで入力された画像に含まれている原文の文字列を認識する文字認識ステップと、
前記画像解析ステップで抽出された省略語定義領域に含まれる定義内容に対応する翻訳語を、異種言語間で同じ意味の単語を対応付けて記憶した辞書から抽出する定義内容翻訳ステップと、
前記定義内容翻訳ステップで抽出された翻訳語の先頭文字を用いて翻訳省略語(または翻訳記号)を生成する省略語生成ステップと、
前記省略語生成ステップで生成された翻訳省略語(または翻訳記号)とこれに対応する前記省略語(または記号)とを対応付けた省略語辞書を作成する省略語辞書作成ステップと、
前記原文の文字列に対応する翻訳語および翻訳省略語(または翻訳記号)を前記辞書および前記省略語辞書から抽出して翻訳文を生成して出力する翻訳ステップと
を有することを特徴とする翻訳方法。
【請求項6】
コンピュータ装置を、
異種言語間で同じ意味の単語を対応付けて記憶した辞書と、
原文の記載された原稿の画像を入力する入力手段と、
前記入力手段で入力された画像で表される原文のレイアウトを解析して、語句の省略語(または記号)とその定義内容とを関連付けた省略語定義領域を抽出する画像解析手段と、
前記入力手段で入力された画像に含まれている原文の文字列を認識する文字認識手段と、
前記画像解析手段で抽出された省略語定義領域に含まれる定義内容に対応する翻訳語を前記辞書から抽出する定義内容翻訳手段と、
前記定義内容翻訳手段で抽出された翻訳語の先頭文字を用いて翻訳省略語(または翻訳記号)を生成する省略語生成手段と、
前記省略語生成手段で生成された翻訳省略語(または翻訳記号)とこれに対応する前記省略語(または記号)とを対応付けて記憶する省略語辞書と、
前記原文の文字列に対応する翻訳語および翻訳省略語(または翻訳記号)を前記辞書および前記省略語辞書から抽出して翻訳文を生成して出力する翻訳手段
として機能させるためのプログラム。
【請求項1】
異種言語間で同じ意味の単語を対応付けて記憶した辞書と、
原文の記載された原稿の画像を入力する入力手段と、
前記入力手段で入力された画像で表される原文のレイアウトを解析して、語句の省略語(または記号)とその定義内容とを関連付けた省略語定義領域を抽出する画像解析手段と、
前記入力手段で入力された画像に含まれている原文の文字列を認識する文字認識手段と、
前記画像解析手段で抽出された省略語定義領域に含まれる定義内容に対応する翻訳語を前記辞書から抽出する定義内容翻訳手段と、
前記定義内容翻訳手段で抽出された翻訳語の先頭文字を用いて翻訳省略語(または翻訳記号)を生成する省略語生成手段と、
前記省略語生成手段で生成された翻訳省略語(または翻訳記号)とこれに対応する前記省略語(または記号)とを対応付けて記憶する省略語辞書と、
前記原文の文字列に対応する翻訳語および翻訳省略語(または翻訳記号)を前記辞書および前記省略語辞書から抽出して翻訳文を生成して出力する翻訳手段と
を有することを特徴とする翻訳装置。
【請求項2】
前記省略語生成手段で生成した翻訳省略語が前記省略語辞書に既に記憶されている場合には、前記先頭文字の後続文字、または、前記先頭文字を含む単語に後続する単語の先頭文字を前記翻訳省略語に連結することを特徴とする請求項1に記載の翻訳装置。
【請求項3】
前記省略語生成手段で生成した翻訳省略語が前記省略語辞書に既に記憶されている場合には、前記翻訳省略語の文字修飾の態様を異ならせることを特徴とする請求項1に記載の翻訳装置。
【請求項4】
前記省略語生成手段で生成した翻訳省略語が前記省略語辞書に既に記憶されている場合には、前記定義内容翻訳手段で抽出された翻訳語と同義の翻訳語を前記辞書から抽出することを特徴とする請求項1に記載の翻訳装置。
【請求項5】
原文の記載された原稿の画像を入力する入力ステップと、
前記入力ステップで入力された画像で表される原文のレイアウトを解析して、語句の省略語(または記号)とその定義内容とを関連付けた省略語定義領域を抽出する画像解析ステップと、
前記入力ステップで入力された画像に含まれている原文の文字列を認識する文字認識ステップと、
前記画像解析ステップで抽出された省略語定義領域に含まれる定義内容に対応する翻訳語を、異種言語間で同じ意味の単語を対応付けて記憶した辞書から抽出する定義内容翻訳ステップと、
前記定義内容翻訳ステップで抽出された翻訳語の先頭文字を用いて翻訳省略語(または翻訳記号)を生成する省略語生成ステップと、
前記省略語生成ステップで生成された翻訳省略語(または翻訳記号)とこれに対応する前記省略語(または記号)とを対応付けた省略語辞書を作成する省略語辞書作成ステップと、
前記原文の文字列に対応する翻訳語および翻訳省略語(または翻訳記号)を前記辞書および前記省略語辞書から抽出して翻訳文を生成して出力する翻訳ステップと
を有することを特徴とする翻訳方法。
【請求項6】
コンピュータ装置を、
異種言語間で同じ意味の単語を対応付けて記憶した辞書と、
原文の記載された原稿の画像を入力する入力手段と、
前記入力手段で入力された画像で表される原文のレイアウトを解析して、語句の省略語(または記号)とその定義内容とを関連付けた省略語定義領域を抽出する画像解析手段と、
前記入力手段で入力された画像に含まれている原文の文字列を認識する文字認識手段と、
前記画像解析手段で抽出された省略語定義領域に含まれる定義内容に対応する翻訳語を前記辞書から抽出する定義内容翻訳手段と、
前記定義内容翻訳手段で抽出された翻訳語の先頭文字を用いて翻訳省略語(または翻訳記号)を生成する省略語生成手段と、
前記省略語生成手段で生成された翻訳省略語(または翻訳記号)とこれに対応する前記省略語(または記号)とを対応付けて記憶する省略語辞書と、
前記原文の文字列に対応する翻訳語および翻訳省略語(または翻訳記号)を前記辞書および前記省略語辞書から抽出して翻訳文を生成して出力する翻訳手段
として機能させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2006−276918(P2006−276918A)
【公開日】平成18年10月12日(2006.10.12)
【国際特許分類】
【出願番号】特願2005−90232(P2005−90232)
【出願日】平成17年3月25日(2005.3.25)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
【公開日】平成18年10月12日(2006.10.12)
【国際特許分類】
【出願日】平成17年3月25日(2005.3.25)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
[ Back to top ]