説明

文書処理装置

【課題】 ユーザが翻訳先言語を入力しなくても翻訳先言語を判定して翻訳処理を行う技術を提供する。
【解決手段】 複合機1の制御部11は、翻訳指示が入力されたことを検知すると、画像読取部13を制御して載置された文書および特定画像の画像読取を行い、文書と特定画像との内容を表す画像データを生成する。そして、文字領域の画像データと特定画像領域の画像データとを切り出し、文書領域の画像データからテキストデータを生成して言語を特定する。続けて、制御部11は、特定画像領域の画像データと、照合画像テーブルTBLに記憶されている照合画像データとを照合し、その一致度に基づいて翻訳先言語を特定する。制御部11は、テキストデータの言語が翻訳元言語であり、特定画像データから特定された言語が翻訳先言語であると判断し、テキストデータを、翻訳元言語から翻訳先言語に翻訳する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書をある言語から他の言語に翻訳する技術に関する。
【背景技術】
【0002】
近年、文書をある言語から他の言語に変換する翻訳装置が使用されている。特に、翻訳元の文書(原稿)が紙文書で提供された場合に、紙文書を光学的に読み取って電子化し、文字認識を行った上で自動翻訳を行う装置が開発されている(例えば、特許文献1)。
【特許文献1】特開平8−006948号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
上述したような自動翻訳を行う装置を使用する場合、ユーザは、翻訳元の言語や翻訳先の言語をその装置に入力(または選択)することによって言語を指定する必要がある。このような入力操作は複雑である場合が多く、例えばユーザがその装置を日常的に使用していない場合などは、その入力操作に手間がかかりユーザの作業効率が低下するという問題がある。このような問題に対応するために、ユーザに操作入力を促すメッセージなどを液晶ディスプレイ等に表示する装置が開発されているが、この場合でも、例えば日本語でメッセージが表示される場合は、日本語を理解できないユーザは表示されるメッセージの意味を理解することができず、入力操作を行うことが困難であるという問題があった。
【0004】
本発明は上述した背景に鑑みてなされたものであり、その目的は、ユーザが翻訳先の言語を入力することなく、翻訳先の言語を判定して翻訳処理を行う技術を提供することである。
【課題を解決するための手段】
【0005】
上記課題を達成するために、本発明は、シート状媒体から画像を読み取り、前記画像をビットマップとして表す画像データを取得する画像読取手段と、前記画像データから、活字文字が記されている活字領域の画像データと、手書文字が記されている手書領域の画像データとを切り出す領域分離手段と、前記活字領域の画像データから、当該活字領域内にある活字文字の内容を表す活字テキストデータを取得する活字テキストデータ取得手段と、前記手書領域の画像データから、当該手書領域内にある手書文字の内容を表す手書テキストデータを取得する手書テキストデータ取得手段と、前記活字テキストデータの言語を特定する活字言語特定手段と、前記手書テキストデータの言語を特定する手書言語特定手段と、前記活字テキストデータを、前記活字言語特定手段によって特定された言語から、手書言語特定手段によって特定された言語に翻訳して翻訳テキストデータを生成する翻訳処理手段と、前記翻訳テキストデータを出力する出力手段とを備えることを特徴とする文書処理装置を提供する。
この文書処理装置によれば、文書から活字文字が記された領域の画像データと手書文字が記された領域の画像データとを分離し、分離された画像データの各々からテキストデータを個別に取得するようになっている。そして、それらのテキストデータの各々に対して言語を特定することによって、翻訳元言語と翻訳先言語とを特定できるようになっている。
【0006】
また、本発明は、シート状媒体から画像を読み取り、前記画像をビットマップとして表す画像データを取得する画像読取手段と、前記画像データから、文字が記されている文字領域の画像データと、言語を特定する特定画像が形成されている特定画像領域の特定画像データとを切り出す領域分離手段と、前記文字領域の画像データから、当該文字領域内にある文字の内容を表すテキストデータを取得するテキストデータ取得手段と、前記テキストデータの言語を特定する文字言語特定手段と、前記特定画像領域の特定画像データを所定のアルゴリズムで解析して翻訳先言語を特定する翻訳先言語特定手段と、前記テキストデータを、前記文字言語特定手段によって特定された言語から、前記翻訳先言語に翻訳して翻訳テキストデータを生成する翻訳処理手段と、前記翻訳テキストデータを出力する出力手段とを備えることを特徴とする文書処理装置を提供する。
この文書処理装置によれば、言語を特定する特定画像が形成された領域の画像データと文字が記された領域の画像データとを分離し、特定画像の画像データから翻訳先言語を特定するとともに、文字が記された領域の画像データからテキストデータを取得し、そのテキストデータの言語を特定するようになっている。つまり、テキストデータから翻訳元言語を、特定画像の画像データから翻訳先言語をそれぞれ特定できるようになっている。
【0007】
また、本発明は、シート状媒体から画像を読み取り、前記画像をビットマップとして表す画像データを取得する画像読取手段と、言語を特定する特定画像を走査し、前記特定画像の内容をビットマップとして表す特定画像データを取得する特定画像読取手段と、前記画像データから、文字の内容を表すテキストデータを取得するテキストデータ取得手段と、前記テキストデータの言語を特定する文字言語特定手段と、前記特定画像データを所定のアルゴリズムで解析して翻訳先言語を特定する翻訳先言語特定手段と、前記テキストデータを、前記文字言語特定手段によって特定された言語から、前記翻訳先言語に翻訳して翻訳テキストデータを生成する翻訳処理手段と、前記翻訳テキストデータを出力する出力手段とを備えることを特徴とする文書処理装置を提供する。
この文書処理装置によれば、特定画像の画像データから翻訳先言語を特定するとともに、文書の画像データからテキストデータを取得し、そのテキストデータの言語を特定するようになっている。つまり、テキストデータから翻訳元言語を、特定画像の画像データから翻訳先言語をそれぞれ特定できるようになっている。
本発明の好ましい態様において、複数の照合画像データを記憶する記憶手段を備え、前記翻訳先言語特定手段は、前記特定画像データを前記記憶手段に記憶された照合画像データと照合し、その一致度に基づいて翻訳先言語を特定するようにしてもよい。
また、本発明の更に好ましい態様において、前記照合画像データは、パスポート、紙幣、硬貨、バーコードの少なくともいずれか一つの画像を示す画像データであるようにしてもよい。
【0008】
また、本発明は、シート状媒体から画像を読み取り、前記画像をビットマップとして表す画像データを取得する画像読取手段と、前記画像データから、文字の内容を表すテキストデータを取得するテキストデータ取得手段と、前記テキストデータの言語を特定する文字言語特定手段と、音声を集音して音声データを生成する音声入力手段と、前記音声データを所定のアルゴリズムで解析して翻訳先言語を特定する翻訳先言語特定手段と、前記テキストデータを、前記文字言語特定手段によって特定された言語から、前記翻訳先言語に翻訳して翻訳テキストデータを生成する翻訳処理手段と、前記翻訳テキストデータを出力する出力手段とを備えることを特徴とする文書処理装置を提供する。
この文書処理装置によれば、文書の画像データからテキストデータを取得し、そのテキストデータの言語を特定するとともに、集音された音声の音声データから翻訳先言語を特定するようになっている。テキストデータから翻訳元言語を、音声データから翻訳先言語をそれぞれ特定できるようになっている。
【発明の効果】
【0009】
本発明によれば、ユーザが翻訳先の言語を入力することなく、翻訳先の言語を判定して翻訳処理を行うことが可能となる。
【発明を実施するための最良の形態】
【0010】
(第1実施形態)
本発明の第1実施形態を説明する。まず、本実施形態において用いる主要な用語を定義しておく。「活字文字」の語は、ゴシック体、明朝体といったような特定のタイプフェースの字形を転写して得られる文字を意味し、「手書文字」の語は、活字文字以外の文字を意味するものとして用いる。更に、「文書」の語は、情報が文字の綴りとして記されているシート状媒体(例えば、用紙等)を意味するものとして用いる。また、活字文字によって記されている箇所を閲覧した者がその取扱や校正内容などを追記した手書文字を「アノテーション」と呼ぶ。
【0011】
図1は、アノテーションが追記された状態の文書の一例を示す図である。同図に示す文書は、一枚の用紙に、パラグラフA、パラグラフBが活字文字によって記されており、更に、手書文字によるアノテーションCが追記されている。
【0012】
次に、図2に示すブロック図を参照しながら、本実施形態である複合機1の構成について説明する。複合機1は、文書を光学的に読み取って電子化するスキャナ機能を備えた装置である。図において、11は、例えばCPU(Central Processing Unit)等の演算装置を備えた制御部である。12は、RAM(Random Access Memory)やROM(Read Only Memory)、ハードディスク等で構成されており、制御プログラムや翻訳プログラム等の各種プログラムを記憶する記憶部である。制御部11は、記憶部12に記憶されているプログラムを読み出して実行することにより、バス18を介して複合機1の各部を制御する。
【0013】
13は、文書を光学的に走査してその画像を読み取る画像読取部である。この画像読取部13は、文書が載置される載置部を備えており、この載置部に載置された文書を光学的に走査してその画像を読み取り、2値のビットマップデータである画像データを生成する。14は、画像データを用紙に印刷する画像形成部である。画像形成部14は、制御部11によって供給される画像データに基づいて図示せぬ感光体ドラム上に像光を照射して表面に静電電位の差による潜像を形成し、この潜像をトナーの選択的な付着によってトナー像とし、そのトナー像を転写および定着して用紙に画像を形成する。
【0014】
15は、例えば液晶ディスプレイ等で構成され、制御部11からの制御信号に従ってユーザへのメッセージや作業状況を示す画像などを表示する表示部である。16は、テンキー,スタートボタン,ストップボタン,液晶ディスプレイ上に設置されたタッチパネル等で構成され、ユーザの操作入力およびその時の表示画面に応じた信号を出力する操作部であり、ユーザは操作部16を操作することにより、複合機1に対して指示入力を行うことができる。17は、各種通信装置等を備える通信部であり、制御部11の制御の下、他の装置とのデータの授受を行う。
【0015】
次に、本実施形態の動作について説明する。まず、複合機1のユーザは、操作部16を操作して翻訳指示を入力する。具体的には、ユーザは、翻訳処理の対象となる文書を画像読取部13の載置部に載置し、操作部16を操作することにより、複合機1に翻訳指示を入力する。
【0016】
図3は、複合機1の制御部11が行う処理を示すフローチャートである。複合機1の制御部11は、翻訳指示が入力されたことを検知すると(ステップS1;YES)、文書の画像読取を行う(ステップS2)。すなわち、制御部11は、画像読取部13を制御して文書の画像を光学的に読み取らせ、ビットマップの画像データを生成する。
【0017】
次に、制御部11は、生成した画像データから、活字文字が記されている領域(以下、「活字領域」と呼ぶ)の画像データと手書文字が記された領域(以下、「手書領域」と呼ぶ)の画像データとを切り出し、活字領域の画像データと手書領域の画像データとを分離する(ステップS3)。
画像データの切り出しは以下のように行われる。まず、文書の画像データによって表される各画素を横方向に走査し、隣り合う2つの文字の間の距離、即ち、連続する白画素の並びの幅が、所定値Xよりも小さかったとき、それらの連続する白画素を黒画素に置き換える。この所定値Xは、隣にある文字との距離として想定される値と概ね一致させる。同様に、各画素を縦方向にも走査し、連続する白画素の並びの幅が所定値Yよりも小さかったとき、それらの連続する白画素を黒画素に置き換える。この所定値Yは、文字行の間隔として想定される値と概ね一致させる。この結果、黒画素で塗り潰された領域が形成される。図4は、図1の文書に上述の置き換え処理を施した状態を示すものである。この図では、黒画素で塗り潰された領域L1乃至L3が形成されている。
黒画素で塗り潰された領域が形成されると、今度は、各領域が活字領域か手書領域かの判定に移る。この判定では、まず処理対象となる注目領域を特定し、特定された領域内において置き換えられていた黒画素を白画素に戻し、元の描画内容を復元する。そして、その領域内の画素を横方向に走査し、連続する白画素のピッチのばらつきの程度が所定値よりも小さいか否か判定する。一般に、活字文字が記された領域であれば隣り合う2つの文字の間隔は概ね一定となるため、連続する白画素のピッチのばらつきの程度が所定値よりも小さくなる。一方で、手書文字が記された領域であれば隣り合う文字2つの間隔は一定とならないため、連続する白画素のピッチのばらつきの程度が所定値よりも大きくなる。図4に示したL1乃至L3の領域にかかる判定を施した場合、L1とL3の領域は活字領域であるとの判定結果が下され、L2の領域は手書領域であるとの判定結果が下されることになる。
【0018】
図3の説明に戻る。次に、制御部11は、活字領域の画像データから活字文字の内容を表す活字テキストデータを生成する(ステップS4)。このステップにおける活字テキストデータの取得は以下のように行われる。まず、画像データから文字の画像を一文字ずつ切り出して正規化する。そして、正規化した画像と予め辞書として準備された文字の形状とをいわゆるパターンマッチング手法によって比較し、類似度が最も高い文字の文字コードを認識結果として出力する。
【0019】
続けて、制御部11は、手書領域の画像データから手書文字の内容を表す手書テキストデータを生成する(ステップS5)。このステップにおける手書テキストデータの取得は以下のように行われる。まず、画像データから文字の画像を一文字ずつ切り出して正規化する。そして、正規化した画像から文字の各構成要素の特徴を抽出し、それら抽出した特徴と予め辞書として準備された特徴データとを比較することで、文字の各構成要素を確定させる。更に、確定した構成要素を元のように組み立てて得られた文字の文字コードを出力する。
【0020】
次に、制御部11は、活字テキストデータの言語を特定する(ステップS6)。具体的には、制御部11は、予め辞書として準備された各言語に固有な単語が、この活字テキストデータに含まれているかどうかを検索し、検索された単語の言語がその活字テキストデータの言語であると特定する。続けて、手書テキストデータについても、同様にして言語を特定する(ステップS7)。
【0021】
制御部11は、活字テキストデータの言語が翻訳元言語であり、手書テキストデータの言語が翻訳先言語であると判断し、活字テキストデータを翻訳元言語から翻訳先言語に翻訳して翻訳テキストデータを生成する(ステップS8)。そして、活字テキストデータの翻訳結果を示す翻訳テキストデータと手書テキストデータとを画像形成部14によって用紙に印刷出力する(ステップS9)。
【0022】
以上説明した本実施形態によれば、アノテーションが追記された文書を読み込んだ複合機1が、その文書から活字文字が記された領域の画像データと手書文字が記された領域の画像データとを分離し、分離された画像データの各々からテキストデータを個別に取得するようになっている。そして、それらのテキストデータに対して言語判定処理を各々行い、翻訳元言語と翻訳先言語とを特定できるようになっている。このようにすることによって、複合機1のユーザは、翻訳元言語や翻訳先言語を複合機1に入力しなくても、翻訳指示を入力するという簡単な操作を行うだけで、所望する言語に翻訳された翻訳結果を得ることができる。
【0023】
(第2実施形態)
本発明の第2実施形態を説明する。本実施形態である複合機1のハードウェア構成は、記憶部12に照合画像テーブルTBL(図2に点線で図示)を記憶している点を除いて第1実施形態と同様である。
【0024】
図5に、照合画像テーブルTBLのデータ構造を示す。このテーブルには、制御部11が翻訳先言語を判断する際に利用されるテーブルである。図5に示すように、照合画像テーブルTBLには、「言語種別」と「照合画像データ」の各項目が互いに関連付けられて記憶されている。これらの項目のうち、「言語種別」には、例えば日本語や英語等の言語を一意に識別できる識別情報が記憶されている。「照合画像データ」には、言語種別と対応する国のパスポート(旅券)の画像データが照合画像データとして記憶されている。本実施形態における複合機1の制御部11は、画像読取部13によって読み取られた画像データを、照合画像テーブルTBLに記憶されている照合画像データと照合し、その一致度に基づいて翻訳先言語を特定する。この特定処理は、例えばSVM(サポートベクトルマシン)アルゴリズム等を用いて行われる。
【0025】
続けて、本実施形態の動作を説明する。まず、複合機1のユーザは、操作部16を操作して翻訳指示を入力する。具体的には、ユーザは、翻訳処理の対象となる文書とともに、自身のパスポート(特定画像)を画像読取部13の載置部に載置し、操作部16を操作することにより、複合機1に翻訳指示を入力する。
【0026】
図6は、複合機1の制御部11が行う処理を示すフローチャートである。複合機1の制御部11は、翻訳指示が入力されたことを検知すると(ステップS11;YES)、画像読取部13を制御して載置された文書およびパスポート画像の画像読取を行い、文書とパスポート画像との内容をビットマップとして表す画像データを生成する(ステップS12)。図7は、画像読取部13によって読み取られる画像の一例を示す図である。同図に示す例においては、パラグラフA、パラグラフBが記された文書とパスポート画像Dとが読み取られることになる。
【0027】
次に、制御部11は、画像データに対し所定のアルゴリズムを用いてレイアウト解析等を行い、文字領域の画像データとパスポート画像領域(特定画像領域)の画像データとを切り出す(ステップS13)。具体的には、画像データを所定の領域に分割し、各領域の種別(文字、図等)を判定する。図7に示した例においては、パラグラフAとパラグラフBが記された領域が文字領域であると判定され、パスポート画像Dの領域が特定画像領域であると判定される。
【0028】
次に、制御部11は、文字領域の画像データからテキストデータを生成し(ステップS14)、生成したテキストデータの言語を特定する(ステップS15)。これらの処理は第1実施形態と同様にして行う。続けて、制御部11は、ステップS13で切り出された特定画像領域の画像データと、照合画像テーブルTBLに記憶されているパスポート画像データとを照合し、その一致度に基づいて翻訳先言語を特定する(ステップS16)。
【0029】
制御部11は、テキストデータの言語が翻訳元言語であり、パスポート画像データ(特定画像データ)から特定された言語が翻訳先言語であると判断し、テキストデータを、翻訳元言語から翻訳先言語に翻訳し、翻訳テキストデータを生成する(ステップS17)。そして、テキストデータの翻訳結果を示す翻訳テキストデータを画像形成部14によって用紙に印刷出力する(ステップS18)。
【0030】
以上説明した本実施形態によれば、文書と言語を特定する特定画像(パスポート画像)とを読み込んだ複合機1が、文字が記された領域の画像データと特定画像が形成された領域の画像データとを分離し、特定画像の画像データから翻訳先言語を特定するとともに、文字が記された領域の画像データからテキストデータを取得し、そのテキストデータの言語を特定するようになっている。つまり、テキストデータから翻訳元言語を、特定画像の画像データから翻訳先言語をそれぞれ特定できるようになっている。このようにすることによって、複合機1のユーザは、翻訳元言語や翻訳先言語を複合機1に入力しなくても、翻訳指示を入力するという簡単な操作を行うだけで、所望する言語に翻訳された翻訳結果を得ることができ、ユーザの作業効率を向上させることが可能となる。
【0031】
(第3実施形態)
本発明の第3実施形態を説明する。本実施形態である複合機1のハードウェア構成は、マイクロフォン19(図2に点線で図示)を備えている点を除いて第1実施形態と同様である。マイクロフォン19は、音声を集音する音声入力装置であり、本実施形態においては、複合機1の制御部11は、このマイクロフォン19で集音した音声に対してA/D変換等の処理を行い、デジタル形式の音声データを生成する。
【0032】
次に、本実施形態の動作について説明する。まず、複合機1のユーザは、複合機1の操作部16を操作して翻訳指示を入力する。具体的には、ユーザは、翻訳処理の対象となる文書を複合機1の画像読取部13の載置部に載置して操作部16を操作することにより、複合機1に翻訳指示を入力するとともに、マイクロフォン19に対して翻訳先言語で音声を発音する。
【0033】
図8は、複合機1の制御部11が行う処理を示すフローチャートである。複合機1の制御部11は、翻訳指示が入力されたことを検知すると(ステップS21;YES)、まず、マイクロフォン19で集音された音声からデジタル形式の音声データを生成し、記憶部22に記憶させる(ステップS22)。次に、文書の画像読取を行ってビットマップの画像データを生成し(ステップS23)、読み取った画像データから文字の内容を表すテキストデータを生成する(ステップS24)。そして、テキストデータから言語を特定する(ステップS25)。
【0034】
次に、ステップS22で生成した音声データの言語を特定する(ステップS26)。この判定は、以下のようにして行われる。制御部21は、予め辞書として準備された各言語に固有な単語が、この音声データに含まれているかどうかを検索し、検索された単語を有する言語がその音声データの言語であると特定する。ここで各言語に固有な単語として予め辞書として準備する単語は、例えば英語の場合は「and」、「I」、「we」といった単語あるいは接続詞や接頭語など、頻繁に使用される単語が望ましい。
【0035】
制御部11は、テキストデータの言語が翻訳元言語であり、音声データから特定された言語が翻訳先言語であると判断し、テキストデータを、翻訳元言語から翻訳先言語に翻訳し、翻訳テキストデータを生成する(ステップS27)。そして、テキストデータの翻訳結果を示す翻訳テキストデータを画像形成部14によって用紙に印刷出力する(ステップS28)。
【0036】
以上説明した本実施形態によれば、文書の画像データからテキストデータを取得し、そのテキストデータの言語を特定するとともに、集音された音声を表す音声データから翻訳先言語を特定するようになっている。このようにすることによって、複合機1のユーザは、翻訳元言語や翻訳先言語を複合機1に入力しなくても、翻訳指示および音声を入力するという簡単な操作を行うだけで、所望する言語に翻訳された翻訳結果を得ることができ、ユーザの作業効率を向上させることが可能となる。
【0037】
(第4実施形態)
本発明の第4実施形態を説明する。図9は、本実施形態に係るシステムの構成を示すブロック図である。図示のように、このシステムは、複合機1と、音声レコーダ2と、コンピュータ装置3から構成される。本実施形態における複合機1のハードウェア構成は、第1実施形態と同様である。そのため、以下の説明においては第1実施形態と同様の符号を用いることとし、その詳細な説明を省略する。
【0038】
次に、図10に示すブロック図を参照しながら、音声レコーダ2の構成について説明する。音声レコーダ2は、音声を集音してデジタルの音声データを生成する装置である。図において、21は、例えばCPU等の演算装置を備えた制御部である。22は、RAMやROM、ハードディスク等で構成される記憶部であり、制御部21は、記憶部22に記憶されているプログラムを読み出して実行することにより、バス28を介して音声レコーダ2の各部を制御する。23は、音声を集音するマイクロフォンである。制御部21は、マイクロフォン23で集音した音声に対してA/D変換等の処理を行い、デジタル形式の音声データを生成する。
【0039】
25は、制御部21からの制御信号に従ってユーザへのメッセージや作業状況を示す画面などを表示する表示部である。26は、スタートボタン,ストップボタン等で構成され、ユーザの操作入力およびその時の表示画面に応じた信号を出力する操作部である。ユーザは表示部25に表示された画像やメッセージを見ながら操作部26を操作することにより、音声レコーダ2に対して指示入力を行うことができる。27は、各種通信装置等を有する通信部であり、制御部21の制御の下、複合機1とのデータの授受を行う。
【0040】
24は、バーコードを用紙に印字して出力するバーコード出力部である。制御部21は、音声データを所定のアルゴリズムで解析して言語を特定し、特定された言語を示す情報をバーコードに変換する。バーコード出力部24は、制御部21の制御の下、このバーコードを用紙に印字して出力する。
【0041】
続けて、図11に示すブロック図を参照しながら、コンピュータ装置3の構成について説明する。コンピュータ装置3は、図11に示すように、バス38を介して装置全体の動作を制御する制御部31、RAMやROM、ハードディスク等で構成される記憶部32のほかに、コンピュータディスプレイ等の表示部35、マウスやキーボード等の操作部36、音声を出力する音声出力部33、通信部37などを備えている。
【0042】
次に、本実施形態の動作について説明する。なお、以下の説明では、文書を閲覧したユーザがその取扱や構成内容などを発音した音声を示す音声データを「音声アノテーション」と呼ぶこととする。
【0043】
まず、音声レコーダ2が音声アノテーションを生成する動作について、図12のフローチャートを参照しつつ説明する。まず、ユーザは、音声レコーダ2の操作部26を操作して音声の録音開始指示を入力する。音声レコーダ2の制御部21は、録音開始指示が入力されたことを検知すると(ステップS31;YES)、マイクロフォン23を介して音声を集音させ、デジタル形式の音声データの生成を開始する(ステップS32)。次に、録音終了指示が入力されたことを検知すると(ステップS33;YES)、制御部21は音声データの生成を終了する(ステップS34)。ここで生成された音声データが、後に説明する複合機1の処理で音声アノテーションとして用いられることになる。続けて、音声レコーダ2の制御部21は、生成した音声アノテーションの言語を特定する(ステップS35)。この判定は、以下のようにして行われる。制御部21は、予め辞書として準備された各言語に固有な単語が、この音声アノテーションに含まれているかどうかを検索し、検索された単語を有する言語がその音声アノテーションの言語であると特定する。
【0044】
言語を特定すると、音声レコーダ2の制御部21は、特定した言語とその音声アノテーションのID(識別情報)とを含む情報をバーコードに変換し、そのバーコードをバーコード出力部24によって紙に印字出力させる(ステップS36)。
【0045】
以上の処理によって音声アノテーションと音声アノテーションを示すバーコードとが生成される。音声レコーダ2のユーザは、出力されたバーコードを文書の所望の位置に添付する。図13は、バーコードが添付された文書の一例を示す図である。同図に示す文書は、一枚の用紙に、パラグラフA、パラグラフBが文字によって記されており、更に音声アノテーションと対応するバーコードEが添付されている。
【0046】
次に、複合機1の動作について説明する。まず、複合機1のユーザは、複合機1の操作部16および音声レコーダ2の操作部26を操作して翻訳指示を入力する。具体的には、ユーザは、音声レコーダ2の操作部26を操作することにより、音声アノテーションを複合機1へ送信させる旨の送信指示を入力するとともに、翻訳処理の対象となる文書を複合機1の画像読取部13の載置部に載置して操作部16を操作することにより、複合機1に翻訳指示を入力する。
【0047】
図14は、複合機1の制御部11が行う処理を示すフローチャートである。図11に示す制御部11の処理が、第2実施形態における図6に示すそれと異なる点は、翻訳先言語を特定する処理(ステップS16に示した処理)において、特定画像データとしてパスポート画像ではなくバーコードを用いて言語を特定する点と、音声アノテーションを翻訳テキストデータにリンク付けして送信出力する点であり、それ以外の処理(ステップS11〜ステップS15,ステップS17)の処理については、第2実施形態と同様である。そのため、以下の説明では、その相違点のみを説明し、第2実施形態と同様の処理については同じ符号を用いてその説明を省略する。
【0048】
第2実施形態においては、図6のステップS13で切り出された特定画像領域の画像データと、照合画像データテーブルTBLに記憶されているパスポート画像データとを照合し、その一致度に基づいて翻訳先言語を特定するようにしたが(図6のステップS16参照)、本実施形態においては、バーコード(特定画像データ)を所定のアルゴリズムで解析することによって、翻訳先言語を特定する(ステップS16´)。
【0049】
続けて、制御部11は、テキストデータの言語が翻訳元言語であり、バーコード(特定画像データ)から特定された言語が翻訳先言語であると判断し、テキストデータを、翻訳元言語から翻訳先言語に翻訳して翻訳テキストデータを生成する(ステップS17)。次に、音声レコーダ2から受信した音声アノテーションを翻訳テキストデータにリンク付けし(ステップS19)、通信部17を介してコンピュータ装置3に送信することによって出力する(ステップS18´)。以上のようにして音声アノテーションが付与された翻訳テキストデータがコンピュータ装置3に送信されることになる。
【0050】
次に、ユーザは、コンピュータ装置3を操作して、複合機1から受信した翻訳テキストデータを表示部35に表示させる。コンピュータ装置3の制御部31は、翻訳テキストデータを表示させる旨の命令が入力されたことを検知すると、翻訳テキストデータを表示部35に表示させる。
図15は、コンピュータ装置3の表示部35に表示される画面の一例を示す図である。図示のように、表示領域A´と表示領域B´には翻訳データが表示され、領域E´には音声アノテーションが付与されていることを示す情報(例えば、文字やアイコン等)が表示される。ユーザは、コンピュータ装置3の表示部35に表示される画面を参照することによって、その翻訳結果を確認することができる。また、ユーザが、領域E´にマウスポインタを移動し左クリックする操作を行うと、コンピュータ装置3の制御部31は、その領域E´に表示されている情報と対応する音声アノテーションを音声出力部33によって音声出力させる。
【0051】
以上説明したように本実施形態によれば、文書と言語を特定する特定画像(バーコード)とを読み込んだ複合機が、文字が記された領域の画像データと特定画像が形成された領域の画像データとを分離し、特定画像の画像データから翻訳先言語を特定するとともに、文字が記された領域の画像データからテキストデータを取得し、そのテキストデータの言語を特定するようになっている。つまり、テキストデータから翻訳元言語を、特定画像の画像データから翻訳先言語をそれぞれ特定できるようになっている。このようにすることによって、複合機1のユーザは、翻訳元言語や翻訳先言語を複合機1に入力しなくても、翻訳指示を入力するという簡単な操作を行うだけで、所望する言語に翻訳された翻訳結果を得ることができ、ユーザの作業効率を向上させることが可能となる。
【0052】
なお、上述した実施形態においては、1つのバーコードが付与された文書を翻訳する動作について説明したが、例えば図13の点線Fで示すように、付与されるバーコードの数が2以上の複数であっても勿論よい。複数のバーコードが付与された場合であっても、複合機1の制御部11は、上述に説明した処理と同様の処理を行うことによって、バーコードから翻訳先言語を特定しその言語に翻訳する処理を行う。
【0053】
(変形例)
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
(1)上述の第1実施形態では、文書を読み込んでその画像データを生成した複合機1が、手書領域と活字領域の画像データを各々切り出し、それらの画像データからテキストデータを取得して翻訳処理を行うようになっていた。これに対し、通信ネットワークで接続された2以上の複数の装置が上記実施形態に係る機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態の複合機1を実現させるようにしてもよい。その一例について図16を参照しつつ以下に説明する。図において、1´は、画像形成装置100とコンピュータ装置200とが通信ネットワークで接続された文書処理システムである。この文書処理システム1´においては、第1実施形態における複合機1の画像読取部13と画像形成部14に相当する機能を画像形成装置100が実装し、手書領域と活字領域の切り出しや画像データからテキストデータの生成処理、翻訳処理等をコンピュータ装置200が実装する。
また、第2乃至第4実施形態についても同様であり、通信ネットワークで接続された2以上の複数の装置が当該実施形態に係る機能を分担するようにし、それら複数の装置を備えるシステムが当該実施形態の複合機1を実現するようにしてもよい。例えば、第2実施形態においては、照合画像テーブルTBLを記憶する専用のサーバ装置を複合機と別途設けるようにし、複合機がそのサーバ装置に言語の特定結果を問い合わせるようにしてもよい。
【0054】
(2)また、上述した第1乃至第3実施形態では、翻訳結果を示す翻訳テキストデータを用紙に印刷出力するようにしたが、翻訳テキストデータの出力方法はこれに限らず、複合機1の制御部11が通信部17を介してパーソナルコンピュータ等の他の装置に翻訳テキストデータを送信することによって出力するようにしてもよい。また、複合機1にディスプレイデバイスを搭載し、文書画面をそのディスプレイデバイスに表示させるようにしてもよい。
【0055】
(3)上記第1実施形態における画像データから活字領域の画像データと手書領域の画像データとを切り出す際における活字領域と手書領域の分離を、上記実施形態に示した以外の手法により実現してもよい。例えば、注目領域内にある各文字のストロークの平均的太さを検出し、この太さを示す値が予め設定された閾値よりも大きい場合に活字文字を記した領域であると判定するようにしてもよい。また、注目領域内にある各文字の直線成分と非直線成分とを定量化し、直線成分の非直線成分に占める割合が所定の閾値より大きい場合に活字文字を記した領域であると判定するようにしてもよい。要するに、活字文字が記されている活字領域の画像データと、手書文字が記されている手書領域の画像データとを所定のアルゴリズムに基づいて切り出すようにすればよい。
【0056】
(4)また、上記第1乃至第4実施形態においては、各言語に固有な単語が含まれているかどうかを検索することによってテキストデータの言語を特定するようにしたが、言語の特定方法はこれに限定されるものではなく、言語を好適に特定できる手法であればどのようなものであってもよい。また、第3乃至4実施形態における音声データの言語の特定方法についても同様であり、言語を好適に特定できる手法であればどのようなものであってもよい。
【0057】
(5)なお、上述した第2または第4の実施形態においては、翻訳先言語を特定するための特定画像としてパスポート画像およびバーコードを用いたが、特定画像をパスポート画像またはバーコードに限定するものではなく、例えば、紙幣や硬貨など、言語が特定できるものであればどのようなものであってもよい。特定画像として紙幣を用いる場合は、照合画像テーブルTBLの「照合画像データ」に、言語種別と対応する国の紙幣の画像データを記憶させておく。そして、ユーザは、翻訳指示を入力する際に、翻訳処理の対象となる文書とともに、翻訳先言語と対応する国の紙幣を画像読取部13の載置部に載置するようにすればよい。
また、特定画像は、これ以外でも、例えばロゴマークやパターン画像等であってもよい。特定画像としてロゴマークやバーコード等を用いる場合であっても、上記実施形態と同様に照合画像テーブルTBLに照合用の画像データを記憶させておき、画像データのマッチング等によって翻訳先言語を特定するか、またはそれらのパターン画像等を解析するための所定のアルゴリズムを用いて翻訳先言語を特定するようにすればよい。
【0058】
(6)上記第2実施形態においては、複合機1は、文書と言語を特定する特定画像とを同時に走査し、生成した画像データから文字領域の画像データと特定画像領域の画像データとを切り出すようにしたが、文書と特定画像とを別々に走査するようにし、文書の画像データと特定画像の画像データとを別々に生成するようにしてもよい。例えば、パスポート等の特定画像を入力する特定画像用の画像入力部(載置部)を文書用の画像入力部(載置部)とは別途設け、ユーザが特定画像用の画像入力部から特定画像を入力するようにしてもよい。
【図面の簡単な説明】
【0059】
【図1】本発明の第1実施形態に係るアノテーションが追記された状態の文書を示す図である。
【図2】同実施形態の複合機の構成を示すブロック図である。
【図3】同実施形態の複合機の処理を示すフローチャートである。
【図4】同実施形態の黒画素への置き換えを行った状態を示す図である。
【図5】本発明の第2実施形態に係る照合画像テーブルのデータ構成を示す図である。
【図6】同実施形態の複合機の処理を示すフローチャートである。
【図7】同実施形態で読み取られる画像の一例を示す図である。
【図8】本発明の第3実施形態の複合機の処理を示すフローチャートである。
【図9】本発明の第4実施形態に係るシステムの構成を示すブロック図である。
【図10】同実施形態の音声レコーダの構成を示すブロック図である。
【図11】同実施形態のコンピュータ装置の構成を示すブロック図である。
【図12】同実施形態の音声レコーダの処理を示すフローチャートである。
【図13】同実施形態に係るバーコードが付与された状態の文書を示す図である。
【図14】同実施形態の複合機の処理を示すフローチャートである。
【図15】同実施形態のコンピュータ装置に表示される画面の一例を示す図である。
【図16】本発明の変形例に係るシステムの構成を示すブロック図である。
【符号の説明】
【0060】
1…複合機、11,21,31…制御部、12,22,32…記憶部、13…画像読取部、14…画像形成部、15,25,35…表示部、16,26,36…操作部、17,27,37…通信部、18,28,38…バス、19,23…マイクロフォン、2…音声レコーダ、24…バーコード出力部、3…コンピュータ装置、33…音声出力部。

【特許請求の範囲】
【請求項1】
シート状媒体から画像を読み取り、前記画像をビットマップとして表す画像データを取得する画像読取手段と、
前記画像データから、活字文字が記されている活字領域の画像データと、手書文字が記されている手書領域の画像データとを切り出す領域分離手段と、
前記活字領域の画像データから、当該活字領域内にある活字文字の内容を表す活字テキストデータを取得する活字テキストデータ取得手段と、
前記手書領域の画像データから、当該手書領域内にある手書文字の内容を表す手書テキストデータを取得する手書テキストデータ取得手段と、
前記活字テキストデータの言語を特定する活字言語特定手段と、
前記手書テキストデータの言語を特定する手書言語特定手段と、
前記活字テキストデータを、前記活字言語特定手段によって特定された言語から、手書言語特定手段によって特定された言語に翻訳して翻訳テキストデータを生成する翻訳処理手段と、
前記翻訳テキストデータを出力する出力手段と
を備えることを特徴とする文書処理装置。
【請求項2】
シート状媒体から画像を読み取り、前記画像をビットマップとして表す画像データを取得する画像読取手段と、
前記画像データから、文字が記されている文字領域の画像データと、言語を特定する特定画像が形成されている特定画像領域の特定画像データとを切り出す領域分離手段と、
前記文字領域の画像データから、当該文字領域内にある文字の内容を表すテキストデータを取得するテキストデータ取得手段と、
前記テキストデータの言語を特定する文字言語特定手段と、
前記特定画像領域の特定画像データを所定のアルゴリズムで解析して翻訳先言語を特定する翻訳先言語特定手段と、
前記テキストデータを、前記文字言語特定手段によって特定された言語から、前記翻訳先言語に翻訳して翻訳テキストデータを生成する翻訳処理手段と、
前記翻訳テキストデータを出力する出力手段と
を備えることを特徴とする文書処理装置。
【請求項3】
シート状媒体から画像を読み取り、前記画像をビットマップとして表す画像データを取得する画像読取手段と、
言語を特定する特定画像を走査し、前記特定画像の内容をビットマップとして表す特定画像データを取得する特定画像読取手段と、
前記画像データから、文字の内容を表すテキストデータを取得するテキストデータ取得手段と、
前記テキストデータの言語を特定する文字言語特定手段と、
前記特定画像データを所定のアルゴリズムで解析して翻訳先言語を特定する翻訳先言語特定手段と、
前記テキストデータを、前記文字言語特定手段によって特定された言語から、前記翻訳先言語に翻訳して翻訳テキストデータを生成する翻訳処理手段と、
前記翻訳テキストデータを出力する出力手段と
を備えることを特徴とする文書処理装置。
【請求項4】
複数の照合画像データを記憶する記憶手段を備え、
前記翻訳先言語特定手段は、前記特定画像データを前記記憶手段に記憶された照合画像データと照合し、その一致度に基づいて翻訳先言語を特定する
ことを特徴とする請求項2または3記載の文書処理装置。
【請求項5】
前記照合画像データは、パスポート、紙幣、硬貨、バーコードの少なくともいずれか一つの画像を示す画像データである
ことを特徴とする請求項4記載の文書処理装置。
【請求項6】
シート状媒体から画像を読み取り、前記画像をビットマップとして表す画像データを取得する画像読取手段と、
前記画像データから、文字の内容を表すテキストデータを取得するテキストデータ取得手段と、
前記テキストデータの言語を特定する文字言語特定手段と、
音声を集音して音声データを生成する音声入力手段と、
前記音声データを所定のアルゴリズムで解析して翻訳先言語を特定する翻訳先言語特定手段と、
前記テキストデータを、前記文字言語特定手段によって特定された言語から、前記翻訳先言語に翻訳して翻訳テキストデータを生成する翻訳処理手段と、
前記翻訳テキストデータを出力する出力手段と
を備えることを特徴とする文書処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2006−350664(P2006−350664A)
【公開日】平成18年12月28日(2006.12.28)
【国際特許分類】
【出願番号】特願2005−175615(P2005−175615)
【出願日】平成17年6月15日(2005.6.15)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】