画像処理装置及び画像処理プログラム

【課題】画像を文字認識し、その文字認識結果を翻訳し、さらにその翻訳結果の画像を生成する場合にあって、元の画像に対して書き込みがあるとき、その書き込みの画像部分を書き込みが行われていない画像部分とは区別して翻訳結果の画像に反映させるようにした画像処理装置を提供する。
【解決手段】画像処理装置の書込検出手段は、画像内の書き込みの位置を検出し、文字位置検出手段は、画像内の文字画像の位置を検出し、文字認識手段は、文字画像に対して、文字認識を行い、対応付手段は、書き込みの位置と文字の位置とを照合して、書き込みと文字認識結果を対応付けし、翻訳手段は、書き込みと対応付けされた文字認識結果の翻訳であると識別可能に、文字認識結果を翻訳し、翻訳画像生成手段は、書き込みと対応付けされた翻訳結果の画像を書き込みとは対応付けされていない翻訳結果の画像とは異なる形式で出力されるように生成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像処理装置及び画像処理プログラムに関する。
【背景技術】
【０００２】
文書画像内の文字画像に対して文字認識をし、その後にほかの言語に翻訳する技術がある。
また、文書に記載されている書き込みに基づいて、その文書を加工する技術がある。
【０００３】
これに関連する技術として、例えば、特許文献１には、簡単な原稿画像入力操作で、１つの言語に基づく文字画像をほかの言語に翻訳してレイアウト印字すること、あるいは同一記録媒体の各面に振り分けて両面印刷することができる画像処理装置を提供することを目的とし、第１の言語に基づく第１の文字及び画像を含む原稿を画像入力する原稿入力手段と、この原稿入力手段から画像入力された原稿画像データを解析して文書データ領域と画像データ領域とに領域分離する分離手段と、この分離手段により分離された前記文書データ領域から文字画像を切り出して第１の文字を認識する認識手段と、この認識手段により認識された第１の文字に対応する文字データを第２の言語に基づく第２の文字データに翻訳する翻訳手段と、前記分離手段により領域分離された文書データ領域情報及び前記第２の文字データに基づいてレイアウトされた印刷データを生成するデータ生成手段と、このデータ生成手段により生成された前記印刷データに基づいて第２の文字データと前記原稿画像データをそれぞれ記録媒体の各片面に振り分けて両面印刷する印刷手段とを有する画像処理装置が開示されている。
【０００４】
また、例えば、特許文献２には、原稿の領域加工（例えば、領域の抽出、消去、白黒反転等）エリアをマークによって指定し、複数の領域加工を施したい原稿間の画像合成を行うことができるように、原稿画像を読み取り、画像情報を発生する読み取り手段と、原稿の所望領域をマークによって指定する指定手段と、前記指定手段による領域指定にしたがって前記所望領域を示す領域信号を発生する発生手段と、前記発生手段から発生される前記領域信号にしたがって、前記読み取り手段により発生された画像情報を加工する加工手段と、複数の画像情報を記憶可能な複数の記憶手段と、前記複数の記憶手段の書き込み、読み出しを制御する制御手段と、前記複数の記憶手段から読み出された画像情報を合成する手段を有し、複数の原稿画像を読み取り、前記複数の原稿に各々所望領域を前記指定手段により指定し、前記領域発生手段によって得られた領域信号によって発生された画像情報を加工手段によって加工し、加工された画像情報を、前記複数の記憶手段に記憶させ、複数の加工された画像情報を記憶している記憶手段より読み出し、前記合成手段により合成出力させる画像編集装置が開示されている。
【特許文献１】特許第３６３６４９０号公報
【特許文献２】特開平０２−２５３３７７号公報
【発明の開示】
【発明が解決しようとする課題】
【０００５】
本発明は、画像を文字認識し、その文字認識結果を翻訳し、さらにその翻訳結果の画像を生成する場合にあって、元の画像に対して書き込みがあるとき、その書き込みの画像部分を書き込みが行われていない画像部分とは区別して翻訳結果の画像に反映させるようにした画像処理装置及び画像処理プログラムを提供することを目的としている。
【課題を解決するための手段】
【０００６】
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項１の発明は、書き込みを含む画像を受け付ける画像受付手段と、前記画像受付手段によって受け付けられた画像内の書き込みの位置を検出する書込検出手段と、前記画像受付手段によって受け付けられた画像内の文字画像の位置を検出する文字位置検出手段と、前記文字位置検出手段によって検出された文字画像に対して、文字認識を行う文字認識手段と、前記書込検出手段によって検出された書き込みの位置と前記文字位置検出手段によって検出された文字の位置とを照合して、該書き込みと前記文字認識手段による文字認識結果を対応付けする対応付手段と、前記対応付手段によって前記書き込みと対応付けされた文字認識結果の翻訳であると識別可能に、前記文字認識手段による文字認識結果を翻訳する翻訳手段と、前記書き込みと対応付けされた翻訳結果の画像を前記書き込みとは対応付けされていない翻訳結果の画像とは異なる形式で出力されるように生成する翻訳画像生成手段と、前記翻訳画像生成手段によって生成された画像を出力する翻訳画像出力手段を具備することを特徴とする画像処理装置である。
【０００７】
請求項２の発明は、前記翻訳手段による翻訳が行われた後に、前記書込検出手段によって検出された書き込みの位置に基づいて、前記画像受付手段によって受け付けられた画像内の文字画像を変換する原画像変換手段と、前記原画像変換手段によって変換された画像と前記翻訳画像生成手段によって生成された画像とを合成する合成手段をさらに具備することを特徴とする請求項１に記載の画像処理装置である。
【０００８】
請求項３の発明は、前記原画像変換手段は、前記書込検出手段によって検出された書き込みの位置に基づいて、前記文字画像を隠蔽する画像に変換することを特徴とする請求項２に記載の画像処理装置である。
【０００９】
請求項４の発明は、前記翻訳画像生成手段は、前記書き込みと対応付けされた翻訳結果を隠蔽する画像を生成することを特徴とする請求項１から３のいずれか一項に記載の画像処理装置である。
【００１０】
請求項５の発明は、前記書込検出手段は、さらに書き込みの種類を検出し、前記翻訳画像生成手段は、前記書込検出手段によって検出された書き込みの種類に基づいて、前記書き込みと対応付けされた翻訳結果の画像を生成することを特徴とする請求項１から４のいずれか一項に記載の画像処理装置である。
【００１１】
請求項６の発明は、前記書込検出手段は、さらに書き込みの種類を検出し、前記翻訳画像生成手段は、前記書込検出手段によって検出された書き込みの種類と同じ種類の書き込みを、前記書き込みと対応付けされた翻訳結果の画像に付することを特徴とする請求項１又は２に記載の画像処理装置である。
【００１２】
請求項７の発明は、コンピュータを、書き込みを含む画像を受け付ける画像受付手段と、前記画像受付手段によって受け付けられた画像内の書き込みの位置を検出する書込検出手段と、前記画像受付手段によって受け付けられた画像内の文字画像の位置を検出する文字位置検出手段と、前記文字位置検出手段によって検出された文字画像に対して、文字認識を行う文字認識手段と、前記書込検出手段によって検出された書き込みの位置と前記文字位置検出手段によって検出された文字の位置とを照合して、該書き込みと前記文字認識手段による文字認識結果を対応付けする対応付手段と、前記対応付手段によって前記書き込みと対応付けされた文字認識結果の翻訳であると識別可能に、前記文字認識手段による文字認識結果を翻訳する翻訳手段と、前記書き込みと対応付けされた翻訳結果の画像を前記書き込みとは対応付けされていない翻訳結果の画像とは異なる形式で出力されるように生成する翻訳画像生成手段と、前記翻訳画像生成手段によって生成された画像を出力する翻訳画像出力手段として機能させることを特徴とする画像処理プログラムである。
【発明の効果】
【００１３】
請求項１の画像処理装置によれば、画像を文字認識し、その文字認識結果を翻訳し、さらにその翻訳結果の画像を生成する場合にあって、元の画像に対して書き込みがあるとき、その書き込みの画像部分を書き込みが行われていない画像部分とは区別して翻訳結果の画像に反映させることができる。
【００１４】
請求項２の画像処理装置によれば、書き込みが行われた画像部分に対する翻訳を行った後に、元の画像を変換した画像とその翻訳画像を共に提示することができる。
【００１５】
請求項３の画像処理装置によれば、元の画像から書き込み部分を隠蔽することができる。
【００１６】
請求項４の画像処理装置によれば、書き込みが行われた隠蔽すべき画像部分に対する翻訳の質劣化を抑制して、その書き込みに対応する翻訳結果を隠蔽することができる。
【００１７】
請求項５の画像処理装置によれば、書き込みの種類に応じた翻訳画像を提示できる。
【００１８】
請求項６の画像処理装置によれば、元の画像と同じ書き込みを、対応する翻訳画像に対して施すことができる。
【００１９】
請求項７の画像処理プログラムによれば、画像を文字認識し、その文字認識結果を翻訳し、さらにその翻訳結果の画像を生成する場合にあって、元の画像に対して書き込みがあるとき、その書き込みの画像部分を書き込みが行われていない画像部分とは区別して翻訳結果の画像に反映させることができる。
【発明を実施するための最良の形態】
【００２０】
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図１は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア（コンピュータ・プログラム）、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、コンピュータ・プログラム、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能にほぼ一対一に対応しているが、実装においては、１モジュールを１プログラムで構成してもよいし、複数モジュールを１プログラムで構成してもよく、逆に１モジュールを複数プログラムで構成してもよい。また、複数モジュールは１コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって１モジュールが複数コンピュータで実行されてもよい。なお、１つのモジュールにほかのモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続のほか、論理的な接続（データの授受、指示、データ間の参照関係等）の場合にも用いる。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク（一対一対応の通信接続を含む）等の通信手段で接続されて構成されるほか、１つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。「予め定められた」とは、対象としている処理の前であることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。
【００２１】
本実施の形態は、図１に示すように、画像受付モジュール１１０、抽出・認識処理モジュール１２０、対応付モジュール１３０、翻訳モジュール１４０、画像生成モジュール１５０、出力モジュール１６０を有している。
【００２２】
画像受付モジュール１１０は、抽出・認識処理モジュール１２０と接続されており、画像を受け付けて、その画像を抽出・認識処理モジュール１２０へ渡す。画像を受け付けるとは、スキャナで画像を読み込むこと、ファックスで画像を受信すること、画像データベース等から画像を読み出すこと等が含まれる。画像には、文字画像のほかに、利用者による書き込みが含まれている。その画像は、１枚であってもよいし、複数枚であってもよい。また、画像の内容として、ビジネス用に用いられる文書、広告宣伝用のパンフレット等であってもよい。この画像は、翻訳対象となる画像である。また、その画像に含まれている書き込みとは、例えば、具体的には、文書を公開するに際して、その文書に記載されている情報を隠蔽する箇所を指し示すために加筆された画像、又はその文書に記載されている情報の中で、重要であることを伝達すること、注意を促すこと等のために加筆された画像をいい。それは、手書きであると否とにかかわらず、色つきペンで記載された下線、囲み線等、半透明色のマーカー（蛍光ペン等）で塗りつぶされたもの等がある。なお、画像内の文字画像を塗りつぶす場合は、その文字画像を読み取れる程度（文字認識が可能な程度）の塗りつぶしである。
【００２３】
抽出・認識処理モジュール１２０は、画像受付モジュール１１０、対応付モジュール１３０と接続されており、書込検出モジュール１２１、文字処理モジュール１２２を有している。抽出・認識処理モジュール１２０は、画像受付モジュール１１０から画像を受け取り、その画像内にある書き込みの位置を検出して、文字画像の位置を検出して、文字画像を認識する。そして、その検出結果と文字認識結果を対応付モジュール１３０に渡す。
【００２４】
書込検出モジュール１２１は、画像受付モジュール１１０によって受け付けられた画像内の利用者の書き込みの位置を検出する。書き込みの位置は、例えば、具体的には、その画像を色相分離して、予め定められた色の画像を抽出して、その座標を検出するようにしてもよい。また、下線等の線状の画像を認識して、その座標を検出するようにしてもよい。そして、その検出結果を対応付モジュール１３０に渡す。さらに、書込検出モジュール１２１は、書き込みの種類を検出するようにしてもよい。書き込みの種類としては、例えば、具体的には、その書き込みの色、形状（線状、領域等）、文字との関係（文字を含む領域、文字の下に引かれた線等）等がある。検出処理としては、色相分離後の色の解析、縦横比の解析、レイアウト検出モジュール１２３によって検出された文字との位置関係の解析等によって行う。
【００２５】
図３は、書込検出モジュール１２１が検出した書き込みを表す指定箇所テーブル３００のデータ構造例を示す説明図である。指定箇所テーブル３００は、ＩＤ欄３１０、色欄３２０、位置情報欄３３０を有している。ＩＤ欄３１０は、その書き込みを一意に識別する識別子を記憶する。色欄３２０は、その書き込みの種類として色を記憶する。位置情報欄３３０は、その書き込みの位置を記憶し、Ｘ座標欄３３１、Ｙ座標欄３３２、幅欄３３３、高さ欄３３４を有している。Ｘ座標欄３３１、Ｙ座標欄３３２はその書き込みがある領域（例えば、矩形）の左上の座標を記憶し、幅欄３３３はその領域の幅を記憶し、高さ欄３３４はその領域の高さを記憶する。座標は、その画像内における絶対座標（画像内の左上を原点として、右方向にＸ軸、下方向にＹ軸を対応）のほか、相対座標であってもよい。
【００２６】
文字処理モジュール１２２は、画像受付モジュール１１０から画像を受け取り、その画像内にある文字画像の位置を含むレイアウトを検出して、文字画像を認識する。そして、その文字画像の位置と文字認識結果を対応付モジュール１３０に渡す。文字処理モジュール１２２は、レイアウト検出モジュール１２３、文字認識モジュール１２４を有している。
【００２７】
レイアウト検出モジュール１２３は、画像受付モジュール１１０によって受け付けられた画像内の文字画像の位置を検出する。文字画像の位置検出は、一般的に知られている文字認識技術における文字画像の抽出処理を用いればよい。例えば、画像内の横方向又は縦方向における黒画素のヒストグラム（黒画素の頻度分布）を生成して、その頻度が予め定められた閾値以上である領域を抽出することによって、行を抽出して、その行内における縦方向又は横方向における黒画素のヒストグラムを生成して、文字画像を抽出する。また、空白領域と予め定められた文字画像の大きさを用いて文字画像を抽出するようにしてもよい。さらに、画像内のレイアウト抽出の技術を用いて、文字画像の位置を検出するようにしてもよい。その場合は、文字画像によって構成されている文章領域のみならず、図形、表等を対象とすることもできる。そして、その検出結果である文字画像の位置を文字認識モジュール１２４に渡す。
【００２８】
文字認識モジュール１２４は、レイアウト検出モジュール１２３によって検出された文字画像に対して、文字認識を行う。文字認識処理は、一般的に知られている文字認識技術を用いればよい。例えば、その文字画像の特徴（線の数等）を抽出して、特徴空間における位置を辞書内の文字と比較して、文字認識（文字コードの対応付け）を行うようにしてもよい。そして、文字画像の位置とその文字認識結果を対応させて対応付モジュール１３０に渡す。
【００２９】
図４は、文字処理モジュール１２２による処理結果である文字位置テーブル４００のデータ構造例を示す説明図である。文字位置テーブル４００は、文章領域ＩＤ欄４１０、文章領域位置欄４２０、文字ＩＤ欄４３０、文字コード欄４４０、文字位置欄４５０を有している。文章領域ＩＤ欄４１０は、その画像内の文章領域を一意に識別する識別子を記憶する。文章領域位置欄４２０は、その文章領域の位置を記憶し、Ｘ座標欄４２１、Ｙ座標欄４２２、幅欄４２３、高さ欄４２４を有している。Ｘ座標欄４２１、Ｙ座標欄４２２はその文章領域（例えば、矩形）の左上の座標を記憶し、幅欄４２３はその文章領域の幅を記憶し、高さ欄４２４はその文章領域の高さを記憶する。また、文字ＩＤ欄４３０は、その文章領域内にある文字画像を一意に識別する識別子を記憶する。文字コード欄４４０は、その文字画像に対応する文字認識モジュール１２４による文字認識結果（文字コード）を記憶する。文字位置欄４５０は、その文字画像の位置を記憶し、Ｘ座標欄４５１、Ｙ座標欄４５２、幅欄４５３、高さ欄４５４を有している。Ｘ座標欄４５１、Ｙ座標欄４５２はその文字画像（例えば、矩形）の左上の座標を記憶し、幅欄４５３はその文字画像の幅を記憶し、高さ欄４５４はその文字画像の高さを記憶する。なお、文章領域ＩＤ欄４１０、文章領域位置欄４２０、文字ＩＤ欄４３０、文字位置欄４５０内の内容は主にレイアウト検出モジュール１２３によって生成され、文字コード欄４４０の内容は主に文字認識モジュール１２４によって生成される。また、文字認識モジュール１２４による文字認識結果に応じて、その文字画像の抽出をやり直して、文字位置欄４５０内の内容を修正するようにしてもよい。
【００３０】
対応付モジュール１３０は、抽出・認識処理モジュール１２０、翻訳モジュール１４０と接続されている。書込検出モジュール１２１によって検出された書き込みの位置とレイアウト検出モジュール１２３によって検出された文字の位置とを照合して、その書き込みと文字認識モジュール１２４による文字認識結果を対応付けする。そして、文字認識結果及び対応付けの結果を翻訳モジュール１４０に渡す。
【００３１】
つまり、書き込みの位置に該当する文字の位置を探索する。この探索には、書き込みの位置と一致する文字の位置のほかに、書き込みの領域と文字の領域とが重なりあう場合、書き込みの位置の近傍に文字の位置があること等を含む。なお、近傍には、対象の書き込みの位置の周囲が含まれ、具体的には対象の書き込みの位置から予め定められた距離内であることをいう。距離の測定は、書き込みの中心から文字の中心までの距離、書き込みの周囲から文字の周囲までの距離（両者間の最短距離）等であってもよい。
【００３２】
そして、その文字の位置に対応する文字認識結果（書き込みが行われている文字）を抽出する。例えば、具体的には、文字認識結果をＨＴＭＬ（ＨｙｐｅｒｔｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）等の記述言語で表現する場合、書き込みが行われている文字をタグ（書き込みが行われていることを表す予約語）で囲むようにしてもよい。また、図４の例に示した文字位置テーブル４００のようなテーブル形式にする場合は、書き込みが行われている文字か否かを表す欄を設けるようにしてもよい。
また、書き込みが行われている文字は、その言語において意味を有する文字列を構成しているか否かを判断するようにしてもよい。意味を有する文字列とは、例えば、単語、文節、文章等がある。また、その判断は、予め用意した単語辞書に記憶されているものであるか、構文解析等によって抽出できるものであるか等によって行う。そして、意味を有する文字列を構成していないと判断した場合は、意味を有する文字列となるまで、前後の文字を付加又は削除して、書き込みが行われている文字としてもよい。そして、書き込みが行われている文字を修正した場合は、その修正に応じて、書込検出モジュール１２１による検出結果をも修正するようにしてもよい。
【００３３】
翻訳モジュール１４０は、対応付モジュール１３０、画像生成モジュール１５０と接続されている。対応付モジュール１３０によって書き込みと対応付けされた文字認識結果の翻訳であると識別可能に、文字認識モジュール１２４による文字認識結果を翻訳する。そして、その翻訳結果を画像生成モジュール１５０に渡す。
つまり、対応付モジュール１３０から渡された文字認識結果を翻訳する。翻訳処理は、一般的に知られている（機械）翻訳技術を用いればよい。例えば、文字認識結果に対して構文解析を行い、第１の言語の単語と第２の言語の単語とを対応させた辞書を用いて、第２の言語に翻訳する等である。
その翻訳の際に、対応付モジュール１３０から渡された対応付けの結果を翻訳結果にも反映させるものである。例えば、具体的には、翻訳結果をＨＴＭＬ等の記述言語で表現する場合、書き込みが行われている文字の翻訳結果をタグ（書き込みが行われていることを表す予約語）で囲むようにしてもよい。
【００３４】
画像生成モジュール１５０は、翻訳モジュール１４０、出力モジュール１６０と接続されており、原画像変換モジュール１５１、翻訳画像生成モジュール１５２、合成モジュール１５３を有している。翻訳モジュール１４０から翻訳結果を受け取り、その翻訳結果を含む画像を生成して、出力モジュール１６０に渡す。なお、画像生成モジュール１５０が生成する画像は、ページ記述言語等によって記述されたファイルであってもよい。
【００３５】
原画像変換モジュール１５１は、合成モジュール１５３と接続されており、翻訳モジュール１４０による翻訳が行われた後に、書込検出モジュール１２１によって検出された書き込みの位置に基づいて、画像受付モジュール１１０によって受け付けられた画像内の文字画像を変換する。例えば、具体的には、書込検出モジュール１２１によって検出された書き込みの位置に基づいて、書き込みが行われている文字画像を隠蔽する画像に変換するようにしてもよい。より具体的には、墨塗りと呼ばれている黒色でその文字画像を塗りつぶすこと、その文字画像の代替として予め定められた文字画像に変換すること等がある。そして、変換した画像を合成モジュール１５３に渡す。
【００３６】
翻訳画像生成モジュール１５２は、合成モジュール１５３と接続されており、書き込みと対応付けされた翻訳結果の画像を書き込みとは対応付けされていない翻訳結果の画像とは異なる形式で出力されるように生成する。そして、生成した画像を合成モジュール１５３に渡す。例えば、具体的には、書き込みと対応付けされた翻訳結果を隠蔽する画像を生成するようにしてもよい。これは、翻訳結果の質を担保しつつ、翻訳画像に隠蔽を施したい場合に用いられるものである。例えば、元の画像から文字を隠蔽してしまうと、その文字は対象外となるため、文字認識、翻訳した場合は、翻訳結果の質低下がみられる。しかし、本実施の形態は、元の画像を隠蔽する部分も含めて文字認識、翻訳して、その結果から隠蔽を施したい部分に対応する翻訳部分を隠蔽するものである。
【００３７】
また、翻訳画像生成モジュール１５２は、書込検出モジュール１２１によって検出された書き込みの種類に基づいて、その書き込みと対応付けされた翻訳結果の画像を生成するようにしてもよい。例えば、具体的には、書き込みが赤色であるならば、書き込みと対応付けされた翻訳結果を黒色で塗りつぶし、書き込みが青色であるならば、書き込みと対応付けされた翻訳結果を予め定められた文字に置き換える等することである。
【００３８】
また、翻訳画像生成モジュール１５２は、書込検出モジュール１２１によって検出された書き込みの種類と同じ種類の書き込みを、その書き込みと対応付けされた翻訳結果の画像に付するようにしてもよい。例えば、具体的には、書き込みが赤色のマーカーであるならば、書き込みと対応付けされた翻訳結果にそれと同等の赤色のマーカーで塗りつぶされたような画像を付するようにするものである。同様に、書き込みが青色の下線であるならば、書き込みと対応付けされた翻訳結果にそれと同等の下線を付するものである。これは、元の画像と翻訳画像との間で対応付けを明確にする場合に行うものである。
【００３９】
合成モジュール１５３は、原画像変換モジュール１５１、翻訳画像生成モジュール１５２と接続されており、原画像変換モジュール１５１によって変換された画像と翻訳画像生成モジュール１５２によって生成された画像とを合成する。そして、その合成した画像を出力モジュール１６０に渡す。
ただし、翻訳画像のみを出力する場合は、原画像変換モジュール１５１、合成モジュール１５３はなくてもよい。その場合は、翻訳画像生成モジュール１５２が生成した画像を出力モジュール１６０に渡す。
【００４０】
出力モジュール１６０は、画像生成モジュール１５０と接続されている。画像生成モジュール１５０から画像を受け取り、その画像を出力する。画像を出力するとは、プリンタ等の印刷装置で印刷すること、ディスプレイ等の表示装置に表示すること、ファックス等の画像送信装置で画像を送信すること、画像データベース等の画像記憶装置へ画像を書き込むこと等が含まれる。
【００４１】
図２は、本実施の形態による第１の処理例を示すフローチャートである。この第１の処理例は、隠蔽のために書き込みが行われた画像を対象としており、その翻訳画像内の対応する文字画像を隠蔽するものである。これは、文書を違う言語で公開するに際して、その文書に記載されている情報を隠蔽する場合等に用いられるものである。
【００４２】
ステップＳ２０２では、書込検出モジュール１２１が、画像受付モジュール１１０によって受け付けられた画像を色相分離し、利用者の書き込みであるマーカーの位置を含めたマーカー情報を抽出する。マーカー情報には、そのマーカーの位置のほかに、色等を含めてもよい。
ステップＳ２０４では、レイアウト検出モジュール１２３が、画像受付モジュール１１０によって受け付けられた画像に対して、文章領域を抽出して、文字画像の位置を抽出する。そして、文字認識モジュール１２４が、文字画像の位置にある文字画像に対して、文字認識処理を実行する。
ステップＳ２０６では、対応付モジュール１３０が、ステップＳ２０４で文字認識した文字画像の位置情報とステップＳ２０２で抽出したマーカー情報内の位置情報とを照合する。
【００４３】
ステップＳ２０８では、対応付モジュール１３０が、マーカーと位置が重なっている文字を指定文字として保存する。例えば、より具体的には、マーカーされている文字をタグで囲み、文字認識結果をＨＴＭＬで記述することが該当する。
ステップＳ２１０では、翻訳モジュール１４０が、機械翻訳を実行する。その際に、マーカーされている文字の翻訳結果であるとわかるような形式で、次の処理に渡す。例えば、より具体的には、マーカーされている文字の翻訳結果をタグで囲み、翻訳結果をＨＴＭＬで記述することが該当する。
ステップＳ２１２では、画像生成モジュール１５０が、出力の形態として、置換翻訳（元の画像の文字画像を残すことをせずに、翻訳結果を上書きするようにした出力、図５（ｂ）参照）か、ルビ風翻訳（元の画像の文字画像はそのまま残し、翻訳結果をルビのように対応させるようにして出力、図６（ｂ）参照）かを判断する。これは、本実施の形態の利用者による操作又は予め定められた出力の形態に応じて、判断されるものである。
【００４４】
ステップＳ２１４では、原画像変換モジュール１５１が、画像受付モジュール１１０が受け付けた画像から、ステップＳ２０２で抽出したマーカー情報を用いて、そのマーカー色の領域を除去する。
ステップＳ２１６では、原画像変換モジュール１５１が、さらに、その画像内から文字部分を除去する。つまり、ステップＳ２１４、ステップＳ２１６の処理によって、画像内から文字画像部分を除去するものである。これによって、画像内には文字画像以外の画像（例えば、図形、写真画像等）が残る。
ステップＳ２１８では、原画像変換モジュール１５１が、画像受付モジュール１１０が受け付けた画像から、ステップＳ２０２で抽出したマーカー情報を用いて、そのマーカー位置にある文字画像を黒色等で塗りつぶす。つまり、元の画像をも出力する場合であるので、マーカーされている文字を隠蔽するものである。もちろん、黒色で塗りつぶすことのほかに、予め定められた文字列の画像に置換すること等がある。
【００４５】
ステップＳ２２０では、翻訳画像生成モジュール１５２が、翻訳結果の文字画像を、元の画像の文章領域に合わせた配置を行う。その際、置換翻訳の出力の形態である場合は、文章領域内にその翻訳結果の言語に合わせた配置を行う。ルビ風翻訳の出力の形態である場合は、文章領域内には元の文字画像があるので、その行間に翻訳結果の文字画像を配置する。
ステップＳ２２２では、翻訳画像生成モジュール１５２が、マーカーが示した翻訳文字列（つまり、マーカーされた文字の翻訳結果）に指定の効果を与える。ここで指定の効果とは、マーカーの種類に応じて、翻訳文字列を隠蔽するものであり、例えば、黒色で塗りつぶすこと、予め定められた文字列の画像に置換すること等がある。
ステップＳ２２４では、合成モジュール１５３が、ステップＳ２１６（文字画像が除去された画像）又はステップＳ２１８（マーカーされた文字画像が除去された画像）で生成された背景となる画像とステップＳ２２２で生成された画像（翻訳画像）とを合成する。そして、出力モジュール１６０が、その合成した画像を出力する。
【００４６】
図５は、本実施の形態による第１−１の処理例を示す説明図である。これは、図２の例に示したフローチャートのステップＳ２１２で、置換翻訳が選択された場合の処理例を示すものである。図５（ａ）の例に示す原画像５１０は本実施の形態の画像受付モジュール１１０によって受け付けられた画像であり、図５（ｂ）の例に示す翻訳画像５２０は本実施の形態の出力モジュール１６０によって出力された画像である。
【００４７】
図５（ａ）の例に示す原画像５１０は、マーカー領域５１１、マーカー領域５１２を有している。つまり、利用者によって、開示したくない文字列である「私たちが目指すもの」、「私たちが大切にすること」に、マーカーによる書き込みが行われている。また、マーカー領域５１１とマーカー領域５１２とは、異なる色のマーカーによる書き込みである。
図５（ｂ）の例に示す翻訳画像５２０は、原画像５１０を文字認識した後に翻訳したものであり、マスキング領域５２１、マスキング領域５２２Ａ、５２２Ｂを有している。マスキング領域５２１は、マーカー領域５１１の色に応じて、マーカー領域５１１の翻訳部分を黒色で隠蔽しており、マスキング領域５２２Ａ、５２２Ｂは、マーカー領域５１２の色に応じて、マーカー領域５１２の翻訳部分を、その色に対応付けされた「言葉Ａ」で置換することによって隠蔽している。
【００４８】
図６は、本実施の形態による第１−２の処理例を示す説明図である。これは、図２の例に示したフローチャートのステップＳ２１２で、ルビ風翻訳が選択された場合の処理例を示すものである。図６（ａ）の例に示す原画像６１０は本実施の形態の画像受付モジュール１１０によって受け付けられた画像であり、図６（ｂ）の例に示す翻訳画像６２０は本実施の形態の出力モジュール１６０によって出力された画像である。
【００４９】
原画像６１０は、マーカー領域６１１、マーカー領域６１２を有している。図５（ａ）の例に示した原画像５１０と同等のものである。
翻訳画像６２０は、原画像６１０を文字認識した後に翻訳したものであり、原画像６１０内の文字列の行間に翻訳文を表示している。そして、マスキング領域６２１、マスキング領域６２２Ａ、６２２Ｂ、マスキング領域６３１、マスキング領域６３２を有している。つまり、原画像６１０のマーカー領域６１１とマーカー領域６１２を隠蔽するために、マスキング領域６３１とマスキング領域６３２があり、その翻訳部分を隠蔽するためにマスキング領域６２１、マスキング領域６２２Ａ、６２２Ｂがある。また、マーカー領域６１１とマーカー領域６１２の色に応じて、マスキング領域６２１とマスキング領域６２２Ａ、６２２Ｂとの形態を異ならせている。
【００５０】
図７は、本実施の形態による第２の処理例を示すフローチャートである。この第２の処理例は、重要であることを伝達すること、注意を促すこと等のために書き込みが行われた画像を対象としており、その翻訳画像内の対応する文字画像を書き込みが行われていない文字画像とは異なるような表示にするものである。これは、文書を翻訳するに際して、その文書の書き込みを翻訳文書にも対応させて記載する場合等に用いられるものである。
【００５１】
図７の例に示すフローチャートは、図２の例に示したフローチャートと比べると、ステップＳ７０２からステップＳ７１６までの処理は、ステップＳ２０２からステップＳ２１６までの処理と同等のものであり、ステップＳ７１８からステップＳ７２２までの処理もステップＳ２２０からステップＳ２２４までの処理と同等のものであり、ステップＳ２１８に該当する処理がないものである。つまり、図２に示した第１の処理例は、書き込み部分の隠蔽をするものであり、元の画像にマーカーで書き込みが行われた部分も隠蔽しなければならないが、図７に示す第２の処理例は、元の画像にマーカーで書き込みが行われた部分はそのままでよいからである。
【００５２】
なお、ステップＳ７１２で、ルビ風翻訳と判断された場合は、ステップＳ７１８の処理に移るため、つまり、ステップＳ２１８に対応する処理が不要であるため、原画像変換モジュール１５１による処理が不要となる。
【００５３】
図８は、本実施の形態による第２−１の処理例を示す説明図である。これは、図７の例に示したフローチャートのステップＳ７１２で、置換翻訳が選択された場合の処理例を示すものである。図８（ａ）の例に示す原画像８１０は本実施の形態の画像受付モジュール１１０によって受け付けられた画像であり、図８（ｂ）の例に示す翻訳画像８２０は本実施の形態の出力モジュール１６０によって出力された画像である。
【００５４】
図８（ａ）の例に示す原画像８１０は、マーカー領域８１１、マーカー領域８１２を有している。図５（ａ）の例に示した原画像５１０と同等のものである。つまり、利用者によって、文字列「私たちが目指すもの」、「私たちが大切にすること」に、マーカーによる書き込みが行われている。また、マーカー領域５１１とマーカー領域５１２とは、異なる色のマーカーによる書き込みである。ただし、これらの文字列は隠蔽対象ではなく、重要であること、注意を促す等の対象である。
図８（ｂ）の例に示す翻訳画像８２０は、原画像８１０を文字認識した後に翻訳したものであり、文字修飾８２１、文字修飾８２２Ａ、８２２Ｂを有している。文字修飾８２１には、マーカー領域８１１の色に応じて、マーカー領域８１１と同等の色の領域で書き込みの画像を付しており、文字修飾８２２Ａ、８２２Ｂは、マーカー領域８１２の色に応じて、マーカー領域８１２の翻訳部分に、その色に対応付けされた下線の書き込み画像を付している。
【００５５】
図９は、本実施の形態による第２−２の処理例を示す説明図である。これは、図７の例に示したフローチャートのステップＳ７１２で、ルビ風翻訳が選択された場合の処理例を示すものである。図９（ａ）の例に示す原画像９１０は本実施の形態の画像受付モジュール１１０によって受け付けられた画像であり、図９（ｂ）の例に示す翻訳画像９２０は本実施の形態の出力モジュール１６０によって出力された画像である。
【００５６】
図９（ａ）の例に示す原画像９１０は、マーカー領域９１１、マーカー領域９１２を有している。図８（ａ）の例に示した原画像８１０と同等のものである。
図９（ｂ）の例に示す翻訳画像９２０は、原画像９１０を文字認識した後に翻訳したものであり、原画像９１０内の文字列の行間に翻訳文を表示している。そして、文字修飾９２１、文字修飾９２２Ａ、９２２Ｂ、文字修飾９３１、文字修飾９３２を有している。つまり、文字修飾９３１と文字修飾９３２は、原画像９１０のマーカー領域９１１とマーカー領域９１２そのままであり、対応する翻訳部分に文字修飾９２１、文字修飾９２２Ａ、９２２Ｂがある。また、マーカー領域９１１とマーカー領域９１２の色に応じて、文字修飾９２１と文字修飾９２２Ａ、９２２Ｂとの形態を異ならせている。
【００５７】
図１０を参照して、本実施の形態のハードウェア構成例について説明する。図１０に示す構成は、例えばパーソナルコンピュータ（ＰＣ）などによって構成されるものであり、スキャナ等のデータ読み取り部１０１７と、プリンタなどのデータ出力部１０１８を備えたハードウェア構成例を示している。
【００５８】
ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１００１は、前述の実施の形態において説明した各種のモジュール、すなわち、抽出・認識処理モジュール１２０、対応付モジュール１３０、翻訳モジュール１４０、画像生成モジュール１５０等の各モジュールの実行シーケンスを記述したコンピュータ・プログラムにしたがった処理を実行する制御部である。
【００５９】
ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１００２は、ＣＰＵ１００１が使用するプログラムや演算パラメータ等を格納する。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１００３は、ＣＰＵ１００１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはＣＰＵバスなどから構成されるホストバス１００４により相互に接続されている。
【００６０】
ホストバス１００４は、ブリッジ１００５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス１００６に接続されている。
【００６１】
キーボード１００８、マウス等のポインティングデバイス１００９は、操作者により操作される入力デバイスである。ディスプレイ１０１０は、液晶表示装置又はＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）などがあり、各種情報をテキストやイメージ情報として表示する。
【００６２】
ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１０１１は、ハードディスクを内蔵し、ハードディスクを駆動し、ＣＰＵ１００１によって実行するプログラムや情報を記録又は再生させる。ハードディスクには、画像受付モジュール１１０が受け付けた画像や翻訳モジュール１４０による翻訳結果などが格納される。さらに、その他の各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。
【００６３】
ドライブ１０１２は、装着されている磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体１０１３に記録されているデータ又はプログラムを読み出して、そのデータ又はプログラムを、インタフェース１００７、外部バス１００６、ブリッジ１００５、及びホストバス１００４を介して接続されているＲＡＭ１００３に供給する。リムーバブル記録媒体１０１３も、ハードディスクと同様のデータ記録領域として利用可能である。
【００６４】
接続ポート１０１４は、外部接続機器１０１５を接続するポートであり、ＵＳＢ、ＩＥＥＥ１３９４等の接続部を持つ。接続ポート１０１４は、インタフェース１００７、及び外部バス１００６、ブリッジ１００５、ホストバス１００４等を介してＣＰＵ１００１等に接続されている。通信部１０１６は、ネットワークに接続され、外部とのデータ通信処理を実行する。データ読み取り部１０１７は、例えばスキャナであり、ドキュメントの読み取り処理を実行する。データ出力部１０１８は、例えばプリンタであり、ドキュメントデータの出力処理を実行する。
【００６５】
なお、図１０に示すハードウェア構成は、１つの構成例を示すものであり、本実施の形態は、図１０に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア（例えば特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）等）で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図１０に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、複写機、ファックス、スキャナ、プリンタ、複合機（スキャナ、プリンタ、複写機、ファックス等のいずれか２つ以上の機能を有している画像処理装置）などに組み込まれていてもよい。
【００６６】
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク（ＤＶＤ）であって、ＤＶＤフォーラムで策定された規格である「ＤＶＤ−Ｒ、ＤＶＤ−ＲＷ、ＤＶＤ−ＲＡＭ等」、ＤＶＤ＋ＲＷで策定された規格である「ＤＶＤ＋Ｒ、ＤＶＤ＋ＲＷ等」、コンパクトディスク（ＣＤ）であって、読出し専用メモリ（ＣＤ−ＲＯＭ）、ＣＤレコーダブル（ＣＤ−Ｒ）、ＣＤリライタブル（ＣＤ−ＲＷ）等、ブルーレイ・ディスク（Ｂｌｕｅ−ｒａｙＤｉｓｋ）、光磁気ディスク（ＭＯ）、フレキシブルディスク（ＦＤ）、磁気テープ、ハードディスク、読出し専用メモリ（ＲＯＭ）、電気的消去及び書換可能な読出し専用メモリ（ＥＥＰＲＯＭ）、フラッシュ・メモリ、ランダム・アクセス・メモリ（ＲＡＭ）等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク（ＬＡＮ）、メトロポリタン・エリア・ネットワーク（ＭＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、ほかのプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
【図面の簡単な説明】
【００６７】
【図１】本実施の形態の構成例についての概念的なモジュール構成図である。
【図２】本実施の形態による第１の処理例を示すフローチャートである。
【図３】指定箇所テーブルのデータ構造例を示す説明図である。
【図４】文字位置テーブルのデータ構造例を示す説明図である。
【図５】本実施の形態による第１−１の処理例を示す説明図である。
【図６】本実施の形態による第１−２の処理例を示す説明図である。
【図７】本実施の形態による第２の処理例を示すフローチャートである。
【図８】本実施の形態による第２−１の処理例を示す説明図である。
【図９】本実施の形態による第２−２の処理例を示す説明図である。
【図１０】本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
【符号の説明】
【００６８】
１１０…画像受付モジュール
１２０…抽出・認識処理モジュール
１２１…書込検出モジュール
１２２…文字処理モジュール
１２３…レイアウト検出モジュール
１２４…文字認識モジュール
１３０…対応付モジュール
１４０…翻訳モジュール
１５０…画像生成モジュール
１５１…原画像変換モジュール
１５２…翻訳画像生成モジュール
１５３…合成モジュール
１６０…出力モジュール

【特許請求の範囲】
【請求項１】
書き込みを含む画像を受け付ける画像受付手段と、
前記画像受付手段によって受け付けられた画像内の書き込みの位置を検出する書込検出手段と、
前記画像受付手段によって受け付けられた画像内の文字画像の位置を検出する文字位置検出手段と、
前記文字位置検出手段によって検出された文字画像に対して、文字認識を行う文字認識手段と、
前記書込検出手段によって検出された書き込みの位置と前記文字位置検出手段によって検出された文字の位置とを照合して、該書き込みと前記文字認識手段による文字認識結果を対応付けする対応付手段と、
前記対応付手段によって前記書き込みと対応付けされた文字認識結果の翻訳であると識別可能に、前記文字認識手段による文字認識結果を翻訳する翻訳手段と、
前記書き込みと対応付けされた翻訳結果の画像を前記書き込みとは対応付けされていない翻訳結果の画像とは異なる形式で出力されるように生成する翻訳画像生成手段と、
前記翻訳画像生成手段によって生成された画像を出力する翻訳画像出力手段
を具備することを特徴とする画像処理装置。
【請求項２】
前記翻訳手段による翻訳が行われた後に、前記書込検出手段によって検出された書き込みの位置に基づいて、前記画像受付手段によって受け付けられた画像内の文字画像を変換する原画像変換手段と、
前記原画像変換手段によって変換された画像と前記翻訳画像生成手段によって生成された画像とを合成する合成手段
をさらに具備することを特徴とする請求項１に記載の画像処理装置。
【請求項３】
前記原画像変換手段は、前記書込検出手段によって検出された書き込みの位置に基づいて、前記文字画像を隠蔽する画像に変換する
ことを特徴とする請求項２に記載の画像処理装置。
【請求項４】
前記翻訳画像生成手段は、前記書き込みと対応付けされた翻訳結果を隠蔽する画像を生成する
ことを特徴とする請求項１から３のいずれか一項に記載の画像処理装置。
【請求項５】
前記書込検出手段は、さらに書き込みの種類を検出し、
前記翻訳画像生成手段は、前記書込検出手段によって検出された書き込みの種類に基づいて、前記書き込みと対応付けされた翻訳結果の画像を生成する
ことを特徴とする請求項１から４のいずれか一項に記載の画像処理装置。
【請求項６】
前記書込検出手段は、さらに書き込みの種類を検出し、
前記翻訳画像生成手段は、前記書込検出手段によって検出された書き込みの種類と同じ種類の書き込みを、前記書き込みと対応付けされた翻訳結果の画像に付する
ことを特徴とする請求項１又は２に記載の画像処理装置。
【請求項７】
コンピュータを、
書き込みを含む画像を受け付ける画像受付手段と、
前記画像受付手段によって受け付けられた画像内の書き込みの位置を検出する書込検出手段と、
前記画像受付手段によって受け付けられた画像内の文字画像の位置を検出する文字位置検出手段と、
前記文字位置検出手段によって検出された文字画像に対して、文字認識を行う文字認識手段と、
前記書込検出手段によって検出された書き込みの位置と前記文字位置検出手段によって検出された文字の位置とを照合して、該書き込みと前記文字認識手段による文字認識結果を対応付けする対応付手段と、
前記対応付手段によって前記書き込みと対応付けされた文字認識結果の翻訳であると識別可能に、前記文字認識手段による文字認識結果を翻訳する翻訳手段と、
前記書き込みと対応付けされた翻訳結果の画像を前記書き込みとは対応付けされていない翻訳結果の画像とは異なる形式で出力されるように生成する翻訳画像生成手段と、
前記翻訳画像生成手段によって生成された画像を出力する翻訳画像出力手段
として機能させることを特徴とする画像処理プログラム。

【図１】