画像処理装置及び画像処理プログラム
【課題】画像を文字認識し、その文字認識結果を翻訳し、さらにその翻訳結果の画像を生成する場合にあって、元の画像に対して書き込みがあるとき、その書き込みの画像部分を書き込みが行われていない画像部分とは区別して翻訳結果の画像に反映させるようにした画像処理装置を提供する。
【解決手段】画像処理装置の書込検出手段は、画像内の書き込みの位置を検出し、文字位置検出手段は、画像内の文字画像の位置を検出し、文字認識手段は、文字画像に対して、文字認識を行い、対応付手段は、書き込みの位置と文字の位置とを照合して、書き込みと文字認識結果を対応付けし、翻訳手段は、書き込みと対応付けされた文字認識結果の翻訳であると識別可能に、文字認識結果を翻訳し、翻訳画像生成手段は、書き込みと対応付けされた翻訳結果の画像を書き込みとは対応付けされていない翻訳結果の画像とは異なる形式で出力されるように生成する。
【解決手段】画像処理装置の書込検出手段は、画像内の書き込みの位置を検出し、文字位置検出手段は、画像内の文字画像の位置を検出し、文字認識手段は、文字画像に対して、文字認識を行い、対応付手段は、書き込みの位置と文字の位置とを照合して、書き込みと文字認識結果を対応付けし、翻訳手段は、書き込みと対応付けされた文字認識結果の翻訳であると識別可能に、文字認識結果を翻訳し、翻訳画像生成手段は、書き込みと対応付けされた翻訳結果の画像を書き込みとは対応付けされていない翻訳結果の画像とは異なる形式で出力されるように生成する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置及び画像処理プログラムに関する。
【背景技術】
【0002】
文書画像内の文字画像に対して文字認識をし、その後にほかの言語に翻訳する技術がある。
また、文書に記載されている書き込みに基づいて、その文書を加工する技術がある。
【0003】
これに関連する技術として、例えば、特許文献1には、簡単な原稿画像入力操作で、1つの言語に基づく文字画像をほかの言語に翻訳してレイアウト印字すること、あるいは同一記録媒体の各面に振り分けて両面印刷することができる画像処理装置を提供することを目的とし、第1の言語に基づく第1の文字及び画像を含む原稿を画像入力する原稿入力手段と、この原稿入力手段から画像入力された原稿画像データを解析して文書データ領域と画像データ領域とに領域分離する分離手段と、この分離手段により分離された前記文書データ領域から文字画像を切り出して第1の文字を認識する認識手段と、この認識手段により認識された第1の文字に対応する文字データを第2の言語に基づく第2の文字データに翻訳する翻訳手段と、前記分離手段により領域分離された文書データ領域情報及び前記第2の文字データに基づいてレイアウトされた印刷データを生成するデータ生成手段と、このデータ生成手段により生成された前記印刷データに基づいて第2の文字データと前記原稿画像データをそれぞれ記録媒体の各片面に振り分けて両面印刷する印刷手段とを有する画像処理装置が開示されている。
【0004】
また、例えば、特許文献2には、原稿の領域加工(例えば、領域の抽出、消去、白黒反転等)エリアをマークによって指定し、複数の領域加工を施したい原稿間の画像合成を行うことができるように、原稿画像を読み取り、画像情報を発生する読み取り手段と、原稿の所望領域をマークによって指定する指定手段と、前記指定手段による領域指定にしたがって前記所望領域を示す領域信号を発生する発生手段と、前記発生手段から発生される前記領域信号にしたがって、前記読み取り手段により発生された画像情報を加工する加工手段と、複数の画像情報を記憶可能な複数の記憶手段と、前記複数の記憶手段の書き込み、読み出しを制御する制御手段と、前記複数の記憶手段から読み出された画像情報を合成する手段を有し、複数の原稿画像を読み取り、前記複数の原稿に各々所望領域を前記指定手段により指定し、前記領域発生手段によって得られた領域信号によって発生された画像情報を加工手段によって加工し、加工された画像情報を、前記複数の記憶手段に記憶させ、複数の加工された画像情報を記憶している記憶手段より読み出し、前記合成手段により合成出力させる画像編集装置が開示されている。
【特許文献1】特許第3636490号公報
【特許文献2】特開平02−253377号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
本発明は、画像を文字認識し、その文字認識結果を翻訳し、さらにその翻訳結果の画像を生成する場合にあって、元の画像に対して書き込みがあるとき、その書き込みの画像部分を書き込みが行われていない画像部分とは区別して翻訳結果の画像に反映させるようにした画像処理装置及び画像処理プログラムを提供することを目的としている。
【課題を解決するための手段】
【0006】
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、書き込みを含む画像を受け付ける画像受付手段と、前記画像受付手段によって受け付けられた画像内の書き込みの位置を検出する書込検出手段と、前記画像受付手段によって受け付けられた画像内の文字画像の位置を検出する文字位置検出手段と、前記文字位置検出手段によって検出された文字画像に対して、文字認識を行う文字認識手段と、前記書込検出手段によって検出された書き込みの位置と前記文字位置検出手段によって検出された文字の位置とを照合して、該書き込みと前記文字認識手段による文字認識結果を対応付けする対応付手段と、前記対応付手段によって前記書き込みと対応付けされた文字認識結果の翻訳であると識別可能に、前記文字認識手段による文字認識結果を翻訳する翻訳手段と、前記書き込みと対応付けされた翻訳結果の画像を前記書き込みとは対応付けされていない翻訳結果の画像とは異なる形式で出力されるように生成する翻訳画像生成手段と、前記翻訳画像生成手段によって生成された画像を出力する翻訳画像出力手段を具備することを特徴とする画像処理装置である。
【0007】
請求項2の発明は、前記翻訳手段による翻訳が行われた後に、前記書込検出手段によって検出された書き込みの位置に基づいて、前記画像受付手段によって受け付けられた画像内の文字画像を変換する原画像変換手段と、前記原画像変換手段によって変換された画像と前記翻訳画像生成手段によって生成された画像とを合成する合成手段をさらに具備することを特徴とする請求項1に記載の画像処理装置である。
【0008】
請求項3の発明は、前記原画像変換手段は、前記書込検出手段によって検出された書き込みの位置に基づいて、前記文字画像を隠蔽する画像に変換することを特徴とする請求項2に記載の画像処理装置である。
【0009】
請求項4の発明は、前記翻訳画像生成手段は、前記書き込みと対応付けされた翻訳結果を隠蔽する画像を生成することを特徴とする請求項1から3のいずれか一項に記載の画像処理装置である。
【0010】
請求項5の発明は、前記書込検出手段は、さらに書き込みの種類を検出し、前記翻訳画像生成手段は、前記書込検出手段によって検出された書き込みの種類に基づいて、前記書き込みと対応付けされた翻訳結果の画像を生成することを特徴とする請求項1から4のいずれか一項に記載の画像処理装置である。
【0011】
請求項6の発明は、前記書込検出手段は、さらに書き込みの種類を検出し、前記翻訳画像生成手段は、前記書込検出手段によって検出された書き込みの種類と同じ種類の書き込みを、前記書き込みと対応付けされた翻訳結果の画像に付することを特徴とする請求項1又は2に記載の画像処理装置である。
【0012】
請求項7の発明は、コンピュータを、書き込みを含む画像を受け付ける画像受付手段と、前記画像受付手段によって受け付けられた画像内の書き込みの位置を検出する書込検出手段と、前記画像受付手段によって受け付けられた画像内の文字画像の位置を検出する文字位置検出手段と、前記文字位置検出手段によって検出された文字画像に対して、文字認識を行う文字認識手段と、前記書込検出手段によって検出された書き込みの位置と前記文字位置検出手段によって検出された文字の位置とを照合して、該書き込みと前記文字認識手段による文字認識結果を対応付けする対応付手段と、前記対応付手段によって前記書き込みと対応付けされた文字認識結果の翻訳であると識別可能に、前記文字認識手段による文字認識結果を翻訳する翻訳手段と、前記書き込みと対応付けされた翻訳結果の画像を前記書き込みとは対応付けされていない翻訳結果の画像とは異なる形式で出力されるように生成する翻訳画像生成手段と、前記翻訳画像生成手段によって生成された画像を出力する翻訳画像出力手段として機能させることを特徴とする画像処理プログラムである。
【発明の効果】
【0013】
請求項1の画像処理装置によれば、画像を文字認識し、その文字認識結果を翻訳し、さらにその翻訳結果の画像を生成する場合にあって、元の画像に対して書き込みがあるとき、その書き込みの画像部分を書き込みが行われていない画像部分とは区別して翻訳結果の画像に反映させることができる。
【0014】
請求項2の画像処理装置によれば、書き込みが行われた画像部分に対する翻訳を行った後に、元の画像を変換した画像とその翻訳画像を共に提示することができる。
【0015】
請求項3の画像処理装置によれば、元の画像から書き込み部分を隠蔽することができる。
【0016】
請求項4の画像処理装置によれば、書き込みが行われた隠蔽すべき画像部分に対する翻訳の質劣化を抑制して、その書き込みに対応する翻訳結果を隠蔽することができる。
【0017】
請求項5の画像処理装置によれば、書き込みの種類に応じた翻訳画像を提示できる。
【0018】
請求項6の画像処理装置によれば、元の画像と同じ書き込みを、対応する翻訳画像に対して施すことができる。
【0019】
請求項7の画像処理プログラムによれば、画像を文字認識し、その文字認識結果を翻訳し、さらにその翻訳結果の画像を生成する場合にあって、元の画像に対して書き込みがあるとき、その書き込みの画像部分を書き込みが行われていない画像部分とは区別して翻訳結果の画像に反映させることができる。
【発明を実施するための最良の形態】
【0020】
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、コンピュータ・プログラム、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能にほぼ一対一に対応しているが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールにほかのモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続のほか、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。「予め定められた」とは、対象としている処理の前であることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。
【0021】
本実施の形態は、図1に示すように、画像受付モジュール110、抽出・認識処理モジュール120、対応付モジュール130、翻訳モジュール140、画像生成モジュール150、出力モジュール160を有している。
【0022】
画像受付モジュール110は、抽出・認識処理モジュール120と接続されており、画像を受け付けて、その画像を抽出・認識処理モジュール120へ渡す。画像を受け付けるとは、スキャナで画像を読み込むこと、ファックスで画像を受信すること、画像データベース等から画像を読み出すこと等が含まれる。画像には、文字画像のほかに、利用者による書き込みが含まれている。その画像は、1枚であってもよいし、複数枚であってもよい。また、画像の内容として、ビジネス用に用いられる文書、広告宣伝用のパンフレット等であってもよい。この画像は、翻訳対象となる画像である。また、その画像に含まれている書き込みとは、例えば、具体的には、文書を公開するに際して、その文書に記載されている情報を隠蔽する箇所を指し示すために加筆された画像、又はその文書に記載されている情報の中で、重要であることを伝達すること、注意を促すこと等のために加筆された画像をいい。それは、手書きであると否とにかかわらず、色つきペンで記載された下線、囲み線等、半透明色のマーカー(蛍光ペン等)で塗りつぶされたもの等がある。なお、画像内の文字画像を塗りつぶす場合は、その文字画像を読み取れる程度(文字認識が可能な程度)の塗りつぶしである。
【0023】
抽出・認識処理モジュール120は、画像受付モジュール110、対応付モジュール130と接続されており、書込検出モジュール121、文字処理モジュール122を有している。抽出・認識処理モジュール120は、画像受付モジュール110から画像を受け取り、その画像内にある書き込みの位置を検出して、文字画像の位置を検出して、文字画像を認識する。そして、その検出結果と文字認識結果を対応付モジュール130に渡す。
【0024】
書込検出モジュール121は、画像受付モジュール110によって受け付けられた画像内の利用者の書き込みの位置を検出する。書き込みの位置は、例えば、具体的には、その画像を色相分離して、予め定められた色の画像を抽出して、その座標を検出するようにしてもよい。また、下線等の線状の画像を認識して、その座標を検出するようにしてもよい。そして、その検出結果を対応付モジュール130に渡す。さらに、書込検出モジュール121は、書き込みの種類を検出するようにしてもよい。書き込みの種類としては、例えば、具体的には、その書き込みの色、形状(線状、領域等)、文字との関係(文字を含む領域、文字の下に引かれた線等)等がある。検出処理としては、色相分離後の色の解析、縦横比の解析、レイアウト検出モジュール123によって検出された文字との位置関係の解析等によって行う。
【0025】
図3は、書込検出モジュール121が検出した書き込みを表す指定箇所テーブル300のデータ構造例を示す説明図である。指定箇所テーブル300は、ID欄310、色欄320、位置情報欄330を有している。ID欄310は、その書き込みを一意に識別する識別子を記憶する。色欄320は、その書き込みの種類として色を記憶する。位置情報欄330は、その書き込みの位置を記憶し、X座標欄331、Y座標欄332、幅欄333、高さ欄334を有している。X座標欄331、Y座標欄332はその書き込みがある領域(例えば、矩形)の左上の座標を記憶し、幅欄333はその領域の幅を記憶し、高さ欄334はその領域の高さを記憶する。座標は、その画像内における絶対座標(画像内の左上を原点として、右方向にX軸、下方向にY軸を対応)のほか、相対座標であってもよい。
【0026】
文字処理モジュール122は、画像受付モジュール110から画像を受け取り、その画像内にある文字画像の位置を含むレイアウトを検出して、文字画像を認識する。そして、その文字画像の位置と文字認識結果を対応付モジュール130に渡す。文字処理モジュール122は、レイアウト検出モジュール123、文字認識モジュール124を有している。
【0027】
レイアウト検出モジュール123は、画像受付モジュール110によって受け付けられた画像内の文字画像の位置を検出する。文字画像の位置検出は、一般的に知られている文字認識技術における文字画像の抽出処理を用いればよい。例えば、画像内の横方向又は縦方向における黒画素のヒストグラム(黒画素の頻度分布)を生成して、その頻度が予め定められた閾値以上である領域を抽出することによって、行を抽出して、その行内における縦方向又は横方向における黒画素のヒストグラムを生成して、文字画像を抽出する。また、空白領域と予め定められた文字画像の大きさを用いて文字画像を抽出するようにしてもよい。さらに、画像内のレイアウト抽出の技術を用いて、文字画像の位置を検出するようにしてもよい。その場合は、文字画像によって構成されている文章領域のみならず、図形、表等を対象とすることもできる。そして、その検出結果である文字画像の位置を文字認識モジュール124に渡す。
【0028】
文字認識モジュール124は、レイアウト検出モジュール123によって検出された文字画像に対して、文字認識を行う。文字認識処理は、一般的に知られている文字認識技術を用いればよい。例えば、その文字画像の特徴(線の数等)を抽出して、特徴空間における位置を辞書内の文字と比較して、文字認識(文字コードの対応付け)を行うようにしてもよい。そして、文字画像の位置とその文字認識結果を対応させて対応付モジュール130に渡す。
【0029】
図4は、文字処理モジュール122による処理結果である文字位置テーブル400のデータ構造例を示す説明図である。文字位置テーブル400は、文章領域ID欄410、文章領域位置欄420、文字ID欄430、文字コード欄440、文字位置欄450を有している。文章領域ID欄410は、その画像内の文章領域を一意に識別する識別子を記憶する。文章領域位置欄420は、その文章領域の位置を記憶し、X座標欄421、Y座標欄422、幅欄423、高さ欄424を有している。X座標欄421、Y座標欄422はその文章領域(例えば、矩形)の左上の座標を記憶し、幅欄423はその文章領域の幅を記憶し、高さ欄424はその文章領域の高さを記憶する。また、文字ID欄430は、その文章領域内にある文字画像を一意に識別する識別子を記憶する。文字コード欄440は、その文字画像に対応する文字認識モジュール124による文字認識結果(文字コード)を記憶する。文字位置欄450は、その文字画像の位置を記憶し、X座標欄451、Y座標欄452、幅欄453、高さ欄454を有している。X座標欄451、Y座標欄452はその文字画像(例えば、矩形)の左上の座標を記憶し、幅欄453はその文字画像の幅を記憶し、高さ欄454はその文字画像の高さを記憶する。なお、文章領域ID欄410、文章領域位置欄420、文字ID欄430、文字位置欄450内の内容は主にレイアウト検出モジュール123によって生成され、文字コード欄440の内容は主に文字認識モジュール124によって生成される。また、文字認識モジュール124による文字認識結果に応じて、その文字画像の抽出をやり直して、文字位置欄450内の内容を修正するようにしてもよい。
【0030】
対応付モジュール130は、抽出・認識処理モジュール120、翻訳モジュール140と接続されている。書込検出モジュール121によって検出された書き込みの位置とレイアウト検出モジュール123によって検出された文字の位置とを照合して、その書き込みと文字認識モジュール124による文字認識結果を対応付けする。そして、文字認識結果及び対応付けの結果を翻訳モジュール140に渡す。
【0031】
つまり、書き込みの位置に該当する文字の位置を探索する。この探索には、書き込みの位置と一致する文字の位置のほかに、書き込みの領域と文字の領域とが重なりあう場合、書き込みの位置の近傍に文字の位置があること等を含む。なお、近傍には、対象の書き込みの位置の周囲が含まれ、具体的には対象の書き込みの位置から予め定められた距離内であることをいう。距離の測定は、書き込みの中心から文字の中心までの距離、書き込みの周囲から文字の周囲までの距離(両者間の最短距離)等であってもよい。
【0032】
そして、その文字の位置に対応する文字認識結果(書き込みが行われている文字)を抽出する。例えば、具体的には、文字認識結果をHTML(Hypertext Markup Language)等の記述言語で表現する場合、書き込みが行われている文字をタグ(書き込みが行われていることを表す予約語)で囲むようにしてもよい。また、図4の例に示した文字位置テーブル400のようなテーブル形式にする場合は、書き込みが行われている文字か否かを表す欄を設けるようにしてもよい。
また、書き込みが行われている文字は、その言語において意味を有する文字列を構成しているか否かを判断するようにしてもよい。意味を有する文字列とは、例えば、単語、文節、文章等がある。また、その判断は、予め用意した単語辞書に記憶されているものであるか、構文解析等によって抽出できるものであるか等によって行う。そして、意味を有する文字列を構成していないと判断した場合は、意味を有する文字列となるまで、前後の文字を付加又は削除して、書き込みが行われている文字としてもよい。そして、書き込みが行われている文字を修正した場合は、その修正に応じて、書込検出モジュール121による検出結果をも修正するようにしてもよい。
【0033】
翻訳モジュール140は、対応付モジュール130、画像生成モジュール150と接続されている。対応付モジュール130によって書き込みと対応付けされた文字認識結果の翻訳であると識別可能に、文字認識モジュール124による文字認識結果を翻訳する。そして、その翻訳結果を画像生成モジュール150に渡す。
つまり、対応付モジュール130から渡された文字認識結果を翻訳する。翻訳処理は、一般的に知られている(機械)翻訳技術を用いればよい。例えば、文字認識結果に対して構文解析を行い、第1の言語の単語と第2の言語の単語とを対応させた辞書を用いて、第2の言語に翻訳する等である。
その翻訳の際に、対応付モジュール130から渡された対応付けの結果を翻訳結果にも反映させるものである。例えば、具体的には、翻訳結果をHTML等の記述言語で表現する場合、書き込みが行われている文字の翻訳結果をタグ(書き込みが行われていることを表す予約語)で囲むようにしてもよい。
【0034】
画像生成モジュール150は、翻訳モジュール140、出力モジュール160と接続されており、原画像変換モジュール151、翻訳画像生成モジュール152、合成モジュール153を有している。翻訳モジュール140から翻訳結果を受け取り、その翻訳結果を含む画像を生成して、出力モジュール160に渡す。なお、画像生成モジュール150が生成する画像は、ページ記述言語等によって記述されたファイルであってもよい。
【0035】
原画像変換モジュール151は、合成モジュール153と接続されており、翻訳モジュール140による翻訳が行われた後に、書込検出モジュール121によって検出された書き込みの位置に基づいて、画像受付モジュール110によって受け付けられた画像内の文字画像を変換する。例えば、具体的には、書込検出モジュール121によって検出された書き込みの位置に基づいて、書き込みが行われている文字画像を隠蔽する画像に変換するようにしてもよい。より具体的には、墨塗りと呼ばれている黒色でその文字画像を塗りつぶすこと、その文字画像の代替として予め定められた文字画像に変換すること等がある。そして、変換した画像を合成モジュール153に渡す。
【0036】
翻訳画像生成モジュール152は、合成モジュール153と接続されており、書き込みと対応付けされた翻訳結果の画像を書き込みとは対応付けされていない翻訳結果の画像とは異なる形式で出力されるように生成する。そして、生成した画像を合成モジュール153に渡す。例えば、具体的には、書き込みと対応付けされた翻訳結果を隠蔽する画像を生成するようにしてもよい。これは、翻訳結果の質を担保しつつ、翻訳画像に隠蔽を施したい場合に用いられるものである。例えば、元の画像から文字を隠蔽してしまうと、その文字は対象外となるため、文字認識、翻訳した場合は、翻訳結果の質低下がみられる。しかし、本実施の形態は、元の画像を隠蔽する部分も含めて文字認識、翻訳して、その結果から隠蔽を施したい部分に対応する翻訳部分を隠蔽するものである。
【0037】
また、翻訳画像生成モジュール152は、書込検出モジュール121によって検出された書き込みの種類に基づいて、その書き込みと対応付けされた翻訳結果の画像を生成するようにしてもよい。例えば、具体的には、書き込みが赤色であるならば、書き込みと対応付けされた翻訳結果を黒色で塗りつぶし、書き込みが青色であるならば、書き込みと対応付けされた翻訳結果を予め定められた文字に置き換える等することである。
【0038】
また、翻訳画像生成モジュール152は、書込検出モジュール121によって検出された書き込みの種類と同じ種類の書き込みを、その書き込みと対応付けされた翻訳結果の画像に付するようにしてもよい。例えば、具体的には、書き込みが赤色のマーカーであるならば、書き込みと対応付けされた翻訳結果にそれと同等の赤色のマーカーで塗りつぶされたような画像を付するようにするものである。同様に、書き込みが青色の下線であるならば、書き込みと対応付けされた翻訳結果にそれと同等の下線を付するものである。これは、元の画像と翻訳画像との間で対応付けを明確にする場合に行うものである。
【0039】
合成モジュール153は、原画像変換モジュール151、翻訳画像生成モジュール152と接続されており、原画像変換モジュール151によって変換された画像と翻訳画像生成モジュール152によって生成された画像とを合成する。そして、その合成した画像を出力モジュール160に渡す。
ただし、翻訳画像のみを出力する場合は、原画像変換モジュール151、合成モジュール153はなくてもよい。その場合は、翻訳画像生成モジュール152が生成した画像を出力モジュール160に渡す。
【0040】
出力モジュール160は、画像生成モジュール150と接続されている。画像生成モジュール150から画像を受け取り、その画像を出力する。画像を出力するとは、プリンタ等の印刷装置で印刷すること、ディスプレイ等の表示装置に表示すること、ファックス等の画像送信装置で画像を送信すること、画像データベース等の画像記憶装置へ画像を書き込むこと等が含まれる。
【0041】
図2は、本実施の形態による第1の処理例を示すフローチャートである。この第1の処理例は、隠蔽のために書き込みが行われた画像を対象としており、その翻訳画像内の対応する文字画像を隠蔽するものである。これは、文書を違う言語で公開するに際して、その文書に記載されている情報を隠蔽する場合等に用いられるものである。
【0042】
ステップS202では、書込検出モジュール121が、画像受付モジュール110によって受け付けられた画像を色相分離し、利用者の書き込みであるマーカーの位置を含めたマーカー情報を抽出する。マーカー情報には、そのマーカーの位置のほかに、色等を含めてもよい。
ステップS204では、レイアウト検出モジュール123が、画像受付モジュール110によって受け付けられた画像に対して、文章領域を抽出して、文字画像の位置を抽出する。そして、文字認識モジュール124が、文字画像の位置にある文字画像に対して、文字認識処理を実行する。
ステップS206では、対応付モジュール130が、ステップS204で文字認識した文字画像の位置情報とステップS202で抽出したマーカー情報内の位置情報とを照合する。
【0043】
ステップS208では、対応付モジュール130が、マーカーと位置が重なっている文字を指定文字として保存する。例えば、より具体的には、マーカーされている文字をタグで囲み、文字認識結果をHTMLで記述することが該当する。
ステップS210では、翻訳モジュール140が、機械翻訳を実行する。その際に、マーカーされている文字の翻訳結果であるとわかるような形式で、次の処理に渡す。例えば、より具体的には、マーカーされている文字の翻訳結果をタグで囲み、翻訳結果をHTMLで記述することが該当する。
ステップS212では、画像生成モジュール150が、出力の形態として、置換翻訳(元の画像の文字画像を残すことをせずに、翻訳結果を上書きするようにした出力、図5(b)参照)か、ルビ風翻訳(元の画像の文字画像はそのまま残し、翻訳結果をルビのように対応させるようにして出力、図6(b)参照)かを判断する。これは、本実施の形態の利用者による操作又は予め定められた出力の形態に応じて、判断されるものである。
【0044】
ステップS214では、原画像変換モジュール151が、画像受付モジュール110が受け付けた画像から、ステップS202で抽出したマーカー情報を用いて、そのマーカー色の領域を除去する。
ステップS216では、原画像変換モジュール151が、さらに、その画像内から文字部分を除去する。つまり、ステップS214、ステップS216の処理によって、画像内から文字画像部分を除去するものである。これによって、画像内には文字画像以外の画像(例えば、図形、写真画像等)が残る。
ステップS218では、原画像変換モジュール151が、画像受付モジュール110が受け付けた画像から、ステップS202で抽出したマーカー情報を用いて、そのマーカー位置にある文字画像を黒色等で塗りつぶす。つまり、元の画像をも出力する場合であるので、マーカーされている文字を隠蔽するものである。もちろん、黒色で塗りつぶすことのほかに、予め定められた文字列の画像に置換すること等がある。
【0045】
ステップS220では、翻訳画像生成モジュール152が、翻訳結果の文字画像を、元の画像の文章領域に合わせた配置を行う。その際、置換翻訳の出力の形態である場合は、文章領域内にその翻訳結果の言語に合わせた配置を行う。ルビ風翻訳の出力の形態である場合は、文章領域内には元の文字画像があるので、その行間に翻訳結果の文字画像を配置する。
ステップS222では、翻訳画像生成モジュール152が、マーカーが示した翻訳文字列(つまり、マーカーされた文字の翻訳結果)に指定の効果を与える。ここで指定の効果とは、マーカーの種類に応じて、翻訳文字列を隠蔽するものであり、例えば、黒色で塗りつぶすこと、予め定められた文字列の画像に置換すること等がある。
ステップS224では、合成モジュール153が、ステップS216(文字画像が除去された画像)又はステップS218(マーカーされた文字画像が除去された画像)で生成された背景となる画像とステップS222で生成された画像(翻訳画像)とを合成する。そして、出力モジュール160が、その合成した画像を出力する。
【0046】
図5は、本実施の形態による第1−1の処理例を示す説明図である。これは、図2の例に示したフローチャートのステップS212で、置換翻訳が選択された場合の処理例を示すものである。図5(a)の例に示す原画像510は本実施の形態の画像受付モジュール110によって受け付けられた画像であり、図5(b)の例に示す翻訳画像520は本実施の形態の出力モジュール160によって出力された画像である。
【0047】
図5(a)の例に示す原画像510は、マーカー領域511、マーカー領域512を有している。つまり、利用者によって、開示したくない文字列である「私たちが目指すもの」、「私たちが大切にすること」に、マーカーによる書き込みが行われている。また、マーカー領域511とマーカー領域512とは、異なる色のマーカーによる書き込みである。
図5(b)の例に示す翻訳画像520は、原画像510を文字認識した後に翻訳したものであり、マスキング領域521、マスキング領域522A、522Bを有している。マスキング領域521は、マーカー領域511の色に応じて、マーカー領域511の翻訳部分を黒色で隠蔽しており、マスキング領域522A、522Bは、マーカー領域512の色に応じて、マーカー領域512の翻訳部分を、その色に対応付けされた「言葉A」で置換することによって隠蔽している。
【0048】
図6は、本実施の形態による第1−2の処理例を示す説明図である。これは、図2の例に示したフローチャートのステップS212で、ルビ風翻訳が選択された場合の処理例を示すものである。図6(a)の例に示す原画像610は本実施の形態の画像受付モジュール110によって受け付けられた画像であり、図6(b)の例に示す翻訳画像620は本実施の形態の出力モジュール160によって出力された画像である。
【0049】
原画像610は、マーカー領域611、マーカー領域612を有している。図5(a)の例に示した原画像510と同等のものである。
翻訳画像620は、原画像610を文字認識した後に翻訳したものであり、原画像610内の文字列の行間に翻訳文を表示している。そして、マスキング領域621、マスキング領域622A、622B、マスキング領域631、マスキング領域632を有している。つまり、原画像610のマーカー領域611とマーカー領域612を隠蔽するために、マスキング領域631とマスキング領域632があり、その翻訳部分を隠蔽するためにマスキング領域621、マスキング領域622A、622Bがある。また、マーカー領域611とマーカー領域612の色に応じて、マスキング領域621とマスキング領域622A、622Bとの形態を異ならせている。
【0050】
図7は、本実施の形態による第2の処理例を示すフローチャートである。この第2の処理例は、重要であることを伝達すること、注意を促すこと等のために書き込みが行われた画像を対象としており、その翻訳画像内の対応する文字画像を書き込みが行われていない文字画像とは異なるような表示にするものである。これは、文書を翻訳するに際して、その文書の書き込みを翻訳文書にも対応させて記載する場合等に用いられるものである。
【0051】
図7の例に示すフローチャートは、図2の例に示したフローチャートと比べると、ステップS702からステップS716までの処理は、ステップS202からステップS216までの処理と同等のものであり、ステップS718からステップS722までの処理もステップS220からステップS224までの処理と同等のものであり、ステップS218に該当する処理がないものである。つまり、図2に示した第1の処理例は、書き込み部分の隠蔽をするものであり、元の画像にマーカーで書き込みが行われた部分も隠蔽しなければならないが、図7に示す第2の処理例は、元の画像にマーカーで書き込みが行われた部分はそのままでよいからである。
【0052】
なお、ステップS712で、ルビ風翻訳と判断された場合は、ステップS718の処理に移るため、つまり、ステップS218に対応する処理が不要であるため、原画像変換モジュール151による処理が不要となる。
【0053】
図8は、本実施の形態による第2−1の処理例を示す説明図である。これは、図7の例に示したフローチャートのステップS712で、置換翻訳が選択された場合の処理例を示すものである。図8(a)の例に示す原画像810は本実施の形態の画像受付モジュール110によって受け付けられた画像であり、図8(b)の例に示す翻訳画像820は本実施の形態の出力モジュール160によって出力された画像である。
【0054】
図8(a)の例に示す原画像810は、マーカー領域811、マーカー領域812を有している。図5(a)の例に示した原画像510と同等のものである。つまり、利用者によって、文字列「私たちが目指すもの」、「私たちが大切にすること」に、マーカーによる書き込みが行われている。また、マーカー領域511とマーカー領域512とは、異なる色のマーカーによる書き込みである。ただし、これらの文字列は隠蔽対象ではなく、重要であること、注意を促す等の対象である。
図8(b)の例に示す翻訳画像820は、原画像810を文字認識した後に翻訳したものであり、文字修飾821、文字修飾822A、822Bを有している。文字修飾821には、マーカー領域811の色に応じて、マーカー領域811と同等の色の領域で書き込みの画像を付しており、文字修飾822A、822Bは、マーカー領域812の色に応じて、マーカー領域812の翻訳部分に、その色に対応付けされた下線の書き込み画像を付している。
【0055】
図9は、本実施の形態による第2−2の処理例を示す説明図である。これは、図7の例に示したフローチャートのステップS712で、ルビ風翻訳が選択された場合の処理例を示すものである。図9(a)の例に示す原画像910は本実施の形態の画像受付モジュール110によって受け付けられた画像であり、図9(b)の例に示す翻訳画像920は本実施の形態の出力モジュール160によって出力された画像である。
【0056】
図9(a)の例に示す原画像910は、マーカー領域911、マーカー領域912を有している。図8(a)の例に示した原画像810と同等のものである。
図9(b)の例に示す翻訳画像920は、原画像910を文字認識した後に翻訳したものであり、原画像910内の文字列の行間に翻訳文を表示している。そして、文字修飾921、文字修飾922A、922B、文字修飾931、文字修飾932を有している。つまり、文字修飾931と文字修飾932は、原画像910のマーカー領域911とマーカー領域912そのままであり、対応する翻訳部分に文字修飾921、文字修飾922A、922Bがある。また、マーカー領域911とマーカー領域912の色に応じて、文字修飾921と文字修飾922A、922Bとの形態を異ならせている。
【0057】
図10を参照して、本実施の形態のハードウェア構成例について説明する。図10に示す構成は、例えばパーソナルコンピュータ(PC)などによって構成されるものであり、スキャナ等のデータ読み取り部1017と、プリンタなどのデータ出力部1018を備えたハードウェア構成例を示している。
【0058】
CPU(Central Processing Unit)1001は、前述の実施の形態において説明した各種のモジュール、すなわち、抽出・認識処理モジュール120、対応付モジュール130、翻訳モジュール140、画像生成モジュール150等の各モジュールの実行シーケンスを記述したコンピュータ・プログラムにしたがった処理を実行する制御部である。
【0059】
ROM(Read Only Memory)1002は、CPU1001が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)1003は、CPU1001の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス1004により相互に接続されている。
【0060】
ホストバス1004は、ブリッジ1005を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス1006に接続されている。
【0061】
キーボード1008、マウス等のポインティングデバイス1009は、操作者により操作される入力デバイスである。ディスプレイ1010は、液晶表示装置又はCRT(Cathode Ray Tube)などがあり、各種情報をテキストやイメージ情報として表示する。
【0062】
HDD(Hard Disk Drive)1011は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU1001によって実行するプログラムや情報を記録又は再生させる。ハードディスクには、画像受付モジュール110が受け付けた画像や翻訳モジュール140による翻訳結果などが格納される。さらに、その他の各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。
【0063】
ドライブ1012は、装着されている磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体1013に記録されているデータ又はプログラムを読み出して、そのデータ又はプログラムを、インタフェース1007、外部バス1006、ブリッジ1005、及びホストバス1004を介して接続されているRAM1003に供給する。リムーバブル記録媒体1013も、ハードディスクと同様のデータ記録領域として利用可能である。
【0064】
接続ポート1014は、外部接続機器1015を接続するポートであり、USB、IEEE1394等の接続部を持つ。接続ポート1014は、インタフェース1007、及び外部バス1006、ブリッジ1005、ホストバス1004等を介してCPU1001等に接続されている。通信部1016は、ネットワークに接続され、外部とのデータ通信処理を実行する。データ読み取り部1017は、例えばスキャナであり、ドキュメントの読み取り処理を実行する。データ出力部1018は、例えばプリンタであり、ドキュメントデータの出力処理を実行する。
【0065】
なお、図10に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図10に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図10に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
【0066】
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blue−ray Disk)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、ほかのプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
【図面の簡単な説明】
【0067】
【図1】本実施の形態の構成例についての概念的なモジュール構成図である。
【図2】本実施の形態による第1の処理例を示すフローチャートである。
【図3】指定箇所テーブルのデータ構造例を示す説明図である。
【図4】文字位置テーブルのデータ構造例を示す説明図である。
【図5】本実施の形態による第1−1の処理例を示す説明図である。
【図6】本実施の形態による第1−2の処理例を示す説明図である。
【図7】本実施の形態による第2の処理例を示すフローチャートである。
【図8】本実施の形態による第2−1の処理例を示す説明図である。
【図9】本実施の形態による第2−2の処理例を示す説明図である。
【図10】本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
【符号の説明】
【0068】
110…画像受付モジュール
120…抽出・認識処理モジュール
121…書込検出モジュール
122…文字処理モジュール
123…レイアウト検出モジュール
124…文字認識モジュール
130…対応付モジュール
140…翻訳モジュール
150…画像生成モジュール
151…原画像変換モジュール
152…翻訳画像生成モジュール
153…合成モジュール
160…出力モジュール
【技術分野】
【0001】
本発明は、画像処理装置及び画像処理プログラムに関する。
【背景技術】
【0002】
文書画像内の文字画像に対して文字認識をし、その後にほかの言語に翻訳する技術がある。
また、文書に記載されている書き込みに基づいて、その文書を加工する技術がある。
【0003】
これに関連する技術として、例えば、特許文献1には、簡単な原稿画像入力操作で、1つの言語に基づく文字画像をほかの言語に翻訳してレイアウト印字すること、あるいは同一記録媒体の各面に振り分けて両面印刷することができる画像処理装置を提供することを目的とし、第1の言語に基づく第1の文字及び画像を含む原稿を画像入力する原稿入力手段と、この原稿入力手段から画像入力された原稿画像データを解析して文書データ領域と画像データ領域とに領域分離する分離手段と、この分離手段により分離された前記文書データ領域から文字画像を切り出して第1の文字を認識する認識手段と、この認識手段により認識された第1の文字に対応する文字データを第2の言語に基づく第2の文字データに翻訳する翻訳手段と、前記分離手段により領域分離された文書データ領域情報及び前記第2の文字データに基づいてレイアウトされた印刷データを生成するデータ生成手段と、このデータ生成手段により生成された前記印刷データに基づいて第2の文字データと前記原稿画像データをそれぞれ記録媒体の各片面に振り分けて両面印刷する印刷手段とを有する画像処理装置が開示されている。
【0004】
また、例えば、特許文献2には、原稿の領域加工(例えば、領域の抽出、消去、白黒反転等)エリアをマークによって指定し、複数の領域加工を施したい原稿間の画像合成を行うことができるように、原稿画像を読み取り、画像情報を発生する読み取り手段と、原稿の所望領域をマークによって指定する指定手段と、前記指定手段による領域指定にしたがって前記所望領域を示す領域信号を発生する発生手段と、前記発生手段から発生される前記領域信号にしたがって、前記読み取り手段により発生された画像情報を加工する加工手段と、複数の画像情報を記憶可能な複数の記憶手段と、前記複数の記憶手段の書き込み、読み出しを制御する制御手段と、前記複数の記憶手段から読み出された画像情報を合成する手段を有し、複数の原稿画像を読み取り、前記複数の原稿に各々所望領域を前記指定手段により指定し、前記領域発生手段によって得られた領域信号によって発生された画像情報を加工手段によって加工し、加工された画像情報を、前記複数の記憶手段に記憶させ、複数の加工された画像情報を記憶している記憶手段より読み出し、前記合成手段により合成出力させる画像編集装置が開示されている。
【特許文献1】特許第3636490号公報
【特許文献2】特開平02−253377号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
本発明は、画像を文字認識し、その文字認識結果を翻訳し、さらにその翻訳結果の画像を生成する場合にあって、元の画像に対して書き込みがあるとき、その書き込みの画像部分を書き込みが行われていない画像部分とは区別して翻訳結果の画像に反映させるようにした画像処理装置及び画像処理プログラムを提供することを目的としている。
【課題を解決するための手段】
【0006】
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、書き込みを含む画像を受け付ける画像受付手段と、前記画像受付手段によって受け付けられた画像内の書き込みの位置を検出する書込検出手段と、前記画像受付手段によって受け付けられた画像内の文字画像の位置を検出する文字位置検出手段と、前記文字位置検出手段によって検出された文字画像に対して、文字認識を行う文字認識手段と、前記書込検出手段によって検出された書き込みの位置と前記文字位置検出手段によって検出された文字の位置とを照合して、該書き込みと前記文字認識手段による文字認識結果を対応付けする対応付手段と、前記対応付手段によって前記書き込みと対応付けされた文字認識結果の翻訳であると識別可能に、前記文字認識手段による文字認識結果を翻訳する翻訳手段と、前記書き込みと対応付けされた翻訳結果の画像を前記書き込みとは対応付けされていない翻訳結果の画像とは異なる形式で出力されるように生成する翻訳画像生成手段と、前記翻訳画像生成手段によって生成された画像を出力する翻訳画像出力手段を具備することを特徴とする画像処理装置である。
【0007】
請求項2の発明は、前記翻訳手段による翻訳が行われた後に、前記書込検出手段によって検出された書き込みの位置に基づいて、前記画像受付手段によって受け付けられた画像内の文字画像を変換する原画像変換手段と、前記原画像変換手段によって変換された画像と前記翻訳画像生成手段によって生成された画像とを合成する合成手段をさらに具備することを特徴とする請求項1に記載の画像処理装置である。
【0008】
請求項3の発明は、前記原画像変換手段は、前記書込検出手段によって検出された書き込みの位置に基づいて、前記文字画像を隠蔽する画像に変換することを特徴とする請求項2に記載の画像処理装置である。
【0009】
請求項4の発明は、前記翻訳画像生成手段は、前記書き込みと対応付けされた翻訳結果を隠蔽する画像を生成することを特徴とする請求項1から3のいずれか一項に記載の画像処理装置である。
【0010】
請求項5の発明は、前記書込検出手段は、さらに書き込みの種類を検出し、前記翻訳画像生成手段は、前記書込検出手段によって検出された書き込みの種類に基づいて、前記書き込みと対応付けされた翻訳結果の画像を生成することを特徴とする請求項1から4のいずれか一項に記載の画像処理装置である。
【0011】
請求項6の発明は、前記書込検出手段は、さらに書き込みの種類を検出し、前記翻訳画像生成手段は、前記書込検出手段によって検出された書き込みの種類と同じ種類の書き込みを、前記書き込みと対応付けされた翻訳結果の画像に付することを特徴とする請求項1又は2に記載の画像処理装置である。
【0012】
請求項7の発明は、コンピュータを、書き込みを含む画像を受け付ける画像受付手段と、前記画像受付手段によって受け付けられた画像内の書き込みの位置を検出する書込検出手段と、前記画像受付手段によって受け付けられた画像内の文字画像の位置を検出する文字位置検出手段と、前記文字位置検出手段によって検出された文字画像に対して、文字認識を行う文字認識手段と、前記書込検出手段によって検出された書き込みの位置と前記文字位置検出手段によって検出された文字の位置とを照合して、該書き込みと前記文字認識手段による文字認識結果を対応付けする対応付手段と、前記対応付手段によって前記書き込みと対応付けされた文字認識結果の翻訳であると識別可能に、前記文字認識手段による文字認識結果を翻訳する翻訳手段と、前記書き込みと対応付けされた翻訳結果の画像を前記書き込みとは対応付けされていない翻訳結果の画像とは異なる形式で出力されるように生成する翻訳画像生成手段と、前記翻訳画像生成手段によって生成された画像を出力する翻訳画像出力手段として機能させることを特徴とする画像処理プログラムである。
【発明の効果】
【0013】
請求項1の画像処理装置によれば、画像を文字認識し、その文字認識結果を翻訳し、さらにその翻訳結果の画像を生成する場合にあって、元の画像に対して書き込みがあるとき、その書き込みの画像部分を書き込みが行われていない画像部分とは区別して翻訳結果の画像に反映させることができる。
【0014】
請求項2の画像処理装置によれば、書き込みが行われた画像部分に対する翻訳を行った後に、元の画像を変換した画像とその翻訳画像を共に提示することができる。
【0015】
請求項3の画像処理装置によれば、元の画像から書き込み部分を隠蔽することができる。
【0016】
請求項4の画像処理装置によれば、書き込みが行われた隠蔽すべき画像部分に対する翻訳の質劣化を抑制して、その書き込みに対応する翻訳結果を隠蔽することができる。
【0017】
請求項5の画像処理装置によれば、書き込みの種類に応じた翻訳画像を提示できる。
【0018】
請求項6の画像処理装置によれば、元の画像と同じ書き込みを、対応する翻訳画像に対して施すことができる。
【0019】
請求項7の画像処理プログラムによれば、画像を文字認識し、その文字認識結果を翻訳し、さらにその翻訳結果の画像を生成する場合にあって、元の画像に対して書き込みがあるとき、その書き込みの画像部分を書き込みが行われていない画像部分とは区別して翻訳結果の画像に反映させることができる。
【発明を実施するための最良の形態】
【0020】
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、コンピュータ・プログラム、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能にほぼ一対一に対応しているが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールにほかのモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続のほか、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。「予め定められた」とは、対象としている処理の前であることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。
【0021】
本実施の形態は、図1に示すように、画像受付モジュール110、抽出・認識処理モジュール120、対応付モジュール130、翻訳モジュール140、画像生成モジュール150、出力モジュール160を有している。
【0022】
画像受付モジュール110は、抽出・認識処理モジュール120と接続されており、画像を受け付けて、その画像を抽出・認識処理モジュール120へ渡す。画像を受け付けるとは、スキャナで画像を読み込むこと、ファックスで画像を受信すること、画像データベース等から画像を読み出すこと等が含まれる。画像には、文字画像のほかに、利用者による書き込みが含まれている。その画像は、1枚であってもよいし、複数枚であってもよい。また、画像の内容として、ビジネス用に用いられる文書、広告宣伝用のパンフレット等であってもよい。この画像は、翻訳対象となる画像である。また、その画像に含まれている書き込みとは、例えば、具体的には、文書を公開するに際して、その文書に記載されている情報を隠蔽する箇所を指し示すために加筆された画像、又はその文書に記載されている情報の中で、重要であることを伝達すること、注意を促すこと等のために加筆された画像をいい。それは、手書きであると否とにかかわらず、色つきペンで記載された下線、囲み線等、半透明色のマーカー(蛍光ペン等)で塗りつぶされたもの等がある。なお、画像内の文字画像を塗りつぶす場合は、その文字画像を読み取れる程度(文字認識が可能な程度)の塗りつぶしである。
【0023】
抽出・認識処理モジュール120は、画像受付モジュール110、対応付モジュール130と接続されており、書込検出モジュール121、文字処理モジュール122を有している。抽出・認識処理モジュール120は、画像受付モジュール110から画像を受け取り、その画像内にある書き込みの位置を検出して、文字画像の位置を検出して、文字画像を認識する。そして、その検出結果と文字認識結果を対応付モジュール130に渡す。
【0024】
書込検出モジュール121は、画像受付モジュール110によって受け付けられた画像内の利用者の書き込みの位置を検出する。書き込みの位置は、例えば、具体的には、その画像を色相分離して、予め定められた色の画像を抽出して、その座標を検出するようにしてもよい。また、下線等の線状の画像を認識して、その座標を検出するようにしてもよい。そして、その検出結果を対応付モジュール130に渡す。さらに、書込検出モジュール121は、書き込みの種類を検出するようにしてもよい。書き込みの種類としては、例えば、具体的には、その書き込みの色、形状(線状、領域等)、文字との関係(文字を含む領域、文字の下に引かれた線等)等がある。検出処理としては、色相分離後の色の解析、縦横比の解析、レイアウト検出モジュール123によって検出された文字との位置関係の解析等によって行う。
【0025】
図3は、書込検出モジュール121が検出した書き込みを表す指定箇所テーブル300のデータ構造例を示す説明図である。指定箇所テーブル300は、ID欄310、色欄320、位置情報欄330を有している。ID欄310は、その書き込みを一意に識別する識別子を記憶する。色欄320は、その書き込みの種類として色を記憶する。位置情報欄330は、その書き込みの位置を記憶し、X座標欄331、Y座標欄332、幅欄333、高さ欄334を有している。X座標欄331、Y座標欄332はその書き込みがある領域(例えば、矩形)の左上の座標を記憶し、幅欄333はその領域の幅を記憶し、高さ欄334はその領域の高さを記憶する。座標は、その画像内における絶対座標(画像内の左上を原点として、右方向にX軸、下方向にY軸を対応)のほか、相対座標であってもよい。
【0026】
文字処理モジュール122は、画像受付モジュール110から画像を受け取り、その画像内にある文字画像の位置を含むレイアウトを検出して、文字画像を認識する。そして、その文字画像の位置と文字認識結果を対応付モジュール130に渡す。文字処理モジュール122は、レイアウト検出モジュール123、文字認識モジュール124を有している。
【0027】
レイアウト検出モジュール123は、画像受付モジュール110によって受け付けられた画像内の文字画像の位置を検出する。文字画像の位置検出は、一般的に知られている文字認識技術における文字画像の抽出処理を用いればよい。例えば、画像内の横方向又は縦方向における黒画素のヒストグラム(黒画素の頻度分布)を生成して、その頻度が予め定められた閾値以上である領域を抽出することによって、行を抽出して、その行内における縦方向又は横方向における黒画素のヒストグラムを生成して、文字画像を抽出する。また、空白領域と予め定められた文字画像の大きさを用いて文字画像を抽出するようにしてもよい。さらに、画像内のレイアウト抽出の技術を用いて、文字画像の位置を検出するようにしてもよい。その場合は、文字画像によって構成されている文章領域のみならず、図形、表等を対象とすることもできる。そして、その検出結果である文字画像の位置を文字認識モジュール124に渡す。
【0028】
文字認識モジュール124は、レイアウト検出モジュール123によって検出された文字画像に対して、文字認識を行う。文字認識処理は、一般的に知られている文字認識技術を用いればよい。例えば、その文字画像の特徴(線の数等)を抽出して、特徴空間における位置を辞書内の文字と比較して、文字認識(文字コードの対応付け)を行うようにしてもよい。そして、文字画像の位置とその文字認識結果を対応させて対応付モジュール130に渡す。
【0029】
図4は、文字処理モジュール122による処理結果である文字位置テーブル400のデータ構造例を示す説明図である。文字位置テーブル400は、文章領域ID欄410、文章領域位置欄420、文字ID欄430、文字コード欄440、文字位置欄450を有している。文章領域ID欄410は、その画像内の文章領域を一意に識別する識別子を記憶する。文章領域位置欄420は、その文章領域の位置を記憶し、X座標欄421、Y座標欄422、幅欄423、高さ欄424を有している。X座標欄421、Y座標欄422はその文章領域(例えば、矩形)の左上の座標を記憶し、幅欄423はその文章領域の幅を記憶し、高さ欄424はその文章領域の高さを記憶する。また、文字ID欄430は、その文章領域内にある文字画像を一意に識別する識別子を記憶する。文字コード欄440は、その文字画像に対応する文字認識モジュール124による文字認識結果(文字コード)を記憶する。文字位置欄450は、その文字画像の位置を記憶し、X座標欄451、Y座標欄452、幅欄453、高さ欄454を有している。X座標欄451、Y座標欄452はその文字画像(例えば、矩形)の左上の座標を記憶し、幅欄453はその文字画像の幅を記憶し、高さ欄454はその文字画像の高さを記憶する。なお、文章領域ID欄410、文章領域位置欄420、文字ID欄430、文字位置欄450内の内容は主にレイアウト検出モジュール123によって生成され、文字コード欄440の内容は主に文字認識モジュール124によって生成される。また、文字認識モジュール124による文字認識結果に応じて、その文字画像の抽出をやり直して、文字位置欄450内の内容を修正するようにしてもよい。
【0030】
対応付モジュール130は、抽出・認識処理モジュール120、翻訳モジュール140と接続されている。書込検出モジュール121によって検出された書き込みの位置とレイアウト検出モジュール123によって検出された文字の位置とを照合して、その書き込みと文字認識モジュール124による文字認識結果を対応付けする。そして、文字認識結果及び対応付けの結果を翻訳モジュール140に渡す。
【0031】
つまり、書き込みの位置に該当する文字の位置を探索する。この探索には、書き込みの位置と一致する文字の位置のほかに、書き込みの領域と文字の領域とが重なりあう場合、書き込みの位置の近傍に文字の位置があること等を含む。なお、近傍には、対象の書き込みの位置の周囲が含まれ、具体的には対象の書き込みの位置から予め定められた距離内であることをいう。距離の測定は、書き込みの中心から文字の中心までの距離、書き込みの周囲から文字の周囲までの距離(両者間の最短距離)等であってもよい。
【0032】
そして、その文字の位置に対応する文字認識結果(書き込みが行われている文字)を抽出する。例えば、具体的には、文字認識結果をHTML(Hypertext Markup Language)等の記述言語で表現する場合、書き込みが行われている文字をタグ(書き込みが行われていることを表す予約語)で囲むようにしてもよい。また、図4の例に示した文字位置テーブル400のようなテーブル形式にする場合は、書き込みが行われている文字か否かを表す欄を設けるようにしてもよい。
また、書き込みが行われている文字は、その言語において意味を有する文字列を構成しているか否かを判断するようにしてもよい。意味を有する文字列とは、例えば、単語、文節、文章等がある。また、その判断は、予め用意した単語辞書に記憶されているものであるか、構文解析等によって抽出できるものであるか等によって行う。そして、意味を有する文字列を構成していないと判断した場合は、意味を有する文字列となるまで、前後の文字を付加又は削除して、書き込みが行われている文字としてもよい。そして、書き込みが行われている文字を修正した場合は、その修正に応じて、書込検出モジュール121による検出結果をも修正するようにしてもよい。
【0033】
翻訳モジュール140は、対応付モジュール130、画像生成モジュール150と接続されている。対応付モジュール130によって書き込みと対応付けされた文字認識結果の翻訳であると識別可能に、文字認識モジュール124による文字認識結果を翻訳する。そして、その翻訳結果を画像生成モジュール150に渡す。
つまり、対応付モジュール130から渡された文字認識結果を翻訳する。翻訳処理は、一般的に知られている(機械)翻訳技術を用いればよい。例えば、文字認識結果に対して構文解析を行い、第1の言語の単語と第2の言語の単語とを対応させた辞書を用いて、第2の言語に翻訳する等である。
その翻訳の際に、対応付モジュール130から渡された対応付けの結果を翻訳結果にも反映させるものである。例えば、具体的には、翻訳結果をHTML等の記述言語で表現する場合、書き込みが行われている文字の翻訳結果をタグ(書き込みが行われていることを表す予約語)で囲むようにしてもよい。
【0034】
画像生成モジュール150は、翻訳モジュール140、出力モジュール160と接続されており、原画像変換モジュール151、翻訳画像生成モジュール152、合成モジュール153を有している。翻訳モジュール140から翻訳結果を受け取り、その翻訳結果を含む画像を生成して、出力モジュール160に渡す。なお、画像生成モジュール150が生成する画像は、ページ記述言語等によって記述されたファイルであってもよい。
【0035】
原画像変換モジュール151は、合成モジュール153と接続されており、翻訳モジュール140による翻訳が行われた後に、書込検出モジュール121によって検出された書き込みの位置に基づいて、画像受付モジュール110によって受け付けられた画像内の文字画像を変換する。例えば、具体的には、書込検出モジュール121によって検出された書き込みの位置に基づいて、書き込みが行われている文字画像を隠蔽する画像に変換するようにしてもよい。より具体的には、墨塗りと呼ばれている黒色でその文字画像を塗りつぶすこと、その文字画像の代替として予め定められた文字画像に変換すること等がある。そして、変換した画像を合成モジュール153に渡す。
【0036】
翻訳画像生成モジュール152は、合成モジュール153と接続されており、書き込みと対応付けされた翻訳結果の画像を書き込みとは対応付けされていない翻訳結果の画像とは異なる形式で出力されるように生成する。そして、生成した画像を合成モジュール153に渡す。例えば、具体的には、書き込みと対応付けされた翻訳結果を隠蔽する画像を生成するようにしてもよい。これは、翻訳結果の質を担保しつつ、翻訳画像に隠蔽を施したい場合に用いられるものである。例えば、元の画像から文字を隠蔽してしまうと、その文字は対象外となるため、文字認識、翻訳した場合は、翻訳結果の質低下がみられる。しかし、本実施の形態は、元の画像を隠蔽する部分も含めて文字認識、翻訳して、その結果から隠蔽を施したい部分に対応する翻訳部分を隠蔽するものである。
【0037】
また、翻訳画像生成モジュール152は、書込検出モジュール121によって検出された書き込みの種類に基づいて、その書き込みと対応付けされた翻訳結果の画像を生成するようにしてもよい。例えば、具体的には、書き込みが赤色であるならば、書き込みと対応付けされた翻訳結果を黒色で塗りつぶし、書き込みが青色であるならば、書き込みと対応付けされた翻訳結果を予め定められた文字に置き換える等することである。
【0038】
また、翻訳画像生成モジュール152は、書込検出モジュール121によって検出された書き込みの種類と同じ種類の書き込みを、その書き込みと対応付けされた翻訳結果の画像に付するようにしてもよい。例えば、具体的には、書き込みが赤色のマーカーであるならば、書き込みと対応付けされた翻訳結果にそれと同等の赤色のマーカーで塗りつぶされたような画像を付するようにするものである。同様に、書き込みが青色の下線であるならば、書き込みと対応付けされた翻訳結果にそれと同等の下線を付するものである。これは、元の画像と翻訳画像との間で対応付けを明確にする場合に行うものである。
【0039】
合成モジュール153は、原画像変換モジュール151、翻訳画像生成モジュール152と接続されており、原画像変換モジュール151によって変換された画像と翻訳画像生成モジュール152によって生成された画像とを合成する。そして、その合成した画像を出力モジュール160に渡す。
ただし、翻訳画像のみを出力する場合は、原画像変換モジュール151、合成モジュール153はなくてもよい。その場合は、翻訳画像生成モジュール152が生成した画像を出力モジュール160に渡す。
【0040】
出力モジュール160は、画像生成モジュール150と接続されている。画像生成モジュール150から画像を受け取り、その画像を出力する。画像を出力するとは、プリンタ等の印刷装置で印刷すること、ディスプレイ等の表示装置に表示すること、ファックス等の画像送信装置で画像を送信すること、画像データベース等の画像記憶装置へ画像を書き込むこと等が含まれる。
【0041】
図2は、本実施の形態による第1の処理例を示すフローチャートである。この第1の処理例は、隠蔽のために書き込みが行われた画像を対象としており、その翻訳画像内の対応する文字画像を隠蔽するものである。これは、文書を違う言語で公開するに際して、その文書に記載されている情報を隠蔽する場合等に用いられるものである。
【0042】
ステップS202では、書込検出モジュール121が、画像受付モジュール110によって受け付けられた画像を色相分離し、利用者の書き込みであるマーカーの位置を含めたマーカー情報を抽出する。マーカー情報には、そのマーカーの位置のほかに、色等を含めてもよい。
ステップS204では、レイアウト検出モジュール123が、画像受付モジュール110によって受け付けられた画像に対して、文章領域を抽出して、文字画像の位置を抽出する。そして、文字認識モジュール124が、文字画像の位置にある文字画像に対して、文字認識処理を実行する。
ステップS206では、対応付モジュール130が、ステップS204で文字認識した文字画像の位置情報とステップS202で抽出したマーカー情報内の位置情報とを照合する。
【0043】
ステップS208では、対応付モジュール130が、マーカーと位置が重なっている文字を指定文字として保存する。例えば、より具体的には、マーカーされている文字をタグで囲み、文字認識結果をHTMLで記述することが該当する。
ステップS210では、翻訳モジュール140が、機械翻訳を実行する。その際に、マーカーされている文字の翻訳結果であるとわかるような形式で、次の処理に渡す。例えば、より具体的には、マーカーされている文字の翻訳結果をタグで囲み、翻訳結果をHTMLで記述することが該当する。
ステップS212では、画像生成モジュール150が、出力の形態として、置換翻訳(元の画像の文字画像を残すことをせずに、翻訳結果を上書きするようにした出力、図5(b)参照)か、ルビ風翻訳(元の画像の文字画像はそのまま残し、翻訳結果をルビのように対応させるようにして出力、図6(b)参照)かを判断する。これは、本実施の形態の利用者による操作又は予め定められた出力の形態に応じて、判断されるものである。
【0044】
ステップS214では、原画像変換モジュール151が、画像受付モジュール110が受け付けた画像から、ステップS202で抽出したマーカー情報を用いて、そのマーカー色の領域を除去する。
ステップS216では、原画像変換モジュール151が、さらに、その画像内から文字部分を除去する。つまり、ステップS214、ステップS216の処理によって、画像内から文字画像部分を除去するものである。これによって、画像内には文字画像以外の画像(例えば、図形、写真画像等)が残る。
ステップS218では、原画像変換モジュール151が、画像受付モジュール110が受け付けた画像から、ステップS202で抽出したマーカー情報を用いて、そのマーカー位置にある文字画像を黒色等で塗りつぶす。つまり、元の画像をも出力する場合であるので、マーカーされている文字を隠蔽するものである。もちろん、黒色で塗りつぶすことのほかに、予め定められた文字列の画像に置換すること等がある。
【0045】
ステップS220では、翻訳画像生成モジュール152が、翻訳結果の文字画像を、元の画像の文章領域に合わせた配置を行う。その際、置換翻訳の出力の形態である場合は、文章領域内にその翻訳結果の言語に合わせた配置を行う。ルビ風翻訳の出力の形態である場合は、文章領域内には元の文字画像があるので、その行間に翻訳結果の文字画像を配置する。
ステップS222では、翻訳画像生成モジュール152が、マーカーが示した翻訳文字列(つまり、マーカーされた文字の翻訳結果)に指定の効果を与える。ここで指定の効果とは、マーカーの種類に応じて、翻訳文字列を隠蔽するものであり、例えば、黒色で塗りつぶすこと、予め定められた文字列の画像に置換すること等がある。
ステップS224では、合成モジュール153が、ステップS216(文字画像が除去された画像)又はステップS218(マーカーされた文字画像が除去された画像)で生成された背景となる画像とステップS222で生成された画像(翻訳画像)とを合成する。そして、出力モジュール160が、その合成した画像を出力する。
【0046】
図5は、本実施の形態による第1−1の処理例を示す説明図である。これは、図2の例に示したフローチャートのステップS212で、置換翻訳が選択された場合の処理例を示すものである。図5(a)の例に示す原画像510は本実施の形態の画像受付モジュール110によって受け付けられた画像であり、図5(b)の例に示す翻訳画像520は本実施の形態の出力モジュール160によって出力された画像である。
【0047】
図5(a)の例に示す原画像510は、マーカー領域511、マーカー領域512を有している。つまり、利用者によって、開示したくない文字列である「私たちが目指すもの」、「私たちが大切にすること」に、マーカーによる書き込みが行われている。また、マーカー領域511とマーカー領域512とは、異なる色のマーカーによる書き込みである。
図5(b)の例に示す翻訳画像520は、原画像510を文字認識した後に翻訳したものであり、マスキング領域521、マスキング領域522A、522Bを有している。マスキング領域521は、マーカー領域511の色に応じて、マーカー領域511の翻訳部分を黒色で隠蔽しており、マスキング領域522A、522Bは、マーカー領域512の色に応じて、マーカー領域512の翻訳部分を、その色に対応付けされた「言葉A」で置換することによって隠蔽している。
【0048】
図6は、本実施の形態による第1−2の処理例を示す説明図である。これは、図2の例に示したフローチャートのステップS212で、ルビ風翻訳が選択された場合の処理例を示すものである。図6(a)の例に示す原画像610は本実施の形態の画像受付モジュール110によって受け付けられた画像であり、図6(b)の例に示す翻訳画像620は本実施の形態の出力モジュール160によって出力された画像である。
【0049】
原画像610は、マーカー領域611、マーカー領域612を有している。図5(a)の例に示した原画像510と同等のものである。
翻訳画像620は、原画像610を文字認識した後に翻訳したものであり、原画像610内の文字列の行間に翻訳文を表示している。そして、マスキング領域621、マスキング領域622A、622B、マスキング領域631、マスキング領域632を有している。つまり、原画像610のマーカー領域611とマーカー領域612を隠蔽するために、マスキング領域631とマスキング領域632があり、その翻訳部分を隠蔽するためにマスキング領域621、マスキング領域622A、622Bがある。また、マーカー領域611とマーカー領域612の色に応じて、マスキング領域621とマスキング領域622A、622Bとの形態を異ならせている。
【0050】
図7は、本実施の形態による第2の処理例を示すフローチャートである。この第2の処理例は、重要であることを伝達すること、注意を促すこと等のために書き込みが行われた画像を対象としており、その翻訳画像内の対応する文字画像を書き込みが行われていない文字画像とは異なるような表示にするものである。これは、文書を翻訳するに際して、その文書の書き込みを翻訳文書にも対応させて記載する場合等に用いられるものである。
【0051】
図7の例に示すフローチャートは、図2の例に示したフローチャートと比べると、ステップS702からステップS716までの処理は、ステップS202からステップS216までの処理と同等のものであり、ステップS718からステップS722までの処理もステップS220からステップS224までの処理と同等のものであり、ステップS218に該当する処理がないものである。つまり、図2に示した第1の処理例は、書き込み部分の隠蔽をするものであり、元の画像にマーカーで書き込みが行われた部分も隠蔽しなければならないが、図7に示す第2の処理例は、元の画像にマーカーで書き込みが行われた部分はそのままでよいからである。
【0052】
なお、ステップS712で、ルビ風翻訳と判断された場合は、ステップS718の処理に移るため、つまり、ステップS218に対応する処理が不要であるため、原画像変換モジュール151による処理が不要となる。
【0053】
図8は、本実施の形態による第2−1の処理例を示す説明図である。これは、図7の例に示したフローチャートのステップS712で、置換翻訳が選択された場合の処理例を示すものである。図8(a)の例に示す原画像810は本実施の形態の画像受付モジュール110によって受け付けられた画像であり、図8(b)の例に示す翻訳画像820は本実施の形態の出力モジュール160によって出力された画像である。
【0054】
図8(a)の例に示す原画像810は、マーカー領域811、マーカー領域812を有している。図5(a)の例に示した原画像510と同等のものである。つまり、利用者によって、文字列「私たちが目指すもの」、「私たちが大切にすること」に、マーカーによる書き込みが行われている。また、マーカー領域511とマーカー領域512とは、異なる色のマーカーによる書き込みである。ただし、これらの文字列は隠蔽対象ではなく、重要であること、注意を促す等の対象である。
図8(b)の例に示す翻訳画像820は、原画像810を文字認識した後に翻訳したものであり、文字修飾821、文字修飾822A、822Bを有している。文字修飾821には、マーカー領域811の色に応じて、マーカー領域811と同等の色の領域で書き込みの画像を付しており、文字修飾822A、822Bは、マーカー領域812の色に応じて、マーカー領域812の翻訳部分に、その色に対応付けされた下線の書き込み画像を付している。
【0055】
図9は、本実施の形態による第2−2の処理例を示す説明図である。これは、図7の例に示したフローチャートのステップS712で、ルビ風翻訳が選択された場合の処理例を示すものである。図9(a)の例に示す原画像910は本実施の形態の画像受付モジュール110によって受け付けられた画像であり、図9(b)の例に示す翻訳画像920は本実施の形態の出力モジュール160によって出力された画像である。
【0056】
図9(a)の例に示す原画像910は、マーカー領域911、マーカー領域912を有している。図8(a)の例に示した原画像810と同等のものである。
図9(b)の例に示す翻訳画像920は、原画像910を文字認識した後に翻訳したものであり、原画像910内の文字列の行間に翻訳文を表示している。そして、文字修飾921、文字修飾922A、922B、文字修飾931、文字修飾932を有している。つまり、文字修飾931と文字修飾932は、原画像910のマーカー領域911とマーカー領域912そのままであり、対応する翻訳部分に文字修飾921、文字修飾922A、922Bがある。また、マーカー領域911とマーカー領域912の色に応じて、文字修飾921と文字修飾922A、922Bとの形態を異ならせている。
【0057】
図10を参照して、本実施の形態のハードウェア構成例について説明する。図10に示す構成は、例えばパーソナルコンピュータ(PC)などによって構成されるものであり、スキャナ等のデータ読み取り部1017と、プリンタなどのデータ出力部1018を備えたハードウェア構成例を示している。
【0058】
CPU(Central Processing Unit)1001は、前述の実施の形態において説明した各種のモジュール、すなわち、抽出・認識処理モジュール120、対応付モジュール130、翻訳モジュール140、画像生成モジュール150等の各モジュールの実行シーケンスを記述したコンピュータ・プログラムにしたがった処理を実行する制御部である。
【0059】
ROM(Read Only Memory)1002は、CPU1001が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)1003は、CPU1001の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス1004により相互に接続されている。
【0060】
ホストバス1004は、ブリッジ1005を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス1006に接続されている。
【0061】
キーボード1008、マウス等のポインティングデバイス1009は、操作者により操作される入力デバイスである。ディスプレイ1010は、液晶表示装置又はCRT(Cathode Ray Tube)などがあり、各種情報をテキストやイメージ情報として表示する。
【0062】
HDD(Hard Disk Drive)1011は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU1001によって実行するプログラムや情報を記録又は再生させる。ハードディスクには、画像受付モジュール110が受け付けた画像や翻訳モジュール140による翻訳結果などが格納される。さらに、その他の各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。
【0063】
ドライブ1012は、装着されている磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体1013に記録されているデータ又はプログラムを読み出して、そのデータ又はプログラムを、インタフェース1007、外部バス1006、ブリッジ1005、及びホストバス1004を介して接続されているRAM1003に供給する。リムーバブル記録媒体1013も、ハードディスクと同様のデータ記録領域として利用可能である。
【0064】
接続ポート1014は、外部接続機器1015を接続するポートであり、USB、IEEE1394等の接続部を持つ。接続ポート1014は、インタフェース1007、及び外部バス1006、ブリッジ1005、ホストバス1004等を介してCPU1001等に接続されている。通信部1016は、ネットワークに接続され、外部とのデータ通信処理を実行する。データ読み取り部1017は、例えばスキャナであり、ドキュメントの読み取り処理を実行する。データ出力部1018は、例えばプリンタであり、ドキュメントデータの出力処理を実行する。
【0065】
なお、図10に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図10に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図10に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
【0066】
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blue−ray Disk)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、ほかのプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
【図面の簡単な説明】
【0067】
【図1】本実施の形態の構成例についての概念的なモジュール構成図である。
【図2】本実施の形態による第1の処理例を示すフローチャートである。
【図3】指定箇所テーブルのデータ構造例を示す説明図である。
【図4】文字位置テーブルのデータ構造例を示す説明図である。
【図5】本実施の形態による第1−1の処理例を示す説明図である。
【図6】本実施の形態による第1−2の処理例を示す説明図である。
【図7】本実施の形態による第2の処理例を示すフローチャートである。
【図8】本実施の形態による第2−1の処理例を示す説明図である。
【図9】本実施の形態による第2−2の処理例を示す説明図である。
【図10】本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
【符号の説明】
【0068】
110…画像受付モジュール
120…抽出・認識処理モジュール
121…書込検出モジュール
122…文字処理モジュール
123…レイアウト検出モジュール
124…文字認識モジュール
130…対応付モジュール
140…翻訳モジュール
150…画像生成モジュール
151…原画像変換モジュール
152…翻訳画像生成モジュール
153…合成モジュール
160…出力モジュール
【特許請求の範囲】
【請求項1】
書き込みを含む画像を受け付ける画像受付手段と、
前記画像受付手段によって受け付けられた画像内の書き込みの位置を検出する書込検出手段と、
前記画像受付手段によって受け付けられた画像内の文字画像の位置を検出する文字位置検出手段と、
前記文字位置検出手段によって検出された文字画像に対して、文字認識を行う文字認識手段と、
前記書込検出手段によって検出された書き込みの位置と前記文字位置検出手段によって検出された文字の位置とを照合して、該書き込みと前記文字認識手段による文字認識結果を対応付けする対応付手段と、
前記対応付手段によって前記書き込みと対応付けされた文字認識結果の翻訳であると識別可能に、前記文字認識手段による文字認識結果を翻訳する翻訳手段と、
前記書き込みと対応付けされた翻訳結果の画像を前記書き込みとは対応付けされていない翻訳結果の画像とは異なる形式で出力されるように生成する翻訳画像生成手段と、
前記翻訳画像生成手段によって生成された画像を出力する翻訳画像出力手段
を具備することを特徴とする画像処理装置。
【請求項2】
前記翻訳手段による翻訳が行われた後に、前記書込検出手段によって検出された書き込みの位置に基づいて、前記画像受付手段によって受け付けられた画像内の文字画像を変換する原画像変換手段と、
前記原画像変換手段によって変換された画像と前記翻訳画像生成手段によって生成された画像とを合成する合成手段
をさらに具備することを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記原画像変換手段は、前記書込検出手段によって検出された書き込みの位置に基づいて、前記文字画像を隠蔽する画像に変換する
ことを特徴とする請求項2に記載の画像処理装置。
【請求項4】
前記翻訳画像生成手段は、前記書き込みと対応付けされた翻訳結果を隠蔽する画像を生成する
ことを特徴とする請求項1から3のいずれか一項に記載の画像処理装置。
【請求項5】
前記書込検出手段は、さらに書き込みの種類を検出し、
前記翻訳画像生成手段は、前記書込検出手段によって検出された書き込みの種類に基づいて、前記書き込みと対応付けされた翻訳結果の画像を生成する
ことを特徴とする請求項1から4のいずれか一項に記載の画像処理装置。
【請求項6】
前記書込検出手段は、さらに書き込みの種類を検出し、
前記翻訳画像生成手段は、前記書込検出手段によって検出された書き込みの種類と同じ種類の書き込みを、前記書き込みと対応付けされた翻訳結果の画像に付する
ことを特徴とする請求項1又は2に記載の画像処理装置。
【請求項7】
コンピュータを、
書き込みを含む画像を受け付ける画像受付手段と、
前記画像受付手段によって受け付けられた画像内の書き込みの位置を検出する書込検出手段と、
前記画像受付手段によって受け付けられた画像内の文字画像の位置を検出する文字位置検出手段と、
前記文字位置検出手段によって検出された文字画像に対して、文字認識を行う文字認識手段と、
前記書込検出手段によって検出された書き込みの位置と前記文字位置検出手段によって検出された文字の位置とを照合して、該書き込みと前記文字認識手段による文字認識結果を対応付けする対応付手段と、
前記対応付手段によって前記書き込みと対応付けされた文字認識結果の翻訳であると識別可能に、前記文字認識手段による文字認識結果を翻訳する翻訳手段と、
前記書き込みと対応付けされた翻訳結果の画像を前記書き込みとは対応付けされていない翻訳結果の画像とは異なる形式で出力されるように生成する翻訳画像生成手段と、
前記翻訳画像生成手段によって生成された画像を出力する翻訳画像出力手段
として機能させることを特徴とする画像処理プログラム。
【請求項1】
書き込みを含む画像を受け付ける画像受付手段と、
前記画像受付手段によって受け付けられた画像内の書き込みの位置を検出する書込検出手段と、
前記画像受付手段によって受け付けられた画像内の文字画像の位置を検出する文字位置検出手段と、
前記文字位置検出手段によって検出された文字画像に対して、文字認識を行う文字認識手段と、
前記書込検出手段によって検出された書き込みの位置と前記文字位置検出手段によって検出された文字の位置とを照合して、該書き込みと前記文字認識手段による文字認識結果を対応付けする対応付手段と、
前記対応付手段によって前記書き込みと対応付けされた文字認識結果の翻訳であると識別可能に、前記文字認識手段による文字認識結果を翻訳する翻訳手段と、
前記書き込みと対応付けされた翻訳結果の画像を前記書き込みとは対応付けされていない翻訳結果の画像とは異なる形式で出力されるように生成する翻訳画像生成手段と、
前記翻訳画像生成手段によって生成された画像を出力する翻訳画像出力手段
を具備することを特徴とする画像処理装置。
【請求項2】
前記翻訳手段による翻訳が行われた後に、前記書込検出手段によって検出された書き込みの位置に基づいて、前記画像受付手段によって受け付けられた画像内の文字画像を変換する原画像変換手段と、
前記原画像変換手段によって変換された画像と前記翻訳画像生成手段によって生成された画像とを合成する合成手段
をさらに具備することを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記原画像変換手段は、前記書込検出手段によって検出された書き込みの位置に基づいて、前記文字画像を隠蔽する画像に変換する
ことを特徴とする請求項2に記載の画像処理装置。
【請求項4】
前記翻訳画像生成手段は、前記書き込みと対応付けされた翻訳結果を隠蔽する画像を生成する
ことを特徴とする請求項1から3のいずれか一項に記載の画像処理装置。
【請求項5】
前記書込検出手段は、さらに書き込みの種類を検出し、
前記翻訳画像生成手段は、前記書込検出手段によって検出された書き込みの種類に基づいて、前記書き込みと対応付けされた翻訳結果の画像を生成する
ことを特徴とする請求項1から4のいずれか一項に記載の画像処理装置。
【請求項6】
前記書込検出手段は、さらに書き込みの種類を検出し、
前記翻訳画像生成手段は、前記書込検出手段によって検出された書き込みの種類と同じ種類の書き込みを、前記書き込みと対応付けされた翻訳結果の画像に付する
ことを特徴とする請求項1又は2に記載の画像処理装置。
【請求項7】
コンピュータを、
書き込みを含む画像を受け付ける画像受付手段と、
前記画像受付手段によって受け付けられた画像内の書き込みの位置を検出する書込検出手段と、
前記画像受付手段によって受け付けられた画像内の文字画像の位置を検出する文字位置検出手段と、
前記文字位置検出手段によって検出された文字画像に対して、文字認識を行う文字認識手段と、
前記書込検出手段によって検出された書き込みの位置と前記文字位置検出手段によって検出された文字の位置とを照合して、該書き込みと前記文字認識手段による文字認識結果を対応付けする対応付手段と、
前記対応付手段によって前記書き込みと対応付けされた文字認識結果の翻訳であると識別可能に、前記文字認識手段による文字認識結果を翻訳する翻訳手段と、
前記書き込みと対応付けされた翻訳結果の画像を前記書き込みとは対応付けされていない翻訳結果の画像とは異なる形式で出力されるように生成する翻訳画像生成手段と、
前記翻訳画像生成手段によって生成された画像を出力する翻訳画像出力手段
として機能させることを特徴とする画像処理プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【公開番号】特開2010−55353(P2010−55353A)
【公開日】平成22年3月11日(2010.3.11)
【国際特許分類】
【出願番号】特願2008−219338(P2008−219338)
【出願日】平成20年8月28日(2008.8.28)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
【公開日】平成22年3月11日(2010.3.11)
【国際特許分類】
【出願日】平成20年8月28日(2008.8.28)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
[ Back to top ]