情報処理装置及び情報処理プログラム

【課題】画像内の文字を認識して翻訳させる場合にあって、文字以外の画像領域を文字として認識して翻訳させることを抑制する情報処理装置を提供する。
【解決手段】情報処理装置の文字認識手段は、画像内の文字を認識し、認識文字特徴取得手段は、前記文字認識手段によって認識された結果である認識文字の特徴を取得し、翻訳判断手段は、前記認識文字特徴取得手段によって取得された特徴に基づいて、前記認識文字を翻訳すべきか否かを判断する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、情報処理装置及び情報処理プログラムに関する。
【背景技術】
【０００２】
例えば、主に第１の言語で記載された文章（以降、原文とも称す。ただし、必ずしも文章、文の形態を備えている必要はなく、第１の言語で記載された文字である）を持つ紙文書をスキャンし、得られた画像を解析して文章領域を抽出し、その文章領域に対して文字認識を行い、得られた文字認識の結果であるテキストを第２の言語に翻訳した文章（以降、翻訳文とも称す。必ずしも文章、文の形態を備えている必要はなく、第２の言語である文字である）をページにレイアウトして出力する翻訳装置がある。
【０００３】
これに関連する技術として、例えば、特許文献１には、紙に打ち出してある文書を機械翻訳機上で翻訳する手段を提供することを目的とし、原稿を読み取る画像入力部と、画像入力部で得られたイメージデータを記憶する原稿イメージ記憶部と、原稿イメージ記憶部に記憶されているイメージデータに対してレイアウト認識を行うレイアウト認識手段と、レイアウト認識で得られた文字認識領域を記憶する原文領域記憶部と、図形領域記憶部と、文字認識領域の文字に対応するコードデータを出力する文字認識実行部と、原文記憶部と、翻訳手段と、訳文記憶部と、原文領域記憶部に記載されている領域に訳文記憶部に記載されている訳文を埋め込む手段とを構成したことが開示されている。
【０００４】
また、例えば、特許文献２には、入力された原文書のテキストイメージの行間に、テキストの翻訳結果を出力する手段と、入力された原文書のテキストイメージの行間が狭い場合、原文書のテキストをフォントサイズを小さくして再描画し、訳文を出力するに必要な行間を得る手段とを有することを特徴とする機械翻訳装置が開示されている。
【０００５】
また、例えば、特許文献３には、原稿画像中に存在する単語に対応する訳語の位置を明確にし、また、訳語付加により出力画像の内容が大幅に変更されたとしても、複写画像の内容を読みやすくレイアウトして出力することを目的とし、ＣＰＵは、原稿画像情報と該情報の対訳情報を上下位置に合成するとき、原稿画像情報の情報幅より対訳情報の情報幅が小さくなるように制御することが開示されている。
【０００６】
また、例えば、特許文献４には、第１の言語に基づく第１の文字及び画像を含む原稿を画像入力する原稿入力手段と、この原稿入力手段から画像入力された原稿画像データを解析して文書データ領域と画像データ領域とに領域分離する分離手段と、この分離手段により分離された前記文書データ領域から文字画像を切り出して第１の文字を認識する認識手段と、この認識手段により認識された第１の文字に対応する文字データを第２の言語に基づく第２の文字データに翻訳する翻訳手段と、前記分離手段により領域分離された文書データ領域情報及び前記第２の文字データに基づいてレイアウトされた印刷データを生成するデータ生成手段と、このデータ生成手段により生成された前記印刷データに基づいて第２の文字データと前記原稿画像データをそれぞれ記録媒体の各片面に振り分けて両面印刷する印刷手段を有する画像処理装置が開示されている。
【特許文献１】特開平０８−００６９４８号公報
【特許文献２】特許第３２９４９１９号公報
【特許文献３】特開平０５−３２４７２０号公報
【特許文献４】特許第３６３６４９０号公報
【発明の開示】
【発明が解決しようとする課題】
【０００７】
ところで、画像を読み取って、その画像内の文字を認識して翻訳するような場合にあって、文字以外の画像領域を文字として認識して翻訳してしまい、翻訳の品質及び／または翻訳文書の見栄えを低下させてしまうことがある。
本発明は、かかる課題を解決するようにした情報処理装置及び情報処理プログラムを提供することを目的としている。
【課題を解決するための手段】
【０００８】
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項１の発明は、画像内の文字を認識する文字認識手段と、前記文字認識手段によって認識された結果である認識文字の特徴を取得する認識文字特徴取得手段と、前記認識文字特徴取得手段によって取得された特徴に基づいて、前記認識文字を翻訳すべきか否かを判断する翻訳判断手段を具備することを特徴とする情報処理装置である。
【０００９】
請求項２の発明は、前記翻訳判断手段によって翻訳すべきと判断された場合に、前記認識文字を翻訳する翻訳手段と、前記翻訳手段によって翻訳された結果である翻訳結果の特徴を取得する翻訳結果特徴取得手段と、前記翻訳結果特徴取得手段によって取得された特徴に基づいて、前記翻訳文を出力すべきか否かを判断する出力判断手段を具備することを特徴とする請求項１に記載の情報処理装置である。
【００１０】
請求項３の発明は、画像を受け付ける画像受付手段と、前記出力判断手段によって出力すべきと判断された場合に、前記画像受付手段によって受け付けられた画像の構成に基づいて、前記翻訳結果を出力する出力手段をさらに具備し、前記文字認識手段は、前記画像受付手段によって受け付けられた画像内の文字を認識することを特徴とする請求項２に記載の情報処理装置である。
【００１１】
請求項４の発明は、前記認識文字特徴取得手段は、文字以外の画像を認識した場合の認識文字を含んでいることに関する特徴を取得することを特徴とする請求項１から３のいずれか一項に記載の情報処理装置である。
【００１２】
請求項５の発明は、前記認識文字特徴取得手段は、前記文字以外の画像を認識した場合の認識文字の並びに関する特徴を取得することを特徴とする請求項４に記載の情報処理装置である。
【００１３】
請求項６の発明は、前記認識文字特徴取得手段は、前記認識文字の所定文字数あたりの特徴を取得することを特徴とする請求項１から５のいずれか一項に記載の情報処理装置である。
【００１４】
請求項７の発明は、コンピュータを、画像内の文字を認識する文字認識手段と、前記文字認識手段によって認識された結果である認識文字の特徴を取得する認識文字特徴取得手段と、前記認識文字特徴取得手段によって取得された特徴に基づいて、前記認識文字を翻訳すべきか否かを判断する翻訳判断手段として機能させることを特徴とする情報処理プログラムである。
【発明の効果】
【００１５】
請求項１の情報処理装置によれば、画像内の文字を認識して翻訳させる場合にあって、文字以外の画像領域を文字として認識して翻訳させることを抑制することができる。
【００１６】
請求項２の情報処理装置によれば、文字以外の画像領域を文字として認識して翻訳すべきであると判断してしまった場合でも、その画像領域に対して翻訳して出力することを抑制することができる。
【００１７】
請求項３の情報処理装置によれば、画像内の文字を認識し翻訳した結果をその画像に合わせて出力する場合にあって、文字以外の画像領域を文字として認識し翻訳して出力することを抑制することができる。
【００１８】
請求項４の情報処理装置によれば、既存の文字認識技術を用いた場合にあっても、文字以外の画像領域を文字として認識し翻訳して出力することを抑制することができる。
【００１９】
請求項５の情報処理装置によれば、請求項４の情報処理装置に比べて、文字以外の画像領域を文字として認識し翻訳して出力することをさらに抑制することができる。
【００２０】
請求項６の情報処理装置によれば、文字画像領域を文字として認識して翻訳させることを抑制することを防ぐようにすることができる。
【００２１】
請求項７の情報処理プログラムによれば、画像内の文字を認識して翻訳させる場合にあって、文字以外の画像領域を文字として認識して翻訳させることを抑制することができる。
【発明を実施するための最良の形態】
【００２２】
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図１は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア（コンピュータ・プログラム）、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、コンピュータ・プログラム、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能にほぼ一対一に対応しているが、実装においては、１モジュールを１プログラムで構成してもよいし、複数モジュールを１プログラムで構成してもよく、逆に１モジュールを複数プログラムで構成してもよい。また、複数モジュールは１コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって１モジュールが複数コンピュータで実行されてもよい。なお、１つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続（データの授受、指示、データ間の参照関係等）を含む。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク（一対一対応の通信接続を含む）等の通信手段で接続されて構成されるほか、１つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。
【００２３】
本実施の形態は、図１に示すように、画像受付モジュール１１０、領域抽出モジュール１１５、行抽出モジュール１２０、文字認識モジュール１２５、認識文字特徴取得モジュール１３０、翻訳判断モジュール１３５、翻訳モジュール１４０、訳文特徴取得モジュール１４５、出力判断モジュール１５０、出力モジュール１５５を有している。
【００２４】
画像受付モジュール１１０は、領域抽出モジュール１１５と接続されており、画像を受け付けて、その画像を領域抽出モジュール１１５へ渡す。画像を受け付けるとは、スキャナで画像を読み込むこと、ファックスで画像を受信すること、画像データベース等から画像を読み出すこと等が含まれる。画像には、２値画像、カラー画像等の多値画像が含まれている。その画像は、１枚であってもよいし、複数枚であってもよい。また、画像の内容として、ビジネス用に用いられる文書、広告宣伝用のパンフレット等であってもよい。
【００２５】
領域抽出モジュール１１５は、画像受付モジュール１１０、行抽出モジュール１２０と接続されており、画像受付モジュール１１０から画像を受け取り、多値画像の場合は２値画像に変換し、その画像から文字画像領域を抽出し、その文字画像領域を行抽出モジュール１２０へ渡す。つまり、画像を文字画像領域と文字画像領域以外の画像領域に分ける。文字画像領域の抽出としては、既存の方法を用いるようにしてよい。例えば、領域内の単位面積あたりの複雑さ、画素値、黒画素数等に基づいて行うようにしてもよい。文字画像領域を渡すとは、抽出した文字画像領域の画像自体を渡すようにしてもよいし、画像受付モジュール１１０から受け取った画像と文字画像領域の座標（例えば、文字画像領域が矩形の場合は、左上角のｘ座標、ｙ座標、幅、高さ）を渡すようにしてもよい。
【００２６】
行抽出モジュール１２０は、領域抽出モジュール１１５、文字認識モジュール１２５と接続されており、領域抽出モジュール１１５から文字画像領域を受け取り、その中から文字行を抽出し、その文字行を文字認識モジュール１２５へ渡す。つまり、文字認識モジュール１２５に処理させるべく、行毎に文字領域を抽出する。ここで、文字行には横書きの文字行、縦書きの文字行を含む。文字行の抽出としては、既存の方法を用いるようにしてよい。例えば、文字画像領域に対して縦方向又は横方向に射影をとり、その黒画素数のヒストグラムから文字行間の境界を取り出すようにしてもよい。
【００２７】
文字認識モジュール１２５は、行抽出モジュール１２０、認識文字特徴取得モジュール１３０と接続されており、行抽出モジュール１２０から行毎に切り出された文字画像を受け取り、その文字画像に対して文字認識を行い、その文字認識された結果である認識文字を認識文字特徴取得モジュール１３０へ渡す。文字認識とは、画像を文字コード（テキスト）に変換することであり、既存の方法を用いるようにしてよい。また、文字コードの他にその文字の大きさ等を認識するようにしてもよい。その場合、認識文字としてその文字の大きさ等を含む。なお、文字認識モジュール１２５は、領域抽出モジュール１１５又は行抽出モジュール１２０による誤り、つまり、本来文字画像領域ではない画像領域を文字認識の対象とする場合があり得る。
画像受付モジュール１１０〜文字認識モジュール１２５の処理例については、図８〜１０等を用いて後述する。
【００２８】
認識文字特徴取得モジュール１３０は、文字認識モジュール１２５、翻訳判断モジュール１３５と接続されている。文字認識モジュール１２５によって認識された結果である認識文字の特徴を取得し、その認識文字の特徴を翻訳判断モジュール１３５へ渡す。ここで、認識文字の特徴とは、その認識文字の主にテキストとしての特徴のことをいう。ただし、その認識文字の大きさを含めてもよい。
例えば、文字以外の画像を認識した場合の認識文字を含んでいることに関する特徴を取得するようにしてもよい。
また、例えば、文字以外の画像を認識した場合の認識文字の並びに関する特徴を取得するようにしてもよい。
また、例えば、認識文字の所定文字数あたりの特徴を取得するようにしてもよい。
【００２９】
翻訳判断モジュール１３５は、認識文字特徴取得モジュール１３０、翻訳モジュール１４０と接続されている。
認識文字特徴取得モジュール１３０によって取得された特徴に基づいて、認識文字を翻訳すべきか否かを判断し、その結果を翻訳モジュール１４０へ渡す。
認識文字特徴取得モジュール１３０、翻訳判断モジュール１３５の処理例については、図４〜６等を用いて後述する。
【００３０】
翻訳モジュール１４０は、翻訳判断モジュール１３５、訳文特徴取得モジュール１４５と接続されている。
翻訳判断モジュール１３５によって翻訳すべきと判断された場合に、文字認識モジュール１２５による認識文字であって翻訳すべきと判断されたものを翻訳し、翻訳文を訳文特徴取得モジュール１４５へ渡す。翻訳とは、第１の言語を別の第２の言語で意味として対応するものに変換することであり、既存の方法を用いるようにしてよい。
【００３１】
訳文特徴取得モジュール１４５は、翻訳モジュール１４０、出力判断モジュール１５０と接続されている。
翻訳モジュール１４０によって翻訳された結果である翻訳結果の特徴を取得し、その翻訳結果の特徴を出力判断モジュール１５０へ渡す。
訳文特徴取得モジュール１４５は、翻訳文内にその言語における単語を含むことに関する情報を取得するようにしてもよい。具体的には、その言語における単語を記憶している辞書（文字認識モジュール１２５又は翻訳モジュール１４０が用いる辞書を流用してもよい）を用意し、翻訳文内にその辞書に記憶されている単語がいくつ含まれているかを取得する。例えば、出力判断モジュール１５０は、所定の閾値と比較して、含まれている単語数が多い場合は、出力要と判断するようにしてもよい。
【００３２】
また、訳文特徴取得モジュール１４５は、前記単語を構成している文字が、対象としている翻訳文の文字行内で含まれている割合を取得するようにしてもよい。例えば、出力判断モジュール１５０は、所定の閾値と比較して、１行の文字数に対してその言語における単語を構成している文字数の割合が高い場合は、出力要と判断するようにしてもよい。
また、訳文特徴取得モジュール１４５は、翻訳文の構文解析を行い、その構文解析結果を取得するようにしてもよい。例えば、出力判断モジュール１５０は、正当な構文解析結果である場合は、出力要と判断するようにしてもよい。
また、訳文特徴取得モジュール１４５は、前述した翻訳文の複数の特徴を抽出するようにしてもよい。
【００３３】
出力判断モジュール１５０は、訳文特徴取得モジュール１４５、出力モジュール１５５と接続されている。
訳文特徴取得モジュール１４５によって取得された特徴に基づいて、翻訳文を出力すべきか否かを判断し、その結果を出力モジュール１５５へ渡す。
また、訳文特徴取得モジュール１４５が、前述した翻訳文の複数の特徴を抽出するようにした場合、出力判断モジュール１５０は、複数の特徴を組み合わせて判断するようにしてもよい。その場合、特徴に対して重み付けを行うようにしてもよい。
【００３４】
出力モジュール１５５は、出力判断モジュール１５０と接続されている。出力判断モジュール１５０によって出力すべきと判断された場合に、画像受付モジュール１１０によって受け付けられた画像の構成に基づいて、翻訳モジュール１４０による翻訳結果であって、出力判断モジュール１５０によって出力すべきと判断されたものを出力する。
出力モジュール１５５の処理例については、図７を用いて後述する。
【００３５】
図２は、本実施の形態による処理例を示すフローチャートである。図２に示すフローチャートを説明する際に、図３に示す処理テーブル３００の各欄をどのように完成させていくかを合わせて説明する。処理テーブル３００は、Ｎｏ．欄３０２、ｘ座標欄３０４、ｙ座標欄３０６、高さ欄３０８、幅欄３１０、文字認識結果欄３１２、翻訳要否欄３１４、翻訳結果欄３１６、出力要否欄３１８を有している。
【００３６】
ステップＳ２０２では、画像受付モジュール１１０が、翻訳対象の画像を受け付ける。
ステップＳ２０４では、領域抽出モジュール１１５が、ステップＳ２０２で受け付けられた画像から文字画像領域を抽出する。
ステップＳ２０６では、行抽出モジュール１２０が、ステップＳ２０４で抽出された文字画像領域から文字行を抽出する。ここで、行抽出モジュール１２０は処理テーブル３００に対して、抽出した文字行を順にＮｏ．欄３０２にその順番を記憶させ、その文字行の左上のｘ座標をｘ座標欄３０４に、ｙ座標をｙ座標欄３０６に、文字行の高さを高さ欄３０８に、文字行の幅を幅欄３１０にそれぞれ記憶させる。
ステップＳ２０８では、文字認識モジュール１２５が、ステップＳ２０６で抽出された文字行を対象として文字認識処理を行う。そして、処理テーブル３００内の文字認識結果欄３１２に認識文字を記憶させる。
【００３７】
ステップＳ２１０では、認識文字特徴取得モジュール１３０が、ステップＳ２０８での認識文字の特徴を取得する。つまり、文字認識結果欄３１２内の文字を対象として、文字行毎にその特徴を抽出する。
ステップＳ２１２では、翻訳判断モジュール１３５が、ステップＳ２１０で取得された特徴に基づいて、その認識文字は翻訳対象とすべきか否かを判断する。その文字行を翻訳不要と判断した場合（Ｙ）はステップＳ２１４へ進み、それ以外の場合（Ｎ）はステップＳ２１６へ進む。そして、翻訳判断モジュール１３５が、ステップＳ２１４では対応する翻訳要否欄３１４に「Ｎ」を記憶させ、ステップＳ２１６では対応する翻訳要否欄３１４に「Ｙ」を記憶させる。なお、ステップＳ２１０〜ステップＳ２１６の処理例については、図４〜６等を用いて後述する。
ステップＳ２１８では、ステップＳ２０６で抽出した全ての文字行に対して、ステップＳ２１２の判断処理が完了したか否かを判断する。完了していない場合（Ｎ）はステップＳ２１０へ戻り、完了している場合（Ｙ）はステップＳ２２０へ進む。
【００３８】
ステップＳ２２０では、翻訳モジュール１４０が、翻訳要否欄３１４に「Ｎ」となっているものを排除して（つまり、翻訳要否欄３１４が「Ｙ」となっているものを取り出して）、文字認識結果欄３１２内の文字列に対して翻訳を行う。そして、翻訳モジュール１４０は、その翻訳結果を対応する翻訳結果欄３１６に格納する。
ステップＳ２２２では、訳文特徴取得モジュール１４５が、ステップＳ２２０での翻訳文の特徴を取得する。つまり、翻訳結果欄３１６内の文字を対象として、文字行毎にその特徴を抽出する。
ステップＳ２２４では、出力判断モジュール１５０が、ステップＳ２２２で取得された特徴に基づいて、その翻訳文は有意か否か、つまり出力対象とすべきか否かを判断する。その文字行を有意と判断した場合（Ｙ）はステップＳ２２６へ進み、それ以外の場合（Ｎ）はステップＳ２２８へ進む。そして、出力判断モジュール１５０が、ステップＳ２２６では対応する出力要否欄３１８に「Ｙ」を記憶させ、ステップＳ２２８では対応する出力要否欄３１８に「Ｎ」を記憶させる。
ステップＳ２３０では、ステップＳ２０６で抽出した全ての文字行に対して、ステップＳ２２４の判断処理が完了したか否かを判断する。完了していない場合（Ｎ）はステップＳ２２２へ戻り、完了している場合（Ｙ）はステップＳ２３２へ進む。
ステップＳ２３２では、出力モジュール１５５が出力すべき翻訳文が確定し、出力モジュール１５５がステップＳ２０２で受け付けられた画像の構成に応じて、翻訳文を出力する。
【００３９】
図４は、認識文字特徴取得モジュール１３０、翻訳判断モジュール１３５による処理例（ステップＳ２１０〜ステップＳ２１６の具体的な処理例）を示すフローチャートである。ここでは、翻訳すべきか否かを１文字あたりのポイント数（点数）によって判断する。そして、ポイント数が高いものは翻訳すべきでないものとする。つまり、ポイントは文字画像領域でない画像を文字認識した可能性を反映している。
【００４０】
ステップＳ４０２では、各文字行内の各認識文字のポイント数を取得する。ここで、認識文字は文字認識結果欄３１２を参照し、その文字のポイント数は、ポイント設定テーブル５００を参照して取得する。
図５を用いて、ポイント設定テーブル５００の例を説明する。ポイント設定テーブル５００では、ポイントを３段階（ポイント：３、ポイント：２、ポイント：１）に分けている。つまり、文字画像領域でない画像を文字認識した場合に、頻繁に認識文字として出力される「−」、「一」、「１」、「Ｉ」等を３ポイントとし、１文字領域内に「トン」の文字があるもの、「ノ」、「レ」、「｛」等を２ポイントとし、それ以外の文字を１ポイントと定めたものである。つまり、ポイント設定テーブル５００は、ポイント数と文字を対応させて記憶したものである。そして、認識処理の各言語毎（例えば、日本語用、中国用、韓国語用、英語用等）にその文字を記憶させておく。
文字認識結果欄３１２内の各文字が、ポイント設定テーブル５００内のどのポイント数に該当する文字であるかを取得することによって、各文字のポイントを取得する。
【００４１】
ステップＳ４０４では、ステップＳ４０２でポイント付けされた文字の並び（文字列）によってポイントの重み付けを行う。その重み付けは重み付け設定テーブル６００を用いる。
図６を用いて、重み付け設定テーブル６００の例を説明する。重み付け設定テーブル６００は、重み付けの係数とその係数が適用される状況を示したルールを対応させて記憶したものである。例えば、「ポイント：２又はポイント：３の特定の文字の組み合わせ（その文字行の方向でｎ文字以上並んでいる）」である状況（具体例として、「一一」等）の場合は、その文字のポイント数を４倍する。また、「ポイント：２又はポイント：３の文字がｎ文字以上並んでいる」状況の場合は、その文字のポイント数を２倍にする等である。
文字認識結果欄３１２内の文字の並びが、重み付け設定テーブル６００内のルールに該当するかによって重み付け係数を決定する。
ステップＳ４０６では、ステップＳ４０２で取得されたポイント数、ステップＳ４０４で決定された重み付け係数に基づいて、各文字行のポイント数を計算する。
ステップＳ４０８では、その行内の文字数にポイント数が左右されないようにするために、文字認識結果欄３１２内の文字数を計数し、ステップＳ４０６で計算されたポイント数を除算して文字あたりの平均ポイント数を計算する。
【００４２】
ステップＳ４１０では、ステップＳ４０８で計算された平均ポイント数は所定の閾値（ＴＨ）より大であるか否かを判断する。大であると判断した場合（Ｙ）はステップＳ４１２へ進み、それ以外であると判断した場合（Ｎ）はステップＳ４１４へ進む。ステップＳ４１２では、対象行は翻訳不要（つまり、その文字行の認識文字は、文字画像領域でない画像を文字認識した可能性が高いもの）と判断し、対応する翻訳要否欄３１４に「Ｎ」を記憶させる。ステップＳ４１４では、対象行は翻訳要（つまり、その文字行の認識文字は、文字画像領域である画像を文字認識した可能性が高いもの）と判断し、対応する翻訳要否欄３１４に「Ｙ」を記憶させる。
なお、ステップＳ４０２〜ステップＳ４０８は認識文字特徴取得モジュール１３０によって行われる。ステップＳ４１０〜ステップＳ４１４は翻訳判断モジュール１３５によって行われ、図２に示すフローチャートにおけるステップＳ２１２〜ステップＳ２１６に対応する。
【００４３】
また、認識文字特徴取得モジュール１３０は、認識文字内にその言語における単語を含むことに関する情報を取得するようにしてもよい。具体的には、その言語における単語を記憶している辞書（文字認識モジュール１２５又は翻訳モジュール１４０が用いる辞書を流用してもよい）を用意し、認識文字内にその辞書に記憶されている単語がいくつ含まれているかを取得する。例えば、翻訳判断モジュール１３５は、所定の閾値と比較して、含まれている単語数が多い場合は、翻訳要と判断するようにしてもよい。
【００４４】
また、認識文字特徴取得モジュール１３０は、前記単語を構成している文字が、対象としている文字行内で含まれている割合を取得するようにしてもよい。例えば、翻訳判断モジュール１３５は、所定の閾値と比較して、１行の文字数に対してその言語における単語を構成している文字数の割合が高い場合は、翻訳要と判断するようにしてもよい。
【００４５】
また、認識文字特徴取得モジュール１３０は、文字認識モジュール１２５が出力する各認識文字の大きさを取得するようにしてもよい。例えば、翻訳判断モジュール１３５は、各文字の大きさの統計的分布に基づいて（例えば、文字の大きさが所定の範囲のバラツキ（偏差）内に収まっている場合）、翻訳要と判断するようにしてもよい。
また、認識文字特徴取得モジュール１３０は、文字認識モジュール１２５が出力する行毎の認識文字数を取得するようにしてもよい。例えば、翻訳判断モジュール１３５は、所定の閾値と比較して文字数が少ない行は、翻訳不要と判断するようにしてもよい。
また、認識文字特徴取得モジュール１３０は、対象とする行が隣接している画像領域の種類（文字画像領域、文字画像領域以外の画像領域等）に関する情報を取得するようにしてもよい。例えば、翻訳判断モジュール１３５は、対象としている行の画像領域が文字画像領域に囲まれている場合は、翻訳要と判断するようにしてもよい。
また、認識文字特徴取得モジュール１３０は、認識文字の構文解析を行い、その構文解析結果を取得するようにしてもよい。例えば、翻訳判断モジュール１３５は、正当な構文解析結果である場合は、翻訳要と判断するようにしてもよい。
また、認識文字特徴取得モジュール１３０は、前述した認識文字の複数の特徴を抽出するようにしてもよい。そして、翻訳判断モジュール１３５は、複数の特徴を組み合わせて判断するようにしてもよい。その場合、特徴に対して重み付けを行うようにしてもよい。
【００４６】
図７は、本実施の形態による具体的な処理例（特に出力モジュール１５５による処理例）を示す説明図である。
画像受付モジュール１１０が例えばオリジナル原稿７００を受け付ける。オリジナル原稿７００は、文章領域７０２、文章領域７０４、画像領域７０６、画像領域７０８を有している。文章領域７０２、７０４は、文字認識モジュール１２５による文字認識の対象、そして翻訳モジュール１４０による翻訳の対象になる。また、画像領域７０６、７０８は、領域抽出モジュール１１５によって文字画像領域ではないと判断されてそのまま出力される。
【００４７】
出力モジュール１５５は、領域抽出モジュール１１５、行抽出モジュール１２０、文字認識モジュール１２５によるオリジナル原稿７００に対する構造の解析結果（つまり、文章領域７０２、７０４、画像領域７０６、７０８の種類（文字領域であるか否か等）、位置、大きさ等）に応じて、出力判断モジュール１５０によって出力要と判断された翻訳文（処理テーブル３００の出力要否欄３１８が「Ｙ」となっている行の翻訳結果欄３１６）を出力する。つまり、出力モジュール１５５は、処理テーブル３００内のｘ座標欄３０４〜幅欄３１０等を用いて、翻訳文を出力する画像に配置する。例えば、ルビ風翻訳出力７１０、置き換え翻訳出力７２０のように出力する。ルビ風翻訳出力７１０は、文章領域７１２、７１４、画像領域７０６、７０８を有しており、オリジナル原稿７００の画像領域７０６、７０８をそのまま出力しており、文章領域７１２、７１４は、翻訳文をルビのように配置（対応する原文の近傍に翻訳文を配置）して出力している例である。また、置き換え翻訳出力７２０は、文章領域７２２、文章領域７２４、画像領域７０６、画像領域７０８を有しており、オリジナル原稿７００の画像領域７０６、７０８をそのまま出力しており、文章領域７２２、７２４は、翻訳文を原文の代わりに配置して出力している例である。
【００４８】
図８は、画像受付モジュール１１０、領域抽出モジュール１１５、行抽出モジュール１２０、文字認識モジュール１２５による処理例を示す説明図である。
画像受付モジュール１１０が例えばオリジナル原稿８００を受け付ける。オリジナル原稿８００は、画像領域８０１、文章領域８０２、文章領域８０３を有している。つまり、文章領域８０２、８０３は文字認識、翻訳の対象となるべきものであり、画像領域８０１内の文章領域８０２以外の領域はそのまま出力すべきものである。
【００４９】
次に、領域抽出モジュール１１５が、オリジナル原稿８００に対して、２値化を行い２値画像８１０を生成する。オリジナル原稿８００の多値画像の画像領域８０１も２値画像８１０の画像領域８１１のように２値画像となる。
さらに、領域抽出モジュール１１５は、２値画像８１０に対して、文字画像領域を抽出する。ここで、領域抽出モジュール１１５は、文章領域８２８、８２９を文字画像領域として抽出するが、画像領域８２１内の文章領域８２６、８２７も文字画像領域として抽出してしまう。これは、自然画等の多値画像を２値化した場合、文字画像領域の特徴を備えているような領域が発生してしまうことによるものである。
この結果（文章領域８２６〜８２９を文字画像領域として抽出）のまま、行抽出モジュール１２０、文字認識モジュール１２５によって処理を行わせると、文章領域８２６は『レ〆』、文章領域８２７は『、≠ノ徴』、文章領域８２８は『絵柄中の文字列』、文章領域８２９は『本文中の文字列です。』の認識文字となってしまう。ここで、認識文字特徴取得モジュール１３０、翻訳判断モジュール１３５による処理によって、文章領域８２６、８２７の認識文字は翻訳対象とならないようにする。
【００５０】
図９は、訳文特徴取得モジュール１４５、出力判断モジュール１５０による処理例（認識文字特徴取得モジュール１３０、翻訳判断モジュール１３５による処理が行われなかった場合の例）を示す説明図である。
画像受付モジュール１１０が例えば原画像９００を受け付ける。原画像９００には、文字画像領域がなく、そのまま出力すべきものである。
次に、領域抽出モジュール１１５が、原画像９００に対して、２値化を行い２値画像９１０を生成する。領域抽出モジュール１１５は、２値画像９１０に対して、文字画像領域を抽出してしまう。
文字認識モジュール１２５がこの文字画像領域に対して文字認識を行うと、図９に示すような日本語文字認識結果９２０となる。さらに、日本語文字認識結果９２０を翻訳モジュール１４０が翻訳してしまうと、例えば、図９に示すような中国語訳９３０、英語訳９４０となってしまう。
ここで、訳文特徴取得モジュール１４５、出力判断モジュール１５０は前述に示すような処理を行い、中国語訳９３０、英語訳９４０のような翻訳文は出力させない。
【００５１】
図１０は、各言語を対象とした文字認識モジュール１２５による処理例を示す説明図である。
図１０に示す韓国語文字認識結果１０１０、中国語文字認識結果１０２０、英語文字認識結果１０３０は、２値画像９１０に対して、それぞれ韓国語、中国語、英語を対象とした文字認識モジュール１２５による処理結果である。
これらの認識文字は、図９に示した日本語文字認識結果９２０と同様の性質を有している。したがって、文字認識モジュール１２５が日本語以外の言語を対象としたものであっても、認識文字特徴取得モジュール１３０、翻訳判断モジュール１３５はポイント設定テーブル５００、重み付け設定テーブル６００等を用いることによって、前述の日本語を対象とした処理と同様の処理を行うことができる。
【００５２】
図１１を参照して、本実施の形態のハードウェア構成例について説明する。図１１に示す構成は、例えばパーソナルコンピュータ（ＰＣ）などによって構成されるものであり、スキャナ等のデータ読み取り部１１１７と、プリンタなどのデータ出力部１１１８を備えたハードウェア構成例を示している。
【００５３】
ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１０１は、前述の実施の形態において説明した各種のモジュール、すなわち、領域抽出モジュール１１５、行抽出モジュール１２０、文字認識モジュール１２５、認識文字特徴取得モジュール１３０等の各モジュールの実行シーケンスを記述したコンピュータ・プログラムにしたがった処理を実行する制御部である。
【００５４】
ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１１０２は、ＣＰＵ１１０１が使用するプログラムや演算パラメータ等を格納する。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１１０３は、ＣＰＵ１１０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはＣＰＵバスなどから構成されるホストバス１１０４により相互に接続されている。
【００５５】
ホストバス１１０４は、ブリッジ１１０５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス１１０６に接続されている。
【００５６】
キーボード１１０８、マウス等のポインティングデバイス１１０９は、操作者により操作される入力デバイスである。ディスプレイ１１１０は、液晶表示装置又はＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）などから成り、各種情報をテキストやイメージ情報として表示する。
【００５７】
ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１１１１は、ハードディスクを内蔵し、ハードディスクを駆動し、ＣＰＵ１１０１によって実行するプログラムや情報を記録又は再生させる。ハードディスクには、受け付けた画像や文字認識モジュール１２５による認識結果などが格納される。さらに、その他の各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。
【００５８】
ドライブ１１１２は、装着されている磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体１１１３に記録されているデータ又はプログラムを読み出して、そのデータ又はプログラムを、インタフェース１１０７、外部バス１１０６、ブリッジ１１０５、及びホストバス１１０４を介して接続されているＲＡＭ１１０３に供給する。リムーバブル記録媒体１１１３も、ハードディスクと同様のデータ記録領域として利用可能である。
【００５９】
接続ポート１１１４は、外部接続機器１１１５を接続するポートであり、ＵＳＢ、ＩＥＥＥ１３９４等の接続部を持つ。接続ポート１１１４は、インタフェース１１０７、及び外部バス１１０６、ブリッジ１１０５、ホストバス１１０４等を介してＣＰＵ１１０１等に接続されている。通信部１１１６は、ネットワークに接続され、外部とのデータ通信処理を実行する。データ読み取り部１１１７は、例えばスキャナであり、ドキュメントの読み取り処理を実行する。データ出力部１１１８は、例えばプリンタであり、ドキュメントデータの出力処理を実行する。
【００６０】
なお、図１１に示すハードウェア構成は、１つの構成例を示すものであり、本実施の形態は、図１１に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア（例えば特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）等）で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図１１に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、複写機、ファックス、スキャナ、プリンタ、複合機（スキャナ、プリンタ、複写機、ファックス等のいずれか２つ以上の機能を有している画像処理装置）などに組み込まれていてもよい。
【００６１】
前記実施の形態においては、図４に示すフローチャートにおいて１文字あたりのポイント数によって翻訳すべきか否かを判断する例を示したが、１文字あたりではなく、複数文字あたりのポイント数であってもよい。
【００６２】
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク（ＤＶＤ）であって、ＤＶＤフォーラムで策定された規格である「ＤＶＤ−Ｒ、ＤＶＤ−ＲＷ、ＤＶＤ−ＲＡＭ等」、ＤＶＤ＋ＲＷで策定された規格である「ＤＶＤ＋Ｒ、ＤＶＤ＋ＲＷ等」、コンパクトディスク（ＣＤ）であって、読出し専用メモリ（ＣＤ−ＲＯＭ）、ＣＤレコーダブル（ＣＤ−Ｒ）、ＣＤリライタブル（ＣＤ−ＲＷ）等、光磁気ディスク（ＭＯ）、フレキシブルディスク（ＦＤ）、磁気テープ、ハードディスク、読出し専用メモリ（ＲＯＭ）、電気的消去及び書換可能な読出し専用メモリ（ＥＥＰＲＯＭ）、フラッシュ・メモリ、ランダム・アクセス・メモリ（ＲＡＭ）等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク（ＬＡＮ）、メトロポリタン・エリア・ネットワーク（ＭＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
【図面の簡単な説明】
【００６３】
【図１】本実施の形態の構成例についての概念的なモジュール構成図である。
【図２】本実施の形態による処理例を示すフローチャートである。
【図３】処理テーブルのデータ構造例を示す説明図である。
【図４】認識文字特徴取得モジュール、翻訳判断モジュールによる処理例を示すフローチャートである。
【図５】ポイント設定テーブルの例を示す説明図である。
【図６】重み付け設定テーブルの例を示す説明図である。
【図７】本実施の形態による具体的な処理例を示す説明図である。
【図８】画像受付モジュール、領域抽出モジュール、行抽出モジュール、文字認識モジュールによる処理例を示す説明図である。
【図９】訳文特徴取得モジュール、出力判断モジュールによる処理例を示す説明図である。
【図１０】各言語を対象とした文字認識モジュールによる処理例を示す説明図である。
【図１１】本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
【符号の説明】
【００６４】
１１０…画像受付モジュール
１１５…領域抽出モジュール
１２０…行抽出モジュール
１２５…文字認識モジュール
１３０…認識文字特徴取得モジュール
１３５…翻訳判断モジュール
１４０…翻訳モジュール
１４５…訳文特徴取得モジュール
１５０…出力判断モジュール
１５５…出力モジュール
３００…処理テーブル

【特許請求の範囲】
【請求項１】
画像内の文字を認識する文字認識手段と、
前記文字認識手段によって認識された結果である認識文字の特徴を取得する認識文字特徴取得手段と、
前記認識文字特徴取得手段によって取得された特徴に基づいて、前記認識文字を翻訳すべきか否かを判断する翻訳判断手段
を具備することを特徴とする情報処理装置。
【請求項２】
前記翻訳判断手段によって翻訳すべきと判断された場合に、前記認識文字を翻訳する翻訳手段と、
前記翻訳手段によって翻訳された結果である翻訳結果の特徴を取得する翻訳結果特徴取得手段と、
前記翻訳結果特徴取得手段によって取得された特徴に基づいて、前記翻訳文を出力すべきか否かを判断する出力判断手段
を具備することを特徴とする請求項１に記載の情報処理装置。
【請求項３】
画像を受け付ける画像受付手段と、
前記出力判断手段によって出力すべきと判断された場合に、前記画像受付手段によって受け付けられた画像の構成に基づいて、前記翻訳結果を出力する出力手段
をさらに具備し、
前記文字認識手段は、前記画像受付手段によって受け付けられた画像内の文字を認識する
ことを特徴とする請求項２に記載の情報処理装置。
【請求項４】
前記認識文字特徴取得手段は、文字以外の画像を認識した場合の認識文字を含んでいることに関する特徴を取得する
ことを特徴とする請求項１から３のいずれか一項に記載の情報処理装置。
【請求項５】
前記認識文字特徴取得手段は、前記文字以外の画像を認識した場合の認識文字の並びに関する特徴を取得する
ことを特徴とする請求項４に記載の情報処理装置。
【請求項６】
前記認識文字特徴取得手段は、前記認識文字の所定文字数あたりの特徴を取得する
ことを特徴とする請求項１から５のいずれか一項に記載の情報処理装置。
【請求項７】
コンピュータを、
画像内の文字を認識する文字認識手段と、
前記文字認識手段によって認識された結果である認識文字の特徴を取得する認識文字特徴取得手段と、
前記認識文字特徴取得手段によって取得された特徴に基づいて、前記認識文字を翻訳すべきか否かを判断する翻訳判断手段
として機能させることを特徴とする情報処理プログラム。

【図１】