情報処理装置及び情報処理プログラム
【課題】画像内の文字を認識して翻訳させる場合にあって、文字以外の画像領域を文字として認識して翻訳させることを抑制する情報処理装置を提供する。
【解決手段】情報処理装置の文字認識手段は、画像内の文字を認識し、認識文字特徴取得手段は、前記文字認識手段によって認識された結果である認識文字の特徴を取得し、翻訳判断手段は、前記認識文字特徴取得手段によって取得された特徴に基づいて、前記認識文字を翻訳すべきか否かを判断する。
【解決手段】情報処理装置の文字認識手段は、画像内の文字を認識し、認識文字特徴取得手段は、前記文字認識手段によって認識された結果である認識文字の特徴を取得し、翻訳判断手段は、前記認識文字特徴取得手段によって取得された特徴に基づいて、前記認識文字を翻訳すべきか否かを判断する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及び情報処理プログラムに関する。
【背景技術】
【0002】
例えば、主に第1の言語で記載された文章(以降、原文とも称す。ただし、必ずしも文章、文の形態を備えている必要はなく、第1の言語で記載された文字である)を持つ紙文書をスキャンし、得られた画像を解析して文章領域を抽出し、その文章領域に対して文字認識を行い、得られた文字認識の結果であるテキストを第2の言語に翻訳した文章(以降、翻訳文とも称す。必ずしも文章、文の形態を備えている必要はなく、第2の言語である文字である)をページにレイアウトして出力する翻訳装置がある。
【0003】
これに関連する技術として、例えば、特許文献1には、紙に打ち出してある文書を機械翻訳機上で翻訳する手段を提供することを目的とし、原稿を読み取る画像入力部と、画像入力部で得られたイメージデータを記憶する原稿イメージ記憶部と、原稿イメージ記憶部に記憶されているイメージデータに対してレイアウト認識を行うレイアウト認識手段と、レイアウト認識で得られた文字認識領域を記憶する原文領域記憶部と、図形領域記憶部と、文字認識領域の文字に対応するコードデータを出力する文字認識実行部と、原文記憶部と、翻訳手段と、訳文記憶部と、原文領域記憶部に記載されている領域に訳文記憶部に記載されている訳文を埋め込む手段とを構成したことが開示されている。
【0004】
また、例えば、特許文献2には、入力された原文書のテキストイメージの行間に、テキストの翻訳結果を出力する手段と、入力された原文書のテキストイメージの行間が狭い場合、原文書のテキストをフォントサイズを小さくして再描画し、訳文を出力するに必要な行間を得る手段とを有することを特徴とする機械翻訳装置が開示されている。
【0005】
また、例えば、特許文献3には、原稿画像中に存在する単語に対応する訳語の位置を明確にし、また、訳語付加により出力画像の内容が大幅に変更されたとしても、複写画像の内容を読みやすくレイアウトして出力することを目的とし、CPUは、原稿画像情報と該情報の対訳情報を上下位置に合成するとき、原稿画像情報の情報幅より対訳情報の情報幅が小さくなるように制御することが開示されている。
【0006】
また、例えば、特許文献4には、第1の言語に基づく第1の文字及び画像を含む原稿を画像入力する原稿入力手段と、この原稿入力手段から画像入力された原稿画像データを解析して文書データ領域と画像データ領域とに領域分離する分離手段と、この分離手段により分離された前記文書データ領域から文字画像を切り出して第1の文字を認識する認識手段と、この認識手段により認識された第1の文字に対応する文字データを第2の言語に基づく第2の文字データに翻訳する翻訳手段と、前記分離手段により領域分離された文書データ領域情報及び前記第2の文字データに基づいてレイアウトされた印刷データを生成するデータ生成手段と、このデータ生成手段により生成された前記印刷データに基づいて第2の文字データと前記原稿画像データをそれぞれ記録媒体の各片面に振り分けて両面印刷する印刷手段を有する画像処理装置が開示されている。
【特許文献1】特開平08−006948号公報
【特許文献2】特許第3294919号公報
【特許文献3】特開平05−324720号公報
【特許文献4】特許第3636490号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
ところで、画像を読み取って、その画像内の文字を認識して翻訳するような場合にあって、文字以外の画像領域を文字として認識して翻訳してしまい、翻訳の品質及び/または翻訳文書の見栄えを低下させてしまうことがある。
本発明は、かかる課題を解決するようにした情報処理装置及び情報処理プログラムを提供することを目的としている。
【課題を解決するための手段】
【0008】
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、画像内の文字を認識する文字認識手段と、前記文字認識手段によって認識された結果である認識文字の特徴を取得する認識文字特徴取得手段と、前記認識文字特徴取得手段によって取得された特徴に基づいて、前記認識文字を翻訳すべきか否かを判断する翻訳判断手段を具備することを特徴とする情報処理装置である。
【0009】
請求項2の発明は、前記翻訳判断手段によって翻訳すべきと判断された場合に、前記認識文字を翻訳する翻訳手段と、前記翻訳手段によって翻訳された結果である翻訳結果の特徴を取得する翻訳結果特徴取得手段と、前記翻訳結果特徴取得手段によって取得された特徴に基づいて、前記翻訳文を出力すべきか否かを判断する出力判断手段を具備することを特徴とする請求項1に記載の情報処理装置である。
【0010】
請求項3の発明は、画像を受け付ける画像受付手段と、前記出力判断手段によって出力すべきと判断された場合に、前記画像受付手段によって受け付けられた画像の構成に基づいて、前記翻訳結果を出力する出力手段をさらに具備し、前記文字認識手段は、前記画像受付手段によって受け付けられた画像内の文字を認識することを特徴とする請求項2に記載の情報処理装置である。
【0011】
請求項4の発明は、前記認識文字特徴取得手段は、文字以外の画像を認識した場合の認識文字を含んでいることに関する特徴を取得することを特徴とする請求項1から3のいずれか一項に記載の情報処理装置である。
【0012】
請求項5の発明は、前記認識文字特徴取得手段は、前記文字以外の画像を認識した場合の認識文字の並びに関する特徴を取得することを特徴とする請求項4に記載の情報処理装置である。
【0013】
請求項6の発明は、前記認識文字特徴取得手段は、前記認識文字の所定文字数あたりの特徴を取得することを特徴とする請求項1から5のいずれか一項に記載の情報処理装置である。
【0014】
請求項7の発明は、コンピュータを、画像内の文字を認識する文字認識手段と、前記文字認識手段によって認識された結果である認識文字の特徴を取得する認識文字特徴取得手段と、前記認識文字特徴取得手段によって取得された特徴に基づいて、前記認識文字を翻訳すべきか否かを判断する翻訳判断手段として機能させることを特徴とする情報処理プログラムである。
【発明の効果】
【0015】
請求項1の情報処理装置によれば、画像内の文字を認識して翻訳させる場合にあって、文字以外の画像領域を文字として認識して翻訳させることを抑制することができる。
【0016】
請求項2の情報処理装置によれば、文字以外の画像領域を文字として認識して翻訳すべきであると判断してしまった場合でも、その画像領域に対して翻訳して出力することを抑制することができる。
【0017】
請求項3の情報処理装置によれば、画像内の文字を認識し翻訳した結果をその画像に合わせて出力する場合にあって、文字以外の画像領域を文字として認識し翻訳して出力することを抑制することができる。
【0018】
請求項4の情報処理装置によれば、既存の文字認識技術を用いた場合にあっても、文字以外の画像領域を文字として認識し翻訳して出力することを抑制することができる。
【0019】
請求項5の情報処理装置によれば、請求項4の情報処理装置に比べて、文字以外の画像領域を文字として認識し翻訳して出力することをさらに抑制することができる。
【0020】
請求項6の情報処理装置によれば、文字画像領域を文字として認識して翻訳させることを抑制することを防ぐようにすることができる。
【0021】
請求項7の情報処理プログラムによれば、画像内の文字を認識して翻訳させる場合にあって、文字以外の画像領域を文字として認識して翻訳させることを抑制することができる。
【発明を実施するための最良の形態】
【0022】
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、コンピュータ・プログラム、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能にほぼ一対一に対応しているが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)を含む。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。
【0023】
本実施の形態は、図1に示すように、画像受付モジュール110、領域抽出モジュール115、行抽出モジュール120、文字認識モジュール125、認識文字特徴取得モジュール130、翻訳判断モジュール135、翻訳モジュール140、訳文特徴取得モジュール145、出力判断モジュール150、出力モジュール155を有している。
【0024】
画像受付モジュール110は、領域抽出モジュール115と接続されており、画像を受け付けて、その画像を領域抽出モジュール115へ渡す。画像を受け付けるとは、スキャナで画像を読み込むこと、ファックスで画像を受信すること、画像データベース等から画像を読み出すこと等が含まれる。画像には、2値画像、カラー画像等の多値画像が含まれている。その画像は、1枚であってもよいし、複数枚であってもよい。また、画像の内容として、ビジネス用に用いられる文書、広告宣伝用のパンフレット等であってもよい。
【0025】
領域抽出モジュール115は、画像受付モジュール110、行抽出モジュール120と接続されており、画像受付モジュール110から画像を受け取り、多値画像の場合は2値画像に変換し、その画像から文字画像領域を抽出し、その文字画像領域を行抽出モジュール120へ渡す。つまり、画像を文字画像領域と文字画像領域以外の画像領域に分ける。文字画像領域の抽出としては、既存の方法を用いるようにしてよい。例えば、領域内の単位面積あたりの複雑さ、画素値、黒画素数等に基づいて行うようにしてもよい。文字画像領域を渡すとは、抽出した文字画像領域の画像自体を渡すようにしてもよいし、画像受付モジュール110から受け取った画像と文字画像領域の座標(例えば、文字画像領域が矩形の場合は、左上角のx座標、y座標、幅、高さ)を渡すようにしてもよい。
【0026】
行抽出モジュール120は、領域抽出モジュール115、文字認識モジュール125と接続されており、領域抽出モジュール115から文字画像領域を受け取り、その中から文字行を抽出し、その文字行を文字認識モジュール125へ渡す。つまり、文字認識モジュール125に処理させるべく、行毎に文字領域を抽出する。ここで、文字行には横書きの文字行、縦書きの文字行を含む。文字行の抽出としては、既存の方法を用いるようにしてよい。例えば、文字画像領域に対して縦方向又は横方向に射影をとり、その黒画素数のヒストグラムから文字行間の境界を取り出すようにしてもよい。
【0027】
文字認識モジュール125は、行抽出モジュール120、認識文字特徴取得モジュール130と接続されており、行抽出モジュール120から行毎に切り出された文字画像を受け取り、その文字画像に対して文字認識を行い、その文字認識された結果である認識文字を認識文字特徴取得モジュール130へ渡す。文字認識とは、画像を文字コード(テキスト)に変換することであり、既存の方法を用いるようにしてよい。また、文字コードの他にその文字の大きさ等を認識するようにしてもよい。その場合、認識文字としてその文字の大きさ等を含む。なお、文字認識モジュール125は、領域抽出モジュール115又は行抽出モジュール120による誤り、つまり、本来文字画像領域ではない画像領域を文字認識の対象とする場合があり得る。
画像受付モジュール110〜文字認識モジュール125の処理例については、図8〜10等を用いて後述する。
【0028】
認識文字特徴取得モジュール130は、文字認識モジュール125、翻訳判断モジュール135と接続されている。文字認識モジュール125によって認識された結果である認識文字の特徴を取得し、その認識文字の特徴を翻訳判断モジュール135へ渡す。ここで、認識文字の特徴とは、その認識文字の主にテキストとしての特徴のことをいう。ただし、その認識文字の大きさを含めてもよい。
例えば、文字以外の画像を認識した場合の認識文字を含んでいることに関する特徴を取得するようにしてもよい。
また、例えば、文字以外の画像を認識した場合の認識文字の並びに関する特徴を取得するようにしてもよい。
また、例えば、認識文字の所定文字数あたりの特徴を取得するようにしてもよい。
【0029】
翻訳判断モジュール135は、認識文字特徴取得モジュール130、翻訳モジュール140と接続されている。
認識文字特徴取得モジュール130によって取得された特徴に基づいて、認識文字を翻訳すべきか否かを判断し、その結果を翻訳モジュール140へ渡す。
認識文字特徴取得モジュール130、翻訳判断モジュール135の処理例については、図4〜6等を用いて後述する。
【0030】
翻訳モジュール140は、翻訳判断モジュール135、訳文特徴取得モジュール145と接続されている。
翻訳判断モジュール135によって翻訳すべきと判断された場合に、文字認識モジュール125による認識文字であって翻訳すべきと判断されたものを翻訳し、翻訳文を訳文特徴取得モジュール145へ渡す。翻訳とは、第1の言語を別の第2の言語で意味として対応するものに変換することであり、既存の方法を用いるようにしてよい。
【0031】
訳文特徴取得モジュール145は、翻訳モジュール140、出力判断モジュール150と接続されている。
翻訳モジュール140によって翻訳された結果である翻訳結果の特徴を取得し、その翻訳結果の特徴を出力判断モジュール150へ渡す。
訳文特徴取得モジュール145は、翻訳文内にその言語における単語を含むことに関する情報を取得するようにしてもよい。具体的には、その言語における単語を記憶している辞書(文字認識モジュール125又は翻訳モジュール140が用いる辞書を流用してもよい)を用意し、翻訳文内にその辞書に記憶されている単語がいくつ含まれているかを取得する。例えば、出力判断モジュール150は、所定の閾値と比較して、含まれている単語数が多い場合は、出力要と判断するようにしてもよい。
【0032】
また、訳文特徴取得モジュール145は、前記単語を構成している文字が、対象としている翻訳文の文字行内で含まれている割合を取得するようにしてもよい。例えば、出力判断モジュール150は、所定の閾値と比較して、1行の文字数に対してその言語における単語を構成している文字数の割合が高い場合は、出力要と判断するようにしてもよい。
また、訳文特徴取得モジュール145は、翻訳文の構文解析を行い、その構文解析結果を取得するようにしてもよい。例えば、出力判断モジュール150は、正当な構文解析結果である場合は、出力要と判断するようにしてもよい。
また、訳文特徴取得モジュール145は、前述した翻訳文の複数の特徴を抽出するようにしてもよい。
【0033】
出力判断モジュール150は、訳文特徴取得モジュール145、出力モジュール155と接続されている。
訳文特徴取得モジュール145によって取得された特徴に基づいて、翻訳文を出力すべきか否かを判断し、その結果を出力モジュール155へ渡す。
また、訳文特徴取得モジュール145が、前述した翻訳文の複数の特徴を抽出するようにした場合、出力判断モジュール150は、複数の特徴を組み合わせて判断するようにしてもよい。その場合、特徴に対して重み付けを行うようにしてもよい。
【0034】
出力モジュール155は、出力判断モジュール150と接続されている。出力判断モジュール150によって出力すべきと判断された場合に、画像受付モジュール110によって受け付けられた画像の構成に基づいて、翻訳モジュール140による翻訳結果であって、出力判断モジュール150によって出力すべきと判断されたものを出力する。
出力モジュール155の処理例については、図7を用いて後述する。
【0035】
図2は、本実施の形態による処理例を示すフローチャートである。図2に示すフローチャートを説明する際に、図3に示す処理テーブル300の各欄をどのように完成させていくかを合わせて説明する。処理テーブル300は、No.欄302、x座標欄304、y座標欄306、高さ欄308、幅欄310、文字認識結果欄312、翻訳要否欄314、翻訳結果欄316、出力要否欄318を有している。
【0036】
ステップS202では、画像受付モジュール110が、翻訳対象の画像を受け付ける。
ステップS204では、領域抽出モジュール115が、ステップS202で受け付けられた画像から文字画像領域を抽出する。
ステップS206では、行抽出モジュール120が、ステップS204で抽出された文字画像領域から文字行を抽出する。ここで、行抽出モジュール120は処理テーブル300に対して、抽出した文字行を順にNo.欄302にその順番を記憶させ、その文字行の左上のx座標をx座標欄304に、y座標をy座標欄306に、文字行の高さを高さ欄308に、文字行の幅を幅欄310にそれぞれ記憶させる。
ステップS208では、文字認識モジュール125が、ステップS206で抽出された文字行を対象として文字認識処理を行う。そして、処理テーブル300内の文字認識結果欄312に認識文字を記憶させる。
【0037】
ステップS210では、認識文字特徴取得モジュール130が、ステップS208での認識文字の特徴を取得する。つまり、文字認識結果欄312内の文字を対象として、文字行毎にその特徴を抽出する。
ステップS212では、翻訳判断モジュール135が、ステップS210で取得された特徴に基づいて、その認識文字は翻訳対象とすべきか否かを判断する。その文字行を翻訳不要と判断した場合(Y)はステップS214へ進み、それ以外の場合(N)はステップS216へ進む。そして、翻訳判断モジュール135が、ステップS214では対応する翻訳要否欄314に「N」を記憶させ、ステップS216では対応する翻訳要否欄314に「Y」を記憶させる。なお、ステップS210〜ステップS216の処理例については、図4〜6等を用いて後述する。
ステップS218では、ステップS206で抽出した全ての文字行に対して、ステップS212の判断処理が完了したか否かを判断する。完了していない場合(N)はステップS210へ戻り、完了している場合(Y)はステップS220へ進む。
【0038】
ステップS220では、翻訳モジュール140が、翻訳要否欄314に「N」となっているものを排除して(つまり、翻訳要否欄314が「Y」となっているものを取り出して)、文字認識結果欄312内の文字列に対して翻訳を行う。そして、翻訳モジュール140は、その翻訳結果を対応する翻訳結果欄316に格納する。
ステップS222では、訳文特徴取得モジュール145が、ステップS220での翻訳文の特徴を取得する。つまり、翻訳結果欄316内の文字を対象として、文字行毎にその特徴を抽出する。
ステップS224では、出力判断モジュール150が、ステップS222で取得された特徴に基づいて、その翻訳文は有意か否か、つまり出力対象とすべきか否かを判断する。その文字行を有意と判断した場合(Y)はステップS226へ進み、それ以外の場合(N)はステップS228へ進む。そして、出力判断モジュール150が、ステップS226では対応する出力要否欄318に「Y」を記憶させ、ステップS228では対応する出力要否欄318に「N」を記憶させる。
ステップS230では、ステップS206で抽出した全ての文字行に対して、ステップS224の判断処理が完了したか否かを判断する。完了していない場合(N)はステップS222へ戻り、完了している場合(Y)はステップS232へ進む。
ステップS232では、出力モジュール155が出力すべき翻訳文が確定し、出力モジュール155がステップS202で受け付けられた画像の構成に応じて、翻訳文を出力する。
【0039】
図4は、認識文字特徴取得モジュール130、翻訳判断モジュール135による処理例(ステップS210〜ステップS216の具体的な処理例)を示すフローチャートである。ここでは、翻訳すべきか否かを1文字あたりのポイント数(点数)によって判断する。そして、ポイント数が高いものは翻訳すべきでないものとする。つまり、ポイントは文字画像領域でない画像を文字認識した可能性を反映している。
【0040】
ステップS402では、各文字行内の各認識文字のポイント数を取得する。ここで、認識文字は文字認識結果欄312を参照し、その文字のポイント数は、ポイント設定テーブル500を参照して取得する。
図5を用いて、ポイント設定テーブル500の例を説明する。ポイント設定テーブル500では、ポイントを3段階(ポイント:3、ポイント:2、ポイント:1)に分けている。つまり、文字画像領域でない画像を文字認識した場合に、頻繁に認識文字として出力される「−」、「一」、「1」、「I」等を3ポイントとし、1文字領域内に「トン」の文字があるもの、「ノ」、「レ」、「{」等を2ポイントとし、それ以外の文字を1ポイントと定めたものである。つまり、ポイント設定テーブル500は、ポイント数と文字を対応させて記憶したものである。そして、認識処理の各言語毎(例えば、日本語用、中国用、韓国語用、英語用等)にその文字を記憶させておく。
文字認識結果欄312内の各文字が、ポイント設定テーブル500内のどのポイント数に該当する文字であるかを取得することによって、各文字のポイントを取得する。
【0041】
ステップS404では、ステップS402でポイント付けされた文字の並び(文字列)によってポイントの重み付けを行う。その重み付けは重み付け設定テーブル600を用いる。
図6を用いて、重み付け設定テーブル600の例を説明する。重み付け設定テーブル600は、重み付けの係数とその係数が適用される状況を示したルールを対応させて記憶したものである。例えば、「ポイント:2又はポイント:3の特定の文字の組み合わせ(その文字行の方向でn文字以上並んでいる)」である状況(具体例として、「一一」等)の場合は、その文字のポイント数を4倍する。また、「ポイント:2又はポイント:3の文字がn文字以上並んでいる」状況の場合は、その文字のポイント数を2倍にする等である。
文字認識結果欄312内の文字の並びが、重み付け設定テーブル600内のルールに該当するかによって重み付け係数を決定する。
ステップS406では、ステップS402で取得されたポイント数、ステップS404で決定された重み付け係数に基づいて、各文字行のポイント数を計算する。
ステップS408では、その行内の文字数にポイント数が左右されないようにするために、文字認識結果欄312内の文字数を計数し、ステップS406で計算されたポイント数を除算して文字あたりの平均ポイント数を計算する。
【0042】
ステップS410では、ステップS408で計算された平均ポイント数は所定の閾値(TH)より大であるか否かを判断する。大であると判断した場合(Y)はステップS412へ進み、それ以外であると判断した場合(N)はステップS414へ進む。ステップS412では、対象行は翻訳不要(つまり、その文字行の認識文字は、文字画像領域でない画像を文字認識した可能性が高いもの)と判断し、対応する翻訳要否欄314に「N」を記憶させる。ステップS414では、対象行は翻訳要(つまり、その文字行の認識文字は、文字画像領域である画像を文字認識した可能性が高いもの)と判断し、対応する翻訳要否欄314に「Y」を記憶させる。
なお、ステップS402〜ステップS408は認識文字特徴取得モジュール130によって行われる。ステップS410〜ステップS414は翻訳判断モジュール135によって行われ、図2に示すフローチャートにおけるステップS212〜ステップS216に対応する。
【0043】
また、認識文字特徴取得モジュール130は、認識文字内にその言語における単語を含むことに関する情報を取得するようにしてもよい。具体的には、その言語における単語を記憶している辞書(文字認識モジュール125又は翻訳モジュール140が用いる辞書を流用してもよい)を用意し、認識文字内にその辞書に記憶されている単語がいくつ含まれているかを取得する。例えば、翻訳判断モジュール135は、所定の閾値と比較して、含まれている単語数が多い場合は、翻訳要と判断するようにしてもよい。
【0044】
また、認識文字特徴取得モジュール130は、前記単語を構成している文字が、対象としている文字行内で含まれている割合を取得するようにしてもよい。例えば、翻訳判断モジュール135は、所定の閾値と比較して、1行の文字数に対してその言語における単語を構成している文字数の割合が高い場合は、翻訳要と判断するようにしてもよい。
【0045】
また、認識文字特徴取得モジュール130は、文字認識モジュール125が出力する各認識文字の大きさを取得するようにしてもよい。例えば、翻訳判断モジュール135は、各文字の大きさの統計的分布に基づいて(例えば、文字の大きさが所定の範囲のバラツキ(偏差)内に収まっている場合)、翻訳要と判断するようにしてもよい。
また、認識文字特徴取得モジュール130は、文字認識モジュール125が出力する行毎の認識文字数を取得するようにしてもよい。例えば、翻訳判断モジュール135は、所定の閾値と比較して文字数が少ない行は、翻訳不要と判断するようにしてもよい。
また、認識文字特徴取得モジュール130は、対象とする行が隣接している画像領域の種類(文字画像領域、文字画像領域以外の画像領域等)に関する情報を取得するようにしてもよい。例えば、翻訳判断モジュール135は、対象としている行の画像領域が文字画像領域に囲まれている場合は、翻訳要と判断するようにしてもよい。
また、認識文字特徴取得モジュール130は、認識文字の構文解析を行い、その構文解析結果を取得するようにしてもよい。例えば、翻訳判断モジュール135は、正当な構文解析結果である場合は、翻訳要と判断するようにしてもよい。
また、認識文字特徴取得モジュール130は、前述した認識文字の複数の特徴を抽出するようにしてもよい。そして、翻訳判断モジュール135は、複数の特徴を組み合わせて判断するようにしてもよい。その場合、特徴に対して重み付けを行うようにしてもよい。
【0046】
図7は、本実施の形態による具体的な処理例(特に出力モジュール155による処理例)を示す説明図である。
画像受付モジュール110が例えばオリジナル原稿700を受け付ける。オリジナル原稿700は、文章領域702、文章領域704、画像領域706、画像領域708を有している。文章領域702、704は、文字認識モジュール125による文字認識の対象、そして翻訳モジュール140による翻訳の対象になる。また、画像領域706、708は、領域抽出モジュール115によって文字画像領域ではないと判断されてそのまま出力される。
【0047】
出力モジュール155は、領域抽出モジュール115、行抽出モジュール120、文字認識モジュール125によるオリジナル原稿700に対する構造の解析結果(つまり、文章領域702、704、画像領域706、708の種類(文字領域であるか否か等)、位置、大きさ等)に応じて、出力判断モジュール150によって出力要と判断された翻訳文(処理テーブル300の出力要否欄318が「Y」となっている行の翻訳結果欄316)を出力する。つまり、出力モジュール155は、処理テーブル300内のx座標欄304〜幅欄310等を用いて、翻訳文を出力する画像に配置する。例えば、ルビ風翻訳出力710、置き換え翻訳出力720のように出力する。ルビ風翻訳出力710は、文章領域712、714、画像領域706、708を有しており、オリジナル原稿700の画像領域706、708をそのまま出力しており、文章領域712、714は、翻訳文をルビのように配置(対応する原文の近傍に翻訳文を配置)して出力している例である。また、置き換え翻訳出力720は、文章領域722、文章領域724、画像領域706、画像領域708を有しており、オリジナル原稿700の画像領域706、708をそのまま出力しており、文章領域722、724は、翻訳文を原文の代わりに配置して出力している例である。
【0048】
図8は、画像受付モジュール110、領域抽出モジュール115、行抽出モジュール120、文字認識モジュール125による処理例を示す説明図である。
画像受付モジュール110が例えばオリジナル原稿800を受け付ける。オリジナル原稿800は、画像領域801、文章領域802、文章領域803を有している。つまり、文章領域802、803は文字認識、翻訳の対象となるべきものであり、画像領域801内の文章領域802以外の領域はそのまま出力すべきものである。
【0049】
次に、領域抽出モジュール115が、オリジナル原稿800に対して、2値化を行い2値画像810を生成する。オリジナル原稿800の多値画像の画像領域801も2値画像810の画像領域811のように2値画像となる。
さらに、領域抽出モジュール115は、2値画像810に対して、文字画像領域を抽出する。ここで、領域抽出モジュール115は、文章領域828、829を文字画像領域として抽出するが、画像領域821内の文章領域826、827も文字画像領域として抽出してしまう。これは、自然画等の多値画像を2値化した場合、文字画像領域の特徴を備えているような領域が発生してしまうことによるものである。
この結果(文章領域826〜829を文字画像領域として抽出)のまま、行抽出モジュール120、文字認識モジュール125によって処理を行わせると、文章領域826は『レ〆』、文章領域827は『、≠ノ徴』、文章領域828は『絵柄中の文字列』、文章領域829は『本文中の文字列です。』の認識文字となってしまう。ここで、認識文字特徴取得モジュール130、翻訳判断モジュール135による処理によって、文章領域826、827の認識文字は翻訳対象とならないようにする。
【0050】
図9は、訳文特徴取得モジュール145、出力判断モジュール150による処理例(認識文字特徴取得モジュール130、翻訳判断モジュール135による処理が行われなかった場合の例)を示す説明図である。
画像受付モジュール110が例えば原画像900を受け付ける。原画像900には、文字画像領域がなく、そのまま出力すべきものである。
次に、領域抽出モジュール115が、原画像900に対して、2値化を行い2値画像910を生成する。領域抽出モジュール115は、2値画像910に対して、文字画像領域を抽出してしまう。
文字認識モジュール125がこの文字画像領域に対して文字認識を行うと、図9に示すような日本語文字認識結果920となる。さらに、日本語文字認識結果920を翻訳モジュール140が翻訳してしまうと、例えば、図9に示すような中国語訳930、英語訳940となってしまう。
ここで、訳文特徴取得モジュール145、出力判断モジュール150は前述に示すような処理を行い、中国語訳930、英語訳940のような翻訳文は出力させない。
【0051】
図10は、各言語を対象とした文字認識モジュール125による処理例を示す説明図である。
図10に示す韓国語文字認識結果1010、中国語文字認識結果1020、英語文字認識結果1030は、2値画像910に対して、それぞれ韓国語、中国語、英語を対象とした文字認識モジュール125による処理結果である。
これらの認識文字は、図9に示した日本語文字認識結果920と同様の性質を有している。したがって、文字認識モジュール125が日本語以外の言語を対象としたものであっても、認識文字特徴取得モジュール130、翻訳判断モジュール135はポイント設定テーブル500、重み付け設定テーブル600等を用いることによって、前述の日本語を対象とした処理と同様の処理を行うことができる。
【0052】
図11を参照して、本実施の形態のハードウェア構成例について説明する。図11に示す構成は、例えばパーソナルコンピュータ(PC)などによって構成されるものであり、スキャナ等のデータ読み取り部1117と、プリンタなどのデータ出力部1118を備えたハードウェア構成例を示している。
【0053】
CPU(Central Processing Unit)1101は、前述の実施の形態において説明した各種のモジュール、すなわち、領域抽出モジュール115、行抽出モジュール120、文字認識モジュール125、認識文字特徴取得モジュール130等の各モジュールの実行シーケンスを記述したコンピュータ・プログラムにしたがった処理を実行する制御部である。
【0054】
ROM(Read Only Memory)1102は、CPU1101が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)1103は、CPU1101の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス1104により相互に接続されている。
【0055】
ホストバス1104は、ブリッジ1105を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス1106に接続されている。
【0056】
キーボード1108、マウス等のポインティングデバイス1109は、操作者により操作される入力デバイスである。ディスプレイ1110は、液晶表示装置又はCRT(Cathode Ray Tube)などから成り、各種情報をテキストやイメージ情報として表示する。
【0057】
HDD(Hard Disk Drive)1111は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU1101によって実行するプログラムや情報を記録又は再生させる。ハードディスクには、受け付けた画像や文字認識モジュール125による認識結果などが格納される。さらに、その他の各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。
【0058】
ドライブ1112は、装着されている磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体1113に記録されているデータ又はプログラムを読み出して、そのデータ又はプログラムを、インタフェース1107、外部バス1106、ブリッジ1105、及びホストバス1104を介して接続されているRAM1103に供給する。リムーバブル記録媒体1113も、ハードディスクと同様のデータ記録領域として利用可能である。
【0059】
接続ポート1114は、外部接続機器1115を接続するポートであり、USB、IEEE1394等の接続部を持つ。接続ポート1114は、インタフェース1107、及び外部バス1106、ブリッジ1105、ホストバス1104等を介してCPU1101等に接続されている。通信部1116は、ネットワークに接続され、外部とのデータ通信処理を実行する。データ読み取り部1117は、例えばスキャナであり、ドキュメントの読み取り処理を実行する。データ出力部1118は、例えばプリンタであり、ドキュメントデータの出力処理を実行する。
【0060】
なお、図11に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図11に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図11に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
【0061】
前記実施の形態においては、図4に示すフローチャートにおいて1文字あたりのポイント数によって翻訳すべきか否かを判断する例を示したが、1文字あたりではなく、複数文字あたりのポイント数であってもよい。
【0062】
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
【図面の簡単な説明】
【0063】
【図1】本実施の形態の構成例についての概念的なモジュール構成図である。
【図2】本実施の形態による処理例を示すフローチャートである。
【図3】処理テーブルのデータ構造例を示す説明図である。
【図4】認識文字特徴取得モジュール、翻訳判断モジュールによる処理例を示すフローチャートである。
【図5】ポイント設定テーブルの例を示す説明図である。
【図6】重み付け設定テーブルの例を示す説明図である。
【図7】本実施の形態による具体的な処理例を示す説明図である。
【図8】画像受付モジュール、領域抽出モジュール、行抽出モジュール、文字認識モジュールによる処理例を示す説明図である。
【図9】訳文特徴取得モジュール、出力判断モジュールによる処理例を示す説明図である。
【図10】各言語を対象とした文字認識モジュールによる処理例を示す説明図である。
【図11】本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
【符号の説明】
【0064】
110…画像受付モジュール
115…領域抽出モジュール
120…行抽出モジュール
125…文字認識モジュール
130…認識文字特徴取得モジュール
135…翻訳判断モジュール
140…翻訳モジュール
145…訳文特徴取得モジュール
150…出力判断モジュール
155…出力モジュール
300…処理テーブル
【技術分野】
【0001】
本発明は、情報処理装置及び情報処理プログラムに関する。
【背景技術】
【0002】
例えば、主に第1の言語で記載された文章(以降、原文とも称す。ただし、必ずしも文章、文の形態を備えている必要はなく、第1の言語で記載された文字である)を持つ紙文書をスキャンし、得られた画像を解析して文章領域を抽出し、その文章領域に対して文字認識を行い、得られた文字認識の結果であるテキストを第2の言語に翻訳した文章(以降、翻訳文とも称す。必ずしも文章、文の形態を備えている必要はなく、第2の言語である文字である)をページにレイアウトして出力する翻訳装置がある。
【0003】
これに関連する技術として、例えば、特許文献1には、紙に打ち出してある文書を機械翻訳機上で翻訳する手段を提供することを目的とし、原稿を読み取る画像入力部と、画像入力部で得られたイメージデータを記憶する原稿イメージ記憶部と、原稿イメージ記憶部に記憶されているイメージデータに対してレイアウト認識を行うレイアウト認識手段と、レイアウト認識で得られた文字認識領域を記憶する原文領域記憶部と、図形領域記憶部と、文字認識領域の文字に対応するコードデータを出力する文字認識実行部と、原文記憶部と、翻訳手段と、訳文記憶部と、原文領域記憶部に記載されている領域に訳文記憶部に記載されている訳文を埋め込む手段とを構成したことが開示されている。
【0004】
また、例えば、特許文献2には、入力された原文書のテキストイメージの行間に、テキストの翻訳結果を出力する手段と、入力された原文書のテキストイメージの行間が狭い場合、原文書のテキストをフォントサイズを小さくして再描画し、訳文を出力するに必要な行間を得る手段とを有することを特徴とする機械翻訳装置が開示されている。
【0005】
また、例えば、特許文献3には、原稿画像中に存在する単語に対応する訳語の位置を明確にし、また、訳語付加により出力画像の内容が大幅に変更されたとしても、複写画像の内容を読みやすくレイアウトして出力することを目的とし、CPUは、原稿画像情報と該情報の対訳情報を上下位置に合成するとき、原稿画像情報の情報幅より対訳情報の情報幅が小さくなるように制御することが開示されている。
【0006】
また、例えば、特許文献4には、第1の言語に基づく第1の文字及び画像を含む原稿を画像入力する原稿入力手段と、この原稿入力手段から画像入力された原稿画像データを解析して文書データ領域と画像データ領域とに領域分離する分離手段と、この分離手段により分離された前記文書データ領域から文字画像を切り出して第1の文字を認識する認識手段と、この認識手段により認識された第1の文字に対応する文字データを第2の言語に基づく第2の文字データに翻訳する翻訳手段と、前記分離手段により領域分離された文書データ領域情報及び前記第2の文字データに基づいてレイアウトされた印刷データを生成するデータ生成手段と、このデータ生成手段により生成された前記印刷データに基づいて第2の文字データと前記原稿画像データをそれぞれ記録媒体の各片面に振り分けて両面印刷する印刷手段を有する画像処理装置が開示されている。
【特許文献1】特開平08−006948号公報
【特許文献2】特許第3294919号公報
【特許文献3】特開平05−324720号公報
【特許文献4】特許第3636490号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
ところで、画像を読み取って、その画像内の文字を認識して翻訳するような場合にあって、文字以外の画像領域を文字として認識して翻訳してしまい、翻訳の品質及び/または翻訳文書の見栄えを低下させてしまうことがある。
本発明は、かかる課題を解決するようにした情報処理装置及び情報処理プログラムを提供することを目的としている。
【課題を解決するための手段】
【0008】
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、画像内の文字を認識する文字認識手段と、前記文字認識手段によって認識された結果である認識文字の特徴を取得する認識文字特徴取得手段と、前記認識文字特徴取得手段によって取得された特徴に基づいて、前記認識文字を翻訳すべきか否かを判断する翻訳判断手段を具備することを特徴とする情報処理装置である。
【0009】
請求項2の発明は、前記翻訳判断手段によって翻訳すべきと判断された場合に、前記認識文字を翻訳する翻訳手段と、前記翻訳手段によって翻訳された結果である翻訳結果の特徴を取得する翻訳結果特徴取得手段と、前記翻訳結果特徴取得手段によって取得された特徴に基づいて、前記翻訳文を出力すべきか否かを判断する出力判断手段を具備することを特徴とする請求項1に記載の情報処理装置である。
【0010】
請求項3の発明は、画像を受け付ける画像受付手段と、前記出力判断手段によって出力すべきと判断された場合に、前記画像受付手段によって受け付けられた画像の構成に基づいて、前記翻訳結果を出力する出力手段をさらに具備し、前記文字認識手段は、前記画像受付手段によって受け付けられた画像内の文字を認識することを特徴とする請求項2に記載の情報処理装置である。
【0011】
請求項4の発明は、前記認識文字特徴取得手段は、文字以外の画像を認識した場合の認識文字を含んでいることに関する特徴を取得することを特徴とする請求項1から3のいずれか一項に記載の情報処理装置である。
【0012】
請求項5の発明は、前記認識文字特徴取得手段は、前記文字以外の画像を認識した場合の認識文字の並びに関する特徴を取得することを特徴とする請求項4に記載の情報処理装置である。
【0013】
請求項6の発明は、前記認識文字特徴取得手段は、前記認識文字の所定文字数あたりの特徴を取得することを特徴とする請求項1から5のいずれか一項に記載の情報処理装置である。
【0014】
請求項7の発明は、コンピュータを、画像内の文字を認識する文字認識手段と、前記文字認識手段によって認識された結果である認識文字の特徴を取得する認識文字特徴取得手段と、前記認識文字特徴取得手段によって取得された特徴に基づいて、前記認識文字を翻訳すべきか否かを判断する翻訳判断手段として機能させることを特徴とする情報処理プログラムである。
【発明の効果】
【0015】
請求項1の情報処理装置によれば、画像内の文字を認識して翻訳させる場合にあって、文字以外の画像領域を文字として認識して翻訳させることを抑制することができる。
【0016】
請求項2の情報処理装置によれば、文字以外の画像領域を文字として認識して翻訳すべきであると判断してしまった場合でも、その画像領域に対して翻訳して出力することを抑制することができる。
【0017】
請求項3の情報処理装置によれば、画像内の文字を認識し翻訳した結果をその画像に合わせて出力する場合にあって、文字以外の画像領域を文字として認識し翻訳して出力することを抑制することができる。
【0018】
請求項4の情報処理装置によれば、既存の文字認識技術を用いた場合にあっても、文字以外の画像領域を文字として認識し翻訳して出力することを抑制することができる。
【0019】
請求項5の情報処理装置によれば、請求項4の情報処理装置に比べて、文字以外の画像領域を文字として認識し翻訳して出力することをさらに抑制することができる。
【0020】
請求項6の情報処理装置によれば、文字画像領域を文字として認識して翻訳させることを抑制することを防ぐようにすることができる。
【0021】
請求項7の情報処理プログラムによれば、画像内の文字を認識して翻訳させる場合にあって、文字以外の画像領域を文字として認識して翻訳させることを抑制することができる。
【発明を実施するための最良の形態】
【0022】
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、コンピュータ・プログラム、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能にほぼ一対一に対応しているが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)を含む。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。
【0023】
本実施の形態は、図1に示すように、画像受付モジュール110、領域抽出モジュール115、行抽出モジュール120、文字認識モジュール125、認識文字特徴取得モジュール130、翻訳判断モジュール135、翻訳モジュール140、訳文特徴取得モジュール145、出力判断モジュール150、出力モジュール155を有している。
【0024】
画像受付モジュール110は、領域抽出モジュール115と接続されており、画像を受け付けて、その画像を領域抽出モジュール115へ渡す。画像を受け付けるとは、スキャナで画像を読み込むこと、ファックスで画像を受信すること、画像データベース等から画像を読み出すこと等が含まれる。画像には、2値画像、カラー画像等の多値画像が含まれている。その画像は、1枚であってもよいし、複数枚であってもよい。また、画像の内容として、ビジネス用に用いられる文書、広告宣伝用のパンフレット等であってもよい。
【0025】
領域抽出モジュール115は、画像受付モジュール110、行抽出モジュール120と接続されており、画像受付モジュール110から画像を受け取り、多値画像の場合は2値画像に変換し、その画像から文字画像領域を抽出し、その文字画像領域を行抽出モジュール120へ渡す。つまり、画像を文字画像領域と文字画像領域以外の画像領域に分ける。文字画像領域の抽出としては、既存の方法を用いるようにしてよい。例えば、領域内の単位面積あたりの複雑さ、画素値、黒画素数等に基づいて行うようにしてもよい。文字画像領域を渡すとは、抽出した文字画像領域の画像自体を渡すようにしてもよいし、画像受付モジュール110から受け取った画像と文字画像領域の座標(例えば、文字画像領域が矩形の場合は、左上角のx座標、y座標、幅、高さ)を渡すようにしてもよい。
【0026】
行抽出モジュール120は、領域抽出モジュール115、文字認識モジュール125と接続されており、領域抽出モジュール115から文字画像領域を受け取り、その中から文字行を抽出し、その文字行を文字認識モジュール125へ渡す。つまり、文字認識モジュール125に処理させるべく、行毎に文字領域を抽出する。ここで、文字行には横書きの文字行、縦書きの文字行を含む。文字行の抽出としては、既存の方法を用いるようにしてよい。例えば、文字画像領域に対して縦方向又は横方向に射影をとり、その黒画素数のヒストグラムから文字行間の境界を取り出すようにしてもよい。
【0027】
文字認識モジュール125は、行抽出モジュール120、認識文字特徴取得モジュール130と接続されており、行抽出モジュール120から行毎に切り出された文字画像を受け取り、その文字画像に対して文字認識を行い、その文字認識された結果である認識文字を認識文字特徴取得モジュール130へ渡す。文字認識とは、画像を文字コード(テキスト)に変換することであり、既存の方法を用いるようにしてよい。また、文字コードの他にその文字の大きさ等を認識するようにしてもよい。その場合、認識文字としてその文字の大きさ等を含む。なお、文字認識モジュール125は、領域抽出モジュール115又は行抽出モジュール120による誤り、つまり、本来文字画像領域ではない画像領域を文字認識の対象とする場合があり得る。
画像受付モジュール110〜文字認識モジュール125の処理例については、図8〜10等を用いて後述する。
【0028】
認識文字特徴取得モジュール130は、文字認識モジュール125、翻訳判断モジュール135と接続されている。文字認識モジュール125によって認識された結果である認識文字の特徴を取得し、その認識文字の特徴を翻訳判断モジュール135へ渡す。ここで、認識文字の特徴とは、その認識文字の主にテキストとしての特徴のことをいう。ただし、その認識文字の大きさを含めてもよい。
例えば、文字以外の画像を認識した場合の認識文字を含んでいることに関する特徴を取得するようにしてもよい。
また、例えば、文字以外の画像を認識した場合の認識文字の並びに関する特徴を取得するようにしてもよい。
また、例えば、認識文字の所定文字数あたりの特徴を取得するようにしてもよい。
【0029】
翻訳判断モジュール135は、認識文字特徴取得モジュール130、翻訳モジュール140と接続されている。
認識文字特徴取得モジュール130によって取得された特徴に基づいて、認識文字を翻訳すべきか否かを判断し、その結果を翻訳モジュール140へ渡す。
認識文字特徴取得モジュール130、翻訳判断モジュール135の処理例については、図4〜6等を用いて後述する。
【0030】
翻訳モジュール140は、翻訳判断モジュール135、訳文特徴取得モジュール145と接続されている。
翻訳判断モジュール135によって翻訳すべきと判断された場合に、文字認識モジュール125による認識文字であって翻訳すべきと判断されたものを翻訳し、翻訳文を訳文特徴取得モジュール145へ渡す。翻訳とは、第1の言語を別の第2の言語で意味として対応するものに変換することであり、既存の方法を用いるようにしてよい。
【0031】
訳文特徴取得モジュール145は、翻訳モジュール140、出力判断モジュール150と接続されている。
翻訳モジュール140によって翻訳された結果である翻訳結果の特徴を取得し、その翻訳結果の特徴を出力判断モジュール150へ渡す。
訳文特徴取得モジュール145は、翻訳文内にその言語における単語を含むことに関する情報を取得するようにしてもよい。具体的には、その言語における単語を記憶している辞書(文字認識モジュール125又は翻訳モジュール140が用いる辞書を流用してもよい)を用意し、翻訳文内にその辞書に記憶されている単語がいくつ含まれているかを取得する。例えば、出力判断モジュール150は、所定の閾値と比較して、含まれている単語数が多い場合は、出力要と判断するようにしてもよい。
【0032】
また、訳文特徴取得モジュール145は、前記単語を構成している文字が、対象としている翻訳文の文字行内で含まれている割合を取得するようにしてもよい。例えば、出力判断モジュール150は、所定の閾値と比較して、1行の文字数に対してその言語における単語を構成している文字数の割合が高い場合は、出力要と判断するようにしてもよい。
また、訳文特徴取得モジュール145は、翻訳文の構文解析を行い、その構文解析結果を取得するようにしてもよい。例えば、出力判断モジュール150は、正当な構文解析結果である場合は、出力要と判断するようにしてもよい。
また、訳文特徴取得モジュール145は、前述した翻訳文の複数の特徴を抽出するようにしてもよい。
【0033】
出力判断モジュール150は、訳文特徴取得モジュール145、出力モジュール155と接続されている。
訳文特徴取得モジュール145によって取得された特徴に基づいて、翻訳文を出力すべきか否かを判断し、その結果を出力モジュール155へ渡す。
また、訳文特徴取得モジュール145が、前述した翻訳文の複数の特徴を抽出するようにした場合、出力判断モジュール150は、複数の特徴を組み合わせて判断するようにしてもよい。その場合、特徴に対して重み付けを行うようにしてもよい。
【0034】
出力モジュール155は、出力判断モジュール150と接続されている。出力判断モジュール150によって出力すべきと判断された場合に、画像受付モジュール110によって受け付けられた画像の構成に基づいて、翻訳モジュール140による翻訳結果であって、出力判断モジュール150によって出力すべきと判断されたものを出力する。
出力モジュール155の処理例については、図7を用いて後述する。
【0035】
図2は、本実施の形態による処理例を示すフローチャートである。図2に示すフローチャートを説明する際に、図3に示す処理テーブル300の各欄をどのように完成させていくかを合わせて説明する。処理テーブル300は、No.欄302、x座標欄304、y座標欄306、高さ欄308、幅欄310、文字認識結果欄312、翻訳要否欄314、翻訳結果欄316、出力要否欄318を有している。
【0036】
ステップS202では、画像受付モジュール110が、翻訳対象の画像を受け付ける。
ステップS204では、領域抽出モジュール115が、ステップS202で受け付けられた画像から文字画像領域を抽出する。
ステップS206では、行抽出モジュール120が、ステップS204で抽出された文字画像領域から文字行を抽出する。ここで、行抽出モジュール120は処理テーブル300に対して、抽出した文字行を順にNo.欄302にその順番を記憶させ、その文字行の左上のx座標をx座標欄304に、y座標をy座標欄306に、文字行の高さを高さ欄308に、文字行の幅を幅欄310にそれぞれ記憶させる。
ステップS208では、文字認識モジュール125が、ステップS206で抽出された文字行を対象として文字認識処理を行う。そして、処理テーブル300内の文字認識結果欄312に認識文字を記憶させる。
【0037】
ステップS210では、認識文字特徴取得モジュール130が、ステップS208での認識文字の特徴を取得する。つまり、文字認識結果欄312内の文字を対象として、文字行毎にその特徴を抽出する。
ステップS212では、翻訳判断モジュール135が、ステップS210で取得された特徴に基づいて、その認識文字は翻訳対象とすべきか否かを判断する。その文字行を翻訳不要と判断した場合(Y)はステップS214へ進み、それ以外の場合(N)はステップS216へ進む。そして、翻訳判断モジュール135が、ステップS214では対応する翻訳要否欄314に「N」を記憶させ、ステップS216では対応する翻訳要否欄314に「Y」を記憶させる。なお、ステップS210〜ステップS216の処理例については、図4〜6等を用いて後述する。
ステップS218では、ステップS206で抽出した全ての文字行に対して、ステップS212の判断処理が完了したか否かを判断する。完了していない場合(N)はステップS210へ戻り、完了している場合(Y)はステップS220へ進む。
【0038】
ステップS220では、翻訳モジュール140が、翻訳要否欄314に「N」となっているものを排除して(つまり、翻訳要否欄314が「Y」となっているものを取り出して)、文字認識結果欄312内の文字列に対して翻訳を行う。そして、翻訳モジュール140は、その翻訳結果を対応する翻訳結果欄316に格納する。
ステップS222では、訳文特徴取得モジュール145が、ステップS220での翻訳文の特徴を取得する。つまり、翻訳結果欄316内の文字を対象として、文字行毎にその特徴を抽出する。
ステップS224では、出力判断モジュール150が、ステップS222で取得された特徴に基づいて、その翻訳文は有意か否か、つまり出力対象とすべきか否かを判断する。その文字行を有意と判断した場合(Y)はステップS226へ進み、それ以外の場合(N)はステップS228へ進む。そして、出力判断モジュール150が、ステップS226では対応する出力要否欄318に「Y」を記憶させ、ステップS228では対応する出力要否欄318に「N」を記憶させる。
ステップS230では、ステップS206で抽出した全ての文字行に対して、ステップS224の判断処理が完了したか否かを判断する。完了していない場合(N)はステップS222へ戻り、完了している場合(Y)はステップS232へ進む。
ステップS232では、出力モジュール155が出力すべき翻訳文が確定し、出力モジュール155がステップS202で受け付けられた画像の構成に応じて、翻訳文を出力する。
【0039】
図4は、認識文字特徴取得モジュール130、翻訳判断モジュール135による処理例(ステップS210〜ステップS216の具体的な処理例)を示すフローチャートである。ここでは、翻訳すべきか否かを1文字あたりのポイント数(点数)によって判断する。そして、ポイント数が高いものは翻訳すべきでないものとする。つまり、ポイントは文字画像領域でない画像を文字認識した可能性を反映している。
【0040】
ステップS402では、各文字行内の各認識文字のポイント数を取得する。ここで、認識文字は文字認識結果欄312を参照し、その文字のポイント数は、ポイント設定テーブル500を参照して取得する。
図5を用いて、ポイント設定テーブル500の例を説明する。ポイント設定テーブル500では、ポイントを3段階(ポイント:3、ポイント:2、ポイント:1)に分けている。つまり、文字画像領域でない画像を文字認識した場合に、頻繁に認識文字として出力される「−」、「一」、「1」、「I」等を3ポイントとし、1文字領域内に「トン」の文字があるもの、「ノ」、「レ」、「{」等を2ポイントとし、それ以外の文字を1ポイントと定めたものである。つまり、ポイント設定テーブル500は、ポイント数と文字を対応させて記憶したものである。そして、認識処理の各言語毎(例えば、日本語用、中国用、韓国語用、英語用等)にその文字を記憶させておく。
文字認識結果欄312内の各文字が、ポイント設定テーブル500内のどのポイント数に該当する文字であるかを取得することによって、各文字のポイントを取得する。
【0041】
ステップS404では、ステップS402でポイント付けされた文字の並び(文字列)によってポイントの重み付けを行う。その重み付けは重み付け設定テーブル600を用いる。
図6を用いて、重み付け設定テーブル600の例を説明する。重み付け設定テーブル600は、重み付けの係数とその係数が適用される状況を示したルールを対応させて記憶したものである。例えば、「ポイント:2又はポイント:3の特定の文字の組み合わせ(その文字行の方向でn文字以上並んでいる)」である状況(具体例として、「一一」等)の場合は、その文字のポイント数を4倍する。また、「ポイント:2又はポイント:3の文字がn文字以上並んでいる」状況の場合は、その文字のポイント数を2倍にする等である。
文字認識結果欄312内の文字の並びが、重み付け設定テーブル600内のルールに該当するかによって重み付け係数を決定する。
ステップS406では、ステップS402で取得されたポイント数、ステップS404で決定された重み付け係数に基づいて、各文字行のポイント数を計算する。
ステップS408では、その行内の文字数にポイント数が左右されないようにするために、文字認識結果欄312内の文字数を計数し、ステップS406で計算されたポイント数を除算して文字あたりの平均ポイント数を計算する。
【0042】
ステップS410では、ステップS408で計算された平均ポイント数は所定の閾値(TH)より大であるか否かを判断する。大であると判断した場合(Y)はステップS412へ進み、それ以外であると判断した場合(N)はステップS414へ進む。ステップS412では、対象行は翻訳不要(つまり、その文字行の認識文字は、文字画像領域でない画像を文字認識した可能性が高いもの)と判断し、対応する翻訳要否欄314に「N」を記憶させる。ステップS414では、対象行は翻訳要(つまり、その文字行の認識文字は、文字画像領域である画像を文字認識した可能性が高いもの)と判断し、対応する翻訳要否欄314に「Y」を記憶させる。
なお、ステップS402〜ステップS408は認識文字特徴取得モジュール130によって行われる。ステップS410〜ステップS414は翻訳判断モジュール135によって行われ、図2に示すフローチャートにおけるステップS212〜ステップS216に対応する。
【0043】
また、認識文字特徴取得モジュール130は、認識文字内にその言語における単語を含むことに関する情報を取得するようにしてもよい。具体的には、その言語における単語を記憶している辞書(文字認識モジュール125又は翻訳モジュール140が用いる辞書を流用してもよい)を用意し、認識文字内にその辞書に記憶されている単語がいくつ含まれているかを取得する。例えば、翻訳判断モジュール135は、所定の閾値と比較して、含まれている単語数が多い場合は、翻訳要と判断するようにしてもよい。
【0044】
また、認識文字特徴取得モジュール130は、前記単語を構成している文字が、対象としている文字行内で含まれている割合を取得するようにしてもよい。例えば、翻訳判断モジュール135は、所定の閾値と比較して、1行の文字数に対してその言語における単語を構成している文字数の割合が高い場合は、翻訳要と判断するようにしてもよい。
【0045】
また、認識文字特徴取得モジュール130は、文字認識モジュール125が出力する各認識文字の大きさを取得するようにしてもよい。例えば、翻訳判断モジュール135は、各文字の大きさの統計的分布に基づいて(例えば、文字の大きさが所定の範囲のバラツキ(偏差)内に収まっている場合)、翻訳要と判断するようにしてもよい。
また、認識文字特徴取得モジュール130は、文字認識モジュール125が出力する行毎の認識文字数を取得するようにしてもよい。例えば、翻訳判断モジュール135は、所定の閾値と比較して文字数が少ない行は、翻訳不要と判断するようにしてもよい。
また、認識文字特徴取得モジュール130は、対象とする行が隣接している画像領域の種類(文字画像領域、文字画像領域以外の画像領域等)に関する情報を取得するようにしてもよい。例えば、翻訳判断モジュール135は、対象としている行の画像領域が文字画像領域に囲まれている場合は、翻訳要と判断するようにしてもよい。
また、認識文字特徴取得モジュール130は、認識文字の構文解析を行い、その構文解析結果を取得するようにしてもよい。例えば、翻訳判断モジュール135は、正当な構文解析結果である場合は、翻訳要と判断するようにしてもよい。
また、認識文字特徴取得モジュール130は、前述した認識文字の複数の特徴を抽出するようにしてもよい。そして、翻訳判断モジュール135は、複数の特徴を組み合わせて判断するようにしてもよい。その場合、特徴に対して重み付けを行うようにしてもよい。
【0046】
図7は、本実施の形態による具体的な処理例(特に出力モジュール155による処理例)を示す説明図である。
画像受付モジュール110が例えばオリジナル原稿700を受け付ける。オリジナル原稿700は、文章領域702、文章領域704、画像領域706、画像領域708を有している。文章領域702、704は、文字認識モジュール125による文字認識の対象、そして翻訳モジュール140による翻訳の対象になる。また、画像領域706、708は、領域抽出モジュール115によって文字画像領域ではないと判断されてそのまま出力される。
【0047】
出力モジュール155は、領域抽出モジュール115、行抽出モジュール120、文字認識モジュール125によるオリジナル原稿700に対する構造の解析結果(つまり、文章領域702、704、画像領域706、708の種類(文字領域であるか否か等)、位置、大きさ等)に応じて、出力判断モジュール150によって出力要と判断された翻訳文(処理テーブル300の出力要否欄318が「Y」となっている行の翻訳結果欄316)を出力する。つまり、出力モジュール155は、処理テーブル300内のx座標欄304〜幅欄310等を用いて、翻訳文を出力する画像に配置する。例えば、ルビ風翻訳出力710、置き換え翻訳出力720のように出力する。ルビ風翻訳出力710は、文章領域712、714、画像領域706、708を有しており、オリジナル原稿700の画像領域706、708をそのまま出力しており、文章領域712、714は、翻訳文をルビのように配置(対応する原文の近傍に翻訳文を配置)して出力している例である。また、置き換え翻訳出力720は、文章領域722、文章領域724、画像領域706、画像領域708を有しており、オリジナル原稿700の画像領域706、708をそのまま出力しており、文章領域722、724は、翻訳文を原文の代わりに配置して出力している例である。
【0048】
図8は、画像受付モジュール110、領域抽出モジュール115、行抽出モジュール120、文字認識モジュール125による処理例を示す説明図である。
画像受付モジュール110が例えばオリジナル原稿800を受け付ける。オリジナル原稿800は、画像領域801、文章領域802、文章領域803を有している。つまり、文章領域802、803は文字認識、翻訳の対象となるべきものであり、画像領域801内の文章領域802以外の領域はそのまま出力すべきものである。
【0049】
次に、領域抽出モジュール115が、オリジナル原稿800に対して、2値化を行い2値画像810を生成する。オリジナル原稿800の多値画像の画像領域801も2値画像810の画像領域811のように2値画像となる。
さらに、領域抽出モジュール115は、2値画像810に対して、文字画像領域を抽出する。ここで、領域抽出モジュール115は、文章領域828、829を文字画像領域として抽出するが、画像領域821内の文章領域826、827も文字画像領域として抽出してしまう。これは、自然画等の多値画像を2値化した場合、文字画像領域の特徴を備えているような領域が発生してしまうことによるものである。
この結果(文章領域826〜829を文字画像領域として抽出)のまま、行抽出モジュール120、文字認識モジュール125によって処理を行わせると、文章領域826は『レ〆』、文章領域827は『、≠ノ徴』、文章領域828は『絵柄中の文字列』、文章領域829は『本文中の文字列です。』の認識文字となってしまう。ここで、認識文字特徴取得モジュール130、翻訳判断モジュール135による処理によって、文章領域826、827の認識文字は翻訳対象とならないようにする。
【0050】
図9は、訳文特徴取得モジュール145、出力判断モジュール150による処理例(認識文字特徴取得モジュール130、翻訳判断モジュール135による処理が行われなかった場合の例)を示す説明図である。
画像受付モジュール110が例えば原画像900を受け付ける。原画像900には、文字画像領域がなく、そのまま出力すべきものである。
次に、領域抽出モジュール115が、原画像900に対して、2値化を行い2値画像910を生成する。領域抽出モジュール115は、2値画像910に対して、文字画像領域を抽出してしまう。
文字認識モジュール125がこの文字画像領域に対して文字認識を行うと、図9に示すような日本語文字認識結果920となる。さらに、日本語文字認識結果920を翻訳モジュール140が翻訳してしまうと、例えば、図9に示すような中国語訳930、英語訳940となってしまう。
ここで、訳文特徴取得モジュール145、出力判断モジュール150は前述に示すような処理を行い、中国語訳930、英語訳940のような翻訳文は出力させない。
【0051】
図10は、各言語を対象とした文字認識モジュール125による処理例を示す説明図である。
図10に示す韓国語文字認識結果1010、中国語文字認識結果1020、英語文字認識結果1030は、2値画像910に対して、それぞれ韓国語、中国語、英語を対象とした文字認識モジュール125による処理結果である。
これらの認識文字は、図9に示した日本語文字認識結果920と同様の性質を有している。したがって、文字認識モジュール125が日本語以外の言語を対象としたものであっても、認識文字特徴取得モジュール130、翻訳判断モジュール135はポイント設定テーブル500、重み付け設定テーブル600等を用いることによって、前述の日本語を対象とした処理と同様の処理を行うことができる。
【0052】
図11を参照して、本実施の形態のハードウェア構成例について説明する。図11に示す構成は、例えばパーソナルコンピュータ(PC)などによって構成されるものであり、スキャナ等のデータ読み取り部1117と、プリンタなどのデータ出力部1118を備えたハードウェア構成例を示している。
【0053】
CPU(Central Processing Unit)1101は、前述の実施の形態において説明した各種のモジュール、すなわち、領域抽出モジュール115、行抽出モジュール120、文字認識モジュール125、認識文字特徴取得モジュール130等の各モジュールの実行シーケンスを記述したコンピュータ・プログラムにしたがった処理を実行する制御部である。
【0054】
ROM(Read Only Memory)1102は、CPU1101が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)1103は、CPU1101の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス1104により相互に接続されている。
【0055】
ホストバス1104は、ブリッジ1105を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス1106に接続されている。
【0056】
キーボード1108、マウス等のポインティングデバイス1109は、操作者により操作される入力デバイスである。ディスプレイ1110は、液晶表示装置又はCRT(Cathode Ray Tube)などから成り、各種情報をテキストやイメージ情報として表示する。
【0057】
HDD(Hard Disk Drive)1111は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU1101によって実行するプログラムや情報を記録又は再生させる。ハードディスクには、受け付けた画像や文字認識モジュール125による認識結果などが格納される。さらに、その他の各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。
【0058】
ドライブ1112は、装着されている磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体1113に記録されているデータ又はプログラムを読み出して、そのデータ又はプログラムを、インタフェース1107、外部バス1106、ブリッジ1105、及びホストバス1104を介して接続されているRAM1103に供給する。リムーバブル記録媒体1113も、ハードディスクと同様のデータ記録領域として利用可能である。
【0059】
接続ポート1114は、外部接続機器1115を接続するポートであり、USB、IEEE1394等の接続部を持つ。接続ポート1114は、インタフェース1107、及び外部バス1106、ブリッジ1105、ホストバス1104等を介してCPU1101等に接続されている。通信部1116は、ネットワークに接続され、外部とのデータ通信処理を実行する。データ読み取り部1117は、例えばスキャナであり、ドキュメントの読み取り処理を実行する。データ出力部1118は、例えばプリンタであり、ドキュメントデータの出力処理を実行する。
【0060】
なお、図11に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図11に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図11に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
【0061】
前記実施の形態においては、図4に示すフローチャートにおいて1文字あたりのポイント数によって翻訳すべきか否かを判断する例を示したが、1文字あたりではなく、複数文字あたりのポイント数であってもよい。
【0062】
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
【図面の簡単な説明】
【0063】
【図1】本実施の形態の構成例についての概念的なモジュール構成図である。
【図2】本実施の形態による処理例を示すフローチャートである。
【図3】処理テーブルのデータ構造例を示す説明図である。
【図4】認識文字特徴取得モジュール、翻訳判断モジュールによる処理例を示すフローチャートである。
【図5】ポイント設定テーブルの例を示す説明図である。
【図6】重み付け設定テーブルの例を示す説明図である。
【図7】本実施の形態による具体的な処理例を示す説明図である。
【図8】画像受付モジュール、領域抽出モジュール、行抽出モジュール、文字認識モジュールによる処理例を示す説明図である。
【図9】訳文特徴取得モジュール、出力判断モジュールによる処理例を示す説明図である。
【図10】各言語を対象とした文字認識モジュールによる処理例を示す説明図である。
【図11】本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
【符号の説明】
【0064】
110…画像受付モジュール
115…領域抽出モジュール
120…行抽出モジュール
125…文字認識モジュール
130…認識文字特徴取得モジュール
135…翻訳判断モジュール
140…翻訳モジュール
145…訳文特徴取得モジュール
150…出力判断モジュール
155…出力モジュール
300…処理テーブル
【特許請求の範囲】
【請求項1】
画像内の文字を認識する文字認識手段と、
前記文字認識手段によって認識された結果である認識文字の特徴を取得する認識文字特徴取得手段と、
前記認識文字特徴取得手段によって取得された特徴に基づいて、前記認識文字を翻訳すべきか否かを判断する翻訳判断手段
を具備することを特徴とする情報処理装置。
【請求項2】
前記翻訳判断手段によって翻訳すべきと判断された場合に、前記認識文字を翻訳する翻訳手段と、
前記翻訳手段によって翻訳された結果である翻訳結果の特徴を取得する翻訳結果特徴取得手段と、
前記翻訳結果特徴取得手段によって取得された特徴に基づいて、前記翻訳文を出力すべきか否かを判断する出力判断手段
を具備することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
画像を受け付ける画像受付手段と、
前記出力判断手段によって出力すべきと判断された場合に、前記画像受付手段によって受け付けられた画像の構成に基づいて、前記翻訳結果を出力する出力手段
をさらに具備し、
前記文字認識手段は、前記画像受付手段によって受け付けられた画像内の文字を認識する
ことを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記認識文字特徴取得手段は、文字以外の画像を認識した場合の認識文字を含んでいることに関する特徴を取得する
ことを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。
【請求項5】
前記認識文字特徴取得手段は、前記文字以外の画像を認識した場合の認識文字の並びに関する特徴を取得する
ことを特徴とする請求項4に記載の情報処理装置。
【請求項6】
前記認識文字特徴取得手段は、前記認識文字の所定文字数あたりの特徴を取得する
ことを特徴とする請求項1から5のいずれか一項に記載の情報処理装置。
【請求項7】
コンピュータを、
画像内の文字を認識する文字認識手段と、
前記文字認識手段によって認識された結果である認識文字の特徴を取得する認識文字特徴取得手段と、
前記認識文字特徴取得手段によって取得された特徴に基づいて、前記認識文字を翻訳すべきか否かを判断する翻訳判断手段
として機能させることを特徴とする情報処理プログラム。
【請求項1】
画像内の文字を認識する文字認識手段と、
前記文字認識手段によって認識された結果である認識文字の特徴を取得する認識文字特徴取得手段と、
前記認識文字特徴取得手段によって取得された特徴に基づいて、前記認識文字を翻訳すべきか否かを判断する翻訳判断手段
を具備することを特徴とする情報処理装置。
【請求項2】
前記翻訳判断手段によって翻訳すべきと判断された場合に、前記認識文字を翻訳する翻訳手段と、
前記翻訳手段によって翻訳された結果である翻訳結果の特徴を取得する翻訳結果特徴取得手段と、
前記翻訳結果特徴取得手段によって取得された特徴に基づいて、前記翻訳文を出力すべきか否かを判断する出力判断手段
を具備することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
画像を受け付ける画像受付手段と、
前記出力判断手段によって出力すべきと判断された場合に、前記画像受付手段によって受け付けられた画像の構成に基づいて、前記翻訳結果を出力する出力手段
をさらに具備し、
前記文字認識手段は、前記画像受付手段によって受け付けられた画像内の文字を認識する
ことを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記認識文字特徴取得手段は、文字以外の画像を認識した場合の認識文字を含んでいることに関する特徴を取得する
ことを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。
【請求項5】
前記認識文字特徴取得手段は、前記文字以外の画像を認識した場合の認識文字の並びに関する特徴を取得する
ことを特徴とする請求項4に記載の情報処理装置。
【請求項6】
前記認識文字特徴取得手段は、前記認識文字の所定文字数あたりの特徴を取得する
ことを特徴とする請求項1から5のいずれか一項に記載の情報処理装置。
【請求項7】
コンピュータを、
画像内の文字を認識する文字認識手段と、
前記文字認識手段によって認識された結果である認識文字の特徴を取得する認識文字特徴取得手段と、
前記認識文字特徴取得手段によって取得された特徴に基づいて、前記認識文字を翻訳すべきか否かを判断する翻訳判断手段
として機能させることを特徴とする情報処理プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2009−223477(P2009−223477A)
【公開日】平成21年10月1日(2009.10.1)
【国際特許分類】
【出願番号】特願2008−65504(P2008−65504)
【出願日】平成20年3月14日(2008.3.14)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
【公開日】平成21年10月1日(2009.10.1)
【国際特許分類】
【出願日】平成20年3月14日(2008.3.14)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
[ Back to top ]