説明

画像処理装置、画像読取装置、複合機、画像処理方法、プログラム、記録媒体

【課題】文字認識処理の速度を改善する。
【解決手段】画像処理装置1は、天地判定部27、文字認識部13、辞書選択部28を有している。天地判定部27は、日本語の辞書データおよび英語の辞書データを参照して、画像データに示される文字パターンの方向を上下左右の4方向の各々にした場合の各文字パターンと前記辞書データの文字パターンとのマッチングを行い、前記マッチングの結果に基づいて前記画像データの天地方向を判定する。文字認識部13は、辞書データを使用して前記画像データに対して文字認識処理を行う。辞書選択部28は、文字認識部13に使用させる辞書データとして、前記マッチングの結果に応じた言語の辞書データを選択する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像データに対して文字認識を行う画像処理装置、画像処理方法、複合機、プログラム、当該プログラムを記録した記録媒体に関するものである。
【背景技術】
【0002】
従来から、紙媒体の原稿に記載されている情報をスキャナで読み取って画像データを取得し、当該画像データに対して文字認識処理を施して当該画像データに含まれる文字に関するテキストデータを作成する技術がある。そして、上記の画像データから余白領域および余白領域の色を抽出し、上記テキストデータを上記余白領域に余白領域と同一色で埋め込むことにより、ユーザに視認されることなくテキストデータを埋め込んだPDFファイルを作成できる。また、上記のテキストデータを透明テキスト方式として上記画像データに埋め込めば、サーチャブルPDFファイルを作成できる。
【0003】
また、文字認識処理においては、複数種類の言語の文字の認識を行う場合、それぞれの言語固有の特性があるため、予め各言語の辞書データ(認識辞書)を保持(記憶)しておき、各言語の辞書データを用いて認識処理を行う。
【0004】
さらに、下記の特許文献1には、日本語の文字を認識する認識部と英語の文字を認識する認識部とを設け、画像データに対して両認識部による認識を実行する。そして、一方の認識部の認識結果に対する認識率(認識自信度)を求め、認識率と閾値とを比較し、この比較結果に応じて、一方の認識部の認識結果と他方の認識部の認識結果のうちのいずれかを選択して出力する点が記載されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平9−114931号公報(公開日:1997年5月2日)
【特許文献2】特開平6−189083号公報(公開日:1994年7月8日)
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1の構成によれば、日本語のみからなる原稿画像についても、全ての文字に対して日本語の辞書データを用いた文字認識処理と英語の辞書データとを用いた文字認識処理との両方を実行することになる。つまり、特許文献1の構成によれば、無駄な処理が生じる場合があり、処理が遅いという問題が生じていた。
【0007】
本発明は、画像データに対して文字認識処理を実行する画像処理装置において、文字認識処理の速度を改善することを目的とするものである。
【課題を解決するための手段】
【0008】
本発明の画像処理装置は、前記目的を達成するために、少なくとも第1言語の辞書データおよび第2言語の辞書データを参照して、画像データに示される文字パターンの方向を上下左右の4方向の各々にした場合の各文字パターンと前記辞書データの文字パターンとのマッチングを行い、前記マッチングの結果に基づいて前記画像データの天地方向を判定する天地判定部と、辞書データを使用して前記画像データに対して文字認識処理を行う文字認識部と、前記文字認識処理にて前記文字認識部に使用させる辞書データとして、前記天地判定部にて実行される前記マッチングの結果に応じた言語の辞書データを選択する辞書選択部とを含むことを特徴とする。
【0009】
本発明の構成によれば、画像データの文字パターンと辞書データの文字パターンとのマッチングを行い、このマッチングの結果に基づいて画像データの天地方向を判定している。そして、前記マッチングにおいては第1言語の辞書データおよび第2言語の辞書データが使用されているため、前記マッチングの結果を参照すれば前記画像データにて使用されている言語の種別(第1言語、第2言語)の傾向が明らかになる。そこで、本発明は、文字認識処理にて前記文字認識部に使用させる辞書データとして、前記天地判定部にて実行される前記マッチングの結果に応じた言語の辞書データを選択する処理を行う辞書選択部を有している。これにより、例えば、第1言語の文字からなる画像データに対して第1言語の辞書データのみを選択して文字認識処理を行うといった事が可能になり、第1言語の文字からなる画像データに対して第2言語の辞書データを用いて文字認識処理が行われるといった無駄を省くことができ、文字認識処理の速度を改善(向上)することができる。
【0010】
さらに、本発明の構成によれば、天地方向の判定のためのマッチング(試験的な文字認識)は、文字認識処理における辞書データの選択のためのマッチング(試験的な文字認識)としても利用されることになる。それゆえ、天地方向の判定のためのマッチング(試験的な文字認識)とは別に、文字認識処理における辞書データの選択のためのマッチング(試験的な文字認識)を行うという無駄がない分、処理全体の速度が向上することになる。
【0011】
また、本発明の画像処理装置において、前記辞書選択部は、前記画像データに示されている所定数の文字パターンのうち、前記マッチングにおいて前記第1言語の辞書データに示されている文字パターンと同一と認識される文字パターンの総数が閾値以上の場合、前記文字認識部に使用させる辞書データとして第1言語の辞書データを選択し、前記画像データに示されている所定数の文字パターンのうち、前記総数が閾値未満である場合、前記文字認識部に使用させる辞書データとして、第2言語の辞書データ、或いは第1言語の辞書データおよび第2言語の辞書データを選択するようになっていてもよい。これにより、文字認識部に使用させる辞書データとして、前記天地判定部にて実行される前記マッチングの結果に応じた言語の辞書データを選択できる。それゆえ、例えば、第1言語の文字のみからなる画像に対して第2言語の辞書データを用いて文字認識処理を行うといった無駄な処理を省くことができるため、文字認識速度を大幅に向上させることができる。
【0012】
さらに、本発明の画像処理装置において、前記マッチングは、前記画像データの文字パターンと前記辞書データの文字パターンとの類似度を示すスコアを算出し、このスコアの値に基づいて、前記画像データの文字パターンと同一と認識される文字パターンを前記辞書データから抽出する処理であり、前記辞書選択部は、前記第1言語の辞書データを用いたマッチングにて得られたスコアの累計が閾値以上の場合、前記文字認識部に使用させる辞書データとして第1言語の辞書データを選択し、前記第1言語の辞書データを用いたマッチングにて得られたスコアの累計が閾値未満の場合、前記文字認識部に使用させる辞書データとして第2言語の辞書データ、或いは第1言語の辞書データおよび第2言語の辞書データを選択するようになっていてもよい。これにより、文字認識部に使用させる辞書データとして、前記天地判定部にて実行される前記マッチングの結果に応じた言語の辞書データを選択できる。それゆえ、例えば、第1言語の文字のみからなる画像に対して第2言語の辞書データを用いて文字認識処理を行うといった無駄な処理を省くことができるため、文字認識速度を大幅に向上させることができる。
【0013】
また、本発明の画像処理装置は、前記構成に加えて、前記画像データを複数の部分領域に分割する領域分割部を有し、前記天地判定部は、前記部分領域毎に、前記マッチングと前記天地方向の判定とを行うものであり、前記辞書選択部は、前記部分領域毎に、前記文字認識部に使用させる辞書データを選択する構成であってもよい。
【0014】
前記構成によれば、画像全体を複数の部分領域に分割し、部分領域毎に、文字認識処理にて使用される辞書データを選択することになる。これにより、例えば、日本語のみからなる部分領域と英語のみからなる部分領域とが割り付けられた原稿の画像データに対しても、適切に辞書データの選択を行うことが可能になる。なお、このような原稿の一例として学術論文がある。学術論文は、日本語文字からなる本文部と、英語文字からなるアブストラクト部とを含むからである。
【0015】
本発明の画像読取装置は、前記画像処理装置と、前記文書原稿を読み取って前記画像データを取得する画像入力装置とを備えている。本発明の複合機は、前記画像処理装置と、前記文書原稿を読み取って前記画像データを取得する画像入力装置とを備えている。また、本発明の画像処理方法は、少なくとも第1言語の辞書データおよび第2言語の辞書データを用いて、画像データに示される文字パターンの方向を上下左右の4方向の各々にした場合の各文字パターンと前記辞書データの文字パターンとのマッチングを行い、前記マッチングの結果に基づいて前記画像データの天地方向を判定する判定工程と、辞書データを使用して前記画像データに対して文字認識処理を行う認識工程とを含み、少なくとも第1言語の辞書データおよび第2言語の辞書データから、前記マッチングの結果に応じた辞書データを選択し、選択した辞書データを前記文字認識処理にて使用することを特徴とする。
【0016】
なお、上記画像処理装置は、コンピュータによって実現されてもよく、この場合には、コンピュータを上記各部として動作させることにより、上記画像処理装置をコンピュータにて実現させるプログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に含まれる。
【発明の効果】
【0017】
本発明の画像処理装置は、以上にて示したように、前記文字認識処理にて前記文字認識部に使用させる辞書データとして、前記天地判定部にて実行される前記マッチングの結果に応じた言語の辞書データを選択する辞書選択部を含むことを特徴とする。これにより、文字認識処理の速度を改善(向上)することができる。
【図面の簡単な説明】
【0018】
【図1】本発明の一実施形態に係る画像処理装置の構成を示したブロック図である。
【図2】図1に示す原稿補正部の構成を示したブロック図である。
【図3】画像データに示される文字の外接矩形を示した説明図である。
【図4】画像データから抽出された各文字列を示す説明図である。
【図5】画像データから抽出された複数のブロック(部分領域)を示す説明図である。
【図6】図1に示すデータ処理部の構成を示したブロック図である。
【図7】(a)は、日本語の字形辞書データから得られた認識文字の総数が閾値を超えている事を示したグラフである。(b)は、英語の字形辞書データから得られた認識文字の総数が閾値を超えている事を示したグラフである。(c)は、日本語の字形辞書データから得られた認識文字の総数および英語の字形辞書データから得られた認識文字の総数がいずれも閾値未満であることを示したグラフである。(d)は、0度の方向の認識文字の総数が最も多いことを示したグラフである。
【図8】図1に示す画像処理装置の処理の流れを示したフローチャートである。
【図9】本発明の別の実施形態に係る画像処理装置を有する画像形成装置を示したブロック図であり、複写処理を行っている際の動作状態を示すブロック図である。
【図10】図9に示される画像形成装置と同一の画像形成装置を示した図であって、イメージ送信処理を行っている際の動作状態を示すブロック図である。
【図11】原稿自動判別部を備える画像処理装置を示したブロック図である。
【図12】本発明のさらに別の実施形態に係る画像処理装置を有する画像読取装置を示したブロック図である。
【図13】(a)は、画像表示装置の表示特性に応じたガンマ曲線の一例を示した図である。(b)は、文字をくっきりと表示させるためのガンマ曲線の一例を実線で示した図である。
【図14】文字認識部の上段に領域分離部を備えた画像処理装置を示したブロック図である。
【発明を実施するための形態】
【0019】
〔実施の形態1〕
本発明の一実施形態を図面に基づいて以下に説明する。図1は、本発明の実施形態の画像処理装置1の概略構成を示すブロック図である。画像処理装置1は、画像読取装置(スキャナ専用機)または複合機に備えられるものである。画像読取装置または複合機は、CCD(Charge Coupled Device)ラインセンサを備えた画像入力装置を有しており、この画像入力装置によって文書原稿を読み取り、原稿画像(文書原稿の画像)を示したR,G,Bの画像データを取得する。画像処理装置1は、上記画像データに対して画像処理を行う装置(集積回路またはコンピュータ)である。なお、Rは赤色成分、Gは緑色成分、Bは青色成分を示す。
【0020】
図1に示すように、画像処理装置1は記憶装置2および送受信装置3に接続されている。記憶装置2としては、一般的なハードディスク装置を用いることができる。送受信装置3は、通信ネットワークに接続されており、当該通信ネットワークに接続されている他の装置と通信するための装置である。
【0021】
画像入力装置によって取得された画像データは記憶装置2に一旦保存される。画像処理装置1は、記憶装置2から画像データを読み出し、読み出した画像データに対して文字認識処理を施して透明テキストを取得する。さらに、画像処理装置1は、上記の画像データに上記の透明テキストを埋め込んだ画像ファイル(PDFファイル)を作成し、この画像ファイルを送受信装置3に送るようになっている。そして、送受信装置3は、通信ネットワークを介して上記画像ファイルを他の装置(例えば、パーソナルコンピュータ、サーバ装置、表示装置等)に送信するようになっている。
【0022】
図1は、画像処理装置1の構成を示すブロック図である。画像処理装置1は、図1に示すように、原稿補正部11、データ処理部12、文字認識部13、描画コマンド生成部14、フォーマット化処理部15を有している。
【0023】
原稿補正部11は、記憶装置2から画像データを読み出し、この画像データに示される原稿画像の傾き検出処理と、原稿画像の傾き補正処理とを行うブロックである。以下では原稿補正部11について詳細に説明する。
【0024】
図2は、原稿補正部11の構成を示すブロック図である。原稿補正部11は、図2に示すように、前処理部21、傾き検知部22、傾き補正部23を有している。
【0025】
前処理部21は、以下に示すように信号変換処理と2値化処理と解像度変換処理とを実行するブロックである。以下、前処理部21にて実行される各処理について説明する。
【0026】
まず、前処理部21は、記憶装置2からR,G,Bの画像データを入力し、下記の式aを用いて、R,G,Bの画像データを輝度信号に変換する信号変換処理を行う。
Yi=0.30Ri+0.59Gi+0.11Bi 式a
Y:各画素の輝度信号(輝度値)
R,G,B:各画素の各色成分の値
i:画素毎に付与される値(iは1以上の整数)
つぎに、前処理部21は、上記輝度信号に対して2値化処理を行って2値化データを作成する。2値化処理に用いられる閾値は、例えば、画像データが8ビットの場合は128に設定される。また、画像データにおいて複数の画素からなるブロック(例えば5×5画素)を設定し、このブロックにおける輝度値の平均値を求め、求めた平均値を当該ブロック内の画素についての閾値としてもよい。
【0027】
なお、輝度信号を2値化するのではなく、RGBの画像データからL値を求め、L値を2値化することによって2値化データを生成してもよい。L値は、CIE1976L表色系(CIE:Commission Internationale de l'Eclairage)における明度を示す値であり、a値およびb値は前記L表色系における色度を示す値である。また、G信号の値を2値化して2値化データを生成してもよい。
【0028】
さらに、前処理部21は、上記の2値化データに対して解像度変換処理(低解像度化)を行う。具体的に、前処理部21は、1200dpiないし600dpiで読み取られ且つ上記のように2値化して得られた2値化データから、300dpiの2値化データを生成する。そして、前処理部21は、解像度変換処理にて得られた300dpiの2値化データを傾き検知部22に入力する。また、解像度変換処理は、公知のニアレストネイバー法、バイリニア法、バイキュービック法等を用いて行われる。
【0029】
傾き検知部22は、記憶装置2に保存されている画像データに示される原稿画像の傾き角度を検知する。この傾き角度とは、原稿画像の一辺と基準方向とのなす角度である。検知された傾き角度は、原稿画像の傾き補正に用いられる。なお、基準方向とは主走査方向または副走査方向に対応する方向である。
【0030】
傾き角度を検知する方法としては従来から知られている様々な手法を用いることができるが、本実施形態の傾き検知部22は、特開平7−192086に記載の方法を利用して傾き角度を検出する。以下、傾き検知部22の処理について説明する。
(c1)前処理部21から送られてきた2値化データから、黒画素と白画素との境界点を複数個抽出し、各境界点の点列の座標データを求める。この場合、黒画素と白画素の境界点は、例えば各文字の上端における白/黒境界点の座標であり、この座標を求めてメモリ(不図示)に格納する。
(c2)上記(c1)の処理によって得られた多数の境界点の座標からなる点列座標データを参照して、この点列座標から回帰直線を求め、その回帰係数bを計算してメモリに格納する(下記式(1))。
【0031】
【数1】

【0032】
なお、Sx,Syはそれぞれ変量xとyの残差平方和で、Sxyはxの残差とyの残差の積の和である。すなわち、次の式(2)〜式(4)で表わされる。
【0033】
【数2】

【0034】
回帰係数bより傾き角度(θ°)を下記の式(5)によって算出する。
【0035】
【数3】

【0036】
そして、傾き検知部22は、以上のようにして求めた傾き角度を、傾き補正部23に伝達するようになっている。
【0037】
傾き補正部23は、傾き検知部22にて求められた傾き角度が閾値以上であれば、傾き補正が必要と判定し、記憶装置2に記憶されている画像データを読み出して、この画像データに傾き補正を施し、傾き補正後の画像データを記憶装置2に書き込む。また、傾き補正部23は、傾き角度が閾値未満であれば、傾き補正が不要と判定し、記憶装置2に記憶されている画像データに対して傾き補正を施さない。また、傾き補正部23は、傾き補正終了後、または、傾き補正不要と判断した後、処理開始指示を示した処理開始コマンドをデータ処理部12に伝達するようになっている。
【0038】
なお、傾き補正の手法としては従来から知られている様々な手法を用いることができるが、例えば、回転行列を用いて、原点を中心に画像データを反時計回りにθ°回転させて原稿画像の傾きを補正する手法を用いることができる。この場合の回転前座標(X,Y)と回転後座標(X´,Y´)と関係を示した式が下記の式(6)である。
【0039】
【数4】

【0040】
つぎに、図1のデータ処理部12について説明する。データ処理部12は、傾き補正後の画像データを記憶装置2から読み出し、この画像データに基づいてレイアウト解析処理と天地判定処理と辞書選択処理とを行うブロックである。
【0041】
レイアウト解析処理は、原稿画像の文字領域を複数の部分領域に分離する処理である。天地判定処理は、部分領域毎に画像の天地方向の判定を行うものである。さらに、辞書選択処理は、天地判定処理の処理経過を参照して、後段の文字認識部13で使用する辞書の選択を行うものである。
【0042】
なお、傾き補正部23にて傾き補正が行なわれていない場合、データ処理部12は、傾き補正の施されていない画像データを記憶装置2から読み出し、この画像データに対して、上記のレイアウト解析処理と天地判定処理と辞書選択処理とを行う。
【0043】
データ処理部12は、図6に示されるように、前処理部25、レイアウト解析部26、天地判定部27、辞書選択部28を有している。
【0044】
前処理部25は、原稿補正部11の傾き補正部23から処理開始コマンドを受け取ると、傾き補正後の画像データを記憶装置2から読み出し、この画像データに対して信号変換処理と2値化処理と解像度変換処理とを実行するブロックである。但し、傾き補正が行なわれていない場合、前処理部25は、傾き補正の施されていない画像データを入力して、以上の各処理を行う。
【0045】
なお、前処理部25によって行なわれる信号変換処理、2値化処理、解像度変換処理は、前処理部21にて行われる処理と同様であるため、処理内容の説明は省略する。但し、前処理部25の解像度変換処理では、75dpiの2値化データと300dpiの2値化データとが生成されるようになっている。そして、75dpiの2値化データがレイアウト解析部26に送られ、300dpiの2値化データが天地判定部27に送られるようになっている。レイアウト解析に利用される2値化データは、天地方向の判定に利用される2値化データほど解像度が高くなくてもよいため、レイアウト解析部26に入力する2値化データの解像度を、天地判定部27に入力する2値化データの解像度よりも低くしたものである。
また、傾き補正部23にて傾き補正が施されない場合、前処理部25では、レイアウト解析部26に入力する75dpiの2値化データのみを生成し、天地判定部27には、前処理部21にて生成された300dpiの2値化データを入力してもよい。
【0046】
つぎに、図6に示されるレイアウト解析部26について説明する。レイアウト解析部(領域分割部)26は、前処理部25から入力される2値化データに基づいて、記憶装置2に記憶されている画像データに示される原稿画像のレイアウト解析を行う。ここで、本実施の形態におけるレイアウト解析とは、記憶装置2から入力された画像データの原稿画像の文字領域を、文字の属性に応じて、タイトルからなる部分領域、著者名からなる部分領域、アブストラクトからなる部分領域、本文からなる部分領域等に分割する領域分割処理を意味する。
【0047】
以下、レイアウト解析部26によるレイアウト解析の一例について説明する。レイアウト解析部26では、例えば、レイアウト解析を次の(a1)〜(a8)の手順によって行う。
(a1)2値化データに示される画像の最初のラインを注目ラインとし、注目ラインの黒画素にラベルをセットする。すなわちラベリングを行う。
(a2)つぎに、注目ラインを一つ下のラインにずらし、注目ラインの黒画素に対して、上記の最初のラインにて使用したラベルとは異なるラベルをセットする。
(a3)つぎに、注目ラインと注目ラインの一つ上のラインとにおける黒画素の連結状態を判定する。この判定の結果、連結している場合は、画素がつながっていると判断する。そして、注目ラインの黒画素のうち、上のラインの黒画素とつながっている黒画素のラベルを、上のラインの黒画素のラベルと同じラベルに置き換える。
(a4)以上の(a1)〜(a3)の処理を繰り返すことで文字を抽出する。抽出した文字の上端、下端、左端および右端の画素位置に基づき、各文字に対して外接矩形を設定する。図3は、文字に対して設定される外接矩形を例示した説明図である。なお、画素位置の座標は、入力された画像データの左端の位置を原点として求める。
(a5)つぎに、図3に示すように、隣接する外接矩形間の距離を算出し、得られた外接矩形間の距離に基づいて、隣接する文字群からなる文字列を各々特定する。つまり、間隔が所定値より小さい外接矩形同士は同じ文字列に属し、間隔が所定値より大きい外接矩形同士は同じ文字列に属さないことから、隣接する外接矩形間の距離を算出することで、各文字列を特定できる。例えば、図4に示すように、横書き文書の原稿画像において、文字列400〜文字列422の各々が特定される。
(a6)つぎに、図4のように特定された各文字列400〜422のうち、いずれか1つの文字列を注目文字列とし、注目文字列に属する外接矩形の垂直方向(上記ラインに対する垂直方向)の長さの平均値を求める。また、当該平均値は、垂直方向の長さが閾値より小さい外接矩形を除いて算出される。これは、句読点に設定される外接矩形を除外するためである。また、注目文字列に属する外接矩形の下辺の座標値の平均値を求める。
(a7)つぎに、注目文字列に属する外接矩形の下辺の座標値の平均値から、上記垂直方向に向けて、上記外接矩形の垂直方向の長さの平均値を基準とした所定範囲内に、別の文字列が存在するか否かを判定する。この判定の結果、上記所定範囲内に別の文字列が存在する場合、当該文字列を注目文字列と同じ領域と判定する。また、上記所定範囲内に別の文字列が存在しない場合、上記所定範囲には当該注目文字列と同じ領域に属する文字列が存在しないと判定する。なお、上記の所定範囲とは、例えば、外接矩形の上記垂直方向の長さの平均値の1.5倍の範囲である。
(a8)注目文字列を変更して(a6)および(a7)を繰り返す。これにより、例えば、原稿画像を、文字領域の属性に応じて複数の領域に分離することができる。
【0048】
図5は、レイアウト解析部26により、文字の属性が異なる複数の部分領域を有する画像データから抽出された複数のブロック(部分領域)を示す説明図である。図5において、部分領域AEはタイトルである。このタイトルは、画像データ(原稿画像)の上部に存在し、外接矩形のサイズが大きいものである。そのサイズ(ライン方向のサイズ)は、本文と見なされる部分領域に属する外接矩形のサイズの例えば1.5倍以上である。また、同図において、部分領域Bは著者名、部分領域Cはアブストラクト(本文と区別する必要はない領域)、部分領域Dは本文である。
【0049】
なお、図6のレイアウト解析部26は、レイアウト解析結果(各部分領域を示した情報)を、天地判定部27、辞書選択部28、文字認識部13(図1)に伝達するようになっている。これにより、天地判定部27、辞書選択部28、文字認識部13は、原稿画像における各部分領域を認識できるようになっている。
【0050】
つぎに、図6に示される天地判定部27について詳細に説明する。天地判定部27は、レイアウト解析結果に基づいて原稿画像における各部分領域を特定し、部分領域ごとに画像の天地方向を判定するブロックである。なお、この天地方向の判定においては、まず、各部分領域について、0度、90度、180度、270度の4方向の各々を天地方向とした場合の天地方向ごとの信頼度が算出される。次に、各部分領域について、天地方向ごとの信頼度のうちの最も信頼度の高い天地方向をその部分領域の天地方向として決定する。なお、天地方向が0度とは、その部分領域の天地方向が文字の正規の天地方向と一致していることを示す。天地方向が90度とは、その部分領域の天地方向が文字の正規の天地方向に対して反時計回りに90度回転していること(その部分領域を時計回りに90度回転させれば文字が正規の天地方向になること)を示す。天地方向が180度とは、その部分領域の天地方向が文字の正規の天地方向に対して180度回転していることを(その部分領域を180度回転させれば文字が正規の天地方向になること)示す。天地方向が270度とは、その部分領域の天地方向が文字の正規の天地方向に対して反時計回りに270度回転していること(その部分領域を時計回りに270度回転させれば文字が正規の天地方向になること)を示す。
【0051】
以下、天地方向の判定処理について、より詳細に説明する。天地判定部27は、前処理部25から2値化データ(原稿画像のデータ)を入力する。そして、天地判定部27は、OCR(Optical Character Recognition)技術を用いて、部分領域毎に、2値化データから所定数m(例えばm=10)の文字を切り出し、その文字をパターン化する。なお、部分領域内に含まれる文字数をnとした場合のk=n/mを計算し、k×i番目の文字(i=1,…,m)を切り出すこととする。
【0052】
その後、天地判定部27は、各部分領域について、m個の文字パターン(入力文字パターン)毎に下記(b1)〜(b3)を行う。
(b1)日本語の字形辞書データおよび英語の字形辞書データ(文字パターンのデータベース)を読み出す。そして、字形辞書データの文字パターン毎に、入力文字パターンの特徴と字形辞書データの文字パターンの特徴とをマッチング(比較)する。これにより、字形辞書データの文字パターン毎に、字形辞書データの文字パターンと入力文字パターンとの類似度を示したスコアが算出される。
(b2)字形辞書データの各文字パターンのうち、マッチングのスコアが最高値であって閾値よりも高い文字パターンの文字を、入力文字パターンに対応する文字として認識する(なお、ここで認識された文字を、以下では「認識文字」と称す)。例えば、スコアの取り得る値が0から100までの範囲であって、閾値が80に設定されており、字形辞書データに含まれる文字パターンの中に、入力文字パターンに対する類似度(スコア)が最大値であってその値が86であるような文字パターンがある場合、当該文字パターンの文字が上記認識文字として抽出(出力)される。
(b3)以上のようにして(b1)(b2)を行った後、入力文字パターンを90度、180度、270度と順次回転させ、各回転角度においても上記(b1)および(b2)の処理を行う。
【0053】
なお、入力文字パターンを回転させずに(b1)(b2)を行って得られた処理結果は、回転角度(回転方向)が0度の場合の処理結果として扱われる。
【0054】
その後、天地判定部27は、部分領域毎に、天地方向を以下のように判定する。天地判定部27は、部分領域毎に、日本語の字形辞書データから出力された認識文字の総数と、英語の字形辞書データから出力された認識文字の総数とを算出する。そして、天地判定部27は、部分領域毎に、算出した各総数と閾値(切り出された文字数mの80%の値)とを比較し、この比較の結果に応じて下記の(d1)〜(d3)のうちのいずれかの処理を行って、天地方向を判定するようになっている。
(d1)図7(a)のように日本語の字形辞書データから出力された認識文字の総数が閾値以上である場合、日本語の字形辞書データから出力された認識文字のみを用いて、各回転方向毎(0度、90度、180度および270度の方向毎)の認識文字の総数を算出する。そして、各方向における上記認識文字の総数を各方向の信頼度とし、信頼度(認識文字の総数)が最も高い方向を天地方向として決定する。
(d2)図7(b)のように日本語の字形辞書データから出力された認識文字の総数が閾値未満であるが、英語の字形辞書データから出力された認識文字の総数が閾値以上の場合、英語の字形辞書データから出力された認識文字のみを用いて、各回転方向毎(0度、90度、180度および270度の方向毎)の認識文字の総数を算出する。そして、各方向における上記認識文字の総数を各方向の信頼度とし、信頼度(認識文字の総数)が最も高い方向を天地方向として決定する。
(d3)図7(c)のように、日本語の字形辞書データから出力された認識文字の総数、英語の字形辞書データから出力された認識文字の総数のいずれもが閾値未満の場合、両方の言語の字形辞書データから出力された認識文字を用いて、各回転方向毎(0度、90度、180度および270度の方向毎)の認識文字の総数を算出する。そして、各方向における上記認識文字の総数を各方向の信頼度とし、信頼度(認識文字の総数)が最も高い方向を天地方向として決定する。
【0055】
以上のようにして、部分領域毎に天地方向の判定が行われる。例えば、図7(d)のような結果が得られる部分領域については、0度の方向を天地方向とする。そして、天地判定部27は、部分領域毎の天地方向の判定結果を文字認識部13に伝達する。
【0056】
なお、(d1)〜(d3)に示される閾値は、切り出された文字数mの80%の値に設定されている。しかし、当該閾値は、日本語の字形辞書データから出力される認識文字の総数が閾値以上になる場合において英語の字形辞書データから出力される認識文字の総数が閾値未満になり、英語の字形辞書データから出力される認識文字の総数が閾値以上になる場合において日本語の字形辞書データから出力される認識文字数が閾値未満となるような値であれば、切り出された文字数mの80%の値に限定されない。つまり、切り出された文字数mの50%よりも多い値を上記閾値として設定してもよい。
【0057】
つぎに、辞書選択部28について説明する。辞書選択部28は、部分領域ごとに、天地判定部27にて行われたマッチングの結果に応じた言語の辞書データを選択し、選択した言語の辞書データを文字認識部13に使用させるようになっている。以下、辞書選択部28の処理内容を詳細に説明する。
【0058】
辞書選択部28は、部分領域毎に、以下の(e1)〜(e3)に示すようにして辞書データの選択を行う。
(e1)天地判定部27にて行われたマッチングにおいて日本語の字形辞書データから出力された認識文字の総数が閾値以上になった場合(図7(a)の場合)、日本語の辞書データを選択する。
(e2)天地判定部27にて行われたマッチングにおいて、日本語の字形辞書データから出力された認識文字の総数が閾値未満であるものの、英語の字形辞書データから出力された認識文字の総数が閾値以上になった場合(図7(b)の場合)、英語の辞書データを選択する。
(e3)天地判定部27にて行われたマッチングにおいて、日本語の字形辞書データから出力された認識文字の総数と英語の字形辞書データから出力された認識文字の総数とのいずれもが閾値未満になった場合、日本語の辞書データと英語の辞書データとを選択する。
【0059】
そして、辞書選択部28は、辞書データの選択結果を示した辞書選択情報を生成し、この辞書選択情報を図1の文字認識部13に伝達するようになっている。
【0060】
つぎに、図1の文字認識部13について説明する。文字認識部13は、記憶装置2に記憶されている傾き補正後の画像データに対して、辞書データを用いた文字認識処理を行う(傾き補正が行なわれていない場合は傾き補正されていない画像データに対して文字認識処理が行われる)。文字認識処理で用いられる辞書データには、字形パターンを示す字形辞書データの他、単語を示す単語辞書データがある。字形辞書データは、主に、各文字の文字コードを認識するためのものである。単語辞書データは、主に、字形辞書データで認識されなかった文字や誤認識された文字を、文字の前後関係より修正するためのものである。また、文字認識部13で使用される字形辞書データ、単語辞書データの各々には、日本語(第1言語,母国語)のものの他に、英語(第2言語,外国語)のものが用意されている。
【0061】
具体的には、文字認識部13は、記憶装置2から入力した画像データを、白黒2値(輝度信号)の低解像度(例えば300dpi)の2値化データに変換する。そして、この2値化データの文字から抽出された特徴量と、辞書データの文字パターンの特徴量(64×64画素のパターンの平均濃度,分散等)とを比較して文字認識を行う。なお、図2の前処理部21や図6の前処理部25から出力される2値化データを用いて文字認識が行われてもよい。
【0062】
そして、本実施形態では、文字認識部13は、辞書選択部28から送られてくる辞書選択情報に従って、部分領域毎に、文字認識処理において使用する辞書データを選択している。具体的に説明すると、文字認識部13は、各部分領域において、辞書選択部28に日本語の辞書データが選択されている場合、日本語の辞書データのみを用いて文字認識処理を行い、辞書選択部28に英語の辞書データが選択されている場合、英語の辞書データのみを用いて文字認識処理を行う。また、文字認識部13は、各部分領域において、辞書選択部28にて日本語の辞書データおよび英語の辞書データが選択されている場合、日本語の辞書データおよび英語の辞書データの両方を用いて文字認識処理を行う。これにより、例えば、日本語の文字のみからなる部分領域に対して英語の辞書データを用いて文字認識処理を行うといった無駄な処理を省くことができるため、文字認識速度を大幅に向上させることができる。
【0063】
また、文字認識部13は、部分領域毎に、天地判定部27にて判定された天地方向に従って部分領域を回転した上で文字認識を行うようになっている。つまり、文字認識部13は、天地方向が0度の部分領域については回転処理を行わずに文字認識を行うものの、例えば天地方向が90度の部分領域については90度の回転処理を行った上で文字認識を行う。これは、辞書データの各文字パターンは天地方向が0度の文字画像を基準にしたものであるため、天地方向に応じて回転処理を施したデータを用いて文字認識を行わないと、正確に文字認識がされないからである。そして、部分領域毎に天地方向が異なる原稿画像も存在するため(例えば割付原稿)、本実施形態では、部分領域毎に天地方向を判定し、部分領域毎に天地方向に従って画像を回転させた上で文字認識を行うようにしている。これにより、文字認識精度が向上する。
【0064】
なお、文字認識部13は、文字認識処理にて認識した各文字コードを文字認識結果として描画コマンド生成部14に出力するようになっている。
【0065】
つぎに、図1の描画コマンド生成部14およびフォーマット化処理部15について説明する。
【0066】
描画コマンド生成部14は、文字認識部13による文字認識結果に基づく透明テキストを画像ファイル内に配置するための命令を生成する。ここで、透明テキストとは、文字認識部13によって認識された文字コードをテキスト情報として見かけ上は見えない形で画像データに重ね合わせる(あるいは埋め込む)ためのデータである。つまり、上記の画像ファイルとは、画像データと透明テキストとを対応付けたデータであり、透明テキストを埋め込んだPDFファイルである。
【0067】
フォーマット化処理部15は、描画コマンド生成部14から入力された命令に応じて透明テキストを生成する。さらに、フォーマット化処理部15は、記憶装置2から傾き補正後の画像データを読み出して、読み出した画像データに上記の透明テキストを埋め込み、所定のフォーマットの画像ファイルを生成する。そして、生成した画像ファイルを送受信装置3に出力する。本実施形態では、フォーマット化処理部15はサーチャブルのPDFファイルを生成するようになっている。なお、傾き補正が施されていない場合、フォーマット化処理部15は、傾き補正のされていない画像データを記憶装置2から読み出して、上述した画像ファイルを生成する。
【0068】
つぎに、画像処理装置1の処理の流れを図8のフローチャートに基づいて説明する。図8は、画像処理装置1の処理の流れを示したフローチャートである。
【0069】
画像入力装置に文書原稿が読み取られることによって画像データが生成されると、この画像データが記憶装置2に記憶される。そして、傾き検知部22は、前記画像データに基づいて原稿の傾き角度を検出する(S1)。つぎに、傾き補正部23は、S1にて検出された傾き角度に応じて、前記画像データに対して傾き補正を行う(S2)。
【0070】
S2の後、レイアウト解析部26は、傾き補正後の画像データに対してレイアウト解析を行う(S3)。このレイアウト解析によって、前記画像データが複数の部分領域に分割されることになる。
【0071】
S3の後、天地判定部27は、上記のレイアウト解析によって分割された部分領域毎に、天地方向の判定を行う(S4)。なお、S4では、部分領域毎に、日本語の辞書データおよび英語の辞書データを用いてパターンマッチングが行なわれ、このパターンマッチングの結果に応じて天地方向が判定される。そして、辞書選択部28は、部分領域毎に、上記のパターンマッチングの処理結果に応じた言語の辞書データの選択を行う(S5)。
【0072】
その後、文字認識部13は、各部分領域において、日本語の辞書データが選択された場合は日本語の辞書データのみを使用して文字認識処理を行い(S7)、英語の辞書データが選択された場合は英語の辞書データのみを使用して文字認識処理を行う(S8)。また、文字認識部13は、各部分領域において、日本語の辞書データおよび英語の辞書データが選択された場合は両方の言語の辞書データを使用して文字認識処理を行う(S6)。
【0073】
そして、各部分領域に対してS6、S7,S8のいずれかの処理が行なわれた後、フォーマット化処理部15は、文字認識処理の結果に基づいて透明テキストを生成し、この透明テキストと画像データとからなる画像ファイルを生成し(S9)、処理を終了する。
【0074】
以上の画像処理装置1によれば、天地判定部27は、日本語の字形辞書データおよび英語の字形辞書データを参照して、画像データに示される文字パターンの方向を上下左右の4方向の各々にした場合の各文字パターンと前記辞書データの文字パターンとのマッチングを行い、前記マッチングの結果に基づいて前記画像データの天地方向を判定している。ここで、前記マッチングにおいて日本語および英語の字形辞書データを使用しているため、前記マッチングの結果を参照すれば前記画像データにて使用されている言語の種別の傾向が明らかになる。そこで、辞書選択部28は、文字認識部13に使用させる辞書データとして、天地判定部27にて実行される前記マッチングの結果に応じた言語の辞書データを選択している。これにより、文字認識部13にて実行される文字認識処理において、日本語の文字からなる部分領域に対して日本語の辞書データのみを選択して処理を行うといった事が可能になり、日本語の文字からなる部分領域に対して英語の辞書データを用いて文字認識処理が行われるといった無駄を省くことができ、文字認識処理の速度を改善(向上)することができる。
【0075】
さらに、以上の構成によれば、天地方向の判定のためのマッチング(試験的な文字認識)は、文字認識処理における辞書データの選択のためのマッチング(試験的な文字認識)としても利用されることになる。それゆえ、天地方向の判定のためのマッチング(試験的な文字認識)とは別に、文字認識処理における辞書データの選択のためのマッチング(試験的な文字認識)を行うという無駄がない分、処理全体の速度が向上することになる。
【0076】
また、上記の(b1)〜(b3)を行った時に英語(外国語)の認識文字数が多くなるような画像データであっても、当該画像データが画像処理装置1にて扱われるデータである以上、当該画像データには画像処理装置1の利用者の母国語(日本語)も含まれる可能性が高い。そこで、辞書選択部28は、上記の(e1)〜(e3)に示すようにして辞書データの選択を行うのではなく、部分領域毎に下記の(f1)〜(f2)に示すようにして辞書データの選択を行うようになっていてもよい。
(f1)図7(a)に示すように、天地判定部27にて行われたマッチングにおいて日本語の字形辞書データから出力された認識文字の総数が閾値以上になった場合、日本語の辞書データのみを選択する。
(f2)図7(b)および図7(c)に示すように、天地判定部27にて行われたマッチングにおいて日本語の字形辞書データから出力された認識文字の総数が閾値未満になった場合、日本語の辞書データおよび英語の辞書データを選択する。つまり、日本語の字形辞書データから出力された認識文字の総数が閾値未満である場合、英語の字形辞書データから出力された認識文字の総数が閾値以上であるか否かに関係なく、日本語の辞書データと英語の辞書データとの両方を選択するのである。
【0077】
また、以上のように、本実施の形態によれば、部分領域毎に、(b1)〜(b3)の処理において、日本語の字形辞書データと英語の字形辞書データとの両方が各入力文字に対して常に使用される形態であった。これに対し、部分領域毎に、最初に日本語の字形辞書データのみを用いて(b1)〜(b3)の処理を行い、その結果、認識文字数が閾値以上であればそのまま(e1)の処理を行って天地方向の判定を行い、認識文字数が閾値未満の時に限って英語の字形辞書データを用いて(b1)〜(b3)の処理を行うようになっていてもよい。そして、英語の字形辞書データを用いて(b1)〜(b3)の処理を行った結果、認識文字数が閾値以上であれば(e2)の処理を行って天地方向の判定を行い、認識文字数が閾値未満の場合は(e3)の処理を行って天地方向の判定を行うことになる。
【0078】
なお、以上の実施形態によれば、天地判定部27は、部分領域毎に、2値化データから所定数mの文字のみを切り出し、切り出した文字について上記(b1)〜(b3)の処理を行っている。しかし、全文字数が極めて少ない部分領域については(例えば、所定数mより少ない文字数の部分領域)、天地判定部27は、全ての文字を切り出し、切り出した文字について上記(b1)〜(b3)の処理を行うようにしてもよい。
【0079】
また、以上の実施形態によれば、レイアウト解析部26は、データ処理部12に備えられ、傾き補正後の画像データから得られる2値化データを入力してレイアウト解析を行っている。しかし、レイアウト解析部26は、傾き補正前の画像データから得られる2値化データを入力してレイアウト解析を行う形態であってもよい。但し、傾き補正後の画像データから得られる2値化データに基づいてレイアウト解析を行う形態の方が解析の精度が高い。なお、傾き補正前の画像データに基づいてレイアウト解析を行う形態の場合、図8のフローチャートにおけるS2とS3との順序が逆になる。
【0080】
また、以上の実施形態は、部分領域毎に、文字認識処理において使用する辞書データを選択する形態であった。しかし、全ての部分領域に対して当該形態を適用するのではなく、例えば、頁の中央に存在する部分領域(つまり、原稿の主要な内容が示されている領域)については、全ての言語の辞書データを用いて文字認識処理を行い、それ以外の部分領域については、文字認識処理において使用する辞書データを選択するようになっていてもよい。
【0081】
さらに、以上の実施形態では、天地方向の判定と辞書データの選択と文字認識とは、部分領域毎に行われているが、部分領域毎に行なわれる必要はない。つまり、画像を複数の部分領域に分割することなく、当該画像に対して、天地方向の判定と辞書データの選択と文字認識とが行われるようになっていてもよい。
【0082】
また、画像処理装置1は、送受信装置3が外部装置から受信した画像データを処理することも可能になっている。つまり、送受信装置3は、通信ネットワークを介して外部装置から受信した画像データを記憶装置2に一旦保存するようになっている。そして、画像処理装置1は、当該画像データを読み出して、処理することが可能である。
【0083】
さらに、本実施の形態のレイアウト解析部26は、タイトル、著者名、本文、アブストラクト等の領域を抽出するようになっているが、表やグラフも抽出することが可能である。
【0084】
(変形例1)
以上示した実施形態は、天地判定部27のマッチングにおいて日本語の字形辞書データから得られた認識文字の総数と英語の字形辞書データから得られた認識文字の総数とに基づいて、文字認識処理にて使用する辞書データの選択を行うものであった。しかし、以上の実施形態に限定されるものではない。例えば、部分領域毎に、上記の(b1)の処理にて出力されるスコアに基づいて、文字認識処理にて使用する辞書データの選択を行うような変形例も本発明に含まれる。以下では、本変形例における天地判定部27および辞書選択部28の処理内容について説明する。
【0085】
まず、天地判定部27が、各部分領域について、m個の文字パターン(入力文字パターン)毎に上記(b1)〜(b3)を行う。
【0086】
つぎに、天地判定部27は、部分領域毎に、天地方向を以下のように判定する。天地判定部27は、部分領域毎に、日本語の字形辞書データを用いたマッチングにて算出されたスコアの累計と、英語の字形辞書データを用いたマッチングにて算出されたスコアの累計とを算出する。そして、天地判定部27は、算出した各累計と閾値とを比較し、この比較の結果に応じて下記の(g1)〜(g3)のうちのいずれかの処理を行って、天地方向を判定するようになっている。
(g1)図7(a)のように、日本語の字形辞書データを用いたマッチングにて算出されたスコアの累計が閾値以上である場合、日本語の字形辞書データから出力された認識文字のみを用いて、回転方向毎(0度、90度、180度および270度の方向毎)の認識文字の総数を算出する。そして、各方向における上記認識文字の総数を各方向の信頼度とし、信頼度(認識文字の総数)が最も高い方向を天地方向として決定する。
(g2)図7(b)のように、日本語の字形辞書データを用いたマッチングにて算出されたスコアの累計が閾値未満であるが、英語の字形辞書データを用いたマッチングにて算出されたスコアの累計が閾値以上である場合、英語の字形辞書データから出力された認識文字のみを用いて、各回転方向毎(0度、90度、180度および270度の方向毎)の認識文字の総数を算出する。そして、各方向における上記認識文字の総数を各方向の信頼度とし、信頼度(認識文字の総数)が最も高い方向を天地方向として決定する。
(g3)図7(c)のように、日本語の字形辞書データを用いたマッチングにて算出されたスコアの累計、英語の字形辞書データを用いたマッチングにて算出されたスコアの累計のいずれもが閾値未満の場合、両方の言語の字形辞書データから出力された認識文字を用いて、各回転方向毎(0度、90度、180度および270度の方向毎)の認識文字の総数を算出する。そして、各方向における上記認識文字の総数を各方向の信頼度とし、信頼度(認識文字の総数)が最も高い方向を天地方向として決定する。
【0087】
そして、辞書選択部28は、以下の(h1)〜(h3)に示すようにして、部分領域毎に、文字認識部13に使用させる辞書データの選択を行う。
(h1)天地判定部27において(b1)〜(b3)が行われた時に、図7(a)に示すように、日本語の字形辞書データを用いたマッチングにて算出されるスコアの累計が閾値以上になる場合、日本語の辞書データを選択する。
(h2)天地判定部27において(b1)〜(b3)が行われた時に、図7(b)に示すように、日本語の字形辞書データを用いたマッチングにて算出されるスコアの累計未満であるが、英語の字形辞書データを用いたマッチングにて算出されるスコアの累計が閾値以上になる場合、英語の辞書データを選択する。
(h3)天地判定部27において(b1)〜(b3)が行われた時に、図7(c)に示すように、日本語の字形辞書データを用いたマッチングにて算出されるスコアの累計、英語の字形辞書データを用いたマッチングにて算出されるスコアの累計のいずれもが閾値未満になる場合、日本語の辞書データと英語の辞書データとを選択する。
【0088】
以上にて示したように、天地判定部27によって実行されるマッチングにて算出されるスコアを用いても、当該マッチングの結果に応じた言語の辞書データを選択することが可能である。
【0089】
なお、(h1)〜(h3)に示される閾値は、m個の入力文字パターン全てに対して(b1)〜(b3)を行なって得られるスコアを累計する場合の満点値の80%の値に設定される。しかし、当該閾値は、日本語の字形辞書データを用いて出力されるスコアの累計が閾値以上になる場合において英語の字形辞書データを用いて出力されるスコアの累計が閾値未満になり、英語の字形辞書データから出力されるスコアの累計が閾値以上になる場合において日本語の字形辞書データを用いて出力されるスコアの累計が閾値未満になるような値であれば、上記の満点値の80%の値に限定されない。つまり、上記の満点値の50%よりも多い値を閾値としてもよい。
【0090】
また、(b1)〜(b3)を行った時に英語(外国語)の認識文字が多いと判定されるような画像データであっても、当該画像データが画像処理装置1にて扱われるデータである以上、当該画像データには画像処理装置1の利用者の母国語(日本語)も含まれる可能性が高い。そこで、辞書選択部28は、上記の(h1)〜(h3)に示すようにして辞書データの選択を行うのではなく、部分領域毎に下記の(k1)〜(k2)に示すようにして辞書データの選択を行うようになっていてもよい。
(k1)天地判定部27において(b1)〜(b3)が行われた時に、図7(a)に示すように、日本語の字形辞書データを用いたマッチングにて算出されたスコアの累計が閾値以上になる場合、日本語の辞書データを選択する。
(k2)天地判定部27において(b1)〜(b3)が行われた時に、図7(b)(c)に示すように、日本語の字形辞書データを用いたマッチングにて算出されたスコアの累計が閾値未満になった場合、日本語の辞書データおよび英語の辞書データを選択する。つまり、日本語の字形辞書データ用いたマッチングにて算出されたスコアの累計が閾値未満になった場合、英語の字形辞書データ用いたマッチングにて算出されたスコアの累計が閾値以上であるか否かに関係なく、日本語の辞書データと英語の辞書データとの両方を選択する。
【0091】
(変形例2)
また、以上示した変形例1では認識文字の数に基づいて天地方向の判定が行われるが、上記の(b1)の処理にて出力されるスコアに基づいて天地方向の判定を行うような変形例も本発明に含まれる。以下では、本変形例における天地判定部27および辞書選択部28の処理内容について説明する。
【0092】
まず、天地判定部27は、各部分領域について、m個の文字パターン(入力文字パターン)毎に上記(b1)〜(b3)を行う。
【0093】
天地判定部27は、日本語の字形辞書データを用いたマッチングにて算出されたスコアの累計と、英語の字形辞書データを用いたマッチングにて算出されたスコアの累計とを算出する。そして、天地判定部27は、算出した各累計と閾値とを比較し、この比較の結果に応じて下記の(m1)〜(m3)のうちのいずれかの処理を行って、天地方向を判定するようになっている。
(m1)図7(a)のように、日本語の字形辞書データを用いたマッチングから得られたスコアの累計が閾値以上である場合、入力文字パターンの各回転方向毎(0度、90度、180度および270度の方向毎)に、日本語の字形辞書データを用いたマッチングから得られたスコアの累計を求める。そして、各方向におけるスコアの累計を各方向の信頼度とし、信頼度が最も高い方向を天地方向として決定する。
(m2)図7(b)のように、日本語の字形辞書データを用いたマッチングにて算出されたスコアの累計が閾値未満であるが、英語の字形辞書データを用いたマッチングから得られたスコアの累計が閾値以上である場合、入力文字パターンの各回転方向毎に、英語の字形辞書データを用いたマッチングから得られたスコアの累計を求める。そして、各方向におけるスコアの累計を各方向の信頼度とし、信頼度が最も高い方向を天地方向として決定する。
(m3)図7(c)のように、日本語の字形辞書データを用いたマッチングにて算出されたスコアの累計、英語の字形辞書データを用いたマッチングにて算出されたスコアの累計のいずれもが閾値未満の場合、入力文字パターンの各回転方向毎に、両言語の辞書データを用いて出力されたスコアの累計を求める。そして、各方向におけるスコアの累計を各方向の信頼度とし、信頼度が最も高い方向を天地方向として決定する。
【0094】
なお、(m1)〜(m3)において、方向毎に求められるスコアの累計は、各スコアを重み付けして加算した値であってもよい。
【0095】
また、本変形例の辞書選択部28は、変形例1の辞書選択部28と同じ処理を行う。つまり、辞書選択部28は、上記の(h1)〜(h3)に示すようにして、部分領域毎に、文字認識部13に使用させる辞書データの選択を行う。
【0096】
〔実施の形態2〕
本発明の他の実施の形態を図面に基づいて以下に説明する。本実施の形態は、図1に示した画像処理装置1を、複合機である画像形成装置に適用した例を示すものである。図9は複写処理を行っている際の画像形成装置200の動作状態を示すブロック図である。図10はイメージ送信処理を行っている際の画像形成装置の動作状態を示すブロック図である。
【0097】
本実施形態の画像形成装置200は、複写機能(複写モード)、プリンタ機能(プリントモード)、ファクシミリ送受信信機能(ファクシミリ送信モード、ファクシミリ受信モード)およびscan to e-mail機能(scan to e-mailモード)等を備えたデジタルカラー複合機である。
【0098】
複写モードは、原稿を読み取って画像データを生成し、その画像データの画像を用紙に印刷するモードである。プリントモードは、画像形成装置200に接続されている端末装置から送られてくる画像データの画像を用紙に印刷するモードである。ファクシミリ送信モードは、原稿を読み取って画像データを生成し、その画像データを電話回線によって外部装置に送信するモードである。ファクシミリ受信モードは、外部装置から画像データをファクシミリにて受信し、受信した画像データの画像を用紙に印刷するモードである。scan to e-mailモードは、原稿を読み取って生成した画像データを電子メールに添付して指定されたアドレスへ送信するイメージ送信処理を行うモードである。
【0099】
画像形成装置200は、図9および図10に示すように、画像処理装置201、画像入力装置202、画像出力装置203、送受信装置204、記憶装置206および制御装置207を備えている。
【0100】
画像入力装置202は、CCD(Charge Coupled Device)ラインセンサを備え、原稿の読取動作を行う。すなわち、原稿台に載置された原稿または原稿自動搬送装置にて搬送されている原稿に対して光を照射し、原稿から反射してきた光をR、G、B(R:赤・G:緑・B:青)に色分解された電気信号に変換する。画像処理装置201は、画像入力装置202から入力した画像データに対して画像処理を施す。画像出力装置203は、例えば電子写真方式プリンタやインクジェット方式のプリンタであり、画像処理装置201から入力した画像データの画像を用紙に印刷する。送受信装置204は、通信ネットワークに接続されており、画像データを電子メールに添付して送信する機能を有する。
【0101】
記憶装置206は、図1に示した記憶装置2に対応する。制御装置207は、CPUを含むコンピュータであり、画像形成装置200が備える各種ハードウエアや各ハードウエア間のデータ転送等を統括的に制御する。また、制御装置207は、画像処理装置201内部の各ブロック間のデータ転送や各ブロックの動作を制御する。
【0102】
画像処理装置201は、A/D(アナログ/デジタル)変換部221、シェーディング補正部222、入力処理部223、原稿補正部224、データ処理部225、色補正部226、黒生成/下色除去部227、空間フィルタ部228、出力階調補正部229、中間調生成部230、領域分離部231、文字認識部233、描画コマンド生成部234およびフォーマット化処理部235を有している。
【0103】
以下では、まず画像形成装置200が複写処理を行う際の画像処理装置201の処理内容について、図9を参照して説明する。
【0104】
(複写処理を行う場合)
図9に示すように、A/D変換部221は、画像入力装置202から入力されたアナログのRGBの画像信号をデジタルのRGBの画像データに変換する。シェーディング補正部222は、A/D変換部221から入力された画像データに対して、画像入力装置202の照明系、結像系、撮像系で生じる各種の歪みを取り除く処理を施す。入力処理部223は、シェーディング補正部222から入力されたRGBの画像データのそれぞれに対してγ補正処理などの階調変換処理を施す。入力処理部223は、入力処理部223にて処理された後の画像データを原稿補正部224に送るようになっている。
【0105】
原稿補正部224は、図1に示す原稿補正部11と同じ機能を有するブロックである。原稿補正部224は、入力処理部223から送られてくる画像データに対して傾き補正処理を行い、傾き補正後の画像データを記憶装置206に送り、且つ、データ処理部225に送るようになっている。
【0106】
データ処理部225は、図1および図2に示すデータ処理部12と同じ機能を有するブロックである。データ処理部225は、傾き補正後の画像データに対してレイアウト解析を行って画像データを各部分領域に分離する。また、データ処理部225は、部分領域毎に、天地方向の判定を行うようになっている。
【0107】
さらに、本実施の形態のデータ処理部225は、天地方向の判定結果に応じて、原稿補正部224から入力した画像データに対して方向補正を行うようになっていてもよい。例えば、全ての部分領域の天地方向が同一であって、当該天地方向が90度、180度、270度のいずれかであると判定された場合、天地方向が0度になるように方向補正が行われるようになっていてもよい。なお、データ処理部225は、処理後の画像データを記憶装置206に保存し、且つ、色補正部226および領域分離部231に送る。
【0108】
また、上記の方向補正では、天地方向が90度と判定された場合は画像を90度回転させ、天地方向が180度と判定された場合は画像を180度回転させ、天地方向が270度と判定された場合は画像を270度回転させるようになっている。画像データを原点を中心に、反時計まわりに角度90度、180度、270度回転する場合の回転前後の座標の関係は以下の式で表される。そこで、下記式を用いて方向補正が行われる。
【0109】
回転前座標(X,Y)、回転後座標(X’,Y’)
90度回転時
X’= オリジナル画像Y方向サイズ − 1 − Y
Y’= X
180度回転時
X’= オリジナル画像X方向サイズ − 1 − X
Y’= オリジナル画像Y方向サイズ − 1 − Y
270度回転時
X’= Y
Y’= オリジナル画像X方向サイズ − 1 − X
また、原稿補正部224にて傾き補正された画像データや、データ処理部225にて方向補正が施された画像データは、上述の通り、記憶装置206に記憶される。これにより、当該画像データはファイリングデータとして管理される。この場合、上記画像データは、例えば、JPEG圧縮アルゴリズムに基づいてJPEGコードに圧縮されて記憶装置206に格納される。そして、この画像データに対するコピー出力動作やプリント出力動作が指示された場合には、記憶装置206からJPEGコードが引き出されて不図示のJPEG伸張部に引き渡され、復号化処理が施されてRGBデータに変換される。また、上記の画像データに対して送信動作が指示された場合には、記憶装置206からJPEGコードが引き出され、ネットワーク網や通信回線を介して送受信装置204から外部装置へ送信される。なお、ファイリングデータの管理やデータの引渡しの動作制御については制御装置207が行うものとする。
【0110】
色補正部226は、データ処理部225から入力したRGBの画像データをCMYの画像データに変換し、また当該画像データに対して色再現性を高める処理を施す。黒生成/下色除去部227は、色補正部226から入力したCMYの画像データから黒(K)の画像データを生成し、入力したCMYの画像データから黒(K)の画像データを差し引いて新たなCMYの画像データを生成する。
【0111】
空間フィルタ部228は、黒生成/下色除去部227から入力したCMYKまたはCMYの画像データに対して、領域分離データを基にデジタルフィルタによる空間フィルタ処理(強調処理、平滑化処理等)を行う。
【0112】
出力階調補正部229は、空間フィルタ部228から入力した画像データに対して、用紙等の記録媒体に出力するためのγ補正処理を行う。
【0113】
中間調生成部230は、出力階調補正部229から入力した画像データに対し、誤差拡散法やディザ法を用いて、画像出力装置203において画像を印刷するために必要な階調再現処理(中間調生成処理)を行う。
【0114】
領域分離部231は、データ処理部225から入力したRGBの画像データについて、各画素が例えば黒文字領域、色文字領域あるいは網点領域のうちの何れの領域に属するかを判別し、その判別結果を示す領域分離データを生成する。生成した領域分離データは、黒生成/下色除去部227、空間フィルタ部228および中間調生成部230に出力される。黒生成/下色除去部227、空間フィルタ部228および中間調生成部230は、領域分離処理の結果に応じて、画像処理の内容,強度,パラメータ等の変更を行う。
【0115】
文字認識部233、描画コマンド生成部234、フォーマット化処理部235は、複写処理においては動作を行わない。上述した各処理が施された画像データは、一旦、図示しないメモリに記憶されたのち、所定のタイミングで読み出されて画像出力装置203に入力される。そして、画像出力装置203は、入力した画像データに基づいて、用紙に画像を印刷するようになっている。
【0116】
つぎに、画像形成装置200がイメージ送信処理(外部への画像ファイルの送信)を行う際の処理内容について図10を用いて説明する。
【0117】
(イメージ送信処理を行う場合)
イメージ送信処理時におけるA/D変換部221、シェーディング補正部222、入力処理部223、原稿補正部224、領域分離部231の処理は、複写処理時と同様である。なお、領域分離部231は、図10に示すように、領域分離データを空間フィルタ部228および出力階調補正部229に送信するようになっている。
【0118】
データ処理部225は、図1のデータ処理部12と同様の処理を行う。つまり、データ処理部225は、傾き補正後の画像データに対してレイアウト解析を行って画像データを部分領域毎に分離する。また、データ処理部225は、部分領域毎に、画像データの天地方向の判定を行い、最適な言語の辞書データを選択するようになっている。そして、本実施の形態では、データ処理部225は、レイアウト解析結果と、辞書データの選択結果とを文字認識部233に伝達するようになっている。
【0119】
また、データ処理部225は、複写処理時と同様、天地方向の判定結果に応じて画像データに対して方向補正を行うようになっていてもよい。データ処理部225は、処理後の画像データを記憶装置206に保存し、且つ、色補正部226および領域分離部231に送る。
【0120】
色補正部226は、データ処理部225から入力されたRGBの画像データを、一般に普及している表示装置の表示特性に適合したR’G’B’の画像データ(例えば、sRGBデータ)に変換し、黒生成/下色除去部227に出力する。黒生成/下色除去部227は、色補正部226から入力された画像データをそのまま空間フィルタ部228に出力(スルー)する。
【0121】
空間フィルタ部228は、黒生成/下色除去部227より入力されるR’G’B’の画像データに対して、領域分離データを基にデジタルフィルタによる空間フィルタ処理(強調処理および/または平滑化処理)を行い、処理後の画像データを出力階調補正部229に出力する。
【0122】
出力階調補正部229は、文字領域に対しては、文字をくっきりさせるガンマ曲線を用いた階調補正を行い、文字以外の領域に対しては、ディスプレィの表示特性に応じたガンマ曲線を用いた階調補正を行うものである。なお、図13(a)は、ディスプレィの表示特性に応じたガンマ曲線の一例である。また、図13(b)は、文字をくっきりさせるガンマ曲線の一例を示したものである(図13(b)の破線は図13(a)のガンマ曲線である)。
【0123】
中間調生成部230は、出力階調補正部229から入力されたR’G’B’の画像データに対して処理を施さず、当該画像データをそのままフォーマット化処理部235に送る(スルーする)。
【0124】
文字認識部233は、図1に示した文字認識部13と同様の処理と行うものである。文字認識部233は、傾き補正後の画像データまたは方向補正後の画像データを記憶装置206から読み出し、部分領域毎に、画像データに対して文字認識処理を行う。そして、図10のように、文字認識部233は、文字認識結果を描画コマンド生成部234に伝達するようになっている。
【0125】
描画コマンド生成部234は、図1に示した描画コマンド生成部14と同様の処理と行う。つまり、描画コマンド生成部234は、文字認識部233による文字認識結果に基づく透明テキストを画像ファイル内に配置するための命令を生成し、この命令をフォーマット化処理部235に伝達する。
【0126】
フォーマット化処理部235は、図1に示したフォーマット化処理部15と同様の処理を行う。つまり、フォーマット化処理部235は、中間調生成部230から入力された画像データに、描画コマンド生成部234から入力された命令に応じて透明テキストを埋め込み、所定のフォーマットの画像ファイル(PDFファイル)を生成する。そして、生成した画像ファイルを送受信装置204に出力する。
【0127】
送受信装置204は、フォーマット化処理部235から入力された画像ファイルを電子メールに添付し、ネットワークを介して通信可能に接続された外部装置に上記電子メールを送信する。
【0128】
また、上述した画像形成装置200においては、文字認識モードが利用者に指定されている場合、文字認識が行われ且つ透明テキストの埋め込まれたPDFファイルが生成され、文字認識モードが利用者に指定されていない場合(デフォルトの場合)、文字認識が行われず、透明テキストの埋め込まれていない通常のPDFファイルが生成されるようになっていてもよい。
つまり、文字認識モードが指定されている場合、図10に示されるように、文字認識部233が文字認識を行い、フォーマット化処理部235が、中間調生成部230から入力された画像データと、上記文字認識の結果に応じて生成された透明テキストとを対応付けたPDFファイルを生成する。これに対し、デフォルトの場合、文字認識部233は文字認識処理を行わず、フォーマット化処理部235は、透明テキストを埋め込まずに、中間調生成部230から入力された画像データからPDFファイルを生成する。
【0129】
なお、図11に示すように、入力処理部223の後段且つ原稿補正部224の前段に、R,G,Bの画像データに基づいて原稿の種類を判別する原稿自動判別部290が設けられていてもよい。この原稿自動判別部290は、入力画像データに基づき、文字原稿、文字印刷写真原稿、文字印画紙写真原稿、印刷写真原稿、印画紙写真原稿を判別できるものである。そして、原稿自動判別部290の判別結果を文字認識部233に入力し、文字原稿、文字印刷写真原稿、文字印画紙写真原稿の場合のみ、文字認識部233を動作するようにしてもよい。つまり、フォーマット化処理部235は、文字原稿、文字印刷写真原稿、文字印画紙写真原稿の場合、文字認識部233による認識結果に基づいて透明テキストが埋め込まれた画像ファイルを作成し、印刷写真原稿または印画紙写真原稿の場合、透明テキストの無い画像ファイルを作成することになる。
【0130】
また、図14に示すように、領域分離部231aを文字認識部233の前段に設け、領域分離データを文字認識部233に入力し、文字認識部233は、領域分離データから作成されるテキストマップ(文字エッジと判定された画素よりなる画像領域)を参照して、文字領域に対して文字認識を行うようになっていてもよい。
【0131】
また、本実施の形態では、文字認識部233の文字認識処理の結果に応じて透明テキストを生成し、中間調生成部230から出力された画像データに上記透明テキストを埋め込んだPDFファイルを生成する形態であるが、当該形態に限定されるものではない。例えば、文字認識部233の文字認識処理の結果に応じてテキストデータを生成し、中間調生成部230から出力される画像データから余白領域と余白領域の色とを抽出し、上記テキストデータを上記余白領域の色と同じ色にして上記余白領域に埋め込んだPDFファイルを生成する形態であってもよい。
【0132】
〔実施の形態3〕
本発明のさらに他の実施の形態を図面に基づいて以下に説明する。本実施の形態は、図1に示した画像処理装置1を画像読取装置(スキャナ専用機)に適用した例を示すものである。図12は画像読取装置300の構成を示すブロック図である。
【0133】
画像読取装置300は、図12に示すように、画像入力装置202と画像処理装置301と記憶装置206と制御装置207とを備えている。画像処理装置301は、A/D変換部221、シェーディング補正部222、入力処理部223、原稿補正部224、データ処理部225、色補正部226、文字認識部233、描画コマンド生成部234およびフォーマット化処理部235を備えている。画像処理装置301の各処理部の処理内容は、前述の画像形成装置200におけるイメージ送信処理の場合(図10の場合)と同様である。フォーマット化処理部235から出力される画像ファイル(例えばPDFファイル)はコンピュータ、サーバ、ハードディスク、ネットワークなどへ出力される。
【0134】
また、以上の各実施形態に示した画像処理装置1,201,301の各部は、ハードウェアロジックによって構成してもよいし、コンピュータであってもよい。この場合、コンピュータに実行させるためのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)を記録したコンピュータ読み取り可能な記録媒体に、画像処理装置の各部にて実行される処理内容を記録するものとすることもできる。この結果、当該プログラムを記録した記録媒体を持ち運び自在に提供することができる。
【0135】
なお、マイクロコンピュータで処理が行われる場合、図示していないメモリ(例えばROMのようなもの)をプログラムメディアとしてもよい。また、図示していないが外部記憶装置としてプログラム読み取り装置が設けられ、そこにプログラムメディアである記録媒体を挿入することで、プログラムが読み取り可能になっていてもよい。
【0136】
いずれの場合においても、格納されているプログラムコードはマイクロプロセッサがアクセスして実行させる構成であってもよいし、あるいは、いずれの場合もプログラムコードを読み出し、読み出されたプログラムコードは、マイクロコンピュータの図示されていないプログラム記憶エリアにダウンロードされて、そのプログラムコードが実行される方式であってもよい。このダウンロード用のプログラムは予め本体装置に格納されているものとする。
【0137】
ここで、上記プログラムメディアは、本体と分離可能に構成される記録媒体であり、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスクやハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD等の光ディスクのディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)、フラッシュROM等による半導体メモリを含めた固定的にプログラムコードを担持する媒体であってもよい。
【0138】
また、本実施の形態においては、インターネットを含む通信ネットワークを接続可能なシステム構成であることから、通信ネットワークからプログラムコードをダウンロードするように流動的にプログラムコードを担持する媒体であってもよい。なお、このように通信ネットワークからプログラムコードをダウンロードする場合には、そのダウンロード用のプログラムは予め本体装置に格納しておくか、あるいは別の記録媒体からインストールされるものであってもよい。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
【0139】
デジタルカラー画像形成装置やコンピュータシステムに備えられるプログラム読み取り装置により、上記記録媒体のプログラムが読み取られることで、上述した画像処理装置の各部の処理が実行される。
【0140】
本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【産業上の利用可能性】
【0141】
本発明は、画像データに対して文字認識を行う画像処理装置、画像読取装置、複合機、プログラム、当該プログラムを記録した記録媒体に適用できる。
【符号の説明】
【0142】
1 画像処理装置
13 文字認識部
26 レイアウト解析部(領域分割部)
27 天地判定部
28 辞書選択部
200 画像形成装置(複合機)
300 画像読取装置

【特許請求の範囲】
【請求項1】
少なくとも第1言語の辞書データおよび第2言語の辞書データを参照して、画像データに示される文字パターンの方向を上下左右の4方向の各々にした場合の各文字パターンと前記辞書データの文字パターンとのマッチングを行い、前記マッチングの結果に基づいて前記画像データの天地方向を判定する天地判定部と、
辞書データを使用して前記画像データに対して文字認識処理を行う文字認識部と、
前記文字認識処理にて前記文字認識部に使用させる辞書データとして、前記天地判定部にて実行される前記マッチングの結果に応じた言語の辞書データを選択する辞書選択部とを含むことを特徴とする画像処理装置。
【請求項2】
前記辞書選択部は、
前記画像データに示されている所定数の文字パターンのうち、前記マッチングにおいて前記第1言語の辞書データに示されている文字パターンと同一と認識される文字パターンの総数が閾値以上の場合、前記文字認識部に使用させる辞書データとして第1言語の辞書データを選択し、
前記画像データに示されている所定数の文字パターンのうち、前記総数が閾値未満である場合、前記文字認識部に使用させる辞書データとして、第2言語の辞書データ、或いは第1言語の辞書データおよび第2言語の辞書データを選択することを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記マッチングは、前記画像データの文字パターンと前記辞書データの文字パターンとの類似度を示すスコアを算出し、このスコアの値に基づいて、前記画像データの文字パターンと同一と認識される文字パターンを前記辞書データから抽出する処理であり、
前記辞書選択部は、
前記第1言語の辞書データを用いたマッチングにて得られたスコアの累計が閾値以上の場合、前記文字認識部に使用させる辞書データとして第1言語の辞書データを選択し、
前記第1言語の辞書データを用いたマッチングにて得られたスコアの累計が閾値未満の場合、前記文字認識部に使用させる辞書データとして第2言語の辞書データ、或いは第1言語の辞書データおよび第2言語の辞書データを選択することを特徴とする請求項1に記載の画像処理装置。
【請求項4】
前記画像データを複数の部分領域に分割する領域分割部を有し、
前記天地判定部は、前記部分領域毎に、前記マッチングと前記天地方向の判定とを行うものであり、
前記辞書選択部は、前記部分領域毎に、前記文字認識部に使用させる辞書データを選択することを特徴とする請求項1から3のいずれか1項に記載の画像処理装置。
【請求項5】
請求項1から4のいずれか1項に記載の画像処理装置と、原稿を読み取って前記画像データを生成する画像入力装置とを備えることを特徴とする画像読取装置。
【請求項6】
請求項1から4のいずれか1項に記載の画像処理装置と、原稿を読み取って前記画像データを生成する画像入力装置とを備えることを特徴とする複合機。
【請求項7】
少なくとも第1言語の辞書データおよび第2言語の辞書データを用いて、画像データに示される文字パターンの方向を上下左右の4方向の各々にした場合の各文字パターンと前記辞書データの文字パターンとのマッチングを行い、前記マッチングの結果に基づいて前記画像データの天地方向を判定する判定工程と、
辞書データを使用して前記画像データに対して文字認識処理を行う認識工程とを含み、
少なくとも第1言語の辞書データおよび第2言語の辞書データから、前記マッチングの結果に応じた辞書データを選択し、選択した辞書データを前記文字認識処理にて使用することを特徴とする画像処理方法。
【請求項8】
コンピュータを、請求項1から4の何れかに1項に記載の画像処理装置の前記各部として機能させるためのプログラム。
【請求項9】
請求項8に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate