説明

携帯端末装置用のプログラムおよび携帯端末装置

【課題】確度の高い文字認識処理を実行でき、またその認識に必要な画像を自動的に取得できるようにする。
【解決手段】携帯電話に組み込まれる文字認識システム100において、画像入力部101は、所定の時間毎に撮像部を駆動して、生成された画像を取り込む。変化量検出部102は、最新の入力画像の前回入力画像に対する変化量を検出する。この変化量が所定の許容値以下であれば、文字領域検出部103により、入力画像から文字候補が検出され、各文字候補を包含する文字領域が特定される。さらに、この文字領域内の画像表示領域に対する割合が所定値以上となることを条件に、文字認識部104による処理が行われて文字領域内の文字列が認識される。この認識結果の信頼度が所定の基準値を上回った場合には、上記の認識結果が出力される。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、撮像部および表示部が設けられた筐体内にコンピュータによる制御部が組み込まれ、このコンピュータに、撮像部が文字列を撮像することにより生成された画像中の文字列を認識する機能を設定するためのプログラム、およびこのプログラムが組み込まれた携帯端末装置に関する。
【背景技術】
【0002】
近年の携帯電話では、殆どの機種にディジタルカメラが搭載され、このカメラにより撮像された画像をメール文書に添付して送信できるようになっている。また、文字列が撮像されたときに、画像中の文字列を認識する機能(OCR機能)が装備されている機種もある(たとえば特許文献1)。
【0003】
この特許文献1に開示された携帯電話では、画像信号の合焦状態を制御部内で判別して、その判別結果を表示することにより、ユーザに撮像に適したタイミングを報知するようにしている。
【0004】
また、特許文献2には、ディジタルカメラについて、カメラからの画像のブレを検出し、所定の閾値以上のブレが検出された場合には警告表示を行い、検出されたブレが閾値未満であれば、自動的に撮影を行うことが記載されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2005−94782号公報
【特許文献2】特開2006−174105号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
OCR機能を具備する従来の携帯電話では、撮像の際の手ぶれや、ピントが不十分であることなどから、認識処理に適した画像がなかなか得られず、ユーザに何度も撮像操作を行わせてしまう傾向がある。
【0007】
上記の問題点を解決する方法としては、特許文献1のように、撮像に適したタイミングをユーザに報知したり、特許文献2のように、ブレが少なくなった時点で自動的に撮像を行うことが考えられる。しかし、これらの方法を導入しただけで文字列の認識精度を向上させるのは困難である。文字列の認識精度は、画像の明るさや文字列の回転ずれ等の要因によっても、大きく変動するからである。従来の携帯電話では、何らかの文字列を認識できれば、その認識結果を出力するようにしているが、正しい文字列と全く異なるものが出力されても、なんの役にもたたない。
【0008】
また、特許文献2に記載された技術を適用して、認識処理に用いる画像を自動的に取り込むようにしても、文字ではないが、文字に近い特徴を有するもの(たとえば、線状の模様)がカメラの視野内に含まれている場合でも、画像のブレがなくなれば、文字認識処理が行われ、文字でないものが文字として認識されてしまう可能性がある。このような誤反応を防止できなければ、実用性の高い装置を提供することはできない。
【0009】
この発明は上記の問題点に着目してなされたもので、確度の高い文字認識処理を実行でき、またその認識に必要な画像を自動的に取得できるようにすることを、目的とする。
【課題を解決するための手段】
【0010】
この発明に係るプログラムは、撮像部およびこの撮像部により生成された画像を表示する表示部が設けられた筐体を具備する携帯端末装置の制御部として機能するコンピュータに、以下の画像入力手段、変化量抽出手段、文字領域特定手段、認識手段、制御手段の各手段の機能を付与する。
【0011】
画像入力手段は、撮像部を所定の時間毎に駆動するとともに、撮像部が生成した画像を入力する。変化量抽出手段は、画像入力手段により入力された画像につき、一段階前に入力された画像に対する変化量を抽出する。文字領域特定手段は、変化量抽出手段により抽出された変化量があらかじめ定めた許容値以下となった画像を対象に、当該画像に含まれる文字候補を検出して検出された各文字候補を包含する領域を文字領域として特定する。認識手段は、文字領域特定手段により特定された文字領域が表示部の画像表示画面に対して占める割合が所定値以上となることを条件に、あらかじめ登録された複数種の文字モデルを用いて当該文字領域に含まれる個々の文字を認識し、さらに各文字の認識結果に基づき当該文字領域内に含まれる文字列を認識する。
【0012】
制御手段は、変化量抽出手段により抽出された変化量が前記許容値を上回った場合、画像表示画面に対して占める割合が所定値以上となる文字領域を文字領域特定手段が特定できなかった場合、認識手段が文字列を認識できなかった場合、文字列は認識されたがその認識結果の信頼度(認識内容を示す文字列に対する文字領域内の画像の類似度をいう。)があらかじめ定めた基準値を満たさなかった場合のいずれかが生じたときには画像入力手段による画像入力処理に戻ることとして、画像入力手段、変化量抽出手段、文字領域特定手段、および認識手段による処理ループを認識結果の信頼度が前記基準値を上回るまで繰り返す。そして、この処理ループの終了に応じて、前記信頼度が基準値を上回った認識結果を確定する。
【0013】
上記のプログラムによれば、手ぶれの少ない状態下で認識対象の文字列が撮像され、その撮像下での画像で特定された文字領域の表示画面に占める割合が所定値以上となった場合にのみ文字列の認識処理が行われる。さらに、この認識結果の信頼度が基準値を上回っているときのみ、認識結果が確定されるので、確度の高い文字認識処理を行うことが可能になる。また、撮像部が所定の時間毎に生成する画像のうちの任意のものに対する認識結果が出力されるので、ユーザはシャッタ操作を行う必要がない。
【0014】
上記のプログラムの好ましい態様には、認識結果確定手段により確定された認識結果に基づく文字列を表示部に出力する処理結果出力手段として制御部を機能させるためのプログラムがさらに含まれる。
【0015】
この発明による携帯端末装置は、撮像部およびこの撮像部により生成された画像を表示する表示部が設けられた筐体内に、撮像部が文字列を撮像することにより生成された画像中の文字列を認識する機能を具備する制御部が組み込まれたものである。制御部には、さらに、上記の画像入力手段、変化量抽出手段、文字領域特定手段、認識手段、制御手段の各手段が設けられる。これらの手段は、上記のプログラムをコンピュータに組み込むことにより設定されるものである。
【0016】
上記の携帯端末装置には、さらに前述の処理結果出力手段を設けることができる。また筐体に操作部が設けられ、処理結果出力手段により表示部に表示された文字列の内容を操作部を用いて編集する機能を具備する装置(たとえば携帯電話、または携帯情報端末)として構成されるのが望ましい。
【発明の効果】
【0017】
この発明によれば、ユーザが認識対象の文字列にカメラレンズを合わせるだけで、自動的に撮像および文字認識処理が実行されるとともに、確度の高い認識結果のみが確定されるので、実用性の高い携帯端末装置を提供することができる。
【図面の簡単な説明】
【0018】
【図1】この発明が適用される携帯電話のブロック図である。
【図2】文字認識システムの構成を示す機能ブロック図である。
【図3】文字認識システムが作動している際の表示画面の例を示す。
【図4】文字認識システムによる処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0019】
図1は、この発明が適用された携帯電話の電気構成を示す。
この携帯電話は、コンピュータを主体とする制御部1、撮像部2、操作部3、表示部4、通信処理部5などを具備する。撮像部2、表示部3、操作部4は、図示しない筐体に組み付けられる。通信処理部5および制御部1は、筐体内部の基板に搭載される。また、図1には示していないが、制御部1とその他の処理部2〜5との間には、インターフェース等の回路が設けられる。
【0020】
撮像部2は、カラー画像用のディジタルカメラである。操作部3には、テンキーや複数のファンクションキーが含まれており、表示部4は、液晶パネルやその駆動回路により構成される。通信処理部5には、図示しないアンテナ装置、変調回路、復調回路などが含まれる。
【0021】
制御部1には、CPU10、主メモリ11、および画像メモリ12などが含まれる。
主メモリ11は、フラッシュメモリなどの不揮発メモリであって、無線通信網への接続、電子メールの文書の作成および送受信などを行うのに必要なプログラムや設定データのほか、ユーザにより登録された接続先リストなどが格納される。さらに、この実施例の主メモリ11には、後記する文字認識処理システム100を構成するためのプログラムが格納されている。
【0022】
操作部3において撮影モードを選択する操作が行われると、CPU10は、撮像部2をオン状態にし、所定の時間間隔毎に駆動信号を出力する。撮像部2は、これらの駆動信号に応じて撮像を繰り返す。毎時の撮像により生成されたカラー画像は、図示しないA/D変換回路によりディジタル変換され、CPU10内のバッファおよび表示部4に出力される。ユーザが所定のタイミングでシャッタ操作を行うと、その時点で生成されたカラー画像がサンプルホールドされて、画像メモリ12に格納される。
【0023】
図2は、上記の携帯電話に組み込まれる文字認識処理システム100の構成を示す。
この実施例の文字認識処理システム100は、画像入力部101、変化量検出部102、文字領域検出部103、文字認識部104、判定部105、認識結果出力部106などにより構成される。これらの処理部は、ユーザが認識対象の文字列にカメラレンズを合わせるだけで、自動的に撮像および文字認識処理が実行され、確度の高い認識結果を出力するように構成されている。したがって、このシステム100が作動している間は、ユーザがシャッタ操作を行っても、その操作は無効にされる。
【0024】
また、この図2には示していないが、文字認識処理システム100には、画像メモリ12も含まれており、システム100が動いている間に撮像部2により生成されたカラー画像は、画像メモリ12に格納される。さらに、画像メモリ12には、文字認識処理の過程で生成される各種画像(グレースケール画像、2値画像、ラベリング画像など)も格納される。
【0025】
画像入力部101は、撮像部2を所定の時間Δtが経過する毎に駆動し、生成された画像を画像メモリ12に入力する。入力された画像(以下、「入力画像」という。)、およびこの画像から派生する各種画像は、少なくともつぎの撮像に伴う画像が入力されるまで、保持される。
【0026】
変化量検出部102は、毎時の入力画像について、一段階前の入力画像(以下、「前回入力画像」という。)に対する変化量を検出する。この実施例では、前回入力画像に含まれていた特徴がどの方向にどれだけ動いたかを示すベクトル(「オプティカルフロー」と呼ばれるもの)を検出するようにしている。
【0027】
文字領域検出部103は、変化量検出部102により検出されたベクトルの大きさが所定の許容値以下であるときに作動し、最新の入力画像から、所定数の文字候補を含む領域(以下、「文字領域」という。)を検出する。なお、文字領域には、最低1つの文字候補が含まれればよい。
【0028】
文字認識部104には、種々の文字のモデル(かな、漢字、英数字などの文字のモデルを含む。)が登録された辞書が含まれる。文字認識部104は、この辞書により文字領域に含まれる文字候補を順に照合し、各文字候補(1つだけの場合もある。)に最も類似度の高いモデルを対応づけ、対応づけられたモデルによる文字列を認識対象の文字列として特定する。
【0029】
変化量検出部102、文字領域検出部103、文字認識部104の処理結果は、それぞれ判定部105に出力される。判定部105は、各処理結果が後記する条件を満たすか否かを判定し、条件を満たしている場合には、文字認識部104により特定された文字列のデータを認識結果として認識結果出力部106に渡す。
認識結果出力部106は、判定部105から供給された文字列データを、表示部4や図示しない文書作成システムなどに出力する。
【0030】
一方、変化量検出部102、文字領域検出部103、文字認識部104の処理結果中のいずれかが条件を満たさなかった場合には、上記の出力は行われず、画像入力部101による画像の取り込みが続行される。
【0031】
図3は、上記の文字認識処理システムが作動している間に表示部4に表示される画面の例を示す。
この例は、文字列が描かれた看板を撮像して、その看板上の文字列を認識させるもので、図3(1)〜(4)は、撮像部2により生成された画像の表示画面を時間軸に沿って並べたものである。ユーザが撮像対象にカメラレンズを位置決めするまでの間は、図3(1)〜(3)に示すように、画像に大きな変化が表れる。しかし、カメラレンズが位置決めされると、図3(3)(4)に示すように、画像の変化はきわめて小さくなる。
【0032】
文字領域検出部103は、図3(4)の画像に対して作動して、後記する方法により画像中の文字候補を検出し、これらを包含する領域を文字領域として特定する。図3(5)は、文字候補の検出結果を示す画面である。この画面では、文字候補として検出された以外の部分の色彩が特定の背景色に置き換えられ、文字領域を示す矩形枠20が表示されている。
【0033】
上記の文字領域20内の画像に対し、文字認識部104による認識処理が行われると、表示部4には、図3(6)に示すように、認識結果を示す画面が表示される。
【0034】
図4は、上記の文字認識システム100による一連の処理の流れを示す。以下、この流れに沿って、図3に示したような処理を実現するための制御内容を、詳細に説明する。
なお、以下の説明および図3において、「ST」は、ステップを略す。図3に示すステップのうち、ST1〜3は、画像入力部101による処理であり、ST4,5は変化量検出部102による処理であり、ST7は文字領域検出部103による処理であり、ST9は文字認識部104による処理である。また、ST6,8,10,11の判定および判定後の処理の選択は、判定部105により実行される。
【0035】
文字認識処理システム100は、ユーザの呼び出し操作によって起動する。最初のST1では、撮像部2を駆動し、これにより生成されたカラー画像を入力して、画像メモリ12に格納する。
【0036】
上記の処理からΔt時間が経過すると、ST2が「YES」となってST3に進み、ST1と同様の処理を再度実行する。
【0037】
つぎのST4では、ST3で入力された画像について、前回入力画像に対するオプティカルフローを検出する。具体的には、「勾配法」に基づき、各画素の座標を表すx,yの各軸につき、それぞれ2つの画像間の差の微分を求めることにより、各軸における変化量および変化の方向を求める。この方法によれば、短い時間でオプティカルフローを求めることができる。
【0038】
つぎのST5では、オプティカルフローが示す撮像対象物の変化量として、ST4で求めた各軸の変化量に基づくベクトルの長さを算出する。ST6では、この変化量をあらかじめ定めた許容値と比較する。ここで、変化量が許容値以下であればST7に進むが、変化量が許容値を上回る場合には、ST2に戻る。
【0039】
ST7では、ST3で入力された画像を対象に、文字領域を検出する。このステップでは、画像メモリ12に格納されたカラー画像をグレースケールの画像に変換し、その変換後の画像を用いて、文字を表す画素の集合体(文字成分)を検出する。また、特開2005−309771号公報および特開2005−309772号公報に開示されている技術を使用することにより、文字成分を精度良く検出できるようにしている。
【0040】
具体的な処理は上記の文献に詳細に記載されているので、この明細書では簡単に説明する。
まずグレースケールの画像にLogフィルタと呼ばれるエッジ抽出用フィルタを適用し、ゼロ以上、またはゼロ以下の画素の連結体(連結成分)を抽出し、その抽出結果を反映した2値画像を生成する。以下、この2値画像を用いて、各連結成分の中から画素数、外接矩形の大きさ、背景画素との濃度差がそれぞれ所定の基準を満たし、画像の端縁に接していない連結成分を、文字の構成要素(文字成分)として特定する。このような処理により、図3の看板の輪郭線等のノイズを削除し、文字を表す可能性の高い連結成分に絞り込むことができる。さらに、各文字成分の輪郭線を折れ線に近似し、折れ線近似された輪郭線に線分ハフ変換を実行することにより、文字領域を特定する。
【0041】
文字領域の検出処理が終了すると、ST8では、文字領域が検出されたかどうかを判別する。ここで文字領域が検出されている場合には、ST9に進むが、検出が確認できなかった場合には、ST2に戻る。
なお、文字領域が検出できない場合としては、画像の明るさや合焦状態などが不十分で、十分な数のエッジ構成画素が抽出されなかった場合や、位置決め状態に不備があり、撮像部の視野内に文字が含まれていなかった場合などが考えられる。
また、文字領域が検出された場合でも、その領域内の画素数の全画面に対する割合が所定値以上であることを条件に、ST8の判定を「YES」とするようにしてもよい。
【0042】
ST9では、文字認識部104による文字認識処理を実行する。この処理では、元のカラー画像をグレースケールに変換したものを用いて、ST7で検出した文字領域内の画像を2値化し、x,yの各軸への投影処理などによって文字単位の画像を切り出す。なお、図3(5)のように、文字領域が斜めになっている場合には、上記の切り出しを行う前に画像の回転補正を行うのが望ましい。
さらに切り出された画像毎に、各種モデルを用いたパターンマッチングを行って、最も類似度の高いモデルを特定する。さらに、特定された各モデルによる文字を切り出された画像の配列順に並べたものを、入力画像中の文字列であると認識する。
【0043】
ST10では、上記ST9の処理により何らかの文字列が認識されたかどうかをチェックする。ここで文字列が認識されたと判断された場合には、ST11に進み、その認識された内容に対する処理対象の画像の類似度(認識内容を示す文字列中の各文字に対する文字候補の類似度の平均値または各類似度の中の最小値)が所定の基準値を上回っているかどうかを判別する。ここで、上記の類似度が基準値を超えていれば、ST12に進み、文字列の認識結果を出力する。
【0044】
これに対し、文字列が認識されなかった場合(ST10が「NO」の場合)、または認識はされたが、類似度が基準値以下であった場合(ST11が「NO」の場合)には、ST12には進まずにST2に戻る。
【0045】
上記の処理によれば、認識対象の文字列にカメラレンズが位置合わせされて、画像の変化量が小さくなると、自動的に文字領域の検出や文字認識処理に移行する。よって、ユーザがシャッタ操作を行わなくとも文字認識を実行することが可能になり、ユーザの負担が軽減される。
【0046】
また、画像の変化量が小さくなっても、位置合わせが不適切であったり、画像の明るさが不十分であるなどの理由で文字領域が検出できなかった場合や、文字の認識精度が低い場合には、認識結果の出力はされず、確度の高い認識結果が得られるまで処理を繰り返すので、文字認識処理の実用性を高めることができる。
【符号の説明】
【0047】
1 制御部
2 撮像部
10 CPU
11 主メモリ
12 画像メモリ
100 文字認識システム
101 画像入力部
102 変化量検出部
103 文字領域検出部
104 文字認識部
105 判定部
106 認識結果出力部

【特許請求の範囲】
【請求項1】
撮像部およびこの撮像部により生成された画像を表示する表示部が設けられた筐体を具備する携帯端末装置の制御部として機能するコンピュータに、前記撮像部が文字列を撮像することにより生成された画像中の文字列を認識する機能を設定するためのプログラムであって、
前記撮像部を所定の時間毎に駆動するとともに、撮像部により生成された画像を入力する画像入力手段、
前記画像入力手段により入力された画像につき、一段階前に入力された画像に対する変化量を抽出する変化量抽出手段、
前記変化量抽出手段により抽出された変化量があらかじめ定めた許容値以下となった画像を対象に、当該画像に含まれる文字候補を検出して検出された各文字候補を包含する領域を文字領域として特定する文字領域特定手段、
前記文字領域特定手段により特定された文字領域が前記表示部の画像表示画面に対して占める割合が所定値以上となることを条件に、あらかじめ登録された複数種の文字モデルを用いて当該文字領域に含まれる個々の文字を認識し、さらに各文字の認識結果に基づき当該文字領域内に含まれる文字列を認識する認識手段、
前記変化量抽出手段により抽出された変化量が前記許容値を上回った場合、前記画像表示画面に対して占める割合が前記所定値以上となる文字領域を前記文字領域特定手段が特定できなかった場合、前記認識手段が文字列を認識できなかった場合、文字列は認識されたがその認識結果の信頼度があらかじめ定めた基準値を満たさなかった場合のいずれかが生じたときには画像入力手段による画像入力処理に戻ることとして、前記画像入力手段、変化量抽出手段、文字領域特定手段、および認識手段による処理ループを前記認識結果の信頼度が前記基準値を上回るまで繰り返し、前記処理ループの終了に応じて前記信頼度が基準値を上回った認識結果を確定する制御手段、
の各手段として、前記制御部を機能させるように構成された携帯端末装置用のプログラム。
【請求項2】
前記制御手段により確定された認識結果に基づく文字列を前記表示部に出力する処理結果出力手段として前記制御部を機能させるためのプログラムがさらに含まれる、請求項1に記載された携帯端末装置用のプログラム。
【請求項3】
撮像部およびこの撮像部により生成された画像を表示する表示部が設けられた筐体内に、前記撮像部が文字列を撮像することにより生成された画像中の文字列を認識する機能を具備する制御部が組み込まれた携帯端末装置であって、
前記制御部は、
前記撮像部を所定の時間毎に駆動するとともに、撮像部により生成された画像を入力する画像入力手段、
前記画像入力手段により入力された画像につき、一段階前に入力された画像に対する変化量を抽出する変化量抽出手段、
前記変化量抽出手段により抽出された変化量があらかじめ定めた許容値以下となった画像を対象に、当該画像に含まれる文字候補を検出して検出された各文字候補を包含する領域を文字領域として特定する文字領域特定手段、
前記文字領域特定手段により特定された文字領域が前記表示部の画像表示画面に対して占める割合が所定値以上となることを条件に、あらかじめ登録された複数種の文字モデルを用いて当該文字領域に含まれる個々の文字を認識し、さらに各文字の認識結果に基づき当該文字領域内に含まれる文字列を認識する認識手段、
前記変化量抽出手段により抽出された変化量が前記許容値を上回った場合、前記画像表示画面に対して占める割合が前記所定値以上となる文字領域を前記文字領域特定手段が特定できなかった場合、前記認識手段が文字列を認識できなかった場合、文字列は認識されたがその認識結果の信頼度があらかじめ定めた基準値を満たさなかった場合のいずれかが生じたときには画像入力手段による画像入力処理に戻ることとして、前記画像入力手段、変化量抽出手段、文字領域特定手段、および認識手段による処理ループを前記認識結果の信頼度が前記基準値を上回るまで繰り返し、前記処理ループの終了に応じて前記信頼度が基準値を上回った認識結果を確定する制御手段、の各手段を具備する、携帯端末装置。
【請求項4】
前記制御部には、前記制御手段により確定された認識結果に基づく文字列を前記表示部に出力する処理結果出力手段がさらに含まれる、請求項3に記載された携帯端末装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2013−8389(P2013−8389A)
【公開日】平成25年1月10日(2013.1.10)
【国際特許分類】
【出願番号】特願2012−200419(P2012−200419)
【出願日】平成24年9月12日(2012.9.12)
【分割の表示】特願2007−93374(P2007−93374)の分割
【原出願日】平成19年3月30日(2007.3.30)
【出願人】(000002945)オムロン株式会社 (3,542)
【Fターム(参考)】