携帯端末装置用のプログラムおよび携帯端末装置

【課題】確度の高い文字認識処理を実行でき、またその認識に必要な画像を自動的に取得できるようにする。
【解決手段】携帯電話に組み込まれる文字認識システム１００において、画像入力部１０１は、所定の時間毎に撮像部を駆動して、生成された画像を取り込む。変化量検出部１０２は、最新の入力画像の前回入力画像に対する変化量を検出する。この変化量が所定の許容値以下であれば、文字領域検出部１０３により、入力画像から文字候補が検出され、各文字候補を包含する文字領域が特定される。さらに、この文字領域内の画像表示領域に対する割合が所定値以上となることを条件に、文字認識部１０４による処理が行われて文字領域内の文字列が認識される。この認識結果の信頼度が所定の基準値を上回った場合には、上記の認識結果が出力される。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、撮像部および表示部が設けられた筐体内にコンピュータによる制御部が組み込まれ、このコンピュータに、撮像部が文字列を撮像することにより生成された画像中の文字列を認識する機能を設定するためのプログラム、およびこのプログラムが組み込まれた携帯端末装置に関する。
【背景技術】
【０００２】
近年の携帯電話では、殆どの機種にディジタルカメラが搭載され、このカメラにより撮像された画像をメール文書に添付して送信できるようになっている。また、文字列が撮像されたときに、画像中の文字列を認識する機能（ＯＣＲ機能）が装備されている機種もある（たとえば特許文献１）。
【０００３】
この特許文献１に開示された携帯電話では、画像信号の合焦状態を制御部内で判別して、その判別結果を表示することにより、ユーザに撮像に適したタイミングを報知するようにしている。
【０００４】
また、特許文献２には、ディジタルカメラについて、カメラからの画像のブレを検出し、所定の閾値以上のブレが検出された場合には警告表示を行い、検出されたブレが閾値未満であれば、自動的に撮影を行うことが記載されている。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開２００５−９４７８２号公報
【特許文献２】特開２００６−１７４１０５号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
ＯＣＲ機能を具備する従来の携帯電話では、撮像の際の手ぶれや、ピントが不十分であることなどから、認識処理に適した画像がなかなか得られず、ユーザに何度も撮像操作を行わせてしまう傾向がある。
【０００７】
上記の問題点を解決する方法としては、特許文献１のように、撮像に適したタイミングをユーザに報知したり、特許文献２のように、ブレが少なくなった時点で自動的に撮像を行うことが考えられる。しかし、これらの方法を導入しただけで文字列の認識精度を向上させるのは困難である。文字列の認識精度は、画像の明るさや文字列の回転ずれ等の要因によっても、大きく変動するからである。従来の携帯電話では、何らかの文字列を認識できれば、その認識結果を出力するようにしているが、正しい文字列と全く異なるものが出力されても、なんの役にもたたない。
【０００８】
また、特許文献２に記載された技術を適用して、認識処理に用いる画像を自動的に取り込むようにしても、文字ではないが、文字に近い特徴を有するもの（たとえば、線状の模様）がカメラの視野内に含まれている場合でも、画像のブレがなくなれば、文字認識処理が行われ、文字でないものが文字として認識されてしまう可能性がある。このような誤反応を防止できなければ、実用性の高い装置を提供することはできない。
【０００９】
この発明は上記の問題点に着目してなされたもので、確度の高い文字認識処理を実行でき、またその認識に必要な画像を自動的に取得できるようにすることを、目的とする。
【課題を解決するための手段】
【００１０】
この発明に係るプログラムは、撮像部およびこの撮像部により生成された画像を表示する表示部が設けられた筐体を具備する携帯端末装置の制御部として機能するコンピュータに、以下の画像入力手段、変化量抽出手段、文字領域特定手段、認識手段、制御手段の各手段の機能を付与する。
【００１１】
画像入力手段は、撮像部を所定の時間毎に駆動するとともに、撮像部が生成した画像を入力する。変化量抽出手段は、画像入力手段により入力された画像につき、一段階前に入力された画像に対する変化量を抽出する。文字領域特定手段は、変化量抽出手段により抽出された変化量があらかじめ定めた許容値以下となった画像を対象に、当該画像に含まれる文字候補を検出して検出された各文字候補を包含する領域を文字領域として特定する。認識手段は、文字領域特定手段により特定された文字領域が表示部の画像表示画面に対して占める割合が所定値以上となることを条件に、あらかじめ登録された複数種の文字モデルを用いて当該文字領域に含まれる個々の文字を認識し、さらに各文字の認識結果に基づき当該文字領域内に含まれる文字列を認識する。
【００１２】
制御手段は、変化量抽出手段により抽出された変化量が前記許容値を上回った場合、画像表示画面に対して占める割合が所定値以上となる文字領域を文字領域特定手段が特定できなかった場合、認識手段が文字列を認識できなかった場合、文字列は認識されたがその認識結果の信頼度（認識内容を示す文字列に対する文字領域内の画像の類似度をいう。）があらかじめ定めた基準値を満たさなかった場合のいずれかが生じたときには画像入力手段による画像入力処理に戻ることとして、画像入力手段、変化量抽出手段、文字領域特定手段、および認識手段による処理ループを認識結果の信頼度が前記基準値を上回るまで繰り返す。そして、この処理ループの終了に応じて、前記信頼度が基準値を上回った認識結果を確定する。
【００１３】
上記のプログラムによれば、手ぶれの少ない状態下で認識対象の文字列が撮像され、その撮像下での画像で特定された文字領域の表示画面に占める割合が所定値以上となった場合にのみ文字列の認識処理が行われる。さらに、この認識結果の信頼度が基準値を上回っているときのみ、認識結果が確定されるので、確度の高い文字認識処理を行うことが可能になる。また、撮像部が所定の時間毎に生成する画像のうちの任意のものに対する認識結果が出力されるので、ユーザはシャッタ操作を行う必要がない。
【００１４】
上記のプログラムの好ましい態様には、認識結果確定手段により確定された認識結果に基づく文字列を表示部に出力する処理結果出力手段として制御部を機能させるためのプログラムがさらに含まれる。
【００１５】
この発明による携帯端末装置は、撮像部およびこの撮像部により生成された画像を表示する表示部が設けられた筐体内に、撮像部が文字列を撮像することにより生成された画像中の文字列を認識する機能を具備する制御部が組み込まれたものである。制御部には、さらに、上記の画像入力手段、変化量抽出手段、文字領域特定手段、認識手段、制御手段の各手段が設けられる。これらの手段は、上記のプログラムをコンピュータに組み込むことにより設定されるものである。
【００１６】
上記の携帯端末装置には、さらに前述の処理結果出力手段を設けることができる。また筐体に操作部が設けられ、処理結果出力手段により表示部に表示された文字列の内容を操作部を用いて編集する機能を具備する装置（たとえば携帯電話、または携帯情報端末）として構成されるのが望ましい。
【発明の効果】
【００１７】
この発明によれば、ユーザが認識対象の文字列にカメラレンズを合わせるだけで、自動的に撮像および文字認識処理が実行されるとともに、確度の高い認識結果のみが確定されるので、実用性の高い携帯端末装置を提供することができる。
【図面の簡単な説明】
【００１８】
【図１】この発明が適用される携帯電話のブロック図である。
【図２】文字認識システムの構成を示す機能ブロック図である。
【図３】文字認識システムが作動している際の表示画面の例を示す。
【図４】文字認識システムによる処理の流れを示すフローチャートである。
【発明を実施するための形態】
【００１９】
図１は、この発明が適用された携帯電話の電気構成を示す。
この携帯電話は、コンピュータを主体とする制御部１、撮像部２、操作部３、表示部４、通信処理部５などを具備する。撮像部２、表示部３、操作部４は、図示しない筐体に組み付けられる。通信処理部５および制御部１は、筐体内部の基板に搭載される。また、図１には示していないが、制御部１とその他の処理部２〜５との間には、インターフェース等の回路が設けられる。
【００２０】
撮像部２は、カラー画像用のディジタルカメラである。操作部３には、テンキーや複数のファンクションキーが含まれており、表示部４は、液晶パネルやその駆動回路により構成される。通信処理部５には、図示しないアンテナ装置、変調回路、復調回路などが含まれる。
【００２１】
制御部１には、ＣＰＵ１０、主メモリ１１、および画像メモリ１２などが含まれる。
主メモリ１１は、フラッシュメモリなどの不揮発メモリであって、無線通信網への接続、電子メールの文書の作成および送受信などを行うのに必要なプログラムや設定データのほか、ユーザにより登録された接続先リストなどが格納される。さらに、この実施例の主メモリ１１には、後記する文字認識処理システム１００を構成するためのプログラムが格納されている。
【００２２】
操作部３において撮影モードを選択する操作が行われると、ＣＰＵ１０は、撮像部２をオン状態にし、所定の時間間隔毎に駆動信号を出力する。撮像部２は、これらの駆動信号に応じて撮像を繰り返す。毎時の撮像により生成されたカラー画像は、図示しないＡ／Ｄ変換回路によりディジタル変換され、ＣＰＵ１０内のバッファおよび表示部４に出力される。ユーザが所定のタイミングでシャッタ操作を行うと、その時点で生成されたカラー画像がサンプルホールドされて、画像メモリ１２に格納される。
【００２３】
図２は、上記の携帯電話に組み込まれる文字認識処理システム１００の構成を示す。
この実施例の文字認識処理システム１００は、画像入力部１０１、変化量検出部１０２、文字領域検出部１０３、文字認識部１０４、判定部１０５、認識結果出力部１０６などにより構成される。これらの処理部は、ユーザが認識対象の文字列にカメラレンズを合わせるだけで、自動的に撮像および文字認識処理が実行され、確度の高い認識結果を出力するように構成されている。したがって、このシステム１００が作動している間は、ユーザがシャッタ操作を行っても、その操作は無効にされる。
【００２４】
また、この図２には示していないが、文字認識処理システム１００には、画像メモリ１２も含まれており、システム１００が動いている間に撮像部２により生成されたカラー画像は、画像メモリ１２に格納される。さらに、画像メモリ１２には、文字認識処理の過程で生成される各種画像（グレースケール画像、２値画像、ラベリング画像など）も格納される。
【００２５】
画像入力部１０１は、撮像部２を所定の時間Δｔが経過する毎に駆動し、生成された画像を画像メモリ１２に入力する。入力された画像（以下、「入力画像」という。）、およびこの画像から派生する各種画像は、少なくともつぎの撮像に伴う画像が入力されるまで、保持される。
【００２６】
変化量検出部１０２は、毎時の入力画像について、一段階前の入力画像（以下、「前回入力画像」という。）に対する変化量を検出する。この実施例では、前回入力画像に含まれていた特徴がどの方向にどれだけ動いたかを示すベクトル（「オプティカルフロー」と呼ばれるもの）を検出するようにしている。
【００２７】
文字領域検出部１０３は、変化量検出部１０２により検出されたベクトルの大きさが所定の許容値以下であるときに作動し、最新の入力画像から、所定数の文字候補を含む領域（以下、「文字領域」という。）を検出する。なお、文字領域には、最低１つの文字候補が含まれればよい。
【００２８】
文字認識部１０４には、種々の文字のモデル（かな、漢字、英数字などの文字のモデルを含む。）が登録された辞書が含まれる。文字認識部１０４は、この辞書により文字領域に含まれる文字候補を順に照合し、各文字候補（１つだけの場合もある。）に最も類似度の高いモデルを対応づけ、対応づけられたモデルによる文字列を認識対象の文字列として特定する。
【００２９】
変化量検出部１０２、文字領域検出部１０３、文字認識部１０４の処理結果は、それぞれ判定部１０５に出力される。判定部１０５は、各処理結果が後記する条件を満たすか否かを判定し、条件を満たしている場合には、文字認識部１０４により特定された文字列のデータを認識結果として認識結果出力部１０６に渡す。
認識結果出力部１０６は、判定部１０５から供給された文字列データを、表示部４や図示しない文書作成システムなどに出力する。
【００３０】
一方、変化量検出部１０２、文字領域検出部１０３、文字認識部１０４の処理結果中のいずれかが条件を満たさなかった場合には、上記の出力は行われず、画像入力部１０１による画像の取り込みが続行される。
【００３１】
図３は、上記の文字認識処理システムが作動している間に表示部４に表示される画面の例を示す。
この例は、文字列が描かれた看板を撮像して、その看板上の文字列を認識させるもので、図３（１）〜（４）は、撮像部２により生成された画像の表示画面を時間軸に沿って並べたものである。ユーザが撮像対象にカメラレンズを位置決めするまでの間は、図３（１）〜（３）に示すように、画像に大きな変化が表れる。しかし、カメラレンズが位置決めされると、図３（３）（４）に示すように、画像の変化はきわめて小さくなる。
【００３２】
文字領域検出部１０３は、図３（４）の画像に対して作動して、後記する方法により画像中の文字候補を検出し、これらを包含する領域を文字領域として特定する。図３（５）は、文字候補の検出結果を示す画面である。この画面では、文字候補として検出された以外の部分の色彩が特定の背景色に置き換えられ、文字領域を示す矩形枠２０が表示されている。
【００３３】
上記の文字領域２０内の画像に対し、文字認識部１０４による認識処理が行われると、表示部４には、図３（６）に示すように、認識結果を示す画面が表示される。
【００３４】
図４は、上記の文字認識システム１００による一連の処理の流れを示す。以下、この流れに沿って、図３に示したような処理を実現するための制御内容を、詳細に説明する。
なお、以下の説明および図３において、「ＳＴ」は、ステップを略す。図３に示すステップのうち、ＳＴ１〜３は、画像入力部１０１による処理であり、ＳＴ４，５は変化量検出部１０２による処理であり、ＳＴ７は文字領域検出部１０３による処理であり、ＳＴ９は文字認識部１０４による処理である。また、ＳＴ６，８，１０，１１の判定および判定後の処理の選択は、判定部１０５により実行される。
【００３５】
文字認識処理システム１００は、ユーザの呼び出し操作によって起動する。最初のＳＴ１では、撮像部２を駆動し、これにより生成されたカラー画像を入力して、画像メモリ１２に格納する。
【００３６】
上記の処理からΔｔ時間が経過すると、ＳＴ２が「ＹＥＳ」となってＳＴ３に進み、ＳＴ１と同様の処理を再度実行する。
【００３７】
つぎのＳＴ４では、ＳＴ３で入力された画像について、前回入力画像に対するオプティカルフローを検出する。具体的には、「勾配法」に基づき、各画素の座標を表すｘ，ｙの各軸につき、それぞれ２つの画像間の差の微分を求めることにより、各軸における変化量および変化の方向を求める。この方法によれば、短い時間でオプティカルフローを求めることができる。
【００３８】
つぎのＳＴ５では、オプティカルフローが示す撮像対象物の変化量として、ＳＴ４で求めた各軸の変化量に基づくベクトルの長さを算出する。ＳＴ６では、この変化量をあらかじめ定めた許容値と比較する。ここで、変化量が許容値以下であればＳＴ７に進むが、変化量が許容値を上回る場合には、ＳＴ２に戻る。
【００３９】
ＳＴ７では、ＳＴ３で入力された画像を対象に、文字領域を検出する。このステップでは、画像メモリ１２に格納されたカラー画像をグレースケールの画像に変換し、その変換後の画像を用いて、文字を表す画素の集合体（文字成分）を検出する。また、特開２００５−３０９７７１号公報および特開２００５−３０９７７２号公報に開示されている技術を使用することにより、文字成分を精度良く検出できるようにしている。
【００４０】
具体的な処理は上記の文献に詳細に記載されているので、この明細書では簡単に説明する。
まずグレースケールの画像にＬｏｇフィルタと呼ばれるエッジ抽出用フィルタを適用し、ゼロ以上、またはゼロ以下の画素の連結体（連結成分）を抽出し、その抽出結果を反映した２値画像を生成する。以下、この２値画像を用いて、各連結成分の中から画素数、外接矩形の大きさ、背景画素との濃度差がそれぞれ所定の基準を満たし、画像の端縁に接していない連結成分を、文字の構成要素（文字成分）として特定する。このような処理により、図３の看板の輪郭線等のノイズを削除し、文字を表す可能性の高い連結成分に絞り込むことができる。さらに、各文字成分の輪郭線を折れ線に近似し、折れ線近似された輪郭線に線分ハフ変換を実行することにより、文字領域を特定する。
【００４１】
文字領域の検出処理が終了すると、ＳＴ８では、文字領域が検出されたかどうかを判別する。ここで文字領域が検出されている場合には、ＳＴ９に進むが、検出が確認できなかった場合には、ＳＴ２に戻る。
なお、文字領域が検出できない場合としては、画像の明るさや合焦状態などが不十分で、十分な数のエッジ構成画素が抽出されなかった場合や、位置決め状態に不備があり、撮像部の視野内に文字が含まれていなかった場合などが考えられる。
また、文字領域が検出された場合でも、その領域内の画素数の全画面に対する割合が所定値以上であることを条件に、ＳＴ８の判定を「ＹＥＳ」とするようにしてもよい。
【００４２】
ＳＴ９では、文字認識部１０４による文字認識処理を実行する。この処理では、元のカラー画像をグレースケールに変換したものを用いて、ＳＴ７で検出した文字領域内の画像を２値化し、ｘ，ｙの各軸への投影処理などによって文字単位の画像を切り出す。なお、図３（５）のように、文字領域が斜めになっている場合には、上記の切り出しを行う前に画像の回転補正を行うのが望ましい。
さらに切り出された画像毎に、各種モデルを用いたパターンマッチングを行って、最も類似度の高いモデルを特定する。さらに、特定された各モデルによる文字を切り出された画像の配列順に並べたものを、入力画像中の文字列であると認識する。
【００４３】
ＳＴ１０では、上記ＳＴ９の処理により何らかの文字列が認識されたかどうかをチェックする。ここで文字列が認識されたと判断された場合には、ＳＴ１１に進み、その認識された内容に対する処理対象の画像の類似度（認識内容を示す文字列中の各文字に対する文字候補の類似度の平均値または各類似度の中の最小値）が所定の基準値を上回っているかどうかを判別する。ここで、上記の類似度が基準値を超えていれば、ＳＴ１２に進み、文字列の認識結果を出力する。
【００４４】
これに対し、文字列が認識されなかった場合（ＳＴ１０が「ＮＯ」の場合）、または認識はされたが、類似度が基準値以下であった場合（ＳＴ１１が「ＮＯ」の場合）には、ＳＴ１２には進まずにＳＴ２に戻る。
【００４５】
上記の処理によれば、認識対象の文字列にカメラレンズが位置合わせされて、画像の変化量が小さくなると、自動的に文字領域の検出や文字認識処理に移行する。よって、ユーザがシャッタ操作を行わなくとも文字認識を実行することが可能になり、ユーザの負担が軽減される。
【００４６】
また、画像の変化量が小さくなっても、位置合わせが不適切であったり、画像の明るさが不十分であるなどの理由で文字領域が検出できなかった場合や、文字の認識精度が低い場合には、認識結果の出力はされず、確度の高い認識結果が得られるまで処理を繰り返すので、文字認識処理の実用性を高めることができる。
【符号の説明】
【００４７】
１制御部
２撮像部
１０ＣＰＵ
１１主メモリ
１２画像メモリ
１００文字認識システム
１０１画像入力部
１０２変化量検出部
１０３文字領域検出部
１０４文字認識部
１０５判定部
１０６認識結果出力部

【特許請求の範囲】
【請求項１】
撮像部およびこの撮像部により生成された画像を表示する表示部が設けられた筐体を具備する携帯端末装置の制御部として機能するコンピュータに、前記撮像部が文字列を撮像することにより生成された画像中の文字列を認識する機能を設定するためのプログラムであって、
前記撮像部を所定の時間毎に駆動するとともに、撮像部により生成された画像を入力する画像入力手段、
前記画像入力手段により入力された画像につき、一段階前に入力された画像に対する変化量を抽出する変化量抽出手段、
前記変化量抽出手段により抽出された変化量があらかじめ定めた許容値以下となった画像を対象に、当該画像に含まれる文字候補を検出して検出された各文字候補を包含する領域を文字領域として特定する文字領域特定手段、
前記文字領域特定手段により特定された文字領域が前記表示部の画像表示画面に対して占める割合が所定値以上となることを条件に、あらかじめ登録された複数種の文字モデルを用いて当該文字領域に含まれる個々の文字を認識し、さらに各文字の認識結果に基づき当該文字領域内に含まれる文字列を認識する認識手段、
前記変化量抽出手段により抽出された変化量が前記許容値を上回った場合、前記画像表示画面に対して占める割合が前記所定値以上となる文字領域を前記文字領域特定手段が特定できなかった場合、前記認識手段が文字列を認識できなかった場合、文字列は認識されたがその認識結果の信頼度があらかじめ定めた基準値を満たさなかった場合のいずれかが生じたときには画像入力手段による画像入力処理に戻ることとして、前記画像入力手段、変化量抽出手段、文字領域特定手段、および認識手段による処理ループを前記認識結果の信頼度が前記基準値を上回るまで繰り返し、前記処理ループの終了に応じて前記信頼度が基準値を上回った認識結果を確定する制御手段、
の各手段として、前記制御部を機能させるように構成された携帯端末装置用のプログラム。
【請求項２】
前記制御手段により確定された認識結果に基づく文字列を前記表示部に出力する処理結果出力手段として前記制御部を機能させるためのプログラムがさらに含まれる、請求項１に記載された携帯端末装置用のプログラム。
【請求項３】
撮像部およびこの撮像部により生成された画像を表示する表示部が設けられた筐体内に、前記撮像部が文字列を撮像することにより生成された画像中の文字列を認識する機能を具備する制御部が組み込まれた携帯端末装置であって、
前記制御部は、
前記撮像部を所定の時間毎に駆動するとともに、撮像部により生成された画像を入力する画像入力手段、
前記画像入力手段により入力された画像につき、一段階前に入力された画像に対する変化量を抽出する変化量抽出手段、
前記変化量抽出手段により抽出された変化量があらかじめ定めた許容値以下となった画像を対象に、当該画像に含まれる文字候補を検出して検出された各文字候補を包含する領域を文字領域として特定する文字領域特定手段、
前記文字領域特定手段により特定された文字領域が前記表示部の画像表示画面に対して占める割合が所定値以上となることを条件に、あらかじめ登録された複数種の文字モデルを用いて当該文字領域に含まれる個々の文字を認識し、さらに各文字の認識結果に基づき当該文字領域内に含まれる文字列を認識する認識手段、
前記変化量抽出手段により抽出された変化量が前記許容値を上回った場合、前記画像表示画面に対して占める割合が前記所定値以上となる文字領域を前記文字領域特定手段が特定できなかった場合、前記認識手段が文字列を認識できなかった場合、文字列は認識されたがその認識結果の信頼度があらかじめ定めた基準値を満たさなかった場合のいずれかが生じたときには画像入力手段による画像入力処理に戻ることとして、前記画像入力手段、変化量抽出手段、文字領域特定手段、および認識手段による処理ループを前記認識結果の信頼度が前記基準値を上回るまで繰り返し、前記処理ループの終了に応じて前記信頼度が基準値を上回った認識結果を確定する制御手段、の各手段を具備する、携帯端末装置。
【請求項４】
前記制御部には、前記制御手段により確定された認識結果に基づく文字列を前記表示部に出力する処理結果出力手段がさらに含まれる、請求項３に記載された携帯端末装置。

【図１】

【図２】

【図３】

【図４】

【公開番号】特開２０１３−８３８９（Ｐ２０１３−８３８９Ａ）
【公開日】平成２５年１月１０日（２０１３．１．１０）
【国際特許分類】

【出願番号】特願２０１２−２００４１９（Ｐ２０１２−２００４１９）
【出願日】平成２４年９月１２日（２０１２．９．１２）
【分割の表示】特願２００７−９３３７４（Ｐ２００７−９３３７４）の分割
【原出願日】平成１９年３月３０日（２００７．３．３０）
【出願人】（０００００２９４５）オムロン株式会社 (3,542)
【Ｆターム（参考）】

[ Back to top ]

携帯端末装置用のプログラムおよび携帯端末装置

メニュー

スポンサーリンク

次の公報 »

« 前の公報

携帯端末装置用のプログラムおよび携帯端末装置

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク