説明

認識結果表示方法、プログラム、携帯端末及び認識結果表示装置

【課題】 表示画面の大きさが制約された装置においても、類似の文字を識別容易とするための装置を提供すること。
【解決手段】 文字認識の結果を表示する際に、ユーザによって選択された文字については、通常の他の文字の表示に比べて拡大して表示を行う。このように構成することにより、「ぱ」や「ば」のように、補足情報(字種、読みなど)によっても識別することが困難な文字についても、ユーザは容易に識別することが可能となる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像中の文字を認識し、その認識の結果を表示する方法や装置などに適用されて有効な技術に関する。
【背景技術】
【0002】
撮像装置によって撮像された画像などから文字を認識する装置がある。このような装置において、誤認識が発生した場合やユーザが所望する認識結果が得られなかった場合などには、ユーザがその認識結果を修正する必要がある。修正の方法はいくつか提案されているが、認識対象となった各文字に対して、装置が複数の選択候補を提示する方法が一般的である。このような方法では、ユーザは、各文字について選択候補の中から所望の文字を選択する。
【0003】
ところで、ユーザがこのような選択を行う場合、類似の文字を誤選択してしまうという問題があった。言い換えれば、ユーザが誤って選択候補を選択してしまうという問題があった。類似の文字とは、文字の形状が類似した文字であり、例えばひらがなの「り」とカタカナの「リ」等の文字である。このような類似の文字をその表示のみから識別することは、ユーザにとって容易なことではなかった。このため、このような類似の文字が選択候補として提示された場合、例えばユーザはひらがなの「り」を選択するつもりが、実際には誤ってカタカナの「リ」を選択してしまう等の問題が生じていた。
【0004】
このような問題に対し、字種情報や読み仮名などの補足情報を選択候補に対して付加して表示することにより、ユーザによる類似文字間の識別を容易とする方法が提案されている。具体的には、各選択候補の確からしさの情報や、ひらがな・カタカナ等の字種情報を付加して表示する方法や(特許文献1参照)、各選択候補の文字を字種毎に異なる領域に表示する方法や(特許文献2参照)、各選択候補の文字の読み或いは意味を示す文字列を表示する方法(特許文献3参照)などがあった。
【特許文献1】特開平5−46803号公報
【特許文献2】特開平8−190603号公報
【特許文献3】特開平5−40845号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、補足情報を付加して表示する従来の方法を携帯端末のように表示画面の大きさに制約がある装置に適用した場合、以下のような問題が生じていた。即ちこのような場合、選択候補に加えてさらに補足情報を表示するため、選択候補の表示そのものを小さくせざるを得なかった。さらに、画面上の情報が増加してしまうため、画面上の煩雑性が増してしまっていた。このように、表示される選択候補の大きさが小さく煩雑となってしまい、例え補足情報が表示されたとしても、ユーザにとって類似の文字を正確に識別することが困難となっていた。
【0006】
また、例えば、ひらがなの「ば」と「ぱ」の場合は、字種が同種であり、読みの表示もそのひらがなそのものである。このように、従来の補足情報のみでは識別を容易とすることが困難な類似の文字もあった。
【0007】
そこで本発明はこれらの問題を解決し、表示画面の大きさが制限された装置においても、類似の文字を識別容易とするための装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
上記問題を解決するため、本発明は以下のような構成をとる。本発明の第一の態様は、少なくとも文字の表示を行う表示手段と、ユーザによって操作されることにより前記表示手段に表示された文字を選択する選択手段とを含む情報処理装置が、以下の各ステップを実行する認識結果表示方法である。即ち、この情報処理装置が、入力された画像から文字を認識するステップ,この情報処理装置が、認識した文字を表示手段に表示させるステップ,この情報処理装置が、表示手段に表示された文字のうち、選択手段によって選択された文字を判断するステップ,及びこの情報処理装置が、選択された文字を、表示手段に拡大表示させるステップを含む認識結果表示方法である。
【0009】
このような認識結果表示方法では、選択手段を介してユーザによって選択された文字は、表示手段に表示される際に拡大して表示される。このため、ユーザは拡大された表示を見ることにより、例え表示画面の大きさが制限されたものであったとしても、選択している文字を正確に識別することができる。このため、例えばカタカナの「リ」とひらがなの「り」のように表示が似ている文字であっても、ユーザは容易にそれらを識別することが可能となる。また、例えばひらがなの「ぱ」と「ば」のように、例え補足情報が表示されたとしても識別が困難な文字であっても、ユーザは拡大された表示を見ることにより容易に識別することが可能となる。
【0010】
本発明の第一の態様における認識結果表示方法は、上記の情報処理装置が、選択された文字の字種及び/又は読みを取得するステップをさらに含むように構成されても良い。この場合、上記の情報処理装置は、拡大表示させるステップにおいて、取得された字種及び/又は読みをさらに表示手段に表示させる。
【0011】
このように構成された本発明の第一の態様によれば、ユーザは、表示手段に表示された字種及び/又は読みを参考にして、拡大表示された文字、即ち選択している文字を識別することができる。従って、ユーザは、より容易に、より正確に、選択している文字を識別することが可能となる。
【0012】
本発明は、本発明の第一の態様における各ステップを情報処理装置に実行させるためのプログラムやこのプログラムが記録された媒体として特定されても良い。また、本発明は、このプログラムを有する携帯端末として特定されても良い。
【0013】
本発明の第二の態様は、認識結果表示装置であって、入力された画像から文字を認識する認識手段,認識手段によって認識された文字の表示を行う表示手段,
及び、ユーザによって操作されることにより前記表示手段に表示された文字を選択する選択手段を備える。そして、表示手段は、選択手段によって選択された文字を拡大表示する。このように構成された本発明の第二の態様によれば、本発明の第一の態様と同様に、ユーザは選択している文字を、拡大された表示を見ることにより容易に識別することが可能となる。
【発明の効果】
【0014】
本発明によれば、ユーザによって選択された文字は、表示手段に表示される際に拡大して表示される。このため、ユーザは拡大された表示を見ることにより、例え選択している文字が識別困難な類似した文字であったり、表示画面の大きさが制限されたものであったとしても、それらを正確に識別することが可能となる。
【発明を実施するための最良の形態】
【0015】
〔システム構成〕
まず、文字認識装置1のシステム構成の例について説明する。文字認識装置1は、ハー
ドウェア的には、バスを介して接続されたCPU(中央演算処理装置),主記憶装置(RAM),補助記憶装置などを備える。補助記憶装置は、不揮発性記憶装置を用いて構成される。ここで言う不揮発性記憶装置とは、いわゆるROM(Read-Only Memory:EPROM(Erasable Programmable Read-Only Memory),EEPROM(Electrically Erasable Programmable Read-Only Memory),マスクROM等を含む),FRAM(Ferroelectric RAM),ハードディスク等を指す。
【0016】
図1は、文字認識装置1の機能ブロックの例を示す図である。文字認識装置1は、補助記憶装置に記憶された各種のプログラム(OS,アプリケーション等)が主記憶装置にロードされCPUにより実行されることによって、画像入力部2,画像記憶部3,認識辞書記憶部4,修正操作部5,文字認識部6,認識結果記憶部7,表示制御部8,及び表示部9等を含む装置として機能する。文字認識部6や表示制御部8は、プログラムがCPUによって実行されることにより実現される。また、文字認識部6や表示制御部8は専用のチップとして構成されても良い。次に、文字認識装置1が含む各機能部について説明する。
【0017】
〈画像入力部〉
画像入力部2は、画像のデータを文字認識装置1へ入力するためのインタフェースとして機能する。画像入力部2によって、画像のデータが文字認識装置1へ入力される。画像入力部2は、文字認識装置1へ画像のデータを入力するためのどのような既存技術を用いて構成されても良い。
【0018】
例えば、ネットワーク(例えばローカル・エリア・ネットワークやインターネット)を介して画像のデータが文字認識装置1へ入力されても良い。この場合、画像入力部2はネットワークインタフェースを用いて構成される。また、デジタルカメラやスキャナやパーソナルコンピュータや記録装置(例えばハードディスクドライブ)等から画像のデータが文字認識装置1へ入力されても良い。この場合、画像入力部2は、デジタルカメラやパーソナルコンピュータや記録装置などと文字認識装置1とをデータ通信可能に接続する規格(例えばUSB(Universal Serial Bus)やSCSI(Small Computer System Interface)等の有線接続やbluetooth(登録商標)等の無線接続の規格)に応じて構成
される。また、記録媒体(例えば各種フラッシュメモリやフロッピー(登録商標)ディスクやCD(Compact Disk)やDVD(Digital Versatile Disc、Digital Video Disc))に記録された画像のデータが文字認識装置1へ入力されても良い。この場合、画像入力部2は、記録媒体からデータを読み出す装置(例えばフラッシュメモリリーダやフロッピーディスクドライブやCDドライブやDVDドライブ)を用いて構成される。
【0019】
また、文字認識装置1がデジタルカメラ等の撮像装置又はデジタルカメラ等の撮像装置を備える各種装置(例えばPDA(Personal Digital Assistant)や携帯電話機)として構成され、撮像装置によって撮像された画像が文字認識装置1へ入力されても良い。この場合、画像入力部2は、CCD(Charge-Coupled Devices)やCMOS(Complementary Metal-Oxide Semiconductor)センサ等を用いたデジタルカメラ等の撮像装置として構成
されても良い。また、文字認識装置1が、プリンタやディスプレイ等の画像出力装置の内部に含まれ、出力データとしてこの画像出力装置に入力された画像が画像のデータとして文字認識装置1へ入力されても良い。この場合、画像入力部2は、これらの画像出力装置に入力された画像のデータを文字認識装置1において取り扱い可能なデータに変換する装置などを用いて構成される。
【0020】
また、画像入力部2は上記された複数の場合に応じることが可能となるように構成されても良い。
【0021】
〈画像記憶部〉
画像記憶部3は、いわゆるRAMやROM等と、これらの記憶装置を制御する機能部を用いて構成される。画像記憶部3は、画像入力部2を介して文字認識装置1に入力された画像のデータを記憶する。
【0022】
〈認識辞書記憶部〉
認識辞書記憶部4は、いわゆるROMを用いて構成される。認識辞書記憶部4は、文字認識部6が文字の認識処理を実行する際に用いる認識辞書を記憶する。認識辞書は、例えば各文字の識別子(文字コード等)と各文字の特徴データと各文字の補足情報とを対応づけて保持する。補足情報とは、対応する文字識別子によって示される文字の字種や読み等、その文字に関する情報である。字種とは、その文字の種類を示す情報であり、“アルファベット大文字”,“アルファベット小文字”,“ひらがな”,“カタカナ”,“漢字”,“数字”,“記号”などの具体例がある。また、読みとはその文字の読み仮名を示す情報である。その他、表示された文字のユーザによる識別を容易にするための情報であれば、他のどのような情報が補足情報として用いられても良い。また、各文字の識別子や文字の特徴データ等、補足情報以外の識別認識辞書の内容は、具体的には文字認識部6において適用される文字認識技術などに応じて決定される。
【0023】
〈修正操作部〉
修正操作部5は、表示部9に表示された第1候補の文字をユーザが修正する際に、ユーザによって操作される。ユーザは、修正操作部5を操作することにより、修正候補(第2候補〜第N候補)を選択することや、修正文字(第1候補の文字と置き換える文字)を入力することができる。このとき、ユーザは、各第1候補に対応する修正候補を選択することにより、この修正候補の文字と第1候補の文字とを置き換えて修正をすることができる。
【0024】
修正操作部5には、既存のどのような入力装置が適用されても良い。修正操作部5は、例えばキーボードやポインティングデバイス(マウス,トラックボール,タブレットなど)や、ダイヤル式入力装置や、タッチパネルや、テンキーや、各種ボタンや、音声入力装置などを用いて構成される。修正操作部5は、ユーザが上記の操作を行うことが可能であれば、その他どのような入力装置を用いて構成されても良い。
【0025】
〈文字認識部〉
文字認識部6は、画像記憶部3に記憶されている画像を処理の対象とし、この画像から文字を抽出し認識する。以下、文字認識部6の具体的な処理について説明する。
【0026】
まず、文字認識部6は、処理の対象となる画像の中から各文字の画像を切り出す(抽出する)。文字認識部6には、文字を抽出する技術として、既存のどのような技術が適用されても良い。例えば、文字認識部6は、処理の対象となる画像をグレースケールの濃淡画像に変換し、濃度値に関するヒストグラムを生成することにより文字を抽出するように構成されても良い。
【0027】
次に、文字認識部6は、抽出された各文字の画像に対して文字認識処理を実施することにより、各文字についての認識結果(テキストデータ)を取得する。例えば、文字認識部6は、抽出された文字の画像についての特徴量を取得し、この特徴量と認識辞書記憶部4に記憶される各特徴データとを比較し、類似する特徴データに対応する文字の識別子を取得する。文字認識部6には、文字を画像から認識する技術として、既存のどのような技術が適用されても良い。認識辞書記憶部4は、文字認識部6に適用される技術に応じて、補足情報をさらに対応づけた認識辞書を記憶する。文字認識部6は、取得した認識結果を入力文字記憶部7に記憶させる。
【0028】
また、文字認識部6は、修正操作部5や表示制御部8等と協働して、認識結果をユーザが修正可能となるように構成される。例えば、文字認識部6が認識結果として第1候補〜第N候補の文字を取得し、これらの認識結果を表示制御部8が表示部9に表示させ、表示を見たユーザが修正操作部5を用いて修正候補を選択することにより、第1候補の文字の修正を可能とするように構成されても良い。この場合、文字認識部6は、修正操作部5を介して入力された修正の指示に従って、認識結果記憶部7に記憶させた第1候補の文字を修正する。また、文字認識部6は、ユーザが修正操作部5を用いて修正文字を入力することで、第1候補の文字の修正を行うことができるように構成されても良い。以下の説明では、文字認識部6が修正文字の入力を受け付けるモードをキー入力モードと呼ぶ。
【0029】
〈認識結果記憶部〉
認識結果記憶部7は、いわゆるROMやRAMなどの記憶装置を用いて構成される。認識結果記憶部7は、文字認識部6による認識結果、即ち認識の対象となった各文字について第1候補〜第N候補までの文字を、その候補の順位と対応づけて記憶する。認識結果記憶部7は、各文字を記憶する際に、その文字の識別子を記憶するように構成されても良い。
【0030】
〈表示制御部〉
表示制御部8は、表示部9に表示される内容を制御する。図2は、表示制御部8の制御例を示す図、即ち表示制御部8によって制御された表示部9の表示例を示す図である。表示制御部8は、画像表示枠10,第1候補表示枠11,修正候補表示枠12,拡大表示枠13,補足情報表示枠14などを表示させる。画像表示枠10には、文字認識部6によって抽出された文字の画像が表示される。第1候補表示枠11には、文字認識部6によって認識された各文字の第1候補の文字が表示される。このとき、第1候補表示枠11には、画像表示枠10に表示されている画像から認識された各文字の第1候補の文字が表示される。第1候補表示枠11において、ユーザによって選択されている文字は、他の文字と異なるように表示されても良い。例えば、他の文字と異なる色や異なるフォントや異なる太さや異なる大きさで表示されても良いし、その文字の周囲の色や模様などが異なるように表示されても良い。修正候補表示枠12には、ユーザによって選択されている文字の修正候補が表示される。このとき、修正候補表示枠12には、修正候補に加えて第1候補の文字も表示されても良い。表示される修正候補の数はいくつであっても良く、ユーザや設計者によって任意に設定されて良い。修正候補表示枠12において、ユーザによって選択されている文字は、第1候補表示枠11と同様に他の文字と異なるように表示されても良い。また、修正候補表示枠12には、文字認識装置1をキー入力モードに遷移させるための表示(例えば、図2における“Free”という表示など)が行われても良い。拡大表示枠13には、ユーザによって選択されている修正候補の文字や第1候補の文字などが拡大して表示される。拡大表示枠13には、ユーザによって修正候補の文字が選択されている場合にはこの修正候補の文字が拡大表示され、ユーザによって修正候補の文字が選択されていない場合には選択されている第1候補の文字が表示されても良い。このときの拡大率はユーザや設計者によって任意に設定されて良いが、選択されている修正候補の文字や第1候補の文字をユーザが肉眼で識別可能となるように拡大されることが望ましい。補足情報表示枠14には、ユーザによって選択されている修正候補の文字や第1候補の文字の補足情報が表示される。この場合、表示制御部8は、ユーザによって選択されている文字に対応する補足情報を、認識辞書記憶部4から読み出し、その補足情報を表示させる。なお、図2における表示のレイアウトは例であり、以上の表示枠などがその他どのようなレイアウトで表示されても良い。
【0031】
〈表示部〉
表示部9は、CRT(Cathode Ray Tube)や液晶ディスプレイ等の表示装置を用いて構成される。表示部9は、文字や画像などを表示する。表示部9は、文字認識部6による認
識結果を表示する場合、表示制御部8の指示に従って表示を行う。
【0032】
〔動作例〕
図3,4は、文字認識装置1の動作例を示すフローチャートである。以下、文字認識装置1の動作例について説明する。画像入力部2を介して画像のデータが入力されると(S01)、画像記憶部3は入力された画像のデータを記憶する。次に、文字認識部6は、画像記憶部3に記憶された画像を読み出し、この画像に含まれる文字の画像を切り出す(S02)。そして、文字認識部6は、切り出された文字の画像から、認識辞書記憶部4に記憶される認識辞書を用いて、文字を認識する(S03)。
【0033】
次に、認識結果記憶部7は、文字認識部6による認識結果を記憶する(S04)。表示制御部8は、文字認識部6により切り出された文字画像及び認識結果記憶部7に記憶された第1候補の文字の表示を表示部9に指示し、表示部9はこの指示に従って表示を行う(S05)。その後、表示制御部8は、選択された文字の拡大表示、選択された文字の補足情報表示を表示部9に指示し、表示部9はこの指示に従って表示を行う(S06,S07)。
【0034】
文字認識部6は、修正操作部5を介して修正の指示が入力されたか否か判断する(S08)。修正の指示が入力された場合(S08−YES)、文字認識部6は、入力された修正の指示に従って、認識結果記憶部7に記憶されている第1候補の文字を他の文字に置き換え、修正を行う(S09)。そして、表示制御部8は、この修正後の第1候補の文字に従って、文字画像や第1候補の表示、選択された文字の拡大表示、選択された文字の補足情報表示を指示し、表示部9はこの指示に従って表示を行う(S10,S11,S12)。その後、再度S08以降の処理が行われる。
【0035】
一方、修正の指示が入力されなかった場合(S08−NO)、文字認識部6は、確定の指示が入力されたか否か判断する(S13)。確定の指示が入力されていない場合(S13−NO)、S06以降の処理が再度行われる。一方、確定の指示が入力された場合(S13−YES)、文字認識部6は、認識結果の確定を行う(S14)。即ち、この場合、文字認識部6は、その時点で認識結果記憶部7に記憶されている第1候補の文字をもって、認識結果と確定する。そして、例えば認識結果のテキストデータが他のアプリケーション等へ入力される。
【0036】
〔作用/効果〕
文字認識装置1では、ユーザによって選択された文字(第1候補の文字や修正候補の文字)について表示が行われる際、単にその文字の補足情報が表示されるのではなく、その文字が拡大して表示される。このため、通常表示される文字、即ち第1候補表示枠11や修正候補表示枠12において表示される文字の大きさが小さい場合にも、ユーザは拡大表示枠13に表示された拡大表示を見ることにより、選択している文字を識別することができる。このため、例えばカタカナの「リ」とひらがなの「り」のように表示が似ている文字であっても、補足情報によらずにユーザが容易に識別可能となる。また、例えばひらがなの「ぱ」と「ば」のように、例え補足情報が表示されたとしても識別が困難な文字(即ち類似の文字)であっても、拡大表示を見ることによりユーザは容易に識別することが可能となる。
【0037】
〔変形例〕
図5は、変形した文字認識装置1における表示例を示す図である。表示制御部8は、図5のように、特に拡大表示枠13を画面上に表示させることなく、選択された文字を修正候補表示枠12において拡大表示させるように制御しても良い。
【0038】
また、画像表示枠10や補足情報表示枠14は、必ずしも表示させる必要はなく、その表示を行うか否かについてはユーザや設計者によって任意に選択されても良い。また、補足情報が表示されない場合には、認識辞書記憶部4は、必ずしも補足情報を有する必要はない。
【0039】
また、文字認識部6が接触文字(互いに接触した複数の文字によって構成される文字やカーニングが実施された複数の文字によって構成される文字)を認識するように構成された場合、表示制御部8は、第1候補表示枠11や修正候補表示枠12において、接触文字を一つの文字として選択可能に構成されても良い。また、この場合、補足情報として接触文字であることが示されても良い。
【図面の簡単な説明】
【0040】
【図1】文字認識装置の機能ブロックの例を示す図である。
【図2】文字認識装置の表示例を示す図である。
【図3】文字認識装置の動作例を示すフローチャートである。
【図4】文字認識装置の動作例を示すフローチャートである。
【図5】変形した文字認識装置における表示例を示す図である。
【符号の説明】
【0041】
1 文字認識装置
2 画像入力部
3 画像記憶部
4 認識辞書記憶部
5 修正操作部
6 文字認識部
7 認識結果記憶部
8 表示制御部
9 表示部
10 画像表示枠
11 第1候補表示枠
12 修正候補表示枠
13 拡大表示枠
14 補足情報表示枠

【特許請求の範囲】
【請求項1】
少なくとも文字の表示を行う表示手段と、ユーザによって操作されることにより前記表示手段に表示された文字を選択する選択手段とを含む情報処理装置が、入力された画像から文字を認識するステップと、
前記情報処理装置が、認識した文字を前記表示手段に表示させるステップと、
前記情報処理装置が、前記表示手段に表示された文字のうち、前記選択手段によって選択された文字を判断するステップと、
前記情報処理装置が、前記選択された文字を、前記表示手段に拡大表示させるステップと
を含む認識結果表示方法。
【請求項2】
前記情報処理装置が、前記選択された文字の字種及び/又は読みを取得するステップをさらに含み、
前記情報処理装置は、前記拡大表示させるステップにおいて、前記取得された字種及び/又は読みをさらに前記表示手段に表示させる
請求項1に記載の認識結果表示方法。
【請求項3】
少なくとも文字の表示を行う表示手段と、ユーザによって操作されることにより前記表示手段に表示された文字を選択する選択手段とを含む情報処理装置に対し、
入力された画像から文字を認識するステップと、
認識した文字を前記表示手段に表示させるステップと、
前記表示手段に表示された文字のうち、前記選択手段によって選択された文字を判断するステップと、
前記選択された文字を、前記表示手段に拡大表示させるステップと
を実行させるためのプログラム。
【請求項4】
前記選択された文字の字種及び/又は読みを取得するステップをさらに前記情報処理装置に実行させ、
前記拡大表示させるステップにおいて、前記情報処理装置に、前記取得された字種及び/又は読みの前記表示手段への表示をさらに実行させる
請求項3に記載のプログラム。
【請求項5】
少なくとも文字の表示を行う表示手段と、ユーザによって操作されることにより前記表示手段に表示された文字を選択する選択手段とを含む情報処理装置に対し、入力された画像から文字を認識するステップと、認識した文字を前記表示手段に表示させるステップと、前記表示手段に表示された文字のうち、前記選択手段によって選択された文字を判断するステップと、前記選択された文字を、前記表示手段に拡大表示させるステップとを実行させるためのプログラムを備えた携帯端末。
【請求項6】
入力された画像から文字を認識する認識手段と、
前記認識手段によって認識された文字の表示を行う表示手段と、
ユーザによって操作されることにより前記表示手段に表示された文字を選択する選択手段とを備え、
前記表示手段は、前記選択手段によって選択された文字を拡大表示する認識結果表示装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2006−3980(P2006−3980A)
【公開日】平成18年1月5日(2006.1.5)
【国際特許分類】
【出願番号】特願2004−177096(P2004−177096)
【出願日】平成16年6月15日(2004.6.15)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.FRAM
【出願人】(000002945)オムロン株式会社 (3,542)
【Fターム(参考)】