説明

情報処理装置、単語判別装置、画面表示操作装置、単語登録装置およびこれらに関する方法ならびにプログラム

【課題】ユーザの口の映像のみによって情報処理や単語の判別を行ったり、画面表示の操作を可能にしたり、単語登録を行う情報処理装置、単語判別装置、画面表示操作装置、単語登録装置およびこれらの方法ならびにプログラムを得ること。
【解決手段】単語画像抽出手段22は、唇画像領域抽出手段21によって抽出した唇画像についての経時的変化を1単位の単語画像として抽出する。パターン比較手段25は、単語画像から抽出により得られた単語発声パターンを単語辞書24と比較して装置の操作の対象となる単語を特定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、パーソナルコンピュータや携帯電話機等の各種の情報処理装置、これに使用される単語判別装置、画面表示の操作を行う画面表示操作装置、単語登録を行う単語登録装置およびこれらの方法ならびにプログラムに関する。
【背景技術】
【0002】
パーソナルコンピュータや携帯電話機等の各種の情報処理装置では、ディスプレイ上に各種操作に関する情報を表示して、キーボードや操作パネルあるいはマウス等のポインティングデバイスを用いて、入力操作を行うことが多い。
【0003】
図25は、本発明の第1の関連技術の情報処理装置としての携帯電話機の外観を表わしたものである。この携帯電話機200は、第1の筐体201と第2の筐体202をヒンジ機構203で折り畳み自在に連結した折り畳み型の電話機である。第1の筐体201にはディスプレイ205が配置され、第2の筐体202における折り畳み時にディスプレイ205と対向する面には操作部206が配置されている。
【0004】
この携帯電話機200を例に採れば、ユーザはディスプレイ205に表示されたメニュー画面等の画面内容を見て、操作部206の決定キー206Aや方向キー206B、あるいはダイヤルキー206C等のキー操作を行って、電子メールの送信や情報の検索等の必要な処理を実行する。ディスプレイ205にタッチパネルが付属している場合には、所望の表示部位を指やペンで押下することによっても、各種の操作が可能である。
【0005】
ところで、このような操作は、ユーザの手によって行われるのを前提としている。したがって、手の不自由な人にとって多くの情報処理装置は、使い勝手の悪いインタフェースを備えた装置となる。また、手に特別の障害がない人にとっても、これらの情報処理装置を多用することは手に過度の負担を掛け、好ましくない。
【0006】
特にこの種の情報処理装置では、メニュー画面からユーザの所望の項目を選択するような場合、メニューが多くの階層に分類されている場合が多い。このような場合には、キーの押下等の手による操作を繰り返す必要があり、手の不自由な人に大きな負担を強いることになる。
【0007】
そこで、本発明の第2の関連技術として、レーザポインタと空気で作動するスイッチを用いてマウスカーソルを画面上で移動させたりクリックするパソコン入力装置が提案されている(たとえば特許文献1参照)。この第1の関連技術では、レーザポインタをユーザの頭部に取り付けておき、レーザビームをディスプレイ上に照射して、その位置をカメラで検出することで、マウスカーソルの移動制御を行う。また、ユーザの口元にチューブをセットして呼気または吸気によってスイッチを作動させることで、クリックを実現する。
【0008】
この第2の関連技術では、ユーザがレーザポインタやこの画像を取得するカメラおよび空気で作動する特殊なスイッチを用意する必要がある。また、ユーザは入力操作を行っている間、頭部の姿勢と目の視点および口の自由度を奪われるという問題がある。
【0009】
そこで、第3の関連技術として、目の動きと口の形状認識を利用した文字入力装置が提案されている(たとえば特許文献2参照)。この第3の関連技術では、使用者の映像(顔の位置、向き、目の方向など)および母音を発声した時の映像(口形状)の画像データを辞書として保存しておき、使用者が入力しようと見つめている行の文字を選定するようにしている。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】特開2005−063101号公報(第0028段落、第0029段落、図1)
【特許文献2】特開2002−269544号公報(請求項1、第0007段落〜第0011段落、第0024段落、図1)
【発明の概要】
【発明が解決しようとする課題】
【0011】
この第3の関連技術では、入力したい文字の母音の口の動きをカメラで読み取り、行を選択するボタンを表示して、ボタンを見つめた映像と合わせて文字の判別を行う。したがって、第3の関連技術を実施するためには、ユーザが行のボタンを目で追って、該当する行を見つけてこれを目で見つめている状態でその行の文字を1文字分だけ発声する必要がある。語句を通常の速度でしゃべった場合には、該当する行を目でいちいち追跡することが不可能なためである。このため、文字の入力速度がかなり低下するだけでなく、視点を頻繁に変更しなければならないので、目が疲れるという問題が生じる。
【0012】
そこで、第3の関連技術では、行の方はキー入力によって決定してもよいとしているが、これでは手の不自由な人の操作を排除することになる。
【0013】
そこで本発明の目的は、ユーザの口の映像のみによって情報処理や単語の判別を行ったり、画面表示の操作を可能にしたり、単語登録を行う情報処理装置、単語判別装置、画面表示操作装置、単語登録装置およびこれらの方法ならびにプログラムを提供することにある。
【課題を解決するための手段】
【0014】
本発明では、(イ)各種の情報を視覚的に表示するディスプレイと、(ロ)このディスプレイを使用する操作者の口を少なくとも撮影する撮像手段と、(ハ)この撮像手段によって得られた操作者の口の画像の経時的な変化を判別する変化判別手段と、(ニ)この変化判別手段の判別結果に応じて判別結果と対応付けた予め定めた特定の操作を実行する特定操作実行手段とを情報処理装置が具備する。
【0015】
また、本発明では、(イ)認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、(ロ)この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、(ハ)この単語画像抽出手段によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記した唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録手段と、(ニ)この単語発声パターン記録手段あるいはこれと同等の手段によって予め記録しておいた単語発声パターンをそれぞれ単語と対応付けた単語辞書と、(ホ)前記した単語発声パターン記録手段で記録した認識の対象となる単語発声パターンを前記した単語辞書内の各単語についての単語発声パターンと比較するパターン比較手段と、(へ)このパターン比較手段による比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記した認識の対象とする人物の発声した単語であると判別する単語判別手段とを単語判別装置が具備する。
【0016】
更に本発明では、(イ)認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、(ロ)この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、(ハ)この単語画像抽出手段によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定手段と、(ニ)前記した単語画像抽出手段によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別手段と、(ホ)前記した閉タイミング測定手段あるいはこれと同等の手段によって測定したそれぞれのタイミングと前記した母音判別手段あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語とそれぞれ対応付けて用意した単語辞書と、(へ)前記した単語画像抽出手段によって抽出した単語画像における前記した閉タイミング測定手段で測定したそれぞれのタイミングおよび前記した母音判別手段で判別した単語を構成するそれぞれの母音の組み合わせを前記した単語辞書における前記した組み合わせと比較する比較手段と、(ト)この比較手段で最も一致すると判別した前記した単語辞書における前記した組み合わせに対応する単語を前記した認識の対象とする人物の発声した単語であると判別する単語判別手段とを単語判別装置が具備する。
【0017】
更にまた本発明では、(イ)認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、(ロ)この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、(ハ)この単語画像抽出手段によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記した唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録手段と、(ニ)この単語発声パターン記録手段あるいはこれと同等の手段によって予め記録しておいた単語発声パターンをそれぞれ単語と対応付けた単語辞書と、(ホ)前記した単語発声パターン記録手段で記録した認識の対象となる単語発声パターンを前記した単語辞書内の各単語についての単語発声パターンと比較するパターン比較手段と、(へ)このパターン比較手段による比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記した認識の対象とする人物の発声した単語であると判別する単語判別手段と、(ト)各種の情報を表示するディスプレイと、(チ)前記した単語判別手段で判別した単語に対応する操作内容でこのディスプレイ上に表示された表示内容を操作する内容操作手段とを画面表示操作装置が具備する。
【0018】
また、本発明では、(イ)認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、(ロ)この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、(ハ)この単語画像抽出手段によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定手段と、(ニ)前記した単語画像抽出手段によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別手段と、(ホ)前記した閉タイミング測定手段あるいはこれと同等の手段によって測定したそれぞれのタイミングと前記した母音判別手段あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語とそれぞれ対応付けて用意した単語辞書と、(へ)前記した単語画像抽出手段によって抽出した単語画像における前記した閉タイミング測定手段で測定したそれぞれのタイミングおよび前記した母音判別手段で判別した単語を構成するそれぞれの母音の組み合わせを前記した単語辞書における前記した組み合わせと比較する比較手段と、(ト)この比較手段で最も一致すると判別した前記した単語辞書における前記した組み合わせに対応する単語を前記した認識の対象とする人物の発声した単語であると判別する単語判別手段と、(チ)各種の情報を表示するディスプレイと、(リ)前記した単語判別手段で判別した単語に対応する操作内容でこのディスプレイ上に表示された表示内容を操作する内容操作手段とを画面表示操作装置が具備する。
【0019】
更に本発明では、(イ)単語登録の際に認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、(ロ)この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する登録対象単語画像抽出手段と、(ハ)この登録対象単語画像抽出手段によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記した唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録手段と、(ニ)この単語発声パターン記録手段あるいはこれと同等の手段によって予め記録しておいた単語発声パターンをそれぞれ単語と対応付けた単語辞書と、(ホ)前記した単語発声パターン記録手段で記録した単語登録の対象となる単語発声パターンを前記した単語辞書内の各単語についての単語発声パターンと比較するパターン比較手段と、(へ)このパターン比較手段による比較の結果、所定の値以上近似しないと判別した単語発声パターンに対応する未登録の単語のみを単語登録可能とする登録単語可否判別手段とを単語登録装置が具備する。
【0020】
更にまた本発明では、(イ)単語登録の際に認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、(ロ)この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する登録対象単語画像抽出手段と、(ハ)この登録対象単語画像抽出手段によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定手段と、(ニ)前記した登録対象単語画像抽出手段によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別手段と、(ホ)前記した閉タイミング測定手段あるいはこれと同等の手段によって測定したそれぞれのタイミングと前記した母音判別手段あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語とそれぞれ対応付けて用意した単語辞書と、(へ)前記した登録対象単語画像抽出手段によって抽出した単語画像における前記した閉タイミング測定手段で測定したそれぞれのタイミングおよび前記した母音判別手段で判別した単語を構成するそれぞれの母音の組み合わせを前記した単語辞書における前記した組み合わせと比較する比較手段と、(ト)この比較手段による比較の結果、所定の値以上近似しないと判別した前記した組み合わせに対応する未登録の単語のみを単語登録可能とする登録単語可否判別手段とを単語登録装置が具備する。
【0021】
また、本発明では、(イ)認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出ステップと、(ロ)この唇画像領域抽出ステップで抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出ステップと、(ハ)この単語画像抽出ステップによって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記した唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録ステップと、(ニ)この単語発声パターン記録ステップで記録した認識の対象となる単語発声パターンを、前記した単語発声パターン記録ステップで予めそれぞれの単語と対応付けて登録した単語辞書内の各単語についての単語発声パターンと比較するパターン比較ステップと、(ホ)このパターン比較ステップによる比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記した認識の対象とする人物の発声した単語であると判別する単語判別ステップとを単語判別方法が具備する。
【0022】
更に本発明では、(イ)認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出ステップと、(ロ)この唇画像領域抽出ステップによって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出ステップと、(ハ)この単語画像抽出ステップによって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定ステップと、(ニ)前記した単語画像抽出ステップによって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別ステップと、(ホ)前記した単語画像抽出ステップによって抽出した単語画像における前記した閉タイミング測定ステップで測定したそれぞれのタイミングおよび前記した母音判別ステップで判別した単語を構成するそれぞれの母音の組み合わせを、前記した閉タイミング測定ステップで測定したそれぞれのタイミングと前記した母音判別ステップで判別した各母音の組み合わせで単語ごとに予め登録した単語辞書と比較する比較ステップと、(へ)この比較ステップによる比較の結果、最も一致すると判別した前記した単語辞書における前記した組み合わせに対応する単語を前記した認識の対象とする人物の発声した単語であると判別する単語判別ステップとを単語判別方法が具備する。
【0023】
更にまた本発明では、コンピュータに、単語判別プログラムとして、(イ)認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出処理と、(ロ)この唇画像領域抽出処理によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出処理と、(ハ)この単語画像抽出処理によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定処理と、(ニ)前記した単語画像抽出処理によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別処理と、(ホ)前記した単語画像抽出処理によって抽出した単語画像における前記した閉タイミング測定処理で測定したそれぞれのタイミングおよび前記した母音判別処理で判別した単語を構成するそれぞれの母音の組み合わせを、前記した閉タイミング測定処理で測定したそれぞれのタイミングと前記した母音判別処理で判別した各母音の組み合わせで単語ごとに予め登録した単語辞書と比較する比較処理と、(へ)この比較処理による比較の結果、最も一致すると判別した前記した単語辞書における前記した組み合わせに対応する単語を前記した認識の対象とする人物の発声した単語であると判別する単語判別処理とを実行させることを特徴とする。
【発明の効果】
【0024】
以上説明したように本発明によれば、携帯電話機や小型のパーソナルコンピュータ等の情報処理装置に付属していることの多いカメラ(撮像装置)を活用することで、新たなデバイスを使用することなく操作者の口の画像の変化を基に予め定めた特定の操作を実行することができる。また、カメラ(撮像装置)が付属していない情報処理装置であっても、USB(Universal Serial Bus)接続等の手法によって、安価に本発明を実現することができる。
【0025】
また、更に本発明によれば、母音の判別だけでなく単語画像における上下の唇が閉じられるタイミングの測定も行うことにした。これにより母音と両唇音の組み合わせによる単語認識が可能になり、辞書として登録する単語の数を装置の操作に必要な程度まで増加させることが可能になる。
【図面の簡単な説明】
【0026】
【図1】本発明の情報処理装置のクレーム対応図である。
【図2】本発明の単語判別装置のクレーム対応図である。
【図3】本発明の他の単語判別装置クレーム対応図である。
【図4】本発明の画面表示操作装置のクレーム対応図である。
【図5】本発明の他の画面表示操作装置のクレーム対応図である。
【図6】本発明の単語登録装置のクレーム対応図である。
【図7】本発明の他の単語登録装置のクレーム対応図である。
【図8】本発明の単語判別方法のクレーム対応図である。
【図9】本発明の他の単語判別方法のクレーム対応図である。
【図10】本発明の単語判別プログラムのクレーム対応図である。
【図11】本発明の実施の形態における画面表示操作装置としての携帯電話機の構成を表わした平面図である。
【図12】本実施の形態の携帯電話機の回路構成の概要を表わしたブロック図である。
【図13】日本語の母音と唇の開口部の形状の関係を大まかに示した説明図である。
【図14】本実施の形態で携帯電話機のメニュー画面呼び出しと音声による単語登録モードの処理の概要を表わした流れ図である。
【図15】本実施の形態でステップS401の処理が行われるときの携帯電話機とユーザの顔の位置関係を示した説明図である。
【図16】本実施の形態で単語辞書に登録した単語発声パターンについて、発声内容と解析結果および辞書の登録内容の一例を示した説明図である。
【図17】本実施の形態でディスプレイの表示内容の一例を示した平面図である。
【図18】本実施の形態でユーザが発声によってディスプレイの表示内容の操作を行う場合の処理の流れを示した流れ図である。
【図19】本実施の形態で図14のステップS404による単語登録の処理の流れを具体的に表わした流れ図である。
【図20】本発明の第1の変形例で話者としてのユーザが単語を1音ずつ発声するときの画像の変化の様子を表わした説明図である。
【図21】第1の変形例におけるディスプレイの表示例を示した平面図である。
【図22】第1の変形例における第1および第2のウィンドウのアクティブとノンアクティブの切替制御の様子を表わした説明図である。
【図23】この第1の変形例における第2の例として「タブ1」〜「タブ4」の選択を示した説明図である。
【図24】本発明の第2の変形例における画面表示操作装置を示した斜視図である。
【図25】本発明の第1の関連技術の情報処理装置としての携帯電話機の外観を表わした平面図である。
【発明を実施するための形態】
【0027】
図1は、本発明の情報処理装置のクレーム対応図を示したものである。本発明の情報処理装置10は、ディスプレイ11と、撮像手段12と、変化判別手段13と、特定操作実行手段14を備えている。ここで、ディスプレイ11は、各種の情報を視覚的に表示する。撮像手段12は、ディスプレイ11を使用する操作者の口を少なくとも撮影する。変化判別手段13は、撮像手段12によって得られた操作者の口の画像の経時的な変化を判別する。特定操作実行手段14は、変化判別手段13の判別結果に応じて判別結果と対応付けた予め定めた特定の操作を実行する。
【0028】
図2は、本発明の単語判別装置のクレーム対応図を示したものである。本発明の単語判別装置20は、唇画像領域抽出手段21と、単語画像抽出手段22と、単語発声パターン記録手段23と、単語辞書24と、パターン比較手段25と、単語判別手段26を備えている。ここで、唇画像領域抽出手段21は、認識の対象とする人物の顔の画像から唇の領域の画像を抽出する。単語画像抽出手段22は、唇画像領域抽出手段21によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する。単語発声パターン記録手段23は、単語画像抽出手段22によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記した唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する。単語辞書24は、単語発声パターン記録手段23あるいはこれと同等の手段によって予め記録しておいた単語発声パターンをそれぞれ単語と対応付けたものである。パターン比較手段25は、単語発声パターン記録手段23で記録した認識の対象となる単語発声パターンを単語辞書24内の各単語についての単語発声パターンと比較する。単語判別手段26は、パターン比較手段25で最も一致すると判別した単語発声パターンに対応する単語を前記した認識の対象とする人物の発声した単語であると判別する。
【0029】
図3は、本発明の他の単語判別装置のクレーム対応図を示したものである。本発明の他の単語判別装置30は、唇画像領域抽出手段31と、単語画像抽出手段32と、閉タイミング測定手段33と、母音判別手段34と、単語辞書35と、比較手段36と、単語判別手段37を備えている。ここで、唇画像領域抽出手段31は、認識の対象とする人物の顔の画像から唇の領域の画像を抽出する。単語画像抽出手段32は、唇画像領域抽出手段31によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する。閉タイミング測定手段33は、単語画像抽出手段32によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する。母音判別手段34は、単語画像抽出手段32によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する。単語辞書35は、閉タイミング測定手段33あるいはこれと同等の手段によって測定したそれぞれのタイミングと母音判別手段34あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語について用意したものである。比較手段36は、単語画像抽出手段32によって抽出した単語画像における閉タイミング測定手段33で測定したそれぞれのタイミングおよび母音判別手段34で判別した単語を構成するそれぞれの母音の組み合わせを単語辞書35における前記した組み合わせと比較する。単語判別手段37は、比較手段36による比較の結果、最も一致すると判別した単語辞書35における前記した組み合わせに対応する単語を前記した認識の対象とする人物の発声した単語であると判別する。
【0030】
図4は、本発明の画面表示操作装置のクレーム対応図を示したものである。本発明の画面表示操作装置40は、唇画像領域抽出手段41と、単語画像抽出手段42と、単語発声パターン記録手段43と、単語辞書44と、パターン比較手段45と、単語判別手段46と、ディスプレイ47と、内容操作手段48を備えている。ここで、唇画像領域抽出手段41は、認識の対象とする人物の顔の画像から唇の領域の画像を抽出する。単語画像抽出手段42は、唇画像領域抽出手段41によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する。単語発声パターン記録手段43は、単語画像抽出手段42によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記した唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する。単語辞書44は、単語発声パターン記録手段43あるいはこれと同等の手段によって予め記録しておいた単語発声パターンの標準的なものを複数の単語について集めたものである。パターン比較手段45は、単語発声パターン記録手段43で記録した認識の対象となる単語発声パターンを単語辞書44内の各単語についての単語発声パターンと比較する。単語判別手段46は、パターン比較手段45で最も一致すると判別した単語発声パターンに対応する単語を前記した認識の対象とする人物の発声した単語であると判別する。ディスプレイ47は、各種の情報を表示する。内容操作手段48では、単語判別手段46で判別した単語に対応する操作内容でこのディスプレイ47上に表示された表示内容を操作する。
【0031】
図5は、本発明の他の画面表示操作装置のクレーム対応図を示したものである。本発明の他の画面表示操作装置50は、唇画像領域抽出手段51と、単語画像抽出手段52と、閉タイミング測定手段53と、母音判別手段54と、単語辞書55と、比較手段56と、単語判別手段57と、ディスプレイ58と、内容操作手段59を備えている。ここで、唇画像領域抽出手段51は、認識の対象とする人物の顔の画像から唇の領域の画像を抽出する。単語画像抽出手段52は、唇画像領域抽出手段51によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する。閉タイミング測定手段53は、単語画像抽出手段52によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する。母音判別手段54は、単語画像抽出手段52によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する。単語辞書55は、閉タイミング測定手段53あるいはこれと同等の手段によって測定したそれぞれのタイミングと母音判別手段54あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語について用意したものである。比較手段56は、単語画像抽出手段52によって抽出した単語画像における閉タイミング測定手段53で測定したそれぞれのタイミングおよび母音判別手段54で判別した単語を構成するそれぞれの母音の組み合わせを単語辞書55と比較する。単語判別手段57は、比較手段56で最も一致すると判別した単語辞書の単語を前記した認識の対象とする人物の発声した単語であると判別する。ディスプレイ58は、各種の情報を表示する。内容操作手段59は、単語判別手段57で判別した単語に対応する操作内容でこのディスプレイ58上に表示された表示内容を操作する。
【0032】
図6は、本発明の単語登録装置のクレーム対応図を示したものである。本発明の単語登録装置60は、唇画像領域抽出手段61と、登録対象単語画像抽出手段62と、単語発声パターン記録手段63と、単語辞書64と、パターン比較手段65と、登録単語可否判別手段66を備えている。ここで、唇画像領域抽出手段61は、単語登録の際に認識の対象とする人物の顔の画像から唇の領域の画像を抽出する。登録対象単語画像抽出手段62は、唇画像領域抽出手段61によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する。単語発声パターン記録手段63は、登録対象単語画像抽出手段62によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記した唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する。単語辞書64は、単語発声パターン記録手段63あるいはこれと同等の手段によって予め記録しておいた単語発声パターンの標準的なものを複数の単語について集めたものである。パターン比較手段65は、単語発声パターン記録手段63で記録した単語登録の対象となる単語発声パターンを単語辞書64内の各単語についての単語発声パターンと比較する。登録単語可否判別手段66は、パターン比較手段65で所定の値以上近似しないと判別した未登録の単語のみを単語登録可能とする。
【0033】
図7は、本発明の他の単語登録装置のクレーム対応図を示したものである。本発明の他の単語登録装置70は、唇画像領域抽出手段71と、登録対象単語画像抽出手段72と、閉タイミング測定手段73と、母音判別手段74と、単語辞書75と、比較手段76と、登録単語可否判別手段77を備えている。ここで、唇画像領域抽出手段71は、単語登録の際に認識の対象とする人物の顔の画像から唇の領域の画像を抽出する。登録対象単語画像抽出手段72は、唇画像領域抽出手段71によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する。閉タイミング測定手段73は、登録対象単語画像抽出手段72によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する。母音判別手段74は、登録対象単語画像抽出手段72によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する。単語辞書75は、閉タイミング測定手段73あるいはこれと同等の手段によって測定したそれぞれのタイミングと母音判別手段74あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語について用意したものである。比較手段76は、登録対象単語画像抽出手段72によって抽出した単語画像における閉タイミング測定手段73で測定したそれぞれのタイミングおよび母音判別手段74で判別した単語を構成するそれぞれの母音の組み合わせを単語辞書75と比較する。登録単語可否判別手段77は、比較手段76で所定の値以上近似しないと判別した未登録の単語のみを単語登録可能とする。
【0034】
図8は、本発明の単語判別方法のクレーム対応図を示したものである。本発明の単語判別方法80は、唇画像領域抽出ステップ81と、単語画像抽出ステップ82と、単語発声パターン記録ステップ83と、パターン比較ステップ84と、単語判別ステップ85を備えている。ここで、唇画像領域抽出ステップ81では、認識の対象とする人物の顔の画像から唇の領域の画像を抽出する。単語画像抽出ステップ82では、唇画像領域抽出ステップ81で抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する。単語発声パターン記録ステップ83では、単語画像抽出ステップ82によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記した唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する。パターン比較ステップ84では、単語発声パターン記録ステップ83で記録した認識の対象となる単語発声パターンを、単語発声パターン記録ステップ83で予めそれぞれの単語と対応付けて登録した単語辞書内の各単語についての単語発声パターンと比較する。単語判別ステップ85では、パターン比較ステップ84で最も一致すると判別した単語発声パターンに対応する単語を前記した認識の対象とする人物の発声した単語であると判別する。
【0035】
図9は、本発明の他の単語判別方法のクレーム対応図を示したものである。本発明の他の単語判別方法90は、唇画像領域抽出ステップ91と、単語画像抽出ステップ92と、閉タイミング測定ステップ93と、母音判別ステップ94と、比較ステップ95と、単語判別ステップ96を備えている。ここで、唇画像領域抽出ステップ91では、認識の対象とする人物の顔の画像から唇の領域の画像を抽出する。単語画像抽出ステップ92では、唇画像領域抽出ステップ91によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する。閉タイミング測定ステップ93では、単語画像抽出ステップ92によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する。母音判別ステップ94では、単語画像抽出ステップ92によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する。比較ステップ95では、単語画像抽出ステップ92によって抽出した単語画像における閉タイミング測定ステップ93で測定したそれぞれのタイミングおよび母音判別ステップ94で判別した単語を構成するそれぞれの母音の組み合わせを、閉タイミング測定ステップ93で測定したそれぞれのタイミングと母音判別ステップ94で判別した各母音の組み合わせで単語ごとに予め登録した単語辞書における前記した組み合わせと比較する。単語判別ステップ96では、比較ステップ95で最も一致すると判別した単語辞書の単語を前記した認識の対象とする人物の発声した単語であると判別する。
【0036】
図10は、本発明の単語判別プログラムのクレーム対応図を示したものである。本発明の単語判別プログラム100は、コンピュータに、唇画像領域抽出処理101と、単語画像抽出処理102と、閉タイミング測定処理103と、母音判別処理104と、比較処理105と、単語判別処理106を実行させるようにしている。ここで、唇画像領域抽出処理101では、認識の対象とする人物の顔の画像から唇の領域の画像を抽出する。単語画像抽出処理102では、唇画像領域抽出処理101によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する。閉タイミング測定処理103では、単語画像抽出処理102によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する。母音判別処理104では、単語画像抽出処理102によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する。比較処理105では、単語画像抽出処理102によって抽出した単語画像における閉タイミング測定処理103で測定したそれぞれのタイミングおよび母音判別処理104で判別した単語を構成するそれぞれの母音の組み合わせを、閉タイミング測定処理103で測定したそれぞれのタイミングと母音判別処理104で判別した各母音の組み合わせで単語ごとに予め登録した単語辞書における前記した組み合わせと比較する。単語判別処理106では、比較処理105で最も一致すると判別した単語辞書の単語を前記した認識の対象とする人物の発声した単語であると判別する。
【0037】
<発明の実施の形態>
【0038】
次に本発明の実施の形態を説明する。
【0039】
図11は、本発明の実施の形態における画面表示操作装置としての携帯電話機の構成を表わしたものである。携帯電話機300は、第1の筐体301と第2の筐体302をヒンジ機構303で折り畳み自在に連結した折り畳み型の電話機である。第1の筐体301には中央にディスプレイ305が配置され、その右上には撮像装置306が配置されている。また、第2の筐体302における折り畳み時にディスプレイ305と対向する面には操作部307が配置されている。操作部307には、決定キー307Aや方向キー307B、ダイヤルキー307C等の各種のキーが配置されている。
【0040】
図12は、本実施の形態における携帯電話機の回路構成の概要を表わしたものである。携帯電話機300は、CPU(Central Processing Unit)321と、このCPU321が実行するプログラムを格納したメモリ322を備えた主制御部323を有している。主制御部323は、データバス等のバス324を通じて携帯電話機300の各部と接続されており、これらの制御を行うようになっている。
【0041】
このうち通信制御部325は、図示しない基地局との通信を制御する。撮像装置306は静止画および動画の撮影を行う。表示制御装置326は、ディスプレイ305の表示を制御する。操作部307はキー入力によって携帯電話機300の各種操作を行う。本実施の形態の携帯電話機では、ディスプレイ305の表示内容と対応付けて、唇の画像を用いた入力操作も可能である。
【0042】
単語辞書327は、単語発声パターンの標準的なものを複数の単語について集めたものである。ここで単語発声パターンとは、ユーザが複数の音からなる単語を発声したときに、上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化をパターン化したものである。単語判別部328はユーザが発声によって各種操作を行うときに使用する単語についての単語発声パターンを、辞書に登録した標準的な単語発声パターンと比較することによって判別するようになっている。画像メモリ329は、撮像装置306から得られた画像データを格納する。唇画像領域抽出部330は、ユーザの顔の画像から唇の画像を抽出する。唇の検出には、たとえば動的輪郭モデル(SNAKES)を用いることができる。また、顔を特定し、その周囲よりも赤い領域を判別することでも唇の検出を行うことができる。
【0043】
単語画像抽出部331は、ユーザが単語を発声する際の唇の画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として画像メモリ329から抽出する。閉タイミング測定部332はユーザが単語を発声したときの上下の唇の閉じるタイミングをそれぞれ測定する。母音判別部333は、単語画像抽出部331の抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する。一般機能部334は、携帯電話機としての一般的な機能として、本実施の形態の携帯電話機300に備えられている機能をまとめた部分である。たとえば本実施の形態の携帯電話機300がテレビジョンの受信機能や電子決済の機能を備えている場合、これらの機能は一般機能部334に存在している。
【0044】
このような携帯電話機300を構成する主制御部323以外の少なくとも一部は、CPU321がメモリ322に格納されたプログラムを実行することによってソフトウェア的に実現することができる。
【0045】
図13は、日本語の母音と唇の開口部の形状の関係を大まかに示したものである。母音は、声帯の震えを伴う有声音であり、ある程度の時間以上同一の音が持続して発せられる点で子音と異なる。日本語の場合には母音は「ア」、「イ」、「ウ」、「エ」、「オ」の各音からなる。
【0046】
個々の母音は口の大きさや口の開口部の形状と舌の前後の位置との組み合わせによって外見上で特定することができる。しかしながら撮像装置306を用いて舌の前後の位置を特定することは困難である。そこで本実施の形態では、ユーザが単語を発声したときに口の開口部の形状が所定時間以上同一の状態に継続したとき、この形状から「ア」、「イ」、「ウ」、「エ」、「オ」のいずれかの母音が発声されたと推定するようにしている。
【0047】
ここで「ア」の音は、上下の唇の閉じたときの合わせ目が全体的に水平に配置されていると仮定したときの唇の開口部の中心点を通る上下方向に指2本が入る程度に口が開けられている状態で発せられる。「イ」の音は、軽く小指の先が入る程度に口が開けられている状態で発せられる。「エ」の音は、「ア」の音と「イ」の音の中間程度に口が開けられている状態で発せられる。これらの音を発するとき、口はすぼめていない。
【0048】
「ウ」および「オ」の各音は、口をすぼめて発声する。このうち「ウ」の音は「オ」の音よりも唇の開口部が一回り小さくなる。「ア」、「エ」、「イ」の各音における上下の唇の閉じたときの合わせ目が全体的に水平に配置されていると仮定したときの唇の開口部の中心点を通る左右方向の距離は、「ウ」および「オ」の各音を発声する場合よりも長い。
【0049】
したがって、本実施の形態では、図12に示した母音判別部333が単語画像抽出部331の抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別するようにしている。もちろん、唇の大きさには個人差があり、開口部の上下方向および左右方向の距離と各母音の関係は相対的なものとなる。
【0050】
母音は継続的に発せられる音なので、たとえばユーザが「イ」という音を発声したときと「イイ」という連続音を発声したときでは、唇の開口部の形状に変化はなく、同一の開口部の形状が保たれる時間が異なるだけである。したがって、本実施の形態では、唇の開口部の形状が所定時間以上継続することを母音の判別に用いると共に、この所定時間を超えた特定時間が経過するたびに同一の母音が繰り返し発声されたと判別する。これにより、ユーザが「イ」という音を単発で発声したか「イイ」というように複数回「イ」の音を連発で発声したかが分かるようにしている。
【0051】
ただし、これには例外がある。「ン」は、前に発声した「ア」、「イ」、「ウ」、「エ」、「オ」の各音と唇の形状を保持したまま発声することができる。また、次に発声する母音に備えて、先行して唇の開口部の形状を変えて音「ン」を発声することもできる。したがって、「イイ」という連続音と「イン」という言葉は、「イ」という音と区別できても、本発明の原理では区別できない可能性がある。可能性があるといったのは、「インク」という単語を発声したとき、母音で「イイウ」と判別するか「イウウ」と判別するか特定することができないことによる。もちろん、単語登録の対象とする音に「ン」を含めないとする制限も可能である。
【0052】
ところで、携帯電話機300の操作をユーザの発声する単語の違いによって行おうとするとき、母音のみから個々の単語の違いを判別しようとすると、たとえば「イイ(OK)」という単語と「ミギ(右)」という単語は、共に母音「イ」、「イ」からなる区別できない単語となる。すなわち、操作のために登録する単語の数や種類が大きく制限されることになる。
【0053】
そこで本実施の形態では、閉タイミング測定部332を用いてユーザが単語を発声したときの上下の唇の閉じるタイミングをそれぞれ測定するようにしている。これは、日本語で、ま行、ぱ行、ば行の各音(両唇音)を発声した場合には、上下の唇が必ず一度閉じるという特徴を利用するものである。たとえば「イイ(OK)」という単語を発声するとき、唇の開口部は図13の右上に示した「イ」の状態が継続したままとなる。これに対して「ミギ(右)」という単語を発声した場合には、一度、口が完全に閉じ、次に図13の右上に示した「イ」の状態が発生し、最後に図13の右上に示した「イ」の状態が発生する。
【0054】
なお、「ミギ(右)」という単語を発声した場合に、口が完全に閉じる回数は必ずしも特定することはできない。「ミギ(右)」という単語の発声を終了させたときに、口が「イ」の状態で開いている場合もあれば、閉じている場合もあるからである。
【0055】
いずれにせよ本実施の形態では単語を各母音の組み合わせとそれぞれの音が両唇音であるか否かという特性を用いることで、ユーザが携帯電話機300の操作に使用する各単語を比較的不自由なく登録できるようにしている。
【0056】
図14は、携帯電話機のメニュー画面呼び出しと音声による単語登録モードの処理の概要を表わしたものである。図11および図12と共に説明する。
【0057】
ユーザは、まず図11に示したように第1の筐体301と第2の筐体302を折り畳み状態から開いて、メニュー画面の呼び出しを意味する「メニュー」と発声する。すると、CPU321は起動状態となった撮像装置306から、このときのユーザの顔の画像を取り込んで、「メニュー画面」の指示があったことを判別する(ステップS401)。
【0058】
図15は、このステップS401の処理が行われるときの携帯電話機とユーザの顔の位置関係を示したものである。図12と共に説明する。携帯電話機300の第1の筐体301と第2の筐体302が開いた状態で、ユーザ351の顔352は撮像装置306の前方に位置しているのが通常である。したがって、この状態で、被写体の取り込まれる画角(視野角)θの範囲内に存在する顔352の画像から唇画像領域抽出部330は、ユーザ351の唇353の画像領域を切り出すことができる。このとき切り出された唇353の画像領域は画像メモリ329に順次取り込まれ、ユーザ351が単語を発声したときにその開始点から終了点までの一連の画像が単語画像抽出部331で抽出される。
【0059】
この抽出した一連の画像に対して、閉タイミング測定部332はユーザが単語を発声したときの上下の唇の閉じるタイミングをそれぞれ測定する。また、母音判別部333は唇画像領域抽出部330で切り出した唇の画像における上下の唇の傾きを水平に直した後、これを基にして図13に示す形状が所定時間以上継続したことをもって各母音を判別する。
【0060】
上下の唇の閉じるタイミングおよび母音の判別に際して、唇画像領域抽出部330で切り出した画像における唇353の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化について、1単位の単語が発声されたときの単語発声パターンが画像メモリ329の図示しない作業用メモリ領域に展開される。そして、上下の唇の閉じるタイミングがそれぞれ記録されると共に、母音を発声する最小の時間として予め設定した時間(所定時間)以上に唇353の開口部の形状(図13参照)が継続したとき、上下方向と左右方向のそれぞれの測定距離を基にして、これらが5種類の母音のいずれかに該当するかを判別する。また、1種類の母音に対応する唇353の開口部の形状が所定時間を超えた時間継続すると判別した場合には、特定時間が経過するたびに同一の母音が繰り返し発声されたとして、その旨の判別を行うことになる。
【0061】
図16は、本実施の形態で単語辞書に登録した単語発声パターンについて、発声内容と解析結果および辞書の登録内容の一例を示したものである。図12と共に説明する。
【0062】
単語辞書327は、ユーザが初期的に基本的な操作に使用するシステム辞書と、ユーザが後発的に登録するユーザ辞書に分かれている。システム辞書には、図16に示す「メニュー」や「トウロク(登録)」という語句が登録されている。
【0063】
このうち、「メニュー」という語句の発声は、閉タイミング測定部332で測定した両唇音の存在するタイミングを「○」で表わし、子音を「△」で表わすとき、母音判別部333の判別した母音を使用して、「○△エ△イ△ウウ」と表わすことができる。ここで、「メ」は、両唇音なので「○」を開始点とし、ま行の子音「△」と「メ」の母音「エ」がこれに続くことになる。「ニ」は、な行の子音「△」と「ニ」の母音「イ」から構成される。「ュ」は、や行の子音「△」と「ュ」の母音「ウ」から構成される。「ー」は「ュ」を延ばした単語なので、「ュ」と同様に子音「△」との母音「ウ」から構成される。ただし「ニ」の音が発声されてから「ュ」の音が発声されるまでの時間間隔は、母音「イ」が認識される最小間隔となる。
【0064】
図14に戻って説明を続ける。ユーザが「メニュー」と発声するとCPU321はこの発声パターンから子音「△」を取り除き、「○△エ△イ△ウウ」と処理する。CPU321は、処理内容を用いて単語辞書327のシステム辞書領域を検索すると、「メニュー」の登録内容と一致する。したがって、ユーザがメニュー画面の指示を行ったことが判別されることになる(ステップS401)。そこで、CPU321はディスプレイ305にメニュー画面を表示するように表示制御装置326を制御する(ステップS402)。
【0065】
ディスプレイ305にメニュー画面が表示されたら、CPU321はこの表示状態で次にどのような発声による指示が行われるかを待機する。ユーザが単語登録を行うために「トウロク(登録)」と発声したとする。ここで「トウロク」という発声については、単語辞書327のシステム辞書領域に、図16に示すように「オウオウ」という登録内容で登録されている。
【0066】
一方、CPU321の方ではユーザが「トウロク」と発声すると、画像メモリ329に展開されたその単語発声パターンを基に前記した処理を行い、解析結果として「△オウ△オ△ウ」を得る。ここで「ト」、「ウ」、「ロ」、「ク」の各音はいずれも両唇音ではないので「○」が付かない。最初の「ト」は、た行の子音「△」と母音「オ」から構成される。「ウ」は、そのまま母音「ウ」から構成される。「ロ」は、ら行の子音「△」と母音「ウ」から構成される。最後の「ク」は、か行の子音「△」と母音「ウ」から構成される。この結果、子音「△」を取り除くと、「オウオウ」となり、「トウロク(登録)」の登録内容と完全に一致することになる。
【0067】
したがって、ステップS402の処理でディスプレイ305にメニュー画面が表示された状態でユーザが「トウロク(登録)」と発声したとすると、CPU321はこれを「トウロク(登録)」の発声による指示があったと判別して(ステップS403:Y)、音声による単語登録のモードを実行することになる(ステップS404)。そして、ユーザが「オワリ(終り)」と発声すると、CPU321はこれを単語辞書327側の登録内容「オアイ」(図16参照)との一致を検出して「オワリ(終り)」が発声されたと判別して(ステップS405:Y)、単語登録のモードを終了する(エンド)。
【0068】
一方、ディスプレイ305にメニュー画面が表示された状態でユーザが「トウロク(トウロク)」以外の他の語句を発声し(ステップS403:N)、それが単語登録のモード以外のモードとして判別された場合(ステップS406:Y)、該当するそのモードが実行される。それ以外の場合、たとえばユーザが咳払いをしたり単語辞書327の登録内容に一致しない語句を発声した場合には(ステップS406:N)、メニュー画面が表示された状態となる(ステップS402)。もちろん、システムによってはユーザがこの状態で「オワリ(終り)」と発声することで、メニュー画面の表示状態を終了させることができるようにしてもよい。
【0069】
ところで図16に示した単語辞書327には、ユーザ辞書として「タブイチ(タブ1)」、「タブニ(タブ2)」等の発声内容の登録も行われている。そこで、このような単語辞書327を用いて、ユーザ351がディスプレイ305に表示されたタブを操作する様子を説明する。
【0070】
図17は、ディスプレイの表示内容の一例を示したものである。図12と共に説明する。
【0071】
ディスプレイ305には、ある操作が行われた時点で複数のタブを有するウィンドウが重なった状態で表示されている。図17では「タブ1」が選択された結果として、第1のウィンドウが前面に出た状態でその内容が表示されている。ユーザは、この状態から「タブ2」の第2のウィンドウに移行する際に、「手」を使用するのであれば、図11に示したダイヤルキー307Cの「2」キーを選択したり、図示しないカーソルを数字の「2」の位置に移動させてクリックすることになる。本実施の形態の携帯電話機300では、発声によってもタブの選択が可能である。
【0072】
図18は、ユーザが発声によってディスプレイの表示内容の操作を行う場合の処理の流れを示したものである。この処理は、図14のステップS406における「その他の指示」の1つとして行われるものである。図12、図15〜図17と共に説明する。
【0073】
ディスプレイ305に図17の内容が表示され、ユーザ351が図14のステップS406における「その他の指示」の1つとして、発声によるディスプレイの表示内容の操作を選択したものとする。この状態で撮像装置306の取り込んだ画像データは、画像メモリ329の所定のリングメモリ領域にエンドレスに格納され、唇画像領域抽出部330は唇の画像領域を順次抽出し、母音判別部333は母音が判別されるかをチェックする(ステップS421)。
【0074】
この結果、唇353の開口部の解析から母音のいずれかが検出されたら(ステップS421:Y)、単語画像抽出部331は画像メモリ329のリングメモリ領域に格納された画像を時間t1だけ遡って、単語の切り出しを開始する(ステップS422)。ここで時間t1は、その母音を含む音が両唇音であるか否かを確認できる長さである。
【0075】
これと共に、単語画像抽出部331はリングメモリ領域における切り出しが開始した時点以降を順にチェックしていって次の母音が先の母音の検出(判別)から時間t2以内に検出(判別)されるかをチェックする(ステップS423、ステップS424)。ここで時間t2は、単語として複数の音が発声されるときの通常想定される「間(ま)」となる最大時間に所定の余裕時間を加えた時間である。単語画像抽出部331が次の母音を時間t2の経過前に判別すれば(ステップS423:Y)、更に次の母音を時間t2以内に判別するかを繰り返しチェックする。
【0076】
これに対して次の母音を時間t2の経過前に判別しなかった場合(ステップS423:N、ステップS424:Y)、単語画像抽出部331はその時点で単語の画像の切り出しを終了する(ステップS425)。単語判別部328は図14の箇所で説明した単語処理を行って、単語辞書327の「登録内容」に対応する内容を取得する(ステップS426)。
【0077】
たとえば、ユーザ351が「タブニ(タブ2)」と発声した単語の画像が唇画像領域抽出部330によって切り出されたとする。この場合、ステップS426の処理で「ア○ウイ」という処理結果が得られる。CPU321は単語辞書327の登録内容を検索して(ステップS427)、これと一致するものが存在すれば(ステップS428:Y)、その登録内容の操作を実行して(ステップS429)、処理がステップS421に戻る(リターン)。この例では、ステップS429の操作として、図17の第1のウィンドウが表示された状態から「タブ2」の選択により第2のウィンドウが代わって選択された状態に変化する。
【0078】
検索結果から「ア○ウイ」という処理結果と一致する登録内容が単語辞書327に存在しなかった場合には(ステップS428:N)、「操作内容認識不能」等のエラー表示がディスプレイ305に一定期間現われて(ステップS430)、その後、ステップS421に戻る(リターン)。ここでユーザ351は、発声による操作を再度トライすることができる。もちろん、システムによってはステップS427の検索で一致する登録内容が存在しない場合に、個々の母音や両唇音の位置の一致の度合いが最も高い単語を一致候補として表示してユーザ351に確認させたり、一致の度合いが所定のしきい値を超える場合には一致として処理し該当する操作を実行するようにしてもよい。
【0079】
次に、ユーザが操作に必要な単語を登録する場合について具体的に説明する。図16に示す単語辞書327に、第1のウィンドウから第3のウィンドウまでの展開を指示する「タブイチ(タブ1)」から「タブサン(タブ3)」までの単語が登録されているものとし、第4のウィンドウの展開を指示する単語がまだ登録されていないものとする。この場合、ユーザ351(図15)は図17に示したディスプレイ305で第4のウィンドウを音声指示によって展開することができない。
【0080】
図19は、図14のステップS404による単語登録の処理の流れを具体的に表わしたものである。図12、図15および図16と共に説明する。
【0081】
図14のステップS404による単語登録のモードが開始すると、CPU321はディスプレイ305に単語登録の対象となる操作内容を選択する画面を表示する(ステップS441)。この表示は、手の不自由な人に配慮して、ディスプレイ305の表示に関するあらゆる操作を択一的に選択できる内容となっている。ユーザ351は、次の表示内容を要求する場合には「ツギ(次)」と発声する(ステップS442:Y)。この場合、CPU321は次の選択画面に切り替えて(ステップS443)、ステップS441の表示状態に戻る。これに対してユーザ351が前に表示された表示内容を要求する場合には「マエ(前)」と発声する(ステップS442:N、ステップS444:Y)。この場合、CPU321は前の選択画面に切り替えて(ステップS445)、ステップS441の表示状態に戻る。
【0082】
このようにしてある時点で単語登録の対象となる所望の操作内容がディスプレイ305に表示されたら、ユーザ351はこの操作内容を単語登録の対象に選択するために「センタク(選択)」と発声する。CPU321はこれを認識すると(ステップS442:N、ステップS444:N、ステップS446:Y)、ディスプレイ305に音声の入力の指示を表示する(ステップS447)。そして、その指示から単語の入力に十分な時間t3が経過したら(ステップS448:Y)、単語画像抽出部331は唇画像領域抽出部330によって抽出されたその間の画像から単語を構成する画像を抽出する。
【0083】
単語判別部328は抽出した画像に対して図14の箇所で説明した単語処理を行って、単語辞書327の「登録内容」に対応する内容を取得する(ステップS449)。CPU321はこの取得した内容について単語辞書327の登録内容を検索して(ステップS450)、一致するものがなければ(ステップS451:N)、ユーザ351の発声した音の内容を単語登録して(ステップS452)、処理を終了する(エンド)。
【0084】
一方、ステップS449で単語処理を行って得られた結果が単語辞書327の登録内容のいずれかと一致した場合には(ステップS451:Y)、重複登録を防止するためにディスプレイ305にエラー表示が行われる(ステップS453)。これに対してユーザ351は登録のための処理を再度トライするか、単語登録を断念する選択を音声の発声によって行う(ステップS454、ステップS455)。ユーザ351が登録のために「トウロク(登録)」と発声したことが判別された場合(ステップS454:Y)、CPU321は処理をステップS447に戻して音声の入力を再度待機する。
【0085】
たとえば、第4のウィンドウを音声指示によって展開する語句を単語登録するために、最初の時点でユーザ351が「タブシ(タブ4)」と発声したとする。この場合のステップS449による単語処理の結果は「ア○ウイ」となり、「タブニ(タブ2)」の登録内容と一致する。したがって、「タブシ(タブ4)」は単語辞書327の既登録の内容と一致することになり(ステップS451:Y)、登録することができない(ステップS453)。
【0086】
この場合、ユーザ351が登録にトライすることを選択し(ステップS454:Y)、「タブヨン(タブ4)」と読み替えて単語を発声したとする。すると、ステップS449による単語処理の結果は「ア○ウオオ」となり、ユーザ351は単語登録を行うことができる。
【0087】
エラー表示が行われた時点で、ユーザ351は単語処理を断念して「オワリ(終り)」と発声することもできる。この場合、CPU321が「オワリ」を判別すると(ステップS454:N、ステップS455:Y)、単語登録の処理が終了する(エンド)。ステップS441による操作内容の選択画面が表示されている状態でユーザ351が「オワリ(終り)」を発声した場合も(ステップS442:N、ステップS444:N、ステップS446:N、ステップS456:Y)、同様である(エンド)。
【0088】
以上説明した実施の形態によれば、ユーザ351が発声した単語を母音と両唇音の配列で区別して単語の比較処理を行うことにした。このため、ユーザ351の覚えやすい単語で多数の単語登録を行うことができ、表示操作を音を発するときの唇の開口部の形状によって多くの操作が可能になる。しかも、ユーザ351は必ずしも音を発生させず唇の開口部の形状を変化させるだけで表示操作を行うことができるので、他人に音の発生による迷惑を掛けることがない。
【0089】
なお、実施の形態では「ン」の音を先に発声した音と同一の母音として処理したが、次に発声する音と同一の母音として処理したり、不定の音「−」としていずれにも該当しない内容に分類して処理してもよい。また、本実施の形態では単語の発声の開始前および終了時点でユーザ351が唇を閉じていないことを前提に処理を説明したが、必ず唇を閉じる人の場合には、単語の両端に発生する「○」の符号を1つずつ除去することで、唇を閉じない人と同様のデータ処理が可能である。
【0090】
<発明の第1の変形例>
【0091】
以上説明した実施の形態では単語を自然に発声させ、これを母音や両唇音の配置に分解して辞書に登録し、表示操作と対応付けたが、これに限るものではない。より簡易な音声による操作として、単語を構成する各音を唇の開閉で区切って1音ずつ発声させ、これらの母音の組み合わせを表示操作と対応付けるようにしてもよい。この場合、登録できる単語の種類はある程度制限されるが、登録された単語をうまく活用することでディスプレイに表示された内容を十分に操作することができる。
【0092】
図20は、話者としてのユーザが単語を1音ずつ発声するときの画像の変化の様子を表わしたものである。操作に使用する語句として「ミギ(右)」という音を発声する場合、この第1の変形例では「ミ」と「ギ」を1音ずつ間隔を置いて発音する。同図(A)は「ミ」を発声する前の画像の状態であり、ユーザ351の唇353は閉じている。
【0093】
同図(B)は発声状態での唇の形状を表わした画像であり、ユーザ351の唇353は発声した音の種類に応じた開き具合となっている。1つの音の発声が終了すると、この第1の変形例でユーザ351は唇353を閉じ、同図(A)の状態に戻る。
【0094】
このように1つの音が発声されるたびに口の開閉が行われるので、口を開いた同図(C)の画像と口を閉じた同図(A)の画像が単語を構成する音の数だけ繰り返されることになる。もちろん、ユーザ351は発声を伴わない唇353の開閉のみを行うことができ、この場合にも第1の変形例の画面表示操作装置は表示上での各種操作を行うことができる。
【0095】
図21は、この第1の変形例におけるディスプレイの操作の第1の例を説明するためのものである。図20と共に説明する。
【0096】
ディスプレイ305には、第1のウィンドウ501と第2のウィンドウ502が表示されている。このような場合、ユーザ351は、いずれかのウィンドウをアクティブにする操作をまず行った後、該当するウィンドウに対してデータ処理を行うことになる。このときの第1のウィンドウ501と第2のウィンドウ502の切り替えという単純な操作は、図20(A)および同図(C)に示した口の開閉の判別で可能になる。
【0097】
図22は、第1および第2のウィンドウのアクティブとノンアクティブの切替制御の様子を表わしたものである。図20および図21と共に説明する。
【0098】
図22[A]に示す第1の状態を初期状態とする。この初期状態では第1のウィンドウ501がアクティブで、これに対する操作が可能である。このとき、第2のウィンドウ502はノンアクティブであり、これに対する操作を行えない状態となっている。この状態でユーザ351が図20の(A)および(C)に示すように口を1度開閉させると、図22[B]に示すように第1のウィンドウ501がノンアクティブとなり、代わって第2のウィンドウ502がアクティブとなる。また、図22[B]に示すように第2のウィンドウ502がアクティブな状態からユーザ351が口を1度開閉させると、今度は図22[A]に示すように第1のウィンドウ501が再びアクティブな状態になる。このとき、第2のウィンドウ502はノンがアクティブとなる。
【0099】
このようにディスプレイ305に2つの操作事項が存在し、これを択一的に選択しなければならない場合、この第1の変形例ではユーザ351が口を開閉するたびに選択動作が繰り返されることになる。したがって、極めて簡単に画面の操作が可能になる。
【0100】
しかしながら口の開閉だけでは操作を指示する単語の種類が極端に限定される。したがって、図17に示した複数のウィンドウのいずれかをアクティブにするような制御が困難になる。そこで、このような場合には図20(A)および(B)で示した単語発声時における唇353の開口部の形状の判別による操作が有効となる。
【0101】
図23は、図17で説明した「タブ1」〜「タブ4」の選択を、この第1の変形例における第2の例として説明するためのものである。図17および図20と共に説明する。
【0102】
図17に示したように第1のウィンドウが前面に表示されている状態を第1の状態とする。このとき、第1のウィンドウがアクティブとなっており、ユーザはこれに対して更に詳細な操作を行うことができる。この状態でユーザ351が1つの音を発声するたびに口を開閉させながら、「ミ」、「ギ」(右)と発声したとする。この場合、先の実施の形態で説明した認識によってそれぞれの母音が判別され、「イ、イ」という判別結果が得られる。この第1の変形例では1つの音を発声するたびに口を開閉させるので、両唇音の判別による表記を省略している。
【0103】
この「イ、イ」という判別結果が得られるたびに、第1の変形例の画面表示操作装置ではタブの選択を右方向に1つずつエンドレスに進める。したがって、第1の状態のときにユーザ351が「ミ」、「ギ」(右)と発声すると、第2の状態となり「タブ2」が選択されて第2のウィンドウがアクティブとなる。また、第2の状態のときにユーザ351が「ミ」、「ギ」(右)と発声すると、第3の状態となり「タブ3」が選択されて第3のウィンドウがアクティブとなる。更に第3の状態のときにユーザ351が「ミ」、「ギ」(右)と発声すると、第4の状態となり「タブ4」が選択されて第4のウィンドウがアクティブとなる。更にまた第4の状態のときにユーザ351が「ミ」、「ギ」(右)と発声すると、第1の状態に戻り「タブ1」が選択されて第1のウィンドウがアクティブとなる。以下、同様である。
【0104】
また、第1のウィンドウがアクティブとなっている状態でユーザ351が1つの音を発声するたびに口を開閉させながら、「ヒ」、「ダ」、「リ」(左)と発声したとする。この場合、先の実施の形態で説明した認識によってそれぞれの母音が判別され、「イ、ア、イ」という判別結果が得られる。
【0105】
この「イ、ア、イ」という判別結果が得られるたびに、第1の変形例の画面表示操作装置ではタブの選択を左方向に1つずつエンドレスに進める。したがって、第1の状態のときにユーザ351が「ヒ」、「ダ」、「リ」(左)と発声すると、第4の状態となり「タブ4」が選択されて第4のウィンドウがアクティブとなる。また、第4の状態のときにユーザ351が「ヒ」、「ダ」、「リ」(左)と発声すると、第3の状態となり「タブ3」が選択されて第3のウィンドウがアクティブとなる。更に第3の状態のときにユーザ351が「ヒ」、「ダ」、「リ」(左)と発声すると、第2の状態となり「タブ2」が選択されて第2のウィンドウがアクティブとなる。更にまた第2の状態のときにユーザ351が「ヒ」、「ダ」、「リ」(左)と発声すると、第1の状態に戻り「タブ1」が選択されて第1のウィンドウがアクティブとなる。以下、同様である。
【0106】
以上説明した本発明の第1の変形例によれば、ユーザ351が1つの音を発声するたびに口を開閉させるので、単語を構成する各母音の判別が容易になる。したがって、画面(ウィンドウ)の切り替えや、画面の移動、バックライトの点灯や消灯といったディスプレイに関する操作の典型的なものについて予め口の開閉や母音の組み合わせを登録しておけば、手を使用することなく各種の操作が可能になる。このため、手がふさがった状態でも画面表示操作装置に顔を向けることができれば、各種の操作が可能になるという利点がある。
【0107】
しかも、「ミ」、「ギ」(右)や「ヒ」、「ダ」、「リ」(左)といったユーザ351が直感的に分かりやすい動作パターンを登録することで、使い勝手の良いインタフェースとして、誰でも気軽に活用することができる。
【0108】
<発明の第2の変形例>
【0109】
図24は、本発明の第2の変形例における画面表示操作装置を示したものである。この第2の変形例の画面表示操作装置は、ノート型のパーソナルコンピュータ600である。このパーソナルコンピュータ600は、装置本体601に開閉自在に配置された蓋部602の内面側に、ディスプレイ603と共に撮像装置604を取り付けた構造となっている。したがって、ユーザはキー操作部605を手で操作することができるだけでなく、撮像装置604を用いて口の開閉や単語発声時の唇の開口部の形状認識による各種の操作が可能である。
【0110】
このように本発明の画面表示操作装置は、携帯電話機やPHS(Personal Handy-phone System)といった小型の情報処理装置に限定される必要はなく、撮像装置を使用できるあらゆる情報処理装置に適用可能である。
【0111】
また、本発明の実施の形態および変形例では日本語を対象とした母音および両唇音の特徴に基づく音の判別について説明したが、母音の種類や数の異なる他の言語についても本発明を適用することができることは当然である。
【0112】
以上説明した実施の形態の一部または全部は、以下の付記のようにも記載されるが、以下の記載に限定されるものではない。
【0113】
(付記1)
各種の情報を視覚的に表示するディスプレイと、
このディスプレイを使用する操作者の口を少なくとも撮影する撮像手段と、
この撮像手段によって得られた操作者の口の画像の経時的な変化を判別する変化判別手段と、
この変化判別手段の判別結果に応じて判別結果と対応付けた予め定めた特定の操作を実行する特定操作実行手段
とを具備することを特徴とする情報処理装置。
【0114】
(付記2)
前記変化判別手段は操作者の口の開閉の変化を判別することを特徴とする付記1記載の情報処理装置。
【0115】
(付記3)
前記変化判別手段は操作者の唇の開口部の発声時に1音ごとに形成される特有の形状を判別することを特徴とする付記1記載の情報処理装置。
【0116】
(付記4)
前記1音ごとに形成される特有の形状は、母音を発声するときの形状であることを特徴とする付記3記載の情報処理装置。
【0117】
(付記5)
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、
この単語画像抽出手段によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録手段と、
この単語発声パターン記録手段あるいはこれと同等の手段によって予め記録しておいた単語発声パターンをそれぞれ単語と対応付けた単語辞書と、
前記単語発声パターン記録手段で記録した認識の対象となる単語発声パターンを前記単語辞書内の各単語についての単語発声パターンと比較するパターン比較手段と、(へ)このパターン比較手段による比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別手段
とを具備することを特徴とする単語判別装置。
【0118】
(付記6)
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、
この単語画像抽出手段によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定手段と、
前記単語画像抽出手段によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別手段と、
前記閉タイミング測定手段あるいはこれと同等の手段によって測定したそれぞれのタイミングと前記母音判別手段あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語とそれぞれ対応付けて用意した単語辞書と、
前記単語画像抽出手段によって抽出した単語画像における前記閉タイミング測定手段で測定したそれぞれのタイミングおよび前記母音判別手段で判別した単語を構成するそれぞれの母音の組み合わせを前記単語辞書における前記組み合わせと比較する比較手段と、
この比較手段で最も一致すると判別した前記単語辞書における前記組み合わせに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別手段
とを具備することを特徴とする単語判別装置。
【0119】
(付記7)
前記母音判別手段は、同一の唇の開口部の形状が前記所定時間以上継続するとき、この所定時間を超えた特定時間が経過するたびに同一の母音が繰り返し発声されたと判別することを特徴とする付記6記載の単語判別装置。
【0120】
(付記8)
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、
この単語画像抽出手段によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録手段と、
この単語発声パターン記録手段あるいはこれと同等の手段によって予め記録しておいた単語発声パターンをそれぞれ単語と対応付けた単語辞書と、
前記単語発声パターン記録手段で記録した認識の対象となる単語発声パターンを前記単語辞書内の各単語についての単語発声パターンと比較するパターン比較手段と、
このパターン比較手段による比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別手段と、
各種の情報を表示するディスプレイと、
前記単語判別手段で判別した単語に対応する操作内容でこのディスプレイ上に表示された表示内容を操作する内容操作手段
とを具備することを特徴とする画面表示操作装置。
【0121】
(付記9)
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、
この単語画像抽出手段によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定手段と、
前記単語画像抽出手段によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別手段と、
前記閉タイミング測定手段あるいはこれと同等の手段によって測定したそれぞれのタイミングと前記母音判別手段あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語とそれぞれ対応付けて用意した単語辞書と、
前記単語画像抽出手段によって抽出した単語画像における前記閉タイミング測定手段で測定したそれぞれのタイミングおよび前記母音判別手段で判別した単語を構成するそれぞれの母音の組み合わせを前記単語辞書における前記組み合わせと比較する比較手段と、
この比較手段で最も一致すると判別した前記単語辞書における前記組み合わせに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別手段と、
各種の情報を表示するディスプレイと、
前記単語判別手段で判別した単語に対応する操作内容でこのディスプレイ上に表示された表示内容を操作する内容操作手段
とを具備することを特徴とする画面表示操作装置。
【0122】
(付記10)
前記母音判別手段は、同一の唇の開口部の形状が前記所定時間以上継続するとき、この所定時間を超えた特定時間が経過するたびに同一の母音が繰り返し発声されたと判別することを特徴とする付記9記載の画面表示操作装置。
【0123】
(付記11)
単語登録の際に認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する登録対象単語画像抽出手段と、
この登録対象単語画像抽出手段によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録手段と、
この単語発声パターン記録手段あるいはこれと同等の手段によって予め記録しておいた単語発声パターンをそれぞれ単語と対応付けた単語辞書と、
前記単語発声パターン記録手段で記録した単語登録の対象となる単語発声パターンを前記単語辞書内の各単語についての単語発声パターンと比較するパターン比較手段と、
このパターン比較手段による比較の結果、所定の値以上近似しないと判別した単語発声パターンに対応する未登録の単語のみを単語登録可能とする登録単語可否判別手段
とを具備することを特徴とする単語登録装置。
【0124】
(付記12)
単語登録の際に認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する登録対象単語画像抽出手段と、
この登録対象単語画像抽出手段によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定手段と、
前記登録対象単語画像抽出手段によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別手段と、
前記閉タイミング測定手段あるいはこれと同等の手段によって測定したそれぞれのタイミングと前記母音判別手段あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語とそれぞれ対応付けて用意した単語辞書と、
前記登録対象単語画像抽出手段によって抽出した単語画像における前記閉タイミング測定手段で測定したそれぞれのタイミングおよび前記母音判別手段で判別した単語を構成するそれぞれの母音の組み合わせを前記単語辞書における前記組み合わせと比較する比較手段と、
この比較手段による比較の結果、所定の値以上近似しないと判別した単語発声パターンに対応する未登録の単語のみを単語登録可能とする登録単語可否判別手段
とを具備することを特徴とする単語登録装置。
【0125】
(付記13)
前記母音判別手段は、同一の唇の開口部の形状が前記所定時間以上継続するとき、この所定時間を超えた特定時間が経過するたびに同一の母音が繰り返し発声されたと判別することを特徴とする付記12記載の単語登録装置。
【0126】
(付記14)
各種の情報を視覚的に表示するディスプレイを使用する操作者の口を少なくとも撮影する撮像ステップと、
この撮像ステップで得られた操作者の口の画像の経時的な変化を判別する変化判別ステップと、
この変化判別ステップによる判別結果に応じて判別結果と対応付けた予め定めた特定の操作を実行する特定操作実行ステップ
とを具備することを特徴とする情報処理方法。
【0127】
(付記15)
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出ステップと、
この唇画像領域抽出ステップで抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出ステップと、
この単語画像抽出ステップによって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録ステップと、
この単語発声パターン記録ステップで記録した認識の対象となる単語発声パターンを、前記単語発声パターン記録ステップで予めそれぞれの単語と対応付けて登録した単語辞書内の各単語についての単語発声パターンと比較するパターン比較ステップと、
このパターン比較ステップによる比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別ステップ
とを具備することを特徴とする単語判別方法。
【0128】
(付記16)
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出ステップと、
この唇画像領域抽出ステップによって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出ステップと、
この単語画像抽出ステップによって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定ステップと、
前記単語画像抽出ステップによって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別ステップと、
前記単語画像抽出ステップによって抽出した単語画像における前記閉タイミング測定ステップで測定したそれぞれのタイミングおよび前記母音判別ステップで判別した単語を構成するそれぞれの母音の組み合わせを、前記閉タイミング測定ステップで測定したそれぞれのタイミングと前記母音判別ステップで判別した各母音の組み合わせで単語ごとに予め登録した単語辞書における前記組み合わせと比較する比較ステップと、
この比較ステップによる比較の結果、最も一致すると判別した前記単語辞書における前記組み合わせに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別ステップ
とを具備することを特徴とする単語判別方法。
【0129】
(付記17)
前記母音判別ステップでは、同一の唇の開口部の形状が前記所定時間以上継続するとき、この所定時間を超えた特定時間が経過するたびに同一の母音が繰り返し発声されたと判別することを特徴とする付記16記載の単語判別方法。
【0130】
(付記18)
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出ステップと、
この唇画像領域抽出ステップによって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出ステップと、
この単語画像抽出ステップによって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録ステップと、
この単語発声パターン記録ステップで記録した認識の対象となる単語発声パターンを、前記単語発声パターン記録ステップで予めそれぞれの単語と対応付けて登録した単語辞書内の各単語についての単語発声パターンと比較するパターン比較ステップと、
このパターン比較ステップによる比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別ステップと、
この単語判別ステップで判別した単語に対応する操作内容で、各種の情報を表示するディスプレイ上に表示された表示内容を操作する内容操作ステップ
とを具備することを特徴とする画面表示操作方法。
【0131】
(付記19)
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出ステップと、
この唇画像領域抽出ステップによって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出ステップと、
この単語画像抽出ステップによって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定ステップと、
前記単語画像抽出ステップによって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別ステップと、
前記単語画像抽出ステップによって抽出した単語画像における前記閉タイミング測定ステップで測定したそれぞれのタイミングおよび前記母音判別ステップで判別した単語を構成するそれぞれの母音の組み合わせを、前記閉タイミング測定ステップで測定したそれぞれのタイミングと前記母音判別ステップで判別した各母音の組み合わせで単語ごとに予め登録した単語辞書と比較する比較ステップと、
この比較ステップによる比較の結果、最も一致すると判別した単語辞書の単語を前記認識の対象とする人物の発声した単語であると判別する単語判別ステップと、
この単語判別ステップで判別した単語に対応する操作内容で、各種の情報を表示するディスプレイ上に表示された表示内容を操作する内容操作ステップ
とを具備することを特徴とする画面表示操作方法。
【0132】
(付記20)
前記母音判別ステップは、同一の唇の開口部の形状が前記所定時間以上継続するとき、この所定時間を超えた特定時間が経過するたびに同一の母音が繰り返し発声されたと判別することを特徴とする付記19記載の画面表示操作方法。
【0133】
(付記21)
単語登録の際に認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出ステップと、
この唇画像領域抽出ステップによって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する登録対象単語画像抽出ステップと、
この登録対象単語画像抽出ステップによって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録ステップと、
この単語発声パターン記録ステップで記録した単語登録の対象となる単語発声パターンを、前記単語発声パターン記録ステップで予めそれぞれの単語と対応付けて登録した単語辞書内の各単語についての単語発声パターンと比較するパターン比較ステップと、
このパターン比較ステップによる比較の結果、所定の値以上近似しないと判別した単語発声パターンに対応する未登録の単語のみを単語登録可能とする登録単語可否判別ステップ
とを具備することを特徴とする単語登録方法。
【0134】
(付記22)
単語登録の際に認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出ステップと、
この唇画像領域抽出ステップによって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する登録対象単語画像抽出ステップと、
この登録対象単語画像抽出ステップによって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定ステップと、
前記登録対象単語画像抽出ステップによって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別ステップと、
前記登録対象単語画像抽出ステップによって抽出した単語画像における前記閉タイミング測定ステップで測定したそれぞれのタイミングおよび前記母音判別ステップで判別した単語を構成するそれぞれの母音の組み合わせを、前記閉タイミング測定ステップで測定したそれぞれのタイミングと前記母音判別ステップで判別した各母音の組み合わせで単語ごとに予め登録した単語辞書と比較する比較ステップと、
この比較ステップによる比較の結果、所定の値以上近似しないと判別した前記した組み合わせに対応する未登録の単語のみを単語登録可能とする登録単語可否判別ステップ
とを具備することを特徴とする単語登録方法。
【0135】
(付記23)
前記母音判別ステップは、同一の唇の開口部の形状が前記所定時間以上継続するとき、この所定時間を超えた特定時間が経過するたびに同一の母音が繰り返し発声されたと判別することを特徴とする付記22記載の単語登録方法。
【0136】
(付記24)
コンピュータに、
各種の情報を視覚的に表示するディスプレイを使用する操作者の口を少なくとも撮影する撮像処理と、
この撮像処理で得られた操作者の口の画像の経時的な変化を判別する変化判別処理と、
この変化判別処理による判別結果に応じて判別結果と対応付けた予め定めた特定の操作を実行する特定操作実行処理
とを実行させることを特徴とする情報処理プログラム。
【0137】
(付記25)
コンピュータに、
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出処理と、
この唇画像領域抽出処理で抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出処理と、
この単語画像抽出処理によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録処理と、
この単語発声パターン記録処理で記録した認識の対象となる単語発声パターンを、前記単語発声パターン記録処理で予めそれぞれの単語と対応付けて登録した単語辞書内の各単語についての単語発声パターンと比較するパターン比較処理と、
このパターン比較処理による比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別処理
とを実行させることを特徴とする単語判別プログラム。
【0138】
(付記26)
コンピュータに、
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出処理と、
この唇画像領域抽出処理によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出処理と、
この単語画像抽出処理によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定処理と、
前記単語画像抽出処理によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別処理と、
前記単語画像抽出処理によって抽出した単語画像における前記閉タイミング測定処理で測定したそれぞれのタイミングおよび前記母音判別処理で判別した単語を構成するそれぞれの母音の組み合わせを、前記閉タイミング測定処理で測定したそれぞれのタイミングと前記母音判別処理で判別した各母音の組み合わせで単語ごとに予め登録した単語辞書と比較する比較処理と、
この比較処理による比較の結果、最も一致すると判別した前記単語辞書における前記組み合わせに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別処理
とを実行させることを特徴とする単語判別プログラム。
【0139】
(付記27)
前記母音判別処理では、同一の唇の開口部の形状が前記所定時間以上継続するとき、この所定時間を超えた特定時間が経過するたびに同一の母音が繰り返し発声されたと判別することを特徴とする付記26記載の単語判別プログラム。
【0140】
(付記28)
コンピュータに、
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出処理と、
この唇画像領域抽出処理によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出処理と、
この単語画像抽出処理によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録処理と、
この単語発声パターン記録処理で記録した認識の対象となる単語発声パターンを、前記単語発声パターン記録処理で予めそれぞれの単語と対応付けて登録した単語辞書内の各単語についての単語発声パターンと比較するパターン比較処理と、
このパターン比較処理による比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別処理と、
この単語判別処理で判別した単語に対応する操作内容で、各種の情報を表示するディスプレイ上に表示された表示内容を操作する内容操作処理
とを実行させることを特徴とする画面表示操作プログラム。
【0141】
(付記29)
コンピュータに、
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出処理と、
この唇画像領域抽出処理によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出処理と、
この単語画像抽出処理によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定処理と、
前記単語画像抽出処理によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別処理と、
前記単語画像抽出処理によって抽出した単語画像における前記閉タイミング測定処理で測定したそれぞれのタイミングおよび前記母音判別処理で判別した単語を構成するそれぞれの母音の組み合わせを、前記閉タイミング測定処理で測定したそれぞれのタイミングと前記母音判別処理で判別した各母音の組み合わせで単語ごとに予め登録した単語辞書と比較する比較処理と、
この比較処理による比較の結果、最も一致すると判別した単語辞書の単語を前記認識の対象とする人物の発声した単語であると判別する単語判別処理と、
この単語判別処理で判別した単語に対応する操作内容で、各種の情報を表示するディスプレイ上に表示された表示内容を操作する内容操作処理
とを実行させることを特徴とする画面表示操作プログラム。
【0142】
(付記30)
前記母音判別処理は、同一の唇の開口部の形状が前記所定時間以上継続するとき、この所定時間を超えた特定時間が経過するたびに同一の母音が繰り返し発声されたと判別することを特徴とする付記29記載の画面表示操作プログラム。
【0143】
(付記31)
コンピュータに、
単語登録の際に認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出処理と、
この唇画像領域抽出処理によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する登録対象単語画像抽出処理と、
この登録対象単語画像抽出処理によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録処理と、
この単語発声パターン記録処理で記録した単語登録の対象となる単語発声パターンを、前記単語発声パターン記録処理で予めそれぞれの単語と対応付けて登録した単語辞書内の各単語についての単語発声パターンと比較するパターン比較処理と、
このパターン比較処理による比較の結果、所定の値以上近似しないと判別した単語発声パターンに対応する未登録の単語のみを単語登録可能とする登録単語可否判別処理
とを実行させることを特徴とする単語登録プログラム。
【0144】
(付記32)
コンピュータに、
単語登録の際に認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出処理と、
この唇画像領域抽出処理によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する登録対象単語画像抽出処理と、
この登録対象単語画像抽出処理によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定処理と、
前記登録対象単語画像抽出処理によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別処理と、
前記登録対象単語画像抽出処理によって抽出した単語画像における前記閉タイミング測定処理で測定したそれぞれのタイミングおよび前記母音判別処理で判別した単語を構成するそれぞれの母音の組み合わせを、前記閉タイミング測定処理で測定したそれぞれのタイミングと前記母音判別処理で判別した各母音の組み合わせで単語ごとに予め登録した単語辞書における前記した組み合わせと比較する比較処理と、
この比較処理による比較の結果、所定の値以上近似しないと判別した前記した組み合わせに対応する未登録の単語のみを単語登録可能とする登録単語可否判別処理
とを実行させることを特徴とする単語登録プログラム。
【0145】
(付記33)
前記母音判別処理は、同一の唇の開口部の形状が前記所定時間以上継続するとき、この所定時間を超えた特定時間が経過するたびに同一の母音が繰り返し発声されたと判別することを特徴とする付記32記載の単語登録プログラム。
【符号の説明】
【0146】
10 情報処理装置
11、58、47、305、603 ディスプレイ
12 撮像手段
13 変化判別手段
14 特定操作実行手段
20、30 単語判別装置
21、31 唇画像領域抽出手段
22、32 単語画像抽出手段
23 単語発声パターン記録手段
24、35、44、55、64、75、327 単語辞書
25、45、65 パターン比較手段
26、37、46、57 単語判別手段
33、53、73 閉タイミング測定手段
34、54、74 母音判別手段
36、56、76 比較手段
40、50 画面表示操作装置
41、51、61、71 唇画像領域抽出手段
42、52 単語画像抽出手段
43、63 単語発声パターン記録手段
48、59 内容操作手段
60、70 単語登録装置
62、72 登録対象単語画像抽出手段
66、77 登録単語可否判別手段
80、90 単語判別方法
81、91 唇画像領域抽出ステップ
82、92 単語画像抽出ステップ
83 単語発声パターン記録ステップ
84 パターン比較ステップ
85、96 単語判別ステップ
93 閉タイミング測定ステップ
94 母音判別ステップ
95 比較ステップ
100 単語判別プログラム
101 唇画像領域抽出処理
102 単語画像抽出処理
103 閉タイミング測定処理
104 母音判別処理
105 比較処理
106 単語判別処理
300 携帯電話機
306、604 撮像装置
321 CPU
322 メモリ
323 主制御部
328 単語判別部
329 画像メモリ
330 唇画像領域抽出部
331 単語画像抽出部
332 閉タイミング測定部
333 母音判別部
351 ユーザ
352 顔
353 唇
501 第1のウィンドウ
502 第2のウィンドウ
600 パーソナルコンピュータ

【特許請求の範囲】
【請求項1】
各種の情報を視覚的に表示するディスプレイと、
このディスプレイを使用する操作者の口を少なくとも撮影する撮像手段と、
この撮像手段によって得られた操作者の口の画像の経時的な変化を判別する変化判別手段と、
この変化判別手段の判別結果に応じて判別結果と対応付けた予め定めた特定の操作を実行する特定操作実行手段
とを具備することを特徴とする情報処理装置。
【請求項2】
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、
この単語画像抽出手段によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録手段と、
この単語発声パターン記録手段あるいはこれと同等の手段によって予め記録しておいた単語発声パターンをそれぞれ単語と対応付けた単語辞書と、
前記単語発声パターン記録手段で記録した認識の対象となる単語発声パターンを前記単語辞書内の各単語についての単語発声パターンと比較するパターン比較手段と、(へ)このパターン比較手段による比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別手段
とを具備することを特徴とする単語判別装置。
【請求項3】
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、
この単語画像抽出手段によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定手段と、
前記単語画像抽出手段によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別手段と、
前記閉タイミング測定手段あるいはこれと同等の手段によって測定したそれぞれのタイミングと前記母音判別手段あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語とそれぞれ対応付けて用意した単語辞書と、
前記単語画像抽出手段によって抽出した単語画像における前記閉タイミング測定手段で測定したそれぞれのタイミングおよび前記母音判別手段で判別した単語を構成するそれぞれの母音の組み合わせを前記単語辞書における前記組み合わせと比較する比較手段と、
この比較手段による比較の結果、最も一致すると判別した単語辞書における前記組み合わせに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別手段
とを具備することを特徴とする単語判別装置。
【請求項4】
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、
この単語画像抽出手段によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録手段と、
この単語発声パターン記録手段あるいはこれと同等の手段によって予め記録しておいた単語発声パターンをそれぞれ単語と対応付けた単語辞書と、
前記単語発声パターン記録手段で記録した認識の対象となる単語発声パターンを前記単語辞書内の各単語についての単語発声パターンと比較するパターン比較手段と、
このパターン比較手段による比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別手段と、
各種の情報を表示するディスプレイと、
前記単語判別手段で判別した単語に対応する操作内容でこのディスプレイ上に表示された表示内容を操作する内容操作手段
とを具備することを特徴とする画面表示操作装置。
【請求項5】
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、
この単語画像抽出手段によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定手段と、
前記単語画像抽出手段によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別手段と、
前記閉タイミング測定手段あるいはこれと同等の手段によって測定したそれぞれのタイミングと前記母音判別手段あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語とそれぞれ対応付けて用意した単語辞書と、
前記単語画像抽出手段によって抽出した単語画像における前記閉タイミング測定手段で測定したそれぞれのタイミングおよび前記母音判別手段で判別した単語を構成するそれぞれの母音の組み合わせを前記単語辞書における前記組み合わせと比較する比較手段と、
この比較手段で最も一致すると判別した前記単語辞書における前記組み合わせに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別手段と、
各種の情報を表示するディスプレイと、
前記単語判別手段で判別した単語に対応する操作内容でこのディスプレイ上に表示された表示内容を操作する内容操作手段
とを具備することを特徴とする画面表示操作装置。
【請求項6】
単語登録の際に認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する登録対象単語画像抽出手段と、
この登録対象単語画像抽出手段によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録手段と、
この単語発声パターン記録手段あるいはこれと同等の手段によって予め記録しておいた単語発声パターンをそれぞれ単語と対応付けた単語辞書と、
前記単語発声パターン記録手段で記録した単語登録の対象となる単語発声パターンを前記単語辞書内の各単語についての単語発声パターンと比較するパターン比較手段と、
このパターン比較手段による比較の結果、所定の値以上近似しないと判別した単語発声パターンに対応する未登録の単語のみを単語登録可能とする登録単語可否判別手段
とを具備することを特徴とする単語登録装置。
【請求項7】
単語登録の際に認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する登録対象単語画像抽出手段と、
この登録対象単語画像抽出手段によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定手段と、
前記登録対象単語画像抽出手段によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別手段と、
前記閉タイミング測定手段あるいはこれと同等の手段によって測定したそれぞれのタイミングと前記母音判別手段あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語とそれぞれ対応付けて用意した単語辞書と、
前記登録対象単語画像抽出手段によって抽出した単語画像における前記閉タイミング測定手段で測定したそれぞれのタイミングおよび前記母音判別手段で判別した単語を構成するそれぞれの母音の組み合わせを前記単語辞書における前記組み合わせと比較する比較手段と、
この比較手段による比較の結果、所定の値以上近似しないと判別した単語発声パターンに対応する未登録の単語のみを単語登録可能とする登録単語可否判別手段
とを具備することを特徴とする単語登録装置。
【請求項8】
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出ステップと、
この唇画像領域抽出ステップで抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出ステップと、
この単語画像抽出ステップによって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録ステップと、
この単語発声パターン記録ステップで記録した認識の対象となる単語発声パターンを、前記単語発声パターン記録ステップで予めそれぞれの単語と対応付けて登録した単語辞書内の各単語についての単語発声パターンと比較するパターン比較ステップと、
このパターン比較ステップによる比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別ステップ
とを具備することを特徴とする単語判別方法。
【請求項9】
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出ステップと、
この唇画像領域抽出ステップによって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出ステップと、
この単語画像抽出ステップによって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定ステップと、
前記単語画像抽出ステップによって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別ステップと、
前記単語画像抽出ステップによって抽出した単語画像における前記閉タイミング測定ステップで測定したそれぞれのタイミングおよび前記母音判別ステップで判別した単語を構成するそれぞれの母音の組み合わせを、前記閉タイミング測定ステップで測定したそれぞれのタイミングと前記母音判別ステップで判別した各母音の組み合わせで単語ごとに予め登録した単語辞書における前記組み合わせと比較する比較ステップと、
この比較ステップによる比較の結果、最も一致すると判別した前記単語辞書における前記組み合わせに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別ステップ
とを具備することを特徴とする単語判別方法。
【請求項10】
コンピュータに、
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出処理と、
この唇画像領域抽出処理によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出処理と、
この単語画像抽出処理によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定処理と、
前記単語画像抽出処理によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別処理と、
前記単語画像抽出処理によって抽出した単語画像における前記閉タイミング測定処理で測定したそれぞれのタイミングおよび前記母音判別処理で判別した単語を構成するそれぞれの母音の組み合わせを、前記閉タイミング測定処理で測定したそれぞれのタイミングと前記母音判別処理で判別した各母音の組み合わせで単語ごとに予め登録した単語辞書と比較する比較処理と、
この比較処理による比較の結果、最も一致すると判別した前記単語辞書における前記組み合わせに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別処理
とを実行させることを特徴とする単語判別プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate


【公開番号】特開2012−118679(P2012−118679A)
【公開日】平成24年6月21日(2012.6.21)
【国際特許分類】
【出願番号】特願2010−266650(P2010−266650)
【出願日】平成22年11月30日(2010.11.30)
【出願人】(000232254)日本電気通信システム株式会社 (586)
【Fターム(参考)】