情報処理方法及び情報処理装置

【課題】手書きされた図形や文字の認識する処理において、音声入力と組み合わせることによって、認識精度を高める。
【解決手段】与えられた対象を図形認識することで図形の候補を取得し、入力された音声情報を音声認識し図形の候補を取得し、図形認識手段で取得した図形の候補及び前記音声認識手段で取得した図形の候補に基づいて、図形を選択する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、入力された文字や図形等の情報を処理する情報処理方法に関し、特に入力された文字や図形等の認識率を向上させる技術に関する。
【背景技術】
【０００２】
タッチスクリーン、電子ホワイトボード、タッチパネル付きのＰＤＡ、タブレットＰＣなど、ペンやスタイラスによる画面への直接入力が可能な機器では、手書きによる文字や図形の入力が可能である。これにより、紙やホワイトボードに手書きする自然な感覚で入力ができる。これに手書き文字認識や図形認識の技術を統合すると、手書きによるストローク情報をテキストなどの形でデジタルデータ化でき、その後の様々な処理につなげることができる。
【０００３】
一方、音声認識技術が発展し、また機器のハードウエア性能が向上したことにより、ＰＣやワークステーションに限らず、さまざまなコンピュータ制御機器において、音声入力が可能になりつつある。
【０００４】
そんな中、ペン入力単独、あるいは音声入力単独の入力ではなく、ペンと音声を組み合わせたマルチモーダルな入力により、操作を効率化しようとする技術も提案されている。特許文献１では、ペンによる手書き入力で図形を描き、同時に音声で図形の種類を発声することで、手書き図形を整形して表示するシステムを提案している。
【特許文献１】特開平０６−０８５９８３号公報
【発明の開示】
【発明が解決しようとする課題】
【０００５】
手書き入力、音声入力とも、直感的な入力を可能にするというメリットがある反面、「誤認識」というデメリットがある。例えば、ユーザが手書きで図形を描き、図形認識処理によってこれを自動整形するシステムを考えてみる。ユーザが「四角形」を意図して描いたとしても、誤認識により「円」と認識されて円に整形表示される可能性がある。これに対し、特許文献１では、ユーザが、図形を描くと同時に音声でその図形の種類を発声し、その発声を音声認識することで図形の種類を特定し、その図形の種類に応じて入力図形を整形するようにしている。しかし、音声認識にも誤認識の問題があり、ユーザが「シカッケイ」と発声しているのに、「三角形」と認識されたら、図形は三角形として整形表示され、ユーザの意図しない整形がなされてしまう。つまり、誤認識により目的を達成できないという問題があった。ここでは特に図形認識と音声認識の例を挙げて説明したが、文字認識、顔認識やジェスチャ認識などのパターン認識において同様の問題があった。本発明はこのような問題に鑑み、入力された文字や図形等の情報の認識精度を向上することを目的とする。
【課題を解決するための手段】
【０００６】
上記目的を達成するために本発明は、与えられた対象を図形認識することで図形の候補を取得する図形認識手段と、入力された音声情報を音声認識し図形の候補を取得する音声認識手段と、前記図形認識手段で取得した図形の候補及び前記音声認識手段で取得した図形の候補に基づいて、図形を選択する選択手段とを備えたことを特徴とする。
【０００７】
また本発明は、与えられた対象を文字認識することで文字の候補を取得する文字認識手段と、入力された音声情報を音声認識し文字の読みの候補を取得する音声認識手段と、前記文字認識手段で取得した文字の候補及び前記音声認識手段で取得した文字の読みの候補に基づいて、文字を選択する選択手段とを備えたことを特徴とする。
【発明の効果】
【０００８】
本発明によれば、入力された文字や図形等の情報の認識精度を向上することができる。
【発明を実施するための最良の形態】
【０００９】
以下、図面を参照しながら本発明の好適な実施例について説明していく。
【実施例１】
【００１０】
本実施例では、会議等の場面において使用されるような大型のタッチスクリーンを備えた情報処理装置に対してペンで図形を描き、同時にその図形の種類を発声し、入力図形を整形表示する例をあげて説明する。図１は、本実施例に係る情報処理装置におけるマルチモーダル入力処理のブロック図である。同図において、１０１は音声情報を受信する音声情報受信部である。１０２は、受信した音声情報を音声認識する音声認識部である。１０３は、ペン入力情報を受信するペン入力情報受信部である。１０４は、受け取った座標情報から図形を認識する図形認識部である。１０５は、音声認識結果と図形認識結果を総合評価して図形を選択する総合評価部である。１０６は、ペン入力情報受信部１０３で受け取ったペン入力情報から特徴量を抽出する特徴量抽出部である。１０７は生成部であり、特徴量抽出部１０６で抽出した特徴量に基づいて総合評価部で選択された図形を生成する。１０８は表示制御部であり、生成部１０７で生成された図形等を表示するよう制御する。
【００１１】
図２は、本実施例に係る情報処理装置のハードウエア構成を示す構成図である。同図において、２０１はＣＰＵであり、後述する情報処理装置の動作手順を実行するプログラムに従って、上記マルチモーダル入力処理を制御する。２０２はＲＡＭであり、上記プログラムの動作に必要な記憶領域を提供する。２０３はＲＯＭであり、上記プログラムなどを保持する。２０４はペンや指での入力が可能なタッチスクリーンである。ペン入力情報受信部１０３は、タッチスクリーン２０４で入力されたペン入力情報を受信する。また表示制御部１０８は、タッチスクリーン２０４に前記図形等を表示するよう制御する。２０５はハードディスクであり、上記プログラムなどを保持する。本実施例で実行されるプログラムは、ＲＯＭ２０３に保持されたプログラムでもＨＤＤ２０５に保持されたプログラムでもどちらでも構わない。またプログラムをＲＯＭ２０３、ＨＤＤ２０５で分割して保持し、両方を参照して実行するようにしても構わない。２０６はＡ／Ｄコンバータであり、入力音声をデジタル信号に変換する。２０７はマイクであり、音声を受け付ける。２０８はバスである。
【００１２】
本実施例では、図６のように、ユーザが、タッチスクリーン６０１に対して、ペン６０２を用いて、手書きストローク６０３を描きながら、「シカッケイ」と発声したケースを考える。上述の構成よりなる情報処理装置の動作について、以下フローチャートを参照して説明する。
【００１３】
図３はペン入力情報受信部１０３、図形認識部１０４の動作を示すフローチャートである。該フローチャートを実行するプログラムはＲＯＭ２０３またはＨＤＤ２０５に保持され、ＣＰＵ２０１の制御のもと実行される。まず、タッチスクリーン２０４に対して、ユーザからのペン入力があったかどうかをチェックする（Ｓ３０１）。ペン入力があった場合、ペン入力情報受信部１０３でペン入力情報を受信し、受信したペン入力情報から、図形認識部１０４で図形を認識する（Ｓ３０２）。その認識結果を不図示の図形認識結果スタックにプッシュする（Ｓ３０３）。図形認識結果スタックはＲＡＭ２０２やＨＤＤ２０５に保持されている。図７は、図形認識結果スタックにプッシュされた図形認識結果の例である。このように図形認識結果は、ペン入力開始、終了のタイムスタンプ（７０１、７０２）と、図形種別の確信度付きＮ−ｂｅｓｔ７０３（ここでは、Ｎ＝３）を含む。確信度は公知の手法で求められる。相違度等、確信度と同様の概念のものを求められるのであればどのような手法を用いても構わない。
【００１４】
図４は音声情報受信部１０１、音声認識部１０２の動作を示すフローチャートである。該フローチャートを実行するプログラムはＲＯＭ２０３またはＨＤＤ２０５に保持され、ＣＰＵ２０１の制御のもと実行される。まず、音声情報受信部は、ユーザからの音声入力があったかどうかをチェックする（Ｓ４０１）。音声入力の検出は、公知の技術であり、例えば入力音声のパワーの大きさなどから判断する。音声入力があった場合は、受信してこれを音声認識する（Ｓ４０２）。そして認識結果を不図示の音声認識結果スタックにプッシュする（Ｓ４０３）。音声認識結果スタックはＲＡＭ２０２やＨＤＤ２０５に保持されている。図８は、音声認識結果スタックにプッシュされた音声認識結果の例である。このように音声認識結果は、発声開始、終了のタイムスタンプ（８０１、８０２）と、図形種別の確信度付きＮ−ｂｅｓｔ８０３（ここでは、Ｎ＝３）を含む。音声認識の確信度は既知の手法で求めることができる。
【００１５】
図５は総合評価部１０５の動作を示すフローチャートである。該フローチャートを実行するプログラムはＲＯＭ２０３またはＨＤＤ２０５に保持され、ＣＰＵ２０１の制御のもと実行される。総合評価部１０５は、図形認識結果スタックを監視し、スタックに何らかの図形認識結果が保持されているかどうかをチェックする（Ｓ５０１）。図形認識結果が保持されていれば、音声認識結果スタックの中に、この図形認識結果に対応する音声認識結果が保持されているかどうかをチェックする（Ｓ５０２）。ここで、図形認識結果スタックは常時監視していても良いし、定期的にチェックするようにしても良い。また、図形認識結果スタックではなく音声認識結果スタックを監視するよう構成しても構わない。その場合、Ｓ５０１とＳ５０２の順序が逆になる。音声認識結果が図形認識結果に対応するか否かは、例えばまず、タイムスタンプで判断する。具体的には図１０のように、音声の開始時刻よりＴ１秒前から、終了時刻のＴ２秒後までの期間Ｄに、図形認識結果のペン入力開始タイムスタンプ７０１、もしくはペン入力終了タイムスタンプ７０２が含まれていれば、音声認識結果と図形認識結果を対応させる。ここでは図８の音声認識結果が、図７の図形認識結果に対応するものとして説明する。
【００１６】
図形認識結果に対応する音声認識結果が見つかった場合は、図形認識結果に含まれる一つまたは複数個の図形種別と音声認識結果に含まれる一つまたは複数個の図形種別の中で、図形種別が一致するもの同士の確信度の値を足し合わせる。図７、図８では、図形認識結果の楕円の確信度６０と音声認識結果の楕円の確信度１０を足し合わせて７０になり、三角形、四角形はそれぞれ９０、１１０になる。そして、足し合わせた確信度の値が最も大きな図形種別を選択する（Ｓ５０３）。ここでは、足し合わせた確信度が最も大きい四角形が選択される。なお、Ｓ５０２で、対応する音声認識結果がなかった場合は、図形認識結果に含まれる一つまたは複数個の図形種別の中で最も確信度の値が大きい図形種別を選択する（Ｓ５０４）。以上のようにして、図形認識結果に含まれる一つまたは複数個の図形種別から一つを選択する処理が完了し、図形認識結果スタック、音声認識結果スタックをすべてクリアする（Ｓ５０５）。以上の処理の結果、図９のような総合評価結果から、図形種別は「四角形」と判断される。
【００１７】
図１１は特徴量抽出部１０６、生成部１０７、表示制御部１０８の動作を示すフローチャートである。該フローチャートを実行するプログラムはＲＯＭ２０３またはＨＤＤ２０５に保持され、ＣＰＵ２０１の制御のもと実行される。総合評価部１０５が判定した図形種別に応じて、入力ストロークの特徴量としてここでは特徴点を抽出する。四角形の場合、図１２の１２０１から１２０４のように、４つの頂点を見つけ出す（Ｓ１１０１）。特徴点を見つけ出すアルゴリズムは公知技術である。この特徴点に従って、図１３の１３０１のように図形を生成し（Ｓ１１０２）、これを表示する（Ｓ１１０３）。表示の際、元のストロークの表示は消す。整形された図形はＲＡＭ２０２やＨＤＤ２０５に記憶される。
【００１８】
以上の例では、ペン入力ストロークからの図形認識では、認識結果の第一位は「楕円」であり、ユーザの意図とは違うものであった。一方、音声認識結果の第一位は「三角形」であり、これもユーザの意図とは異なる。しかし、両方の認識結果を総合評価することで、ユーザの意図通りの「四角形」として図形を整形表示することができた。このように、図形認識結果と音声認識結果を総合評価することで、ユーザの意図に対する認識精度が高まるという効果がある。
【００１９】
なお、本実施例では、図形を生成する処理まで記載したが、図５の図形種別の選択処理まででも本発明の要件は満たされる。
【実施例２】
【００２０】
実施例２では、情報処理装置が備えるタッチスクリーンに対してペンで文字を描き、同時にその文字の読みを発声し、入力文字を整形表示するケースで説明する。図１４は、本実施例に係る情報処理装置におけるマルチモーダル入力処理のブロック図である。同図において、１４０１は音声情報受信部である。１４０２は音声認識部である。１４０３はペン入力情報受信部である。１４０４は文字認識部である。１４０５は総合評価部である。１４０６は総合評価部１４０５が出力する文字等を表示するよう制御する表示制御部である。総合評価部１４０７は単漢字辞書である。１４０８は音声認識文法である。
【００２１】
実施例２に係る情報処理装置のハードウエア構成は図２と同様である。本実施例では、図１８のように、ユーザが、タッチスクリーン１８０１に対して、ペン１８０２を用いて、手書きで文字ストローク１８０３を描きながら、「アイ」と発声したケースを考える。
【００２２】
図１５はペン入力情報受信部１４０３、文字認識部１４０４の動作を示すフローチャートである。該フローチャートを実行するプログラムはＲＯＭ２０３またはＨＤＤ２０５に保持され、ＣＰＵ２０１の制御のもと実行される。まず、タッチスクリーン２０４に対して、ユーザからのペン入力があったかどうかをチェックする（Ｓ１５０１）。ペン入力があった場合、ペン入力情報受信部でペン入力情報を受信し、文字認識部１４０４で該ペン入力情報を文字認識する（Ｓ１５０２）。その認識結果を不図示の文字認識結果スタックにプッシュする（Ｓ１５０３）。文字認識結果スタックはＲＯＭ２０３またはＨＤＤ２０５に保持されている。図１９は、文字認識結果スタックにプッシュされた文字認識結果の例である。このように文字認識結果は、ペン入力開始、終了のタイムスタンプ（１９０１、１９０２）と、文字種別の確信度付きＮ−ｂｅｓｔ１９０３（ここでは、Ｎ＝３）を含む。認識結果の各文字には、その文字の読み（複数ある場合はすべて）が付与されている。この読み情報は、文字がカタカナ、ひらがな、アルファベットの場合は、その表記から取得し、漢字の場合は、単漢字辞書１４０７から取得する（単漢字辞書は、“？”、“＃”などの記号も一つの漢字として扱うことで、記号にも対応できる）。
【００２３】
音声情報受信部１４０１、音声認識部１４０２の動作は図４と同様である。まず、音声情報受信部は、ユーザからの音声入力があったかどうかをチェックする（Ｓ４０１）。音声入力の検出は、公知の技術であり、入力音声のパワーの大きさなどから判断する。音声入力があった場合は、受信した音声情報を音声認識する（Ｓ４０２）。音声認識部１４０２は、音声認識文法１４０８に基づいて音声を認識する。音声認識文法１４０８は、５０音、および、単漢字辞書１４０７に含まれるすべての単漢字の読みを重複のないように集めたリストから構成される。従って、音声認識結果は、５０音、または、単漢字辞書１４０７に含まれる単漢字の読みのいずれかになる。そして認識結果を不図示の音声認識結果スタックにプッシュする（Ｓ４０３）。音声認識結果スタックはＲＯＭ２０３又はＨＤＤ２０５に保持される。図２０は、音声認識結果スタックにプッシュされた音声認識結果の例である。このように音声認識結果は、発声開始、終了のタイムスタンプ（２００１、２００３）と、単漢字読みの確信度付きＮ−ｂｅｓｔ２００３（ここでは、Ｎ＝３）を含む。
【００２４】
図１７は総合評価部１４０５の動作を示すフローチャートである。該フローチャートを実行するプログラムはＲＯＭ２０３またはＨＤＤ２０５に保持され、ＣＰＵ２０１の制御のもと実行される。総合評価部１４０５は、文字認識結果スタックを監視し、スタックに何らかの文字認識結果が保持されているかどうかをチェックする（Ｓ１７０１）。文字認識結果が保持されていれば、音声認識結果スタックの中に、この文字認識結果に対応する音声認識結果が保持されているかどうかをチェックする（Ｓ１７０２）。ここで、文字認識結果スタックは常時監視していても良いし、定期的にチェックするようにしても良い。また、文字認識結果スタックではなく音声認識結果スタックを監視するよう構成しても構わない。音声認識結果が文字認識結果に対応するか否かは、まず、タイムスタンプで判断する。その判断方法は、実施例１のケースと同じである。
【００２５】
文字認識結果に対応する音声認識結果が見つかった場合は、文字認識結果に含まれる一つまたは複数個の文字種別それぞれに付与された確信度を、音声認識結果も用いて修正する。確信度の修正は以下のようにして行う。文字認識結果第一候補の「監」は、“ｋａｎ”と“ｋｅｎ”の２つの読みを持つ。それぞれについて、音声認識結果に含まれる３つの読み候補“ｅｉ”、“ｓａｉ”、“ａｉ”との類似度を計算する。例えば、「監」の読み“ｋａｎ”と、音声認識結果の“ｅｉ”は、構成音素が全く一致しないので、類似度は０となる。従って、“ｋａｎ”の“ｅｉ”による修正確信度ＭＣ（“ｋａｎ”｜”ｅｉ”）は、
ＭＣ（“ｋａｎ”｜”ｅｉ”）＝Ｃ１（“ｋａｎ”）＋Ｃ２（“ｅｉ”）×類似度
＝７０＋６０×０
＝７０
※Ｃ１：文字認識確信度、Ｃ２：音声認識確信度
となる。“ｋａｎ”と“ｓａｉ”の場合、“ｋａｎ”の３つの音素のうち、“ｓａｉ”に含まれる音素と一致しているのは“ａ”の一つだけなので、類似度は、１／３＝０．３３となる。従って、
ＭＣ（“ｋａｎ”｜“ａｉ”）＝７０＋５５×０．３３＝８８．３
となる。同様に、
ＭＣ（“ｋａｎ”｜“ｓａｉ”）＝７０＋３０×０．３３＝８０
となる。このうち最大の値を採用し、“ｋａｎ”の修正確信度ＭＣ（“ｋａｎ”）は、８８．３となる。「監」のもう一つの読み“ｋｅｎ”についても同様に、修正確信度ＭＣ（“ｋｅｎ”）は、７０＋６０×０．３３＝９０となる。文字「監」の修正確信度ＭＣ（“監”）は、これらの最大値を取り、
ＭＣ（“監”）＝９０
となる。同様にして、
ＭＣ（“蘭”）＝５０＋５５×０．３３＝６８．３
ＭＣ（“藍”）＝４０＋５５×１．０＝９５
となる。以上のようにして修正確信度が求まり、最大の修正確信度を持つ文字”藍”が最終的な認識結果として選択される（Ｓ１７０３）。なお、Ｓ１７０２で、対応する音声認識結果がなかった場合は、文字認識結果に含まれる一つまたは複数個の文字の中で最も確信度の値が大きい文字が選択される（Ｓ１７０４）。そして、選択された文字を、採用する文字として決定する。
【００２６】
以上のようにして、文字認識結果に含まれる一つまたは複数個の文字から一つを選択する処理が完了し、文字認識結果スタック、音声認識結果スタックをすべてクリアする（Ｓ１７０５）。以上の処理の結果、図２１のような総合評価結果から、文字は「藍」と判断され、図２２のように、任意のフォントで「藍」の文字が表示される。選択された文字はＲＡＭやＨＤＤに記憶される。
【００２７】
以上の例では、ペン入力ストロークからの文字認識では、認識結果の第一位は「監」であり、ユーザの意図とは違うものであった。一方、音声認識結果の第一位は「ｅｉ」であり、これもユーザの意図とは異なる。しかし、両方の認識結果を総合評価することで、ユーザの意図通りの「藍」という文字を表示することができた。このように、文字認識結果と音声認識結果を総合評価することで、ユーザの意図に対する認識精度が高まるという効果が得られる。
【実施例３】
【００２８】
上記実施例では、ペン入力のタイムスタンプが入力音声の入力期間Ｄに含まれている場合に、音声認識結果と、図形認識結果または文字認識結果を対応付けていたが、本発明はこれに限られるものではない。書きながら発声するのが苦手なユーザにとっては、書き終わってから発声する方が使いやすい場合も考えられる。そのため本実施例では、ペン入力終了後に発声された音声を該ペン入力に対応付ける。具体的にはペン入力のタイムスタンプをとり、該タイムスタンプが表す時刻よりも後に入力された音声を該ペン入力に対応させる。ここでペン入力終了後所定時間内という制限をつけても構わない。また、これとは逆に音声入力終了後に入力されたペン入力を該音声に対応付けても良いことは言うまでもない。
【００２９】
このような構成とすることで、ペン入力後に入力した図形や文字に対応する音声を発声する実施形態、また発声後対応する図形や文字をペン入力する実施形態を実行することが可能となる。
【実施例４】
【００３０】
上記実施例では、明示はしていないが、毎回ペン入力と音声入力を総合評価する例について説明したが、本発明はこれに限定されるものではない。基本的にはペンによる入力を図形認識又は文字認識して認識した結果を表示するという処理を繰り返し、それをユーザが見て間違っていると判断した場合に音声入力を行うことで整形する実施形態も考えられる。
【００３１】
図１６にこの場合の処理のフローチャートを示す。該フローチャートを実行するプログラムはＲＯＭ２０３またはＨＤＤ２０５に保持され、ＣＰＵ２０１の制御のもと実行される。ここでは、図形を認識する場合の例で説明する。まず、ユーザからのペン入力があったかどうかをチェックする（Ｓ１６０１）。ペン入力があった場合、そのペンのストロークから図形を認識する（Ｓ１６０２）。その認識結果を図形認識結果スタックにプッシュする（Ｓ１６０３）。そして認識した結果最も確信度が高かった図形を表示する（Ｓ１６０４）。ここでユーザは表示された図形を確認し、図形が意図しているものと同じ場合は音声を入力しないため、Ｓ１６０５でＮと判断され、図形認識結果をクリアし（Ｓ１６０６）、Ｓ１６０１に戻る。なお、図形認識結果スタックをクリアするタイミングは、次のペン入力が始まった段階や一定時間経過後にクリアするようにしても構わない。
【００３２】
ユーザが図形を確認した結果、意図しているものと違うと判断した場合は、意図したものに修正するために発声を行う。本システムではこれを受け付け（Ｓ１６０５）、受け付けた発声を音声認識し（Ｓ１６０７）、音声認識結果を音声認識結果スタックにプッシュする（Ｓ１６０８）。その後の処理は図５と同様である。
【００３３】
なお、一文字ずつではなく連続してペン入力を行う場合は、間違いに気づく前に次の図形を入力してしまう可能性がある。そのため、Ｓ１６０４で表示された図形の中で、修正対象の図形を指定し、該図形に対して意図する図形の名前を発声するよう構成しても構わない。
【００３４】
このような構成とすることで、ユーザの観点からすると、基本的にはペン入力で入力した図形が整形されていき、間違えていると判断した場合に、意図している図形の名前を発声することで所望の図形に修正することが可能となる。
【００３５】
なお、上記ではペン入力で入力していき、間違った場合に音声入力を行う例で説明したが、これとは逆に、音声で入力していき、間違った場合にペン入力で修正する構成でも良いことは言うまでもない。
【００３６】
また、上記では図形を入力する例で説明したが、実施例２のように文字を入力する場合にも適用できることは言うまでもない。
【実施例５】
【００３７】
上記実施例では、ペン入力をしている時に発声するケースに対応する例を挙げて説明したが、本発明はこれに限られるものではない。手書きで記載された紙文書等をスキャナで読み込んだ際に、記載内容を整形する場合にも適用することができる。
【００３８】
本実施例では、手書きの図形が複数記載された紙をスキャンし、スキャンした図形を整形する機能を備えた複合機を例にあげて説明する。図２４は本実施例の複合機のハードウエア構成図である。２４０１はＣＰＵ、２４０２はＲＡＭ、２４０３はＲＯＭ、２４０４はハードディスクである。２４０５はＡ／Ｄコンバータであり、入力音声をデジタル信号に変換する。２４０６はマイクである。２４０７は紙の情報を読み取る画像読取部である。２４０８はタッチスクリーンである。２４０９はプリンタ部である。
【００３９】
図２５は本実施例の処理の流れを示すフローチャートである。該フローチャートを実行するプログラムはＲＯＭ２０３またはＨＤＤ２０５に保持され、ＣＰＵ２０１の制御のもと実行される。まず、画像読取部２４０７で手書きの図形が複数記載された紙を読み取り、画像データに変換する（Ｓ２５０１）。そして該画像データから図形を抽出する（Ｓ２５０２）。抽出した図形を図形認識し（Ｓ２５０３）、認識結果を図形認識結果スタックにプッシュする（Ｓ２５０４）。認識結果から最も確信度の高い図形を選択し、選択された図形をもとに、Ｓ２５０３で抽出した図形から特徴量を抽出する（Ｓ２５０５）。抽出した特徴量に基づいて図形を生成し（Ｓ２５０６）、タッチスクリーン２４０８に該図形を表示する（Ｓ２５０７）。読み取った紙には複数の図形が記載されているため、ここでは複数の図形が表示されることになる。ユーザは表示された図形を確認し、意図しているものと異なる場合は、その図形を指定する。ここでは、表示されている図形をタッチスクリーン上で直接指示する。複合機はユーザが指示した図形を指定されたと判断する（Ｓ２５０８）。ユーザは意図する図形を発声し、複合機はこれを入力音声として受信する（Ｓ２５０９）。受信した音声を認識し（Ｓ２５１０）、音声認識結果と、Ｓ２５０４で図形認識結果スタックにプッシュされた図形認識結果とを総合評価する（Ｓ２５１１）。総合評価処理は実施例１と同様である。総合評価した結果選択された図形に基づいて、Ｓ２５０３で抽出した図形から特徴量を抽出し、該特徴量を用いて図形を生成し、生成した図形を表示する（Ｓ２５１２）。
【００４０】
以上のような構成とすることで、リアルタイムのペン入力だけでなく、あらかじめ記載された図形についても、音声を用いて意図した図形に修正することが可能となる。なお、実施例２のように文字を対象としても良いことは言うまでもない。
【実施例６】
【００４１】
実施例２では、一文字の認識を扱っていたが、本発明は２文字以上の単語を一度に認識するケースへも適用可能である。その場合、単漢字辞書１４０７の代わりに、単語辞書を用い、音声認識文法１４０８は、その単語の読みを重複なくリストアップしたものから構成されるようにする。単語辞書は、さまざまな単語の表記とその読みの対データを保持する。そして、文字認識部１４０４が複数の文字を認識し、認識した文字列で単語辞書を検索してその読みを取得するようにし、読み情報を含んだ結果を文字認識スタックにプッシュするように構成する。以降は、実施例２と同じアルゴリズムで対応可能である。
【００４２】
以上のような構成とすることで、一文字の認識だけでなく、単語の認識についても精度を向上することが可能となる。
【実施例７】
【００４３】
実施例６では、複数の文字を一度に認識するケースを述べたが、複数の文字を、上記実施例２の方法を用いて一文字ずつ認識してその結果を確定し、その後、次の文字を認識するようにしてもよい。この場合、各文字の認識結果の確定は、情報処理装置に備えられた所定のボタンを押す等して行う。さらに、ある一文字を認識する際、その直前までの文字の確定した認識結果を利用する。そのために、図１４の構成に、さらに単語辞書を用いる。「憂鬱」という単語をタッチスクリーン上に書くケースを考える。ユーザは、まず、「憂」の文字をペンで書きながら「ユウ」と発声し、実施例２の方法で「憂」の文字を入力。確定ボタンで確定して、任意のフォントで「憂」の文字がタッチスクリーン上に表示される。そのすぐ隣に、続けて「鬱」の文字を意図して、図２３の２３０３のようなストロークをペンで書きながら「ウツ」と発声する。この手書き文字を、文字認識と音声認識の総合評価で認識する前に、直前の「憂」という文字で始まる単語を単語辞書から検索する。そして、「憂鬱（ユウ・ウツ）」「憂国（ユウ・コク）」「憂愁（ユウ・シュウ）」「憂色（ユウ・ショク）」「憂慮（ユウ・リョ）」が検索結果として得られる。これにより、２文字目は、「鬱（ウツ）」「国（コク）」「愁（シュウ）」「色（ショク）」「慮（リョ）」である確率が高いことになる。音声認識文法１４０８に含まれる認識語彙の中で、「ウツ」「コク」「シュウ」「ショク」「リョ」に対する重みを増やし、これらが認識結果に出やすくする。一方、文字認識部１４０４でも、ストローク２３０３に対して「鬱」「国」「愁」「色」「慮」といった文字が認識結果に出やすくなるよう適当に重み付けして認識する。このような構成とすることで、「単語」としてよりもっともらしい認識結果を得られるという効果がある。
【実施例８】
【００４４】
実施例２では、音声認識部１４０２は、音声認識文法１４０８に基づいて音声認識を行い、音声認識文法１４０８は、５０音及び単漢字辞書１４０７に含まれるすべての単漢字の読みを重複のないように集めたリストから構成していた。しかし、本発明はこれに限定されるものではない。音声認識文法１４０８として、任意の音素の組み合わせを受理する連続音声認識文法を用意し、音声認識部１４０２を連続音声認識処理可能なものとし、単漢字辞書１４０７に含まれる単漢字の読みに限定されない、任意の音素列を認識できるようにしてもよい。
【実施例９】
【００４５】
実施例２では、音声認識部１４０２は、文字認識部１４０４の認識処理とは独立に音声認識を行っていた。これに対し、文字認識部１４０４の認識が出るのを待ち、そのＮ−ｂｅｓｔに含まれる文字の読みのリストを取り出し、その読みが音声認識結果に出やすくなるように、音声認識文法１４０８に適当な重み付けをして音声認識処理をするようにしてもよい。例えば、図１９のような文字認識結果が得られた場合、“ｋａｎ”、“ｋｅｎ”、“ｒａｎ”、“ａｉ”が音声認識結果に出やすくなるよう重み付けするように構成してもよい。
【実施例１０】
【００４６】
実施例９とは逆に、音声認識部１４０２の認識結果が出るのを待ち、そのＮ−ｂｅｓｔに含まれる読みのリストを取り出し、その読みを持つ文字が文字認識結果に出やすくなるように、文字認識部１４０４に適当な重み付けをして処理をするようにしてもよい。例えば、図２０のような音声認識結果が得られた場合、“ｅｉ”、“ａｉ”、“ｓａｉ”という読みを持つ文字が文字認識結果に出やすくなるよう重み付けするようにしてもよい。
【実施例１１】
【００４７】
上記実施例では、音声認識結果と、図形認識結果又は文字認識結果を総合評価する際に、確信度を加算する例をあげて説明したが、これに更に重み付けをするよう構成しても構わない。
【００４８】
例えば、周囲雑音が大きい環境で処理をする場合、音声認識の精度は雑音の影響を受けて落ちてしまうことが考えられる。そこで、周囲雑音を検出し、雑音の大きさにあわせて音声認識結果に対する重み付けを調整することが考えられる。雑音が大きい場合に音声認識結果の重みを減らせば、雑音の影響を緩和することが可能となる。実施形態としては、例えば図１において、雑音を検出する不図示の雑音検出部を更に備え、雑音検出部が検出した雑音を総合評価部１０５が受け取る。そして、総合評価をする際に、受け取った雑音の大きさに応じて音声認識結果の重みを調整するという構成をとればよい。
【００４９】
また、ペン入力において、入力速度が速い場合には記載された図形又は文字が雑であるという仮説を立てることができる。そこで、ペン入力の入力速度を検出し、入力速度に応じてペン入力に対する図形認識結果又は文字認識結果の重み付けを調整することが考えられる。速度が速い場合に図形認識結果又は文字認識結果の重みを減らすことで、全体の認識精度を向上することが期待できる。実施形態としては、例えば図１において、ペン入力速度を検出する不図示のペン入力速度検出部を更に備え、ペン入力速度検出部が検出したペン入力速度を総合評価部１０５が受け取る。そして、総合評価をする際に、受け取ったペン入力速度に応じて図形認識結果又は文字認識結果の重みを調整するという構成をとればよい。
【実施例１２】
【００５０】
上記実施例では、図形認識又は文字認識と、音声認識を総合評価する例をあげて説明したが、顔認識やジェスチャ認識を対象としても構わない。具体的には、人物の特定をするために、名前の発声を音声認識し、顔認識と総合評価することで人物の認識率を向上することが可能となる。またジェスチャをしながら該ジェスチャに対応する音声を発声することでジェスチャの認識率を向上することが可能となる。
【実施例１３】
【００５１】
なお、本発明の目的は、前述した実施例の機能を実行するソフトウェアのプログラムコードを記録した記憶媒体をシステムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成されることは言うまでもない。
【００５２】
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実行することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【００５３】
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。
【００５４】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実行されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実行される場合も含まれることは言うまでもない。
【００５５】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実行される場合も含まれることは言うまでもない。
【００５６】
以上の説明では、プログラムとハードウエアとの組み合わせで、発明を実現したが、プログラムのウエイトを少なくしてハードウエアを多用しても良い。更に、実施例においては、入力ステップから出力ステップまでの流れを説明したが、本発明は、実施例の一部にも適応される。
【００５７】
また、上記実施例では、情報処理方法の工程で音声認識をする工程、図形認識や文字認識をする工程を備えた例をあげて説明したが、音声認識、図形認識や文字認識などの認識を行う工程は備えず、認識結果を受け取る工程を備え、受け取った認識結果を処理する流れとしても構わない。ＯＳが音声認識、図形認識や文字認識などをした結果を受け取り、それらを総合評価する工程を備えれば本発明を実行することが可能である。
【００５８】
本発明において、与えられた対象とは、図形認識や文字認識などのパターン認識の対象であり、例えば実施例１のペンで描かれた図形、実施例２のペンで描かれた文字、実施例５のスキャンした図形等である。図形認識手段とは、例えば実施例１の図形認識部１０４である。音声認識手段とは例えば実施例１の音声認識部１０２である。選択手段とは、上記実施例では、総合評価した結果から図形や文字を選択している。抽出手段とは、例えば実施例１の特徴量抽出部１０６である。生成手段とは、例えば実施例１の生成部１０７である。表示制御手段とは、例えば実施例１の表示制御部１０８である。確信度とは、認識した結果得られた候補がそれぞれ対象とするものである確信の度合を示す値であり、例えば図７に示されるような値である。文字認識手段とは、例えば実施例２の文字認識部１４０４である。パターンを特定するための情報とは、図形の場合は図形の名称・種類、文字の場合は文字の読みである。図形種別とは図形の種類を示す情報であり、図形の名称等である。
【図面の簡単な説明】
【００５９】
【図１】実施例１に係る情報処理装置におけるマルチモーダル入力処理のブロック図である。
【図２】実施例１に係る情報処理装置のハードウエア構成図である。
【図３】実施例１に係る図形認識部の動作を説明するフローチャートである。
【図４】実施例１に係る音声認識部の動作を説明するフローチャートである。
【図５】実施例１に係る総合評価部の動作を説明するフローチャートである。
【図６】実施例１において、ユーザがタッチスクリーン上に手書きで図形を描き、同時に音声入力を行った場面をあらわす図である。
【図７】実施例１に係る図形認識部の認識結果の例である。
【図８】実施例１に係る音声認識部の認識結果の例である。
【図９】実施例１に係る総合評価部の総合評価結果の例である。
【図１０】実施例１に係る入力音声に対応するペン入力が含まれるべき時間幅を説明する図である。
【図１１】実施例１に係る特徴量抽出部、生成部の動作を説明するフローチャートである。
【図１２】実施例１に係る特徴量抽出部が割り出した特徴点の例である。
【図１３】実施例１に係るマルチモーダル入力によって、生成された図形が表示された図である。
【図１４】実施例２に係る情報処理装置におけるマルチモーダル入力処理のブロック図である。
【図１５】実施例２に係る文字認識部の動作を説明するフローチャートである。
【図１６】実施例４に係る図形認識処理のフローチャートである。
【図１７】実施例２に係る総合評価部の動作を説明するフローチャートである。
【図１８】実施例２において、ユーザがタッチスクリーン上に手書きで文字を描き、同時に音声入力を行った場面をあらわす図である。
【図１９】実施例２に係る文字認識部の認識結果の例である。
【図２０】実施例２に係る音声認識部の認識結果の例である。
【図２１】実施例２に係る総合評価部の総合評価結果の例である。
【図２２】実施例２に係るマルチモーダル入力によって、認識された文字が任意のフォントで表示された図である。
【図２３】実施例４において、ユーザがタッチスクリーン上に手書きで文字を描き、同時に音声入力を行った場面をあらわす図である。
【図２４】実施例５に係る複合機のハードウエア構成図である。
【図２５】実施例５に係る図形生成処理のフローチャートである。

【特許請求の範囲】
【請求項１】
与えられた対象を図形認識することで図形の候補を取得する図形認識手段と、
入力された音声情報を音声認識し図形の候補を取得する音声認識手段と、
前記図形認識手段で取得した図形の候補及び前記音声認識手段で取得した図形の候補に基づいて、図形を選択する選択手段とを備えたことを特徴とする情報処理装置。
【請求項２】
前記選択手段で選択した図形に基づいて、前記与えられた対象から特徴量を抽出する抽出手段と、
前記抽出手段で抽出した特徴量に基づいて、前記選択手段で選択した図形を生成する生成手段と、
前記生成手段で生成した図形を表示するよう制御する表示制御手段とを備えたことを特徴とする情報処理装置。
【請求項３】
前記図形認識手段は、図形の候補及び各候補がそれぞれ対象とする図形である確信の度合を示す確信度を取得し、
前記音声認識手段は、図形の候補及び各候補がそれぞれ対象とする図形である確信の度合を示す確信度を取得し、
前記選択手段は、前記図形認識手段で取得した図形の候補と、前記音声認識手段で取得した図形の候補で、対応するものの確信度を加え、該確信度に基づいて前記図形を選択することを特徴とする請求項１記載の情報処理方法。
【請求項４】
前記音声情報に含まれる雑音の度合を検出する検出手段を更に備え、
前記選択手段は、前記雑音の度合に応じて、前記音声認識手段で取得した図形の候補の確信度に重みをつけて、確信度を加えることを特徴とする請求項３記載の情報処理装置。
【請求項５】
ポインティングデバイスからの入力を受け付ける受付手段と、
前記ポインティングデバイスからの入力の速度を検出する検出手段とを更に備え、
前記与えられた対象は前記受付手段で受け付けたポインティングデバイスからの入力であり、
前記選択手段は、前記検出手段で検出した前記ポインティングデバイスからの入力の速度に応じて、前記図形認識手段で取得した図形の候補の確信度に重みを付けて、確信度を加えることを特徴とする請求項３記載の情報処理装置。
【請求項６】
与えられた対象を文字認識することで文字の候補を取得する文字認識手段と、
入力された音声情報を音声認識し文字の読みの候補を取得する音声認識手段と、
前記文字認識手段で取得した文字の候補及び前記音声認識手段で取得した文字の読みの候補に基づいて、文字を選択する選択手段とを備えたことを特徴とする情報処理装置。
【請求項７】
前記文字認識手段は、文字の候補、各候補がそれぞれ対象とする文字である確信の度合を示す確信度及び各候補につき１つ以上の読み情報を取得し、
前記音声認識手段は、文字の読みの候補及び各候補がそれぞれ対象とする文字の読みである確信の度合を示す確信度を取得し、
前記選択手段は、文字認識結果含まれる各文字候補に対して、その文字候補に付与された読みと、音声認識結果に含まれる各読みの類似度を計算する第１計算手段と、該文字候補の元の確信度、該類似度、前記音声認識手段で取得した読みの確信度から修正確信度を計算する第２計算手段を備え、該修正確信度が最も高い文字を選択結果とすることを特徴とする請求項６記載の情報処理装置。
【請求項８】
単語の表記と読みの対を含む単語辞書と、
前記選択手段で選択された文字を前記与えられた対象に対応する位置に表示するよう制御する表示制御手段と、
前記表示制御手段で表示された文字を確定する確定手段と、
前記確定手段で一つまたは複数の文字が確定された後、前記与えられた対象と前記音声情報を受信する受信手段と、
前記確定した一つまたは複数の文字と表記が部分一致する単語を前記単語辞書から検索する検索手段と、
前記検索手段で検索された一つまたは複数の単語の表記において、前記確定された一つまたは複数の文字の次の文字を取得する後続文字取得手段と、
前記後続文字取得手段によって取得された後続文字に対し、該後続文字が認識結果に含まれやすいよう前記受信手段で受信した連続する座標情報を文字認識する第２文字認識手段と、該後続文字が認識結果に含まれやすいように前記受信手段で受信した音声情報を音声認識する第２音声認識手段と、
前記第２文字認識手段で取得した文字の候補及び前記第２音声認識手段で取得した文字の読みの候補に基づいて、文字を選択する第２選択手段と、
前記第２選択手段で選択した文字を、前記座標情報に対応する位置に表示するよう制御する第２表示制御手段とを備えたことを特徴とする請求項６記載の情報処理装置。
【請求項９】
与えられた対象をパターン認識することでパターンの候補を取得する認識手段と、
入力された音声情報を音声認識することでパターンを特定するための情報を取得する音声認識手段と、
前記認識手段で取得したパターンの候補及び前記音声認識手段で取得したパターンを特定するための情報に基づいて、パターンを選択する選択手段とを備えたことを特徴とする情報処理装置。
【請求項１０】
与えられた対象をパターン認識することでパターンの候補を取得する認識手段と、
前記認識手段で取得したパターンの候補に重みをつけて、入力された音声情報を音声認識しパターンの候補を取得する音声認識手段と、
前記音声認識手段で取得したパターンの候補からパターンを選択する選択手段とを備えたことを特徴とする情報処理装置。
【請求項１１】
入力された音声情報を音声認識してパターンの候補を取得する音声認識手段と、
前記音声認識手段で取得したパターンの候補に重みをつけて、与えられた対象をパターン認識してパターンの候補を取得する認識手段と、
前記認識手段で取得したパターンの候補からパターンを選択する選択手段とを備えたことを特徴とする情報処理装置。
【請求項１２】
与えられた対象を図形認識した結果である図形の候補を取得する図形認識結果取得工程と、
音声情報を音声認識した結果である図形の候補を取得する音声認識結果取得工程と、
前記図形認識結果取得工程で取得した図形の候補及び前記音声認識結果取得工程で取得した図形の候補に基づいて、図形を選択する選択工程とを備えたことを特徴とする情報処理方法。
【請求項１３】
与えられた対象を文字認識した結果である文字の候補を取得する文字認識結果取得工程と、
音声情報を音声認識した結果である文字の読みの候補を取得する音声認識結果取得工程と、
前記文字認識結果取得工程で取得した文字の候補及び前記音声認識結果取得工程で取得した文字の読みの候補に基づいて、文字を選択する選択工程とを備えたことを特徴とする情報処理方法。
【請求項１４】
与えられた対象をパターン認識することでパターンの候補を取得する認識工程と、
入力された音声情報を音声認識することでパターンを特定するための情報を取得する音声認識工程と、
前記認識工程で取得したパターンの候補及び前記音声認識工程で取得したパターンを特定するための情報に基づいて、パターンを選択する選択工程とを備えたことを特徴とする情報処理方法。
【請求項１５】
与えられた対象をパターン認識することでパターンの候補を取得する認識工程と、
前記認識工程で取得したパターンの候補に重みをつけて、入力された音声情報を音声認識しパターンの候補を取得する音声認識工程と、
前記音声認識工程で取得したパターンの候補からパターンを選択する選択工程とを備えたことを特徴とする情報処理方法。
【請求項１６】
入力された音声情報を音声認識してパターンの候補を取得する音声認識工程と、
前記音声認識工程で取得したパターンの候補に重みをつけて、与えられた対象をパターン認識してパターンの候補を取得する認識工程と、
前記認識工程で取得したパターンの候補からパターンを選択する選択工程とを備えたことを特徴とする情報処理方法。
【請求項１７】
請求項１２乃至１６に記載の情報処理方法をコンピュータに実行させるための制御プログラム。

【図１】