説明

音声認識装置、端末装置、音声認識システム、音声認識方法、入力方法及びプログラム

【課題】音声認識技術を利用してウェブページの入力フォームへの入力を支援する技術において、音声認識の精度を高める。
【解決手段】文字列とその読みがなとその属性情報とを対応付けた音声認識辞書を保持する辞書保持部11と、入力フォームに入力される情報の範囲を属性情報を用いて規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持部12と、複数の端末装置30各々から、ルール識別情報と音声データとを対応付けて受信する受信部13と、ルール識別情報をキーとしてルール保持部12を検索し、入力ルールを取得するルール取得部15と、取得した入力ルールに含まれる属性情報をキーとして音声認識辞書を検索し、読みがなを抽出する検索部16と、検索部16が抽出した読みがな、ルール取得部15が取得した入力ルールを利用して、音声データを文字列データに変換する変換部14とを有する音声認識装置10。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置、端末装置、音声認識システム、音声認識方法、入力方法及びプログラムに関する。
【背景技術】
【0002】
音声認識技術を利用し、ユーザ入力を支援する技術がある。
【0003】
特許文献1には、入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識装置であって、入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込手段と、前記ハイパーテキスト文書データに基づいて表示される複数の入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識手段と、前記音声認識文法データに基づいて、前記音声認識手段の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する表示手段と、を備えた音声認識装置が開示されている。
【0004】
非特許文献1には、ウェブページの入力フォームへの入力に、音声認識技術を利用した以下のような技術が開示されている。すなわち、ウェブページを表示している端末装置上で、Java(登録商標) scriptが、ユーザからのアクションを監視しておき、ウェブページ上の入力フォームを選択する入力があると、録音パネル(Java(登録商標) applet)を呼び出す。録音パネルは、ユーザから受付けた音声データを音声認識サーバに送信する。すると、音声認識サーバは、受信した音声データに対して音声認識処理を行い、認識結果文字列を端末装置の録音パネルに送信する。録音パネルは、受信した認識結果文字列を、Java(登録商標) scriptの変数に格納する。そして、Java(登録商標) scriptが認識結果文字列を、ブラウザに反映する。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2003−157095号公報
【非特許文献】
【0006】
【非特許文献1】西村竜一"音声入力Webシステムを用いた辞書共有型音声認識サービス"[online]、2007年9月、日本音響学会講演論文集、[2011年2月15日検索]、インターネット<URL: http://www.netsoc.tcd.ie/~fastnet/cd_paper/ASJ/meeting/200709/pdf/0248_2-3-4.pdf>
【発明の概要】
【発明が解決しようとする課題】
【0007】
入力フォームに入力される情報の範囲は、入力フォームごとに特定することができる。例えば、電話番号を入力する入力フォームには、数字が入力される。
【0008】
しかし、非特許文献1に記載の技術のように、ウェブページを提供するサーバとは別に音声認識サーバを設け、当該音声認識サーバを利用してウェブページの入力フォームへの入力を支援する場合、音声認識サーバ側では、各入力フォームに入力される情報の範囲を、音声認識処理時に特定できない。このため、音声認識サーバによる音声認識処理は、汎用的な辞書データを利用し、当該辞書データ全体を網羅する検索とならざるを得ず、音声認識の精度が低くなるという問題が発生し得る。
【課題を解決するための手段】
【0009】
本発明によれば、端末装置で表示されるウェブページの入力フォームへの入力を支援する音声認識装置であって、文字列と、前記文字列の読みがなと、前記文字列の属性を示す属性情報とを対応付けた音声認識辞書を保持する辞書保持手段と、前記属性情報を利用して前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段と、前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信手段と、前記受信手段が受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられている前記入力ルールを取得するルール取得手段と、前記ルール取得手段が取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索手段と、前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索手段が抽出した前記読みがな及び前記ルール取得手段が取得した前記入力ルールを利用して、前記複数の候補の中から1つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換手段と、
を有する音声認識装置が提供される。
【0010】
また、本発明によれば、入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを受信する端末受信手段と、前記ウェブページをディスプレイに表示する端末表示手段と、前記入力フォームに入力する情報を音声で受付ける端末受付手段と、前記入力フォームに対応付けられた前記ルール識別情報と、前記音声のデータとを対応付けて音声認識装置に送信する端末送信手段と、を有する端末装置が提供される。
【0011】
また、本発明によれば、上記音声認識装置と、入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを、端末装置に送信するサーバと、を有する音声認識システムが提供される。
【0012】
また、本発明によれば、端末装置で表示されるウェブページの入力フォームへの入力を支援するためのプログラムであって、コンピュータを、文字列と、前記文字列の読みがなと、前記文字列の属性を示す属性情報とを対応付けた音声認識辞書を保持する辞書保持手段、前記属性情報を利用して前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段、前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信手段、前記受信手段が受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられている前記入力ルールを取得するルール取得手段、前記ルール取得手段が取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索手段、前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索手段が抽出した前記読みがな及び前記ルール取得手段が取得した前記入力ルールを利用して、前記複数の候補の中から1つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換手段、として機能させるためのプログラムが提供される。
【0013】
また、本発明によれば、コンピュータを、入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを受信する端末受信手段、前記ウェブページをディスプレイに表示する端末表示手段、前記入力フォームに入力する情報を音声で受付ける端末受付手段、前記入力フォームに対応付けられた前記ルール識別情報と、前記音声のデータとを対応付けて音声認識装置に送信する端末送信手段、として機能させるためのプログラムが提供される。
【0014】
また、本発明によれば、端末装置で表示されるウェブページの入力フォームへの入力を支援する音声認識方法であって、文字列とその読みがなとを対応付けた音声認識辞書を保持する辞書保持手段と、前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段と、を備えておき、前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信ステップと、前記受信ステップで受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられた前記入力ルールを取得するルール取得ステップと、前記ルール取得ステップで取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索ステップと、前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索ステップで抽出した前記読みがな及び前記ルール取得ステップで取得した前記入力ルールを利用して、前記複数の候補の中から1つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換ステップと、を音声認識装置が実行する音声認識方法が提供される。
【0015】
また、本発明によれば、入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを受信する端末受信ステップと、前記ウェブページをディスプレイに表示する端末表示ステップと、前記入力フォームに入力する情報を音声で受付ける端末受付ステップと、前記入力フォームに対応付けられた前記ルール識別情報と、前記音声のデータとを対応付けて音声認識装置に送信する端末送信ステップと、を端末装置が実行する入力方法が提供される。
【発明の効果】
【0016】
本発明によれば、音声認識技術を利用してウェブページの入力フォームへの入力を支援する技術において、音声認識の精度を高めることができる。
【図面の簡単な説明】
【0017】
【図1】本実施形態の音声認識システムの機能ブロック図の一例である。
【図2】本実施形態の辞書保持部が保持する音声認識辞書の一例を模式的に示した図である。
【図3】本実施形態のルール保持部が保持するデータの一例を模式的に示した図である。
【図4】本実施形態の音声認識装置の処理の流れの一例を示したフローチャートである。
【図5】本実施形態の音声認識システムの機能ブロック図の一例である。
【図6】本実施形態の音声認識装置の処理の流れの一例を示したフローチャートである。
【発明を実施するための形態】
【0018】
以下、本発明の実施の形態について図面を用いて説明する。
【0019】
なお、本実施形態の各部は、任意のコンピュータのCPU、メモリ、メモリにロードされたプログラム(あらかじめ機器を出荷する段階からメモリ内に格納されているプログラムのほか、CD等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムも含む)、そのプログラムを格納するハードディスク等の記憶ユニット、ネットワーク接続用インタフェースを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、機器にはいろいろな変形例があることは、当業者には理解されるところである。
【0020】
また、本実施形態の説明において利用する機能ブロック図は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。これらの図においては、本実施形態の各装置は1つの機器により実現されるよう記載されているが、その実現手段はこれに限定されない。すなわち、物理的に分かれた構成であっても、論理的に分かれた構成であっても構わない。
【0021】
<第1の実施形態>
図1は、本実施形態の音声認識システムの構成の一例を示す機能ブロック図である。図示するように、本実施形態の音声認識システムは、音声認識装置10と、端末装置30と、ウェブページを端末装置30に提供するサーバ40とを有する。
【0022】
まず、音声認識装置10について説明する。音声認識装置10は、端末装置30で表示されるウェブページの入力フォームへの入力を支援するため、図1に示すように、辞書保持部11と、ルール保持部12と、受信部13と、変換部14と、ルール取得部15と、検索部16と、送信部17とを有する。
【0023】
辞書保持部11は、文字列と、当該文字列の読みがなと、当該文字列の属性情報とを対応付けた音声認識辞書を保持する。文字列は、1つまたは2つ以上の文字、数字、記号で構成される。また、文字列は、文字、数字及び記号の中の2つ以上が混在したものであってもよいし、これらの中の1つのみで構成されたものであってもよい。属性情報は、例えば、数字、記号、アルファベット、数字+記号、数字+記号+アルファベットなど、文字列自体の属性を示す情報の他、都道府県、市区町村など、文字列が備えた意味の属性を示す情報であってもよい。
【0024】
図2に、音声認識辞書の一例を示す。図示する音声認識辞書には、音声認識テキスト452の欄に文字列が記載されている。そして、音声読みがな453の欄に、各文字列に対応付けて当該文字列の読みがなが記載されている。図示するように、1つの文字列には、1つまたは2つ以上の読みがなを対応付けることができる。また、テキスト分類451の欄に、各文字列に対応付けて、当該文字列の属性情報が記載されている。1つの文字列には、1つまたは2つ以上の属性情報を対応付けることができる。
【0025】
なお、図示した文字列、読みがな及び属性情報はあくまで一例であり、これらに限定されない。
【0026】
図1に戻り、ルール保持部12は、入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持する。図3に、ルール保持部12が保持するデータの一例を示す。図示するルール442の欄に入力ルールが記載され、ルールID441の欄に、各入力ルールと対応付けてルール識別情報が記載されている。
【0027】
入力ルールは、図示するように、音声認識辞書に記載された属性情報(図2のテキスト分類451の欄参照)を利用して、情報の範囲を規定したルールとすることができる。
【0028】
ルール識別情報「1」に対応付けられた入力ルール、[数字]{3}[−]?[数字]{4}によれば、入力される情報は、前から順に数字が3つ連続した後、「−」(ハイフン)が入り、その後、数字が4つ連続した情報となる。例えば、「123−4567」などである。なお、「−」(ハイフン)の後に「?」があるので、「−」(ハイフン)はあってもなくてもよい。すなわち、ルール識別情報「1」に対応付けられた入力ルールによれば、入力される情報は、「前から順に数字が3つ連続した後、「−」(ハイフン)が入り、その後に数字が4つ連続した情報」、または、「数字が7つ連続した情報」となる。
【0029】
ここで、ルール識別情報「1」に対応付けられた入力ルールは、音声認識辞書に記載された属性情報の他、音声認識辞書に記載された文字列「−」(ハイフン)をも利用して、情報の範囲を規定している。このように、入力ルールは、音声認識辞書に記載された文字列を利用して、情報の範囲を規定してもよい。
【0030】
なお、図示した入力ルールの表記方法はあくまで一例であり、これに限定されるものではない。
【0031】
図1に戻り、受信部13は、入力フォームにルール識別情報を対応付けたウェブページを受信した複数の端末装置30各々から、ルール識別情報と、音声データとを対応付けて受信する。なお、ルール識別情報及び音声データには、さらに、ウェブページの入力フォームを識別する情報が対応付けられていてもよい。
【0032】
例えば、端末装置30が受信するウェブページのHTML文書には、入力フォームに対応付けてルール識別情報が記載されている。すべての入力フォームにルール識別情報が対応付けられていてもよいし、一部の入力フォームのみにルール識別情報が対応付けられていてもよい。端末装置30は、ディスプレイに当該ウェブページを表示した状態で、ユーザから、1つの入力フォームを特定する入力を受付けた後、例えばマイクを介して音声データの入力を受付けると、受付けた音声データに、特定された入力フォームに対応付けられているルール識別情報を対応付けて、音声認識装置10に送信する。そして、受信部13は、当該ルール識別情報と音声データを受信する。
【0033】
ルール取得部15は、受信部13が受信したルール識別情報をキーとしてルール保持部12(図3参照)を検索し、当該キーに対応付けられた入力ルールを取得する。
【0034】
検索部16は、ルール取得部15が取得した入力ルールに含まれる属性情報をキーとして辞書保持部11が保持する音声認識辞書を検索し、当該キーに対応付けられている読みがなを抽出する。例えば、ルール取得部15が図3に示すルール識別情報1に対応付けられた入力ルールを取得した場合、検索部16は、当該入力ルールに含まれる属性情報「数字」をキーとして音声認識辞書(図2参照)を検索し、属性情報「数字」に対応付けられている読みがな「ぜろ」、「れい」、「まる」、「いち」等を抽出する。また、ルール取得部15が図3に示すルール識別情報2に対応付けられた入力ルールを取得した場合には、検索部16は、当該入力ルールに含まれる属性情報「都道府県」、「市区町村」、「数字」、「丁目」等各々をキーとして音声認識辞書(図2参照)を検索し、属性情報に対応付けられている読みがなを抽出する。
【0035】
変換部14は、音声データを複数の候補が含まれる読みがなのデータに変換する。例えば、音声データが「いちにさん(123)」であった場合、変換部14は当該音声データと、あらかじめ保持している音素、音節等の周波数パターンとをマッチングして、頭から1番目、2番目、3番目、4番目、5番目各々の文字の候補を複数含んだ結果を作成する。例えば1番目の文字候補には、「い」、「き」、「ひ」などが含まれる。なお、各候補文字には、認識率が対応付けられていてもよい。
【0036】
上記変換の後、変換部14は、検索部16が抽出した読みがな、および、ルール取得部15が取得した入力ルールを利用して、複数の候補の中から1つの読みがなを特定する。例えば、音声データが「いちにさん(123)」であり、入力ルールが「数字3つ」である場合を考える。かかる場合、上記1番目の文字候補「い」、「き」、「ひ」の中の、「い」は例えば「いち(1)」、「ひ」は例えば「ひち(7)」と数字の頭の文字になる可能性はあるが、「き」は数字の頭の文字になることはない。よって、変換部14は、検索部16が抽出した数字の読みがなを利用して「き」が1番目の文字となることがないことを特定し、当該文字を1番目の文字の候補から除去する。変換部14は、例えばこのような処理により、上記1乃至5番目各々の文字の候補を絞り込んで、1つの文字を特定する。なお、検索部16が抽出した数字の読みがなを利用した絞り込みの後も、複数の候補が残っている場合には、例えば、変換部14は、前後の文字関係や、認識率等を利用して、1つの文字を特定することができる。
【0037】
このような変換部14の処理によれば、変換処理の前に、入力ルールを利用して、音声データの内容は例えば「数字が5つ連続するもの」と把握できるので、変換処理において、数字の読みでない「べろ」や「いし」などに変換される不都合を抑制することができる。
【0038】
変換部14は、例えば上述のようにして複数の候補の中から1つの読みがなを特定した後、音声認識辞書(図2参照)を検索して、特定した読みがなに対応づけられている文字列を取得する。
【0039】
送信部17は、変換部14が取得した文字列(認識結果)を、端末装置30に送信する。なお、送信部17は、認識結果に、受信部13が受信した入力フォームを識別する情報を対応付けて、端末装置30に送信してもよい。
【0040】
次に、端末装置30について説明する。端末装置30は、図1に示すように、端末受信部31と、端末表示部32と、端末受付部33と、端末送信部34とを有する。
【0041】
端末受信部31は、入力フォームにルール識別情報を対応付けたウェブページを、サーバ40から受信する。また、端末受信部31は、音声認識装置10の送信部17から、認識結果を受信する。当該認識結果には、入力フォームを識別する情報が対応付けられていてもよい。
【0042】
端末表示部32は、端末受信部31が受信したウェブページをディスプレイに表示する。また、端末表示部32は、端末受信部31が受信した認識結果を、ウェブページの所定の入力フォームに表示する。認識結果を表示する入力フォームを特定する手段は特段制限されず、例えば、端末表示部32は、認識結果に対応付けられた入力フォームを識別する情報を利用して、認識結果を表示する入力フォームを特定してもよい。
【0043】
端末受付部33は、入力フォームに入力する情報を、例えばマイクを介して音声で受付ける。例えば、端末受付部33は、ウェブページに含まれる1つまたは2つ以上の入力フォームの中の1つを特定する入力をユーザから受付けた後、マイクを介して音声データの入力を受付けてもよい。入力フォームを特定する入力を受付ける手段は特段制限されない。
【0044】
端末送信部34は、特定された入力フォームに対応付けられたルール識別情報と、当該特定後に端末受付部33が入力を受付けた音声データとを対応付けて、音声認識装置10に送信する。ルール識別情報は、ウェブページのHTML文書に、入力フォームに対応付けて記載されている。
【0045】
次に、本実施形態の処理の流れの一例について、図1及び図4のフローチャートを用いて説明する。図4は、音声認識装置10の処理の流れを示している。
【0046】
まず、図1に示す端末装置30の端末受信部31が、サーバ40からウェブページを受信する(端末受信ステップ)。すると、端末表示部32がウェブページをディスプレイに表示する(端末表示ステップ)。そして、端末受付部33が、ユーザから、当該ウェブページの中の1つの入力フォームを特定する入力および音声データの入力を受付ける(端末受付ステップ)。次いで、端末送信部34が、特定された入力フォームに対応付けられているルール識別情報、及び、端末受付部33が受付けた音声データを対応付けて、音声認識装置10に送信する(端末送信ステップ)。
【0047】
すると、音声認識装置10の受信部13がルール識別情報及び音声データを受信する(図4のS10:受信ステップ)。次に、ルール取得部15が、S10で受信部13が受信したルール識別情報をキーとしてルール保持部12(図3参照)を検索し、キーに対応付けられた入力ルールを取得する(図4のS11:ルール取得ステップ)。
【0048】
次に、検索部16が、S11でルール取得部15が取得した入力ルールに含まれる属性情報をキーとして音声認識辞書(図2参照)を検索し、対応付けられている読みがなを抽出する(図4のS12:検索ステップ)。
【0049】
その後、変換部14が、音声データを複数の候補が含まれる読みがなのデータに変換した後、S11でルール取得部15が取得した入力ルール、及び、S12で検索部16が抽出した読みがなを利用して、複数の候補の中から1つの読みがなを特定する。その後、変換部14は、特定した読みがなをキーとして辞書保持部11が保持する音声認識辞書(図2参照)を検索し、キーに対応付けられている文字列を、認識結果として取得する(図4のS13:変換ステップ)。
【0050】
その後、送信部17が、認識結果を端末装置30に送信する(図4のS14)。すると、端末装置30の端末受信部31が、認識結果を受信する。そして、端末表示部32が、認識結果を、ディスプレイに表示しているウェブページの所定の入力フォームに表示する。
【0051】
なお、音声認識装置10、端末装置30及びサーバ40間のデータの送受信は、インターネットやLANなどのネットワークを介して行うことができる。当該前提は、他の実施形態においても同様である。
【0052】
また、本実施形態では、辞書保持部11、受信部13、変換部14、ルール取得部15、検索部16及び送信部17を有する音声認識装置10が、ルール保持部12をさらに備えた例を説明したが、その他、辞書保持部11、受信部13、変換部14、ルール取得部15、検索部16及び送信部17を有する音声認識装置10とは別に、ルール保持部12を有するルール保持装置を構成することも可能である。当該ルール保持装置は、辞書保持部11、受信部13、変換部14、ルール取得部15、検索部16及び送信部17を有さなくてもよい。かかる場合、ルール保持装置は、声認識装置10と有線/無線で繋がり、音声認識装置10がルール保持装置のルール保持部12にアクセスできるように構成する。
【0053】
本実施形態の音声認識装置10は、例えば以下のプログラムをコンピュータにインストールすることで実現することができる。
端末装置30で表示されるウェブページの入力フォームへの入力を支援するためのプログラムであって、
コンピュータを、
文字列と、前記文字列の読みがなと、前記文字列の属性を示す属性情報とを対応付けた音声認識辞書を保持する辞書保持手段、
前記属性情報を利用して前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段、
前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信手段、
前記受信手段が受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられている前記入力ルールを取得するルール取得手段、
前記ルール取得手段が取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索手段、
前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索手段が抽出した前記読みがな及び前記ルール取得手段が取得した前記入力ルールを利用して、前記複数の候補の中から1つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換手段、
として機能させるためのプログラム。
【0054】
また、本実施形態の端末装置30は、例えば以下のプログラムをコンピュータにインストールすることで実現することができる。
コンピュータを、
入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを受信する端末受信手段、
前記ウェブページをディスプレイに表示する端末表示手段、
前記入力フォームに入力する情報を音声で受付ける端末受付手段、
前記入力フォームに対応付けられた前記ルール識別情報と、前記音声のデータとを対応付けて音声認識装置に送信する端末送信手段、
として機能させるためのプログラム。
【0055】
本実施形態によれば、ウェブページを提供するサーバとは別に音声認識サーバを設け、当該音声認識サーバを利用してウェブページの入力フォームへの入力を支援する技術において、音声認識サーバが、各入力フォームに入力される情報の範囲を、音声認識処理時に特定できる。このため、音声認識サーバは、各入力フォームに入力される情報の範囲に限定した音声認識処理を行うことができる。すなわち、音声データを読みがなに変換する際、入力フォームに入力される情報の範囲に限定して、変換処理を行うことができるので、音声認識の精度を高めることができる。
【0056】
<第2の実施形態>
本実施形態は、第1の実施形態の構成に加えて、さらに、ルール保持部12に新たな入力ルールを記憶する手段、及び、音声認識装置10がサーバ40にウェブページのHTML文書に記載するルール識別情報を提供する手段を備える。
【0057】
図5は、本実施形態の音声認識システムの構成の一例を示す機能ブロック図である。図示するように、本実施形態の音声認識システムは、音声認識装置10と、端末装置30と、ウェブページを端末装置30に提供するサーバ40とを有する。
【0058】
図5に示すように、音声認識装置10は、辞書保持部11と、ルール保持部12と、受信部13と、変換部14と、ルール取得部15と、検索部16と、送信部17と、ルール受信部18と、判別部19と、更新部20とを有する。辞書保持部11、ルール保持部12、受信部13、変換部14、ルール取得部15、検索部16、及び、送信部17の構成は、第1の実施形態と同様であるので、ここでの説明は省略する。
【0059】
ルール受信部18は、サーバ40から、入力ルールを受信する。例えば、サーバ40は、入力フォームにルール識別情報を対応付けたウェブページ(HTML文書)を作成する際であって、当該ウェブページに含まれる入力フォームに入力される情報の範囲を規定した入力ルールは認識できるが、当該入力ルールに対応付けられたルール識別情報を認識できない際に、当該入力ルールをルール受信部18に送信する。
【0060】
判別部19は、ルール受信部18が受信した入力ルールが、すでにルール保持部12に保持されているか判別する。例えば、判別部19は、ルール受信部18が受信した入力ルールをキーとして、ルール保持部12を検索することで、当該入力ルールがすでに保持されているか否かを判別する。
【0061】
更新部20は、判別部19の判別結果に応じて、以下の処理を実行する。
【0062】
ルール受信部18が受信した入力ルールが、すでにルール保持部12に保持されている場合には、更新部20は、その入力ルールに対応付けてルール保持部12が保持しているルール識別情報を、サーバ40に送信する。
【0063】
一方、ルール受信部18が受信した入力ルールが、ルール保持部12に保持されていない場合には、更新部20は、その入力ルールに新たなルール識別情報を対応付けてルール保持部12に保持させると共に、当該新たなルール識別情報をサーバ40に送信する。
【0064】
更新部20による当該処理により、サーバ40は、音声認識装置10に送信した入力ルールに対応付けられているルール識別情報を認識することができる。
【0065】
次に、本実施形態の処理の流れの一例について、図5及び図6のフローチャートを用いて説明する。図6は、音声認識装置10の処理の流れを示している。
【0066】
まず、例えば、サーバ40は、入力フォームにルール識別情報を対応付けたウェブページ(HTML文書)を作成する際であって、当該ウェブページに含まれる入力フォームに入力される情報の範囲を規定した入力ルールは認識できるが、当該入力ルールに対応付けられたルール識別情報を認識できない際に、当該入力ルールを音声認識装置10に送信する。
【0067】
すると、サーバ40が送信した入力ルールを、音声認識装置10のルール受信部18が受信する(図6のS20)。次いで、判別部19が、S20でルール受信部18が受信した入力ルールがすでにルール保持部12に保持されているか判別する(図6のS21)。
【0068】
S21での判別の結果、ルール受信部18が受信した入力ルールが、すでにルール保持部12に保持されている場合には(図6のS22:Yes)、更新部20は、その入力ルールに対応付けてルール保持部12が保持しているルール識別情報を、サーバ40に送信する(図6のS23)。
【0069】
一方、S21での判別の結果、ルール受信部18が受信した入力ルールが、ルール保持部12に保持されていない場合には(図6のS22:No)、更新部20は、その入力ルールに新たなルール識別情報を対応付けてルール保持部12に保持させると共に(図6のS24)、当該新たなルール識別情報をサーバ40に送信する(図6のS25)。
【0070】
S23またはS25で更新部20が送信したルール識別情報を受信したサーバ40は、受信したルール識別情報を所定の入力フォームに対応付けたウェブページ(HTML文書)を作成し、端末装置30に送信する。
【0071】
本実施形態の端末装置30の構成は、第1の実施形態の構成と同様である。
【0072】
なお、本実施形態では、辞書保持部11、受信部13、変換部14、ルール取得部15、検索部16及び送信部17を有する音声認識装置10が、ルール保持部12、ルール受信部18、判別部19及び更新部20をさらに備えた例を説明したが、その他、辞書保持部11、受信部13、変換部14、ルール取得部15、検索部16及び送信部17を有する音声認識装置10とは別に、ルール保持部12、ルール受信部18、判別部19及び更新部20を有するルール保持装置を構成することも可能である。当該ルール保持装置は、辞書保持部11、受信部13、変換部14、ルール取得部15、検索部16及び送信部17を有さなくてもよい。かかる場合、ルール保持装置は、声認識装置10と有線/無線で繋がり、音声認識装置10がルール保持装置のルール保持部12にアクセスできるように構成する。
【0073】
本実施形態によれば、第1の実施形態で説明した作用効果に加えて、さらに、次のような作用効果を実現することができる。すなわち、本実施形態によれば、ルール識別情報を認識できないサーバ40であっても、入力フォームに入力される情報の範囲を規定した入力ルールを音声認識装置10に送信すれば、その入力ルールに対応付けられたルール識別情報の返信により、所望のルール識別情報を認識することができる。
【0074】
また、本実施形態によれば、音声認識装置10は、実際に使用される有用な入力ルールを蓄積していくことができる。
【0075】
このように、本実施形態によれば、汎用性の高いシステムが実現される。
【符号の説明】
【0076】
10 音声認識装置
11 辞書保持部
12 ルール保持部
13 受信部
14 変換部
15 ルール取得部
16 検索部
17 送信部
18 ルール受信部
19 判別部
20 更新部
30 端末装置
31 端末受信部
32 端末表示部
33 端末受付部
34 端末送信部
40 サーバ
441 ルールID
442 ルール
451 テキスト分類
452 音声認識テキスト
453 音声読みがな

【特許請求の範囲】
【請求項1】
端末装置で表示されるウェブページの入力フォームへの入力を支援する音声認識装置であって、
文字列と、前記文字列の読みがなと、前記文字列の属性を示す属性情報とを対応付けた音声認識辞書を保持する辞書保持手段と、
前記属性情報を利用して前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段と、
前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信手段と、
前記受信手段が受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられている前記入力ルールを取得するルール取得手段と、
前記ルール取得手段が取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索手段と、
前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索手段が抽出した前記読みがな及び前記ルール取得手段が取得した前記入力ルールを利用して、前記複数の候補の中から1つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換手段と、
を有する音声認識装置。
【請求項2】
請求項1に記載の音声認識装置において、
前記ウェブページを前記端末装置に送信するサーバから、入力ルールを受信するルール受信手段と、
前記入力ルールが前記ルール保持手段に保持されているか判別する判別手段と、
前記入力ルールが前記ルール保持手段に保持されている場合には、その入力ルールに対応付けられている前記ルール識別情報を前記サーバに送信し、前記入力ルールが前記ルール保持手段に保持されていない場合には、その入力ルールに新たな前記ルール識別情報を対応付けて前記ルール保持手段に保持させると共に、前記新たなルール識別情報を前記サーバに送信する更新手段と、
を有する音声認識装置。
【請求項3】
入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを受信する端末受信手段と、
前記ウェブページをディスプレイに表示する端末表示手段と、
前記入力フォームに入力する情報を音声で受付ける端末受付手段と、
前記入力フォームに対応付けられた前記ルール識別情報と、前記音声のデータとを対応付けて音声認識装置に送信する端末送信手段と、
を有する端末装置。
【請求項4】
請求項1または2に記載の音声認識装置と、
入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを、端末装置に送信するサーバと、
を有する音声認識システム。
【請求項5】
請求項4に記載の音声認識システムにおいて、
さらに、請求項3に記載の端末装置を有する音声認識システム。
【請求項6】
端末装置で表示されるウェブページの入力フォームへの入力を支援するためのプログラムであって、
コンピュータを、
文字列と、前記文字列の読みがなと、前記文字列の属性を示す属性情報とを対応付けた音声認識辞書を保持する辞書保持手段、
前記属性情報を利用して前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段、
前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信手段、
前記受信手段が受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられている前記入力ルールを取得するルール取得手段、
前記ルール取得手段が取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索手段、
前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索手段が抽出した前記読みがな及び前記ルール取得手段が取得した前記入力ルールを利用して、前記複数の候補の中から1つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換手段、
として機能させるためのプログラム。
【請求項7】
コンピュータを、
入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを受信する端末受信手段、
前記ウェブページをディスプレイに表示する端末表示手段、
前記入力フォームに入力する情報を音声で受付ける端末受付手段、
前記入力フォームに対応付けられた前記ルール識別情報と、前記音声のデータとを対応付けて音声認識装置に送信する端末送信手段、
として機能させるためのプログラム。
【請求項8】
端末装置で表示されるウェブページの入力フォームへの入力を支援する音声認識方法であって、
文字列とその読みがなとを対応付けた音声認識辞書を保持する辞書保持手段と、
前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段と、
を備えておき、
前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信ステップと、
前記受信ステップで受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられた前記入力ルールを取得するルール取得ステップと、
前記ルール取得ステップで取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索ステップと、
前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索ステップで抽出した前記読みがな及び前記ルール取得ステップで取得した前記入力ルールを利用して、前記複数の候補の中から1つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換ステップと、
を音声認識装置が実行する音声認識方法。
【請求項9】
入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを受信する端末受信ステップと、
前記ウェブページをディスプレイに表示する端末表示ステップと、
前記入力フォームに入力する情報を音声で受付ける端末受付ステップと、
前記入力フォームに対応付けられた前記ルール識別情報と、前記音声のデータとを対応付けて音声認識装置に送信する端末送信ステップと、
を端末装置が実行する入力方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2012−185225(P2012−185225A)
【公開日】平成24年9月27日(2012.9.27)
【国際特許分類】
【出願番号】特願2011−46724(P2011−46724)
【出願日】平成23年3月3日(2011.3.3)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】