説明

情報処理装置及び音声認識辞書生成方法

【課題】音声認識辞書に登録される不要な単語を減らすことが可能な「情報処理装置及び音声認識辞書生成方法」を提供すること。
【解決手段】音声認識用辞書を生成する機能を備えた情報処理装置において、記憶手段に格納されている楽曲情報の種別を判定するステップ(S12)と、楽曲情報の種別に応じて、前記記憶手段に格納されている前記楽曲情報の文字列に対して音声認識辞書用の文字列に変換する変換規則を選択するステップと、選択された変換規則に従って、楽曲情報を音声認識辞書用の文字列に変換するステップ(S16〜S19)と、変換された文字列を音声データに変換して読みデータを取得するステップ(S20)と、読みデータを前記楽曲情報と関連付けて音声認識用辞書に登録するステップと、を有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及び音声認識辞書生成方法に関し、特に、テキスト情報を音声で読み上げる機能(TTS(Text To Speech)エンジン)を備えた情報処理装置において音声を認識する音声認識辞書を生成する技術に関する。
【背景技術】
【0002】
近年、テキストを入力するとそれを音声で読み上げる機能(TTSエンジン)を備えたシステムが開発され、携帯電話の電話応答サービスなどで広く利用されている。例えば、個人向けポータブルサービスで、ユーザの身近にモバイル端末やコンピュータがないという状況でも、電話をかければEメールやニュース、市場動向等の情報を読み上げてくれる音声サービスとして使用されている。
【0003】
一方、再生用のオーディオ情報を格納した機器をオーディオ装置に接続して、オーディオ情報を基に音楽を再生出力することが行われている。このようなオーディオ情報としては楽曲データがあり、楽曲データには、楽曲のデジタルデータとともに楽曲のタイトルやアーティスト等の情報が記載されたタグデータが含まれている。このタグデータを基にして再生されている楽曲のタイトル等を表示画面に表示したり、TTSエンジンを利用して音声で読み上げることもできるようになってきている。さらに、ユーザから楽曲のタイトルを音声入力して、その楽曲を再生することもできるようになってきている。
【0004】
ユーザが発話した音声を認識するために、認識できる単語が登録されている音声認識用辞書が不可欠である。認識できる単語が音声認識用辞書に登録されている場合であっても、ユーザは完全な単語ではなく省略した単語を発話する場合もある。このような場合であっても音声認識が可能になるように音声認識用辞書を作成する方法として、特許文献1には、言い換え表現の数を適切に抑えることができる省略語生成規則を用いて認識対象となる単語に対する省略語を生成して音声認識用辞書として記憶する技術が記載されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特表2007−509377号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
上述したように、オーディオ情報には作曲者名やアーティスト名等のタグデータ(楽曲情報)が含まれており、これらのデータを音声認識用辞書に登録しておくことにより、発話された作曲者名等の楽曲情報を認識することが可能である。
【0007】
作曲者名等の楽曲情報は、一つの単語の文字列で表されている場合や、複数の単語の文字列がスペースやカンマ等の区切り記号で区切られて連続して表されている場合がある。一つの単語の文字列で表されている場合には、この単語の文字列を音声認識用辞書に登録し、ユーザが発話した単語がその単語と一致しているか否かを判定すればよい。一方、複数の単語の文字列で表されている楽曲情報が音声認識用辞書に登録されている場合は、複数の単語の文字列全体が発話されなければ楽曲情報を認識することができない。そのため、複数の単語で構成されている文字列に対しては、スペース等の区切り記号毎に分割した単語を組み合わせて音声認識用辞書に登録する文字列を生成する等により、複数の単語全体を発話しなくても済むような方法が実施されている。
【0008】
しかし、このような複数の単語の分割を行うと、ユーザが発話することが想定できないような明らかに不要な単語も音声認識用辞書に登録されることになる。
【0009】
例えば、楽曲名が“Come on Over”の場合、スペース毎に分割した単語を組み合わせると、“Come”、“on”、“Over”、“Come on”、“on Over”と分割され、これらが音声認識用辞書に登録される。これらの分割された単語によって楽曲名を特定することはできないため、ユーザが楽曲名を指定するときに、分割した単語を発話することは想定しづらい。また、不要な単語が音声認識用辞書に登録されることにより、音声認識の効率の低下を引き起こすことにもなりかねない。
【0010】
本発明は、かかる従来技術の課題に鑑みなされたものであり、音声認識辞書に登録される不要な単語を減らすことが可能な情報処理装置及び音声認識辞書生成方法を提供することを目的とする。
【課題を解決するための手段】
【0011】
上述した従来技術の課題を解決するため、本発明の基本形態によれば、再生用の楽曲データを格納した機器と通信可能に接続される情報処理装置であって、テキストを音声データに変換して出力する機能を有した音声読み上げ手段と、前記楽曲データに付随した楽曲情報の文字列に対して音声認識辞書用の文字列に変換する変換規則が格納された記憶手段と、前記楽曲データを格納した機器から楽曲データに付随した楽曲情報を取得して前記記憶手段に格納する制御手段とを有し、前記制御手段は、前記記憶手段に格納した楽曲情報の文字列を当該楽曲情報の種別に応じた前記変換規則に従って音声認識辞書用の文字列に変換し、当該変換された文字列を前記音声読み上げ手段に入力して読みデータを取得して、当該読みデータと楽曲情報とを関連付けて音声認識用の辞書に登録することを特徴とする情報処理装置が提供される。
【0012】
この形態に係る情報処理装置において、前記制御手段は、前記楽曲情報の文字列に所定のトークンが含まれているときは当該所定のトークン毎に文字列を分割し、当該分割された文字列毎に前記変換規則を適用するようにしてもよく、前記制御手段は、前記変換規則に従って、前記楽曲情報がアーティスト名又はクラシックの作曲者名のとき、スペースを区切り文字として前記楽曲情報の文字列を分割した各文字列及び元の文字列から予め定められた予約語を削除した文字列を生成し、元の文字列とともに音声認識辞書用の文字列とするようにしてもよく、前記制御手段は、前記変換規則に従って、前記楽曲情報がアルバム名又は楽曲名のとき、当該アルバム名又は楽曲名の文字列を音声認識辞書用の文字列とするようにしてもよく、前記制御手段は、前記楽曲情報を基に生成した音声認識辞書用の文字列から音声再生不可能な記号文字を音声再生可能な記号文字に変換するか、又は削除するようにしてもよい。
【0013】
本発明の情報処理装置によれば、楽曲情報の単語の文字列を基にしてユーザが発話すると思われる文字列を生成し、生成された文字列をTTSエンジンに入力して読みデータを取得し、楽曲情報と読みデータとを関連付けて音声認識用辞書に登録している。ユーザが発話すると思われる文字列を元の単語の文字列から生成するときには、楽曲情報の種別に応じた変換規則を用いるようにしている。例えば、楽曲情報がクラシックの作曲者の場合には基本的に作曲者名の文字列をスペースで分割した文字列を組み合わせて音声認識辞書生成用の文字列に変換しているが、楽曲情報が楽曲名の場合は、元の文字列を音声認識辞書生成用の文字列としている。これにより、ユーザが使用すると考えられる一般的に使用される単語が音声認識用辞書に登録されるとともに、楽曲名に含まれる前置詞や冠詞だけの単語のような不要な単語が登録されないようにしている。そのため、すべての楽曲情報に対してクラシックの作曲者の場合に適用される規則を用いて音声認識辞書生成用の文字列を生成する場合に比べて無駄な登録単語数が極端に減り、音声認識を効率よく行うことが可能となる。
【0014】
また、本発明の他の形態によれば、記憶手段に格納されている楽曲情報の種別を判定するステップと、楽曲情報の種別に応じて、前記記憶手段に格納されている前記楽曲情報の文字列に対して音声認識辞書用の文字列に変換する変換規則を選択するステップと、選択された変換規則に従って、楽曲情報を音声認識辞書用の文字列に変換するステップと、変換された文字列を音声データに変換して読みデータを取得するステップと、読みデータを前記楽曲情報と関連付けて音声認識用辞書に登録するステップと、を有することを特徴とする音声認識辞書生成方法が提供される。
【0015】
この形態に係る音声認識辞書生成方法において、前記変換規則を選択するステップの前に、前記楽曲情報の文字列を所定のトークン毎に分割するステップを有するようにしてもよく、前記音声認識辞書用の文字列に変換するステップは、前記楽曲情報がアーティスト名又はクラッシックの作曲者名のときにスペースを区切り文字として前記楽曲情報の文字列を分割するステップと、当該分割された各文字列及び元の文字列毎に予め定められた予約語を削除した文字列に変換するステップと、当該変換された文字列及び元の文字列を音声認識辞書用の文字列とするステップと、を含むようにしてもよく、前記音声認識辞書用の文字列に変換するステップは、前記楽曲情報がアルバム名又は楽曲名のとき、当該アルバム名又は楽曲名の文字列を音声認識辞書用の文字列とするステップであるようにしてもよく、前記読みデータを取得するステップの前に、前記楽曲情報を基に生成した音声認識辞書用の文字列から音声再生不可能な記号文字を検出するステップと、当該記号文字を音声再生可能な記号文字に変換するか又は削除するステップと、を含むようにしてもよい。
【図面の簡単な説明】
【0016】
【図1】本発明の一実施形態に係る情報処理装置の構成を示すブロック図である。
【図2】図2(a)は、楽曲情報の文字列を分割するトークンの一例であり、図2(b)は、削除対象となる予約語の一例であり、図2(c)は、楽曲情報から音声認識用辞書に登録する単語に変換する変換規則の一例を示す図である。
【図3】図3(a)は、音声再生可能な文字及び音声再生不可能な文字を示す文字コード一覧であり、図3(b)は、文字変換規則の一例を示す図である。
【図4】デジタルオーディオ機器から取得した楽曲情報及び楽曲情報を基に生成した音声認識用辞書生成用の文字列の一例を示した図である。
【図5】音声認識辞書生成処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0017】
以下、本発明の実施形態について、添付の図面を参照して説明する。
【0018】
図1は、本発明の一実施形態に係る情報処理装置100の構成を示した図である。
【0019】
本実施形態に係る情報処理装置100は、図1に示すように、制御部1(オーディオ制御部1a及び音声認識/TTS制御部1b)と、音声入力部2と、音声認識エンジン4と、TTSエンジン6と、音声再生部7と、表示部8と、マイク3と、スピーカー9と、記憶部10を備えている。
【0020】
また、情報処理装置100とデジタルオーディオ機器12とがオーディオバス11を介して接続されている。デジタルオーディオ機器12としては、例えば、外付けオーディオ機器や、HDDオーディオ、CDテキストがある。HDDオーディオは記憶装置にハードディスクを内蔵した携帯音楽プレーヤーであり、CDテキストは、CD−TEXT規格に対応したプレーヤーであり、CDのタイトルや作曲家などのテキスト情報が表示されるものである。
【0021】
デジタルオーディオ機器12には、例えば、インターネット等を介して配信されたMP3形式等の楽曲ファイルをパーソナルコンピュータ(PC)にいったんダウンロードし、さらにこのPCから転送された楽曲ファイルが格納されている。この楽曲ファイルには、再生用のオーディオ情報の他に、このオーディオ情報を特定する楽曲情報(タイトル、アーティスト名、アルバム名など)が含まれている。
【0022】
オーディオ制御部1aは、マイクロコンピューターにより構成され、オーディオ再生情報をデジタルオーディオ機器12から取得し、液晶パネルや有機ELパネル等により構成される表示部8に表示させる制御を行う。また、オーディオ再生情報から再生する楽曲に関する情報を抽出して、音声認識/TTS制御1b部に引き渡す。
【0023】
音声入力部2は、マイク3を介してユーザの音声を入力し、音声信号のデータに変換し、変換した音声データを音声認識/TTS制御部1bに引き渡す。
【0024】
音声再生部7は、TTSエンジン6によりテキストから変換された音声データを入力し、その音声データに従って音声を再生して音声信号を増幅し、スピーカー9に供給する処理を行う。
【0025】
音声認識/TTS制御部1bは、音声の入力から出力までの全体の制御を行う。音声認識/TTS制御部1bは、マイク3及び音声入力部2を介して入力したユーザの発話音声を音声認識エンジン4に認識させる。音声認識は一般の認識処理と同様に、入力された音声を音響分析して特徴量を算出し、特徴量から発話に対応する音響モデル10a(予めデータ化されてメモリに格納されている)を抽出する。この音響モデル10aと音声認識辞書10bに格納された辞書の単語とを基に認識する。
【0026】
TTSエンジン6は、読み上げ用の文字列(テキスト)を入力すると、TTSデータ10dに含まれている言語解析辞書を基にテキスト情報を解析し、読みとアクセントを記した文字列である中間言語を生成する。この中間言語は、TTSデータ10dに含まれている音声合成辞書を参照して音声(波形)データに変換する。
【0027】
記憶部10は、ハードディスクや半導体メモリ等で構成され、音声認識エンジン4で使用する音響モデル10aや音声認識辞書10b、楽曲情報から音声認識辞書に登録するデータを生成するための音声認識辞書生成用変換規則10c、TTSエンジン6で読み込まれるTTSデータ10dが、それぞれ領域を分けて格納されている。また、記憶部10には、デジタルオーディオ機器12から取得した楽曲情報のデータが格納される。
【0028】
TTSデータ10dには、TTSエンジン6において音声合成を実行する際に使用する辞書(言語解析辞書、音声合成辞書)が含まれている。
【0029】
言語解析辞書は、音声合成処理の対象となるテキスト情報の構文解析を行う際に参照する辞書であり、あらかじめ各語彙毎に、その表記、読み、アクセント情報、品詞情報等の詳細な情報を対応付けて登録したものである。音声合成辞書は、TTSエンジンで解析されたテキスト情報をその対応する音声(波形)データに変換する際に参照する辞書である。
【0030】
このように構成された情報処理装置100に、楽曲データが格納されたデジタルオーディオ機器12が接続されると、楽曲データに付随した楽曲名等の情報が含まれている楽曲情報を記憶部10に楽曲毎に格納する。この楽曲情報を基にして、楽曲情報に応じてユーザが発話すると思われる音声認識辞書生成用の文字列が生成され、楽曲情報と関連付けられた文字列の読みデータが音声認識辞書に登録される。音声認識用の文字列の生成では、楽曲情報の種別に対応して、ユーザが発話することが想定しづらい不要な単語を登録しないようにしている。
【0031】
例えば、楽曲情報が作曲者名“Ludwig van Beethoven”のときには、“Ludwig van Beethoven”、“Beethoven”、“Ludwig”など、元の文字列を分割した文字列の読みデータも辞書に登録し、楽曲情報が曲名“Come on Over”のときには、この元の文字列の読みデータのみを辞書に登録し、“on Over”等の不要な文字列の読みデータは登録しないようにしている。これにより、認識効率の低下を防止することが可能となる。
【0032】
以下に、不要な単語の登録を抑制した音声認識辞書を生成する処理について説明する。本実施形態では、デジタルオーディオ機器12に格納された楽曲が再生出力される情報処理装置100を対象とする。また、情報処理装置100とデジタルオーディオ機器12とが接続され、デジタルオーディオ機器12に格納されている楽曲データから楽曲情報のすべてが情報処理装置100に送信され、情報処理装置100の記憶部10に楽曲情報が格納されるものとする。楽曲情報としては、楽曲のジャンル、楽曲名、作曲者名、アーティスト名、及びアルバム名が含まれている。
【0033】
情報処理装置100の記憶部10に楽曲情報が格納されると、その楽曲情報を基にして音声認識用の辞書を作成する。音声認識用の辞書としてはユーザが発話する可能性の高い単語が登録され、ほとんど発話されることのない単語は登録しないことが望ましい。楽曲情報について不要な単語であるか否かは、楽曲情報の種類に応じて異なる。例えば、上記したように、楽曲情報が複数の単語の文字列からなる曲名の場合は、スペース等の区切り記号で区切られた単語を曲名として発話することは考えにくい。これに対して、作曲者名の場合は、フルネームで発話することもあるが、フルネームよりも一般的に知られた名称で発話することが多くなると考えられる。例えば、クラシックの作曲者の場合、「ルードビッヒ ヴァン ベートーベン」よりも「ベートーベン」のほうが一般的である。そのため、作曲者の場合には元の単語を複数に分割した単語を音声認識辞書に登録することが望ましい。
【0034】
このように、楽曲情報の種別に応じて音声認識辞書生成用の文字列を生成する方法が異なり、それぞれについて規則を予め規定しておく。
【0035】
図2は、音声認識辞書生成用変換規則に格納される変換規則の一例を示している。図2(a)は、楽曲情報に記載されている文字列の分割位置を規定するトークンを示している。楽曲情報が作曲者やアーティストの場合には、複数人や複数グループの名称が記載されることも考えられるので、元の文字列を分割して個々の作曲者やアーティスト名を抽出する。楽曲情報が作曲者の場合は、カンマ(、)、コロン(:)、スラッシュ(/)、アンド(&)を文字列分割用のトークンとし、複数の作曲者が記載されていたときに作曲者毎に分割する。また、楽曲情報がアーティストの場合は、カンマ(、)又はコロン(:)を文字列分割用のトークンとする。その他の楽曲情報(アルバム名、楽曲名)については、楽曲と一対一に対応しており複数の情報が記載されることはないと考えられるため分割の対象とはしていない。
【0036】
図2(b)は、楽曲情報がクラシックの作曲者の場合に、分割した文字列に対して削除する文字列を示した予約語テーブルである。例えば、予約語として、“The”や“Van”が定義されており、作曲者の文字列を分割して生成される“The”だけの文字列や“Van”だけの文字列が音声認識辞書生成用の文字列にならないようにしている。また、楽曲情報がアーティスト名のときは、“The”を予約語としている。
【0037】
図2(c)は、トークンにより分割された個々の文字列に対して音声認識辞書生成用の文字列に変換する規則の一例を示している。図2(c)に示すように、この変換規則は、楽曲情報がクラシックの作曲者及びアーティストの場合について定義されている。また、作曲者及びアーティスト以外の楽曲情報の場合にもそれぞれに応じた規則を予め規定しておくようにしてもよい。
【0038】
図2(c)の規則(1)及び規則(2)は楽曲情報がクラシックの作曲者の場合の変換規則である。作曲者を示す文字列が、「予約語+BBB」の場合には、元の文字列の「予約語+BBB」と、元の文字列から予約語を削除した「BBB」が音声認識辞書生成用の文字列となる。ここで、「予約語+BBB」は「予約語」と「BBB」がスペースで区切られているものとする。また、「予約語」は図2(b)に示した文字であり、「BBB」は予約語が含まれていない1又は複数の単語とマッチングすることを示している。
【0039】
この変換規則は、次のような変換処理を行うことによって得られる。まず、元の文字列「予約語+BBB」をスペースによって「予約語」と「BBB」に分割する。この分割した文字列と元の文字列(「予約語」、「BBB」、「予約語+BBB」)に対して予約語のみの文字列を削除し、「BBB」及び「予約語+BBB」に変換する。元の文字列と予約語を削除した文字列、つまり、「予約語+BBB」と「BBB」を音声認識辞書生成用の文字列とする。
【0040】
なお、「BBB」に複数の単語がマッチする場合は、その複数の単語による文字列と、スペースで区切られた個々の単語の文字列が含まれる。
【0041】
図2(c)の規則(2)に示すように、元の作曲者を示す文字列が、「AAA+予約語+BBB」の場合には、元の文字列の「AAA+予約語+BBB」と、元の文字列から予約語を削除した、「AAA」+「BBB」、「AAA」及び「BBB」が音声認識辞書生成用の文字列となる。
【0042】
また、図2(c)の規則(3)に示すように、楽曲情報がアーティストの場合には、元のアーティスト名の文字列が「予約語+AAA」のとき、元の文字列の「予約語+AAA」と、元の文字列から予約語を削除した「AAA」が音声認識辞書生成用の文字列となる。
【0043】
これらの変換された文字列をTTSエンジン6に入力して、各文字列に対応する読みデータを取得し、読みデータと各文字列が属する楽曲情報とを関連付けて音声認識辞書10bに登録する。
【0044】
音声認識辞書生成用の文字列にTTSエンジン6で音声再生できない文字が含まれている場合には、再生できない文字を変更又は削除するなどの調整をして文字列を変換する。例えば、TTSエンジン6でサポートしている文字コードが米国英語のときに日本語の漢字やひらがなは対応できずその文字については音声再生をすることができない。
【0045】
図3(a)は、文字コード一覧(ISO8859−1)の一例を示した図である。TTSエンジン6によって、この文字コード一覧のうち、音声再生が可能な文字と音声再生ができない文字とが存在する。例えば、これらの文字コードのうち、二重枠で囲んだセル及び太枠で囲んだセルの文字がTTSエンジン6によって音声信号に変換できない、若しくは正しく読み上げできないものとする。二重枠で囲んだセルの文字コードは音声再生ができないため、これらの文字はTTSエンジン6に入力する前にスペースに置換する。また、太枠で囲んだセルの文字コードはそのままでは音声再生できないが、読み方を定義して音声再生が可能なようにしている。図3(b)にその定義の一例を示している。図3(b)に示すように、TTSエンジン6が対応可能な文字コードが米国英語(US English)の場合、文字コード0x23の文字「#」は“number”に変換し、文字コード0x26の文字「&」は“and”に変換し、文字コード0x40の文字「@」は“at”に変換する。対応可能な文字コードがCanadian French,American Spanishのときは、それぞれ図3(b)に示すように変換される。
【0046】
上記の規則を適用して適切な文を生成した例を、図4を用いて説明する。図4は、デジタルオーディオ機器12から取得した4つの楽曲データの例を示している。例1は、楽曲のジャンルがクラシックであり、作曲者に“Ludwig van Beethoven”が記載されている場合である。この場合は、ジャンルがクラシックでありコンテンツが作曲者であるので、図2(c)の変換規則(1)又は(2)が採用される。作曲者の文字列が“AAA+予約語+BBB”のパターンであるので、変換規則(2)が採用されて、音声認識辞書生成用の候補文字列としては、“AAA+予約語+BBB”、“AAA+BBB”、“AAA”、及び、“BBB”にパターンマッチするように生成される。結果として、“Ludwig van Beethoven”、“Ludwig Beethoven”、“Ludwig”、及び“Beethoven”が生成される。さらに、これらの文字列から音声再生不可能な文字を変換または削除して文字列を生成する。この例では音声再生不可能な文字は存在しないため、音声認識辞書生成用の候補文字列が音声認識辞書生成用の文字列となる。
【0047】
音声認識辞書生成用の文字列をTTSエンジンに入力して、読みデータを生成して音声認識辞書に登録される。その結果、楽曲情報として“Ludwig van Beethoven”が記載されている場合に、“Beethoven”という発話がされた場合でも、元の作曲者名“Ludwig van Beethoven”に関連付けられた楽曲情報を取得することが可能となる。
【0048】
例2は、楽曲のジャンルがロックであり、楽曲名に“Come on Over”が記載されている場合である。この場合は、コンテンツが作曲者名又はアーティスト名ではなく、ジャンルがクラシックではないので、図2(c)の規則は適用されず、元の楽曲名“Come on Over”が音声認識辞書生成用の候補文字列となる。さらに、この音声認識辞書生成用の候補文字列には音声再生不可能な文字が含まれていないため、そのまま音声認識辞書生成用の文字列となる。
【0049】
例3は、楽曲のジャンルがポップであり、アーティスト名に“CHAGE&ASKA”が記載されている場合である。この場合は、コンテンツがアーティスト名であるので、図2の規則(3)が適用される。しかし、アーティスト名のパターンが“予約語+AAA”ではないため、元のアーティスト名の“CHAGE&ASKA”が音声認識辞書生成用の候補文字列となる。なお、アーティスト名に“&”が含まれているが、クラシックの作曲者名ではないので、このトークン“&”による文字列の分割は行われない。音声認識辞書生成用の候補文字列“CHAGE&ASKA”に対して音声再生不可能な文字の処理を行う。この場合は、音声再生不可能な文字として“&”が含まれている。よって、図3(b)の規則を用いて、“&”を“AND”に変換して、音声認識辞書生成用の文字列とする。これにより、元の文字列に対して“CHAGE AND ASKA”の読みデータが音声認識辞書に登録され、元の文字列を分割した文字列は登録されない。
【0050】
例4は、楽曲のジャンルがロックであり、アーティスト名に“Edgar Winter、The Edgar Winter Group”が記載されている場合である。この場合は、コンテンツのアーティスト名に、図2(a)のアーティストの場合の文字列分割用トークンが含まれているので、文字列を“Edgar Winter”と“The Edgar Winter Group”に分割する。そして、コンテンツがアーティスト名であるので、それぞれの文字列に図2(c)の規則(3)が適用される。“Edgar Winter”には、アーティスト名のパターンが“予約語+AAA”とパターンマッチしないため、元のアーティスト名の“Edgar Winter”が音声認識辞書生成用の候補文字列となる。また、“The Edgar Winter Group”は“予約語+AAA”とパターンマッチするので、“予約語+AAA”と“AAA”のパターンの文字列が生成される。その結果、“The Edgar Winter Group”と“Edgar Winter Group”が音声認識辞書生成用の文字列となる。さらに、トークン“、”で分割しない“Edgar Winter、The Edgar Winter Group”も音声認識辞書生成用の文字列とする。
【0051】
上記4つの音声認識辞書生成用の候補文字列に対して音声再生不可能な文字の処理を行う。この場合は、音声再生不可能な文字が含まれていないので、そのまま音声認識辞書生成用の文字列となる。
【0052】
次に、音声認識辞書の生成処理について図5のフローチャートを参照しながら説明する。この処理において、デジタルオーディオ機器12から取得した楽曲情報などのデータは記憶部10に楽曲毎に格納されているものとする。また、楽曲情報に応じた音声認識辞書生成用の文字列に変換するための変換規則は予め定義され記憶部10に格納されているものとする。
【0053】
まず、図5のステップS11において、記憶部10に格納されている楽曲情報を抽出す る。
【0054】
次のステップS12において、楽曲情報の種別が作曲者名か否かを判定する。作曲者名の場合にはステップS13に移行し、種別が作曲者名以外の場合にはステップS14に移行する。
【0055】
次のステップS13では、楽曲情報に記載されている作曲者名が複数存在するとき、それらを個々の作曲者に分割する。元の作曲者名に対して所定のトークン毎に文字列を分割する。作曲者名の場合の所定のトークンとしては、カンマ、コロン、スラッシュ、アンドを採用する。一方、ステップS14では、楽曲情報が作曲者名以外の場合に、元の文字列に対して所定のトークン(カンマ、又はコロン)毎に分割する。
【0056】
なお、ステップS13において、作曲者名等が複数存在しないときは、ステップS15に移行し、ステップS14において、アーティスト名等が複数存在しないときは、ステップS21に移行する。また、ステップS14の処理は楽曲情報がアーティスト名のときに行い、その他の楽曲情報(楽曲名、アルバム名)のときにはトークンによる楽曲情報の分割処理を経ずにステップS21に移行するようにしてもよい。
【0057】
次のステップS15以降の処理は、ステップS13又はステップS14において楽曲情報が分割された場合には、個々の楽曲情報に対して行われる。
【0058】
ステップS15において、楽曲情報のジャンルがクラシックか否かを判定する。楽曲情報のジャンルは楽曲情報の項目のジャンルにより判定する。ジャンルがクラシックの場合はステップS16に移行し、ジャンルがクラシック以外の場合はステップS21に移行する。
【0059】
次のステップS16からステップS18は、クラシックの作曲者の場合に音声認識辞書生成用の文字列を生成する処理である。ステップS16において、一人の作曲者名を表す文字列に対して、スペースを区切り文字として分割した要素文字列を抽出する。例えば、作曲者名が“Ludwig van Beethoven”の場合、“Ludwig”、“van”、及び“Beethoven”が要素文字列として抽出される。
【0060】
次のステップS17において、ステップS16で抽出した要素文字列から予約語を除いた要素文字列を組み合わせて音声認識辞書生成用の候補文字列を生成する。予約語は図2(b)に示すように予め規定された単語であり、音声認識用辞書の単語として単独での使用がされることのない単語である。
【0061】
例えば、元の文字列“Ludwig van Beethoven”と、ステップS16において抽出された要素文字列(“Ludwig”、“van”、“Beethoven”)から予約語“van”を除いて、“Ludwig Beethoven”、 “Ludwig”、及び“Beethoven”の3つの文字列が音声認識辞書生成用の候補文字列として生成される。
【0062】
次のステップS18では、元の文字列を音声認識辞書生成用の候補文字列に追加する。さらに、ステップS13において所定のトークンにより文字列を分割した場合は、分割前の文字列も音声認識辞書生成用の候補文字列に追加する。
【0063】
上記の例では、音声認識辞書生成用の候補文字列が、“Ludwig Beethoven”、“Ludwig”、“Beethoven”、及び“Ludwig van Beethoven”の4つになる。
【0064】
一方、ステップS15において楽曲のジャンルがクラシック以外であると判定された場合には、ステップS21において元の楽曲情報の文字列を音声認識辞書生成用の候補文字列とする。また、ステップS13又はステップS14において所定のトークンにより文字列を分割した場合は、分割前の文字列も音声認識辞書生成用の候補文字列に追加する。
【0065】
次のステップS19において、ステップS18又はステップS21において生成された音声認識辞書生成用候補文字列に対して音声再生が不可能な文字を削除するか、又は変更する処理を行う。TTSエンジン6で対応していない文字コードについては、文字列から音声データに変換することができない。そこで、図3(a)の文字コード表において二重枠で示した文字についてはスペースに置き換え、太枠で示した文字については、図3(b)に示す規則に従って文字を変換する。
【0066】
次のステップS20において、音声再生可能に処理された音声認識辞書生成用の候補文字列をTTSエンジン6に入力して各文字列に対応する読みデータを生成する。
【0067】
その後、読みデータと楽曲情報とを関連付けて音声認識辞書10bに登録する。
【0068】
なお、ステップS16からステップS18において、音声認識辞書生成用の候補文字列を生成しているが、予め図2(c)に示すような規則を規定しておき、文字列のパターンマッチング処理を行って音声認識辞書生成用の候補文字列を生成するようにしてもよい。
【0069】
また、ステップS16からステップS18においてクラシックの作曲者の場合に音声認識辞書生成用の候補文字列として元の文字列から分割する例を示したが、クラシックの作曲者以外、例えばアーティストの場合にも元の文字列から分割して複数の候補文字列を生成するようにしてもよい。
【0070】
以上説明したように、本実施形態の情報処理装置及び音声認識辞書生成方法では、楽曲情報の単語の文字列を基にしてユーザが発話すると思われる文字列を生成し、生成された文字列をTTSエンジンに入力して読みデータを取得し、楽曲情報と読みデータとを関連付けて音声認識用辞書に登録している。ユーザが発話すると思われる文字列を元の単語の文字列から生成するときには、楽曲情報の種別に応じた変換規則を用いるようにしている。例えば、楽曲情報がクラシックの作曲者の場合には基本的に作曲者名の文字列をスペースで分割した文字列を組み合わせて音声認識辞書生成用の文字列に変換しているが、楽曲情報が楽曲名の場合は、元の文字列を音声認識辞書生成用の文字列としている。これにより、ユーザが使用すると考えられる一般的に使用される単語が音声認識用辞書に登録されるとともに、楽曲名に含まれる前置詞や冠詞だけの単語のような不要な単語が登録されないようにしている。そのため、すべての楽曲情報に対してクラシックの作曲者の場合に適用される規則を用いて音声認識辞書生成用の文字列を生成する場合に比べて無駄な登録単語数が極端に減り、音声認識を効率よく行うことが可能となる。
【0071】
なお、本実施形態では、楽曲情報のうちアーティスト名及びジャンルがクラシックの作曲者名に対して文字列を分割して音声認識辞書生成用の文字列を生成する場合について説明したが、これに限らず、他の楽曲情報についてもユーザが発話する可能性の低い単語が音声認識辞書に登録されないようにする規則を予め定義するようにしてもよい。
【符号の説明】
【0072】
100…情報処理装置、
1…制御部、
1a…オーディオ制御部、
1b…音声認識/TTS制御部、
4…音声認識エンジン、
6…TTSエンジン(音声読み上げ手段)、
7…音声再生部、
10…記憶部(記憶手段)、
10a…音響モデル、
10b…音声認識辞書、
10c…音声認識辞書生成用変換規則、
10d…TTSデータ。

【特許請求の範囲】
【請求項1】
再生用の楽曲データを格納した機器と通信可能に接続される情報処理装置であって、
テキストを音声データに変換して出力する機能を有した音声読み上げ手段と、
前記楽曲データに付随した楽曲情報の文字列に対して音声認識辞書用の文字列に変換する変換規則が格納された記憶手段と、
前記楽曲データを格納した機器から楽曲データに付随した楽曲情報を取得して前記記憶手段に格納する制御手段とを有し、
前記制御手段は、前記記憶手段に格納した楽曲情報の文字列を当該楽曲情報の種別に応じた前記変換規則に従って音声認識辞書用の文字列に変換し、当該変換された文字列を前記音声読み上げ手段に入力して読みデータを取得して、当該読みデータと楽曲情報とを関連付けて音声認識用の辞書に登録することを特徴とする情報処理装置。
【請求項2】
前記制御手段は、前記楽曲情報の文字列に所定のトークンが含まれているときは当該所定のトークン毎に文字列を分割し、当該分割された文字列毎に前記変換規則を適用することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記制御手段は、前記変換規則に従って、前記楽曲情報がアーティスト名又はクラシックの作曲者名のとき、スペースを区切り文字として前記楽曲情報の文字列を分割した各文字列及び元の文字列から予め定められた予約語を削除した文字列を生成し、元の文字列とともに音声認識辞書用の文字列とすることを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記制御手段は、前記変換規則に従って、前記楽曲情報がアルバム名又は楽曲名のとき、当該アルバム名又は楽曲名の文字列を音声認識辞書用の文字列とすることを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記制御手段は、前記楽曲情報を基に生成した音声認識辞書用の文字列から音声再生不可能な記号文字を音声再生可能な記号文字に変換するか、又は削除することを特徴とする請求項4に記載の情報処置装置。
【請求項6】
前記楽曲情報の文字列を分割する前記所定のトークンは、前記楽曲情報がクラシックの作曲者名のときは、“、”、“:”、“/”、“&”のいずれかであり、前記楽曲情報がアーティスト名のときは、“、”又は“:”であることを特徴とする請求項2に記載の情報処理装置。
【請求項7】
前記予約語は、前記楽曲情報がクラシックの作曲者名のときは、“The”,“Van”,“Von”,“De”,“La”,“non”,“of”,“da”,“di”,及び“a”から“z”までのアルファベット1文字のいずれかであり、前記楽曲情報がアーティスト名のときは、“The”であることを特徴とする請求項3に記載の情報処理装置。
【請求項8】
前記制御手段は、前記音声再生不可能な記号文字のうち、“#”は文字列“number”に変換し、“&”は文字列“and”に変換し、“@”は文字列“at”に変換することを特徴とする請求項5に記載の情報処理装置。
【請求項9】
記憶手段に格納されている楽曲情報の種別を判定するステップと、
楽曲情報の種別に応じて、前記記憶手段に格納されている前記楽曲情報の文字列に対して音声認識辞書用の文字列に変換する変換規則を選択するステップと、
選択された変換規則に従って、楽曲情報を音声認識辞書用の文字列に変換するステップと、
変換された文字列を音声データに変換して読みデータを取得するステップと、
読みデータを前記楽曲情報と関連付けて音声認識用辞書に登録するステップと、
を有することを特徴とする音声認識辞書生成方法。
【請求項10】
前記変換規則を選択するステップの前に、
前記楽曲情報の文字列を所定のトークン毎に分割するステップを有することを特徴とする請求項9に記載の音声認識辞書生成方法。
【請求項11】
前記音声認識辞書用の文字列に変換するステップは、
前記楽曲情報がアーティスト名又はクラッシックの作曲者名のときにスペースを区切り文字として前記楽曲情報の文字列を分割するステップと、
当該分割された各文字列及び元の文字列毎に予め定められた予約語を削除した文字列に変換するステップと、
当該変換された文字列及び元の文字列を音声認識辞書用の文字列とするステップと、
を含むことを特徴とする請求項10に記載の音声認識辞書生成方法。
【請求項12】
前記音声認識辞書用の文字列に変換するステップは、
前記楽曲情報がアルバム名又は楽曲名のとき、当該アルバム名又は楽曲名の文字列を音声認識辞書用の文字列とするステップであることを特徴とする請求項11に記載の音声認識辞書生成方法。
【請求項13】
前記読みデータを取得するステップの前に、
前記楽曲情報を基に生成した音声認識辞書用の文字列から音声再生不可能な記号文字を検出するステップと、
当該記号文字を音声再生可能な記号文字に変換するか又は削除するステップと、
を含むことを特徴とする請求項11に記載の音声認識辞書作成方法。
【請求項14】
前記楽曲情報の文字列を分割する前記所定のトークンは、前記楽曲情報がクラシックの作曲者名のときは、“、”、“:”、“/”、“&”のいずれかであり、前記楽曲情報がアーティスト名のときは、“、”又は“:”であることを特徴とする請求項10に記載の音声認識辞書生成方法。
【請求項15】
前記予約語は、前記楽曲情報がクラシックの作曲者名のときは、“The”,“Van”,“Von”,“De”,“La”,“non”,“of”,“da”,“di”,及び“a”から“z”までのアルファベット1文字のいずれかであり、前記楽曲情報がアーティスト名であるときは、“The”であることを特徴とする請求項11に記載の音声認識辞書生成方法。
【請求項16】
前記音声再生可能な記号文字に変換するか又は削除するステップにおいて、前記音声再生不可能な記号文字のうち、“#”は文字列“number”に変換し、“&”は文字列“and”に変換し、“@”は文字列“at”に変換することを特徴とする請求項13に記載の音声認識辞書生成方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2010−156925(P2010−156925A)
【公開日】平成22年7月15日(2010.7.15)
【国際特許分類】
【出願番号】特願2009−296(P2009−296)
【出願日】平成21年1月5日(2009.1.5)
【出願人】(000101732)アルパイン株式会社 (2,424)
【Fターム(参考)】