音声類似度判断システム

【課題】話者である自分の音声と相手の音声がどれくらい似ているかを定量的に測定並びに表示すること。
【解決手段】話者が音声類似度判断クライアント装置と音声類似度判断サーバ装置を使って、自分の入力した音声と対象となる相手の音声とがどれくらい似ているか、音声認証技術を用いて定量的に測定し、その結果を音声類似度判断クライアント装置に接続する表示装置に表示することにより、本課題を解決することが可能となる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、話者の音声が比較対象の音声情報とどれだけ似ているかを定量的に表示可能な音声類似度判断システムに関するものである。
【背景技術】
【０００２】
音声類似度判断は、入力された音声情報と予め登録されている音声情報とを比較して、予め登録されている音声と似ているかを識別する音声認識技術である。この音声類似度判断技術は、コールセンターサービスなどにおいて、本人の音声であるかを認証する仕掛けとして実用に共されている。コールセンターサービス以外にも、特許文献1や特許文献2、特許文献3に記載されているように、音声類似度判断技術をカラオケ装置に適用することも考えられている。特に特許文献１および特許文献２には、話者が別人の音声を模倣した場合、別人の音声とどれくらい似ているかを定量的に測定し、表示することが記載されている。
【０００３】
【特許文献１】特開平9-16189号公報
【特許文献２】特開平11-259081号公報
【特許文献３】特開平10-26994号公報
【発明の開示】
【発明が解決しようとする課題】
【０００４】
これら特許文献に記載された発明では、カラオケ装置を設置する場所それぞれに音声のファイルを媒体で用意する必要があり、カラオケ装置の設置場所が多くなることが予想されるチェーン展開のビジネスでは音声ファイルの保守・管理が煩雑となる。また、類似度を測定する対象の音声はCD-ROM等のメディア媒体で管理するため、音声品質の劣化が予想され、正しい測定が困難となる可能性がある。
【０００５】
このため、入力された音声の類似度判断の基準となる音声データを電子ファイルとして一括して管理する方法、ならびにカラオケ装置を多数設置するようなビジネスモデルに適したシステムが必要となる。
【課題を解決するための手段】
【０００６】
上記課題を解決するため、本発明では、歌い手の音声を入力するカラオケ端末装置をクライアント装置とし、クライアント・マシンは歌い手の音声をデジタル・データとしてネットワーク経由でサーバ装置に送信する。サーバ装置は類似度を測定する対象の音声データをデータベースとして保持しており、クライアント装置からの音声データと保持しているデータとを比較し、その類似度を判定する。そしてサーバ装置は判定結果をクライアント装置に送信し、クライアント装置は受信した判定結果を画面に表示する。
【発明の効果】
【０００７】
本発明により、サーバ装置にて類似度を測定する対象となる音声データを一括して保守・管理することができるため、クライアント装置側で当該音声データを保管する必要が無くなる。このためクライアント装置が多数ある場合、類似度判定の基準となる音声データの保守・管理が容易となる。また本発明により、大規模にチェーン展開するカラオケ店においても、モノマネ等の類似度を判定するという新しいサービスを利用者に容易に提供することが可能となる。
【発明を実施するための最良の形態】
【０００８】
図１に本発明システムの1実施例のシステム構成図を示す。この実施例におけるシステ
【０００９】
ムは、音声類似度判断サーバ装置1と、音声類似度判断クライアント装置からなる。音声類似度判断クライアント装置は例えば、クライアント装置本体３と、サーバ装置からのモノマネ測定（類似度判断）結果を表示する表示装置4と、利用客が音声を入力するマイク等の音声入力装置５と、スピーカ等の音声出力装置6と、利用客が曲目を選択する等、クライアント装置を操作するためのリモコンやマウス等の入力装置7からなる。音声類似度判断クライアントと音声類似度判断サーバ1とはインターネット網2を介して相互に通信する。
【００１０】
図2は本発明システムの1実施例のクライアント装置本体３の機能ブロック構成図である。この実施例におけるクライアント装置本体３は、話者からの入力された音声を受信処理する音声入力部301と、音声類似度判断サーバ装置1からの類似度判断結果を表示装置4へ表示するための表示処理部302と、表示処理部302と表示装置4とのインタフェースである表示出力部303と、入力装置７からの制御信号を受信処理する制御情報入力部304と、利用客から入力された音声を一旦蓄積し、あるいは音声類似度判断サーバ装置1との接続に必要となる装置構成情報等を保存する記憶部305と、音声類似度判断サーバ装置1との音声類似度判断用の通信を実施するための類似度判断端末処理部306と、音声類似度判断サーバ装置1とのインターネット通信のための入出力部307と、音声類似度判断サーバ装置1から受信した音声を出力するための音声通信処理部308、音声通信処理部308と音声出力装置6とのインタフェースである音声出力部309とからなる。
【００１１】
図3は本発明システムの一実施例のモノマネ測定用の音声類似度判断サーバ装置1の機能ブロック構成図である。この実施例におけるサーバ装置１は、インターネット接続用のインタフェースである入出力部101と、利用客の音声との判断対象となる音声データを予め保持する磁気媒体や光ディスク、または半導体記憶装置等の記憶部104と、モノマネの度合いを測定するための本人らしさ計測処理部102と、本人らしさ計測処理部102からの指示により、記憶部104に記憶されている音声類似度判断対象となる音声情報と、音声類似度判断クライアント装置からの音声との類似度を判断し、類似度判断の結果として、どれくらい2つの音声が似ているかを定量値として出力する音声類似度判断処理部103と、音声類似度判断クライアント装置との間で音声データの送受信を行なうための音声通信処理部105からなる。
【００１２】
図5は本発明システムの一実施例の音声類似度判断サーバ装置1の記憶部104が保持するデータの概要を示す。記憶部104には、音声データを識別するための情報である音声識別番号501と、この音声識別番号毎に蓄積されている音声データの保存パス情報502、503が記憶されている。パス情報502で取得される音声データは、音声類似度判断クライアント装置へ送信される音声データであり、利用者が歌うときの伴奏曲である。保存パス503で取得される音声データは、本人らしさ計測処理部102及び音声類似度判断処理部103で使用する音声データであり、音声類似度判断クライアントで入力された音声情報との類似度対象となる音声データである。音声通信処理部105は音声を再生する場合、記憶部104を参照して音声データ502の保存パス情報を抽出し、該当する音声データを取得して音声類似度判断クライアントへインターネット網を介して送信する。
【００１３】
図6は本発明システムの一実施例の音声類似度判断クライアント装置内部の記憶部305が保持するデータの概要を示す。音声識別番号601は音声データを識別する情報であり、サーバ装置501の音声識別番号501と対応しており、サーバ装置およびクライアント装置間で音声データを一意に識別・特定できる情報であれば良い。保存パス情報602は利用客の音声データの保存パスを示す情報である。なお、サーバ装置、クライアント装置ともに保存パス情報により音声データと音声識別情報の対応関係を管理しているが、記憶部の容量によっては音声識別情報に対応させて音声データを直接記憶させても良い。保存パス情報503の音声データと保存パス情報602の音声データを比較することで、利用客の音声が例えば本物の歌手の音声とどれくらい似ているかを定量値として出力することができる。類似度の判定処理には、既存の音声類似度判断技術を利用することができる。
【００１４】
図4は本発明システムの一実施例のシステム動作シーケンス図である。まず、利用客が入力装置7を使用して、モノマネ測定のためのクライアントソフトウェアを起動する。すると、クライアント装置本体3は予め登録されているモノマネ対象のメニューを表示装置4に表示する。利用客が入力装置7を用いてモノマネ対象を選択すると、クライアント装置本体３は、モノマネ対象の音声を一意に識別するためサーバ装置1とクライアント装置本体３の間で共通に認識されている、例えば番号やファイル名等の音声識別情報を特定する。モノマネ対象の音声に関する情報は、予め、音声類似度判断クライアント装置の記憶部に保存されているものとし、音声類似度判断サーバ装置の記憶部にも同一の情報が保存されているものとする。
【００１５】
クライアント装置本体３は、利用客がモノマネ対象音声を選択した後、音声類似度判断サーバ装置1から該当する音声情報を取得するために、音声通信処理部308、入出力部307を介して、通信接続要求メッセージ401を音声類似度判断サーバ装置1へ通知する。通信接続要求メッセージ401に特定した音声識別情報を含めることで、音声類似度判断サーバ1に音声識別情報を通知しても良い。この接続要求には、例えばSIP（Session Initiation Protocol）のようなインターネット電話の技術を用いることができる。この場合、クライアント装置本体３は、入力装置７からの指示により特定された音声識別情報を、SIPメッセージ（INVITE）のRequest-URIに設定して送信すれば良い。
【００１６】
音声類似度判断サーバ装置1で、前記通信接続要求401を受信すると、入出力部101を介して、音声通信処理部105で受信処理を行い、通信接続要求受付メッセージ402を返信し、続けて音声通信接続応答メッセージ403を送信する。これにより本発明のシステムとしてサーバ装置1とクライアント装置の間で音声通信が可能な状態となり、音声類似度判断サーバ装置1から伴奏曲を例えばRTPパケット上で音声類似度判断クライアント装置へ送出可能な状態となる。
【００１７】
また音声類似度判断サーバ装置1では、例えばSIPの場合はINVITEメッセージのRequest-URIを参照する等して、通信接続要求メッセージ401から音声識別情報を抽出する。そしてサーバ装置1の音声通信処理部105は抽出した音声識別情報をもとに、記憶部104に格納された音声ファイル検索し、類似度判断の基準となる音声ファイルを取得する。この音声ファイルは記憶部104にて保存パス502により取得される、伴奏部分の楽曲である。そしてサーバ装置１は、取得した音声ファイルをクライアント装置本体３へ送信する（404）。このとき、音声ファイルの転送方法については、一般的なファイル転送技術が使われても良い。
【００１８】
クライアント装置本体３は、サーバ装置1から転送された音声情報404に再生処理を施した後、音声出力装置6によって出力する（406）。利用客は音声出力装置6からの音楽にあわせて音声入力装置5を使用して音声を入力し、クライアント端末本体3は入力された音声を音声入力部301、音声通信処理部308、類似度判断端末処理部306を介して記憶部305に蓄積する（407）。
【００１９】
話者からの音声入力が完了した後、クライアント装置本体３は、蓄積した音声情報と、該当する音声情報（音声識別番号501あるいは音声識別番号601）を音声類似度判断サーバ装置1へ転送する（408）。転送する方法としては、既存技術であるFTP等の通信プロトコルを使用しても良い。
【００２０】
音声類似度判断サーバ装置１は音声類似度判断クライアント装置から転送された音声を受信すると、本人らしさ計測処理部102、音声類似度判断処理部103を介して前記再生した音声との類似度判断を行う（410）。このときサーバ装置１は、クライアント装置本体３から送信された音声識別情報を基に、記憶部104の保存パス情報503を用いて比較対照となる音声ファイルを取得する。そしてサーバ装置1は、音声類似度判断処理後、類似度判断結果を音声類似度判断クライアント装置へ通知する（411）。
【００２１】
音声類似度判断クライアント装置では、音声類似度判断サーバ装置1からの音声類似度判断結果を受信すると、入出力部307、類似度判断端末処理部306を介して表示処理部302で受信処理を行い、表示出力部303を介して、表示装置4で表示する（412）。これにより、本発明システムを利用した音声類似度判断、類似度判断結果の表示が可能となる。
【００２２】
以上の実施例では、サーバ装置１とクライアント装置間の通信にSIPを用いた場合について説明したが、両装置間の通信プロトコルはこれに限られない。また、SIPを用いる場合、INVITEメッセージ以外のSIPメッセージの内容の詳細については、SIPプロトコルの規定（RFC3261）に従うものとする。また、上記実施例の場合、音声通信処理は音声類似度判断結果411を通信するまでの間は音声通信状態である必要がある。
【図面の簡単な説明】
【００２３】
【図１】話者音声類似度判断による、本人らしさを測定する音声類似度判断システム構成を示す図である。
【図２】音声類似度判断クライアント装置構成を示す図である。
【図３】音声類似度判断サーバ装置構成を示す図である。
【図４】システム動作シーケンスを示す図である。
【図５】音声類似度判断サーバ装置記憶部構成を示す図である。
【図６】音声類似度判断クライアント装置記憶部構成を示す図である。
【符号の説明】
【００２４】
１音声類似度判断サーバ装置
２インターネット網
３音声類似度判断クライアント装置（端末本体）
４音声類似度判断クライアント装置（表示装置）
５音声入力装置
６入力装置
７音声出力装置

【特許請求の範囲】
【請求項１】
ユーザの入力する音声が予め記録された音声とどれだけ似ているかを判定するサーバ・クライアント型の音声類似度判定システムにおいて
ユーザが使用するクライアント装置と、前記音声類似度を判定する一連の処理を制御するサーバ装置とをネットワークを介して接続し、
前記クライアント装置は、類似度の判定対象となる音声データの選択をユーザに促し、前記ユーザが選択した第1の音声データを送信するよう前記サーバ装置に要求し、
前記サーバ装置は前記クライアント装置からの要求に応じて、前記第1の音声データを前記クライアント装置へ送信し、
前記クライアント装置は、前記サーバ装置から送信された前記第1の音声データを音声として再生した後でユーザに対して当該再生した音声データと同じ内容の音声の入力を促し、前記ユーザが入力した音声を第2の音声データとして前記サーバ装置へ送信し、
前記サーバ装置は、前記クライアント装置から送信された前記第2の音声データと前記第1の音声データとの類似度を判定し、当該判定結果を前記クライアント装置へ送信し、
前記クライアント装置は、前記サーバ装置から送信された前記判定結果をユーザに表示することを特徴とする音声類似度判定システム。
【請求項２】
請求項１に記載の音声類似度判定システムにおいて、
前記クライアント装置は、
いずれの音声との類似度を判定するかをユーザに選択させ、
ユーザの音声を入力して音声データを生成することを特徴とする音声類似度判定システム。
【請求項３】
請求項１に記載の音声類似度判定システムにおいて、
前記サーバ装置は、
前記ユーザ端末からの要求に応じて音声の類似度を判定するための一連の処理を実行する制御部と、
ユーザの音声との比較対象となる、前記第1の音声データを含む複数種類の音声データを記憶する記憶部と、
前記通信処理部を介して受信したユーザの音声データと、前記記憶部に記憶された音声データとの類似度を判定する類似度判定部とを有することを特徴とする音声類似度判定システム。

【図１】