説明

構音障害の話者をトレーニングするシステム及び方法

本発明は、モニタで表示される単語を患者に発音するように依頼し(101)、音声の品質を自動的に評価し(104、105)、音声の品質の改善又は低下を適切な手段にフィードバックする(106)コンピュータに基づいたシステムを開示する。


【発明の詳細な説明】
【技術分野】
【0001】
本発明は、構音障害の話者をトレーニングするシステム及び方法に関する。さらに、本発明は、構音障害の話者をトレーニングするコンピュータプログラムに関する。
【背景技術】
【0002】
話すことの欠点(speech deficit)は、卒中(stroke)のような神経的な病気の一般的な兆候である。米国では、700,000件の新たな卒中のケースが毎年生じている。これらのケースの20%において致命的である一方で、犠牲者の60%を通して卒中は、機能障害を引き起こす。患者の25%が話すことの欠点を示す。回復措置及び労働力の損失は、毎年米国社会に$50Bのコストを与える。
【0003】
話すことの欠点に関して、失語症と構音障害といった2つの大きなグループがある。失語症は、患者がオブジェクトの名前を正しく呼ぶ指定する能力がないことである。構音障害は、患者が単語を明確且つ正しく発音する能力がないことである。
【0004】
スピーチセラピストは、1対1のセッションで、通常、患者に単語を繰り返させることで、構音障害の話者と訓練する。患者は、詳細な訂正を受けない。明らかに、このセラピーの形式は、コストがかかり、セラピストを非常に要求する。
【0005】
コストを最適にする一方で回復の努力を最大にするため、回復のエクササイズは、管理する専門員を利用可能にすることなしに家庭で患者により継続されることが望ましい。適切なフィードバックが回復の成功を拡大することが知られている。このため、たとえばコンピュータにより自動的なエクササイズの評価が必要である。
【0006】
失語症は、たとえば、オブジェクトの画像を表示し、オブジェクトの正しい名前は何かを多数の選択で患者に尋ねることで、コンピュータでテストすることが容易である。トレーニングソフトウェアは、商業的に入手可能であり、回復のプラクティスで使用される。しかし、構音障害は、潜在的にシビアな話すことの状態のため、コンピュータでテストすることが難しい。現在、話すことの障害の管理されないトレーニングのシステムは、失語症については利用可能であるが、構音障害については利用可能ではない。
【発明の開示】
【発明が解決しようとする課題】
【0007】
本発明の目的は、構音障害の話者をトレーニングするために安価であって、信頼性が高く且つ管理を要しない技術を提供することにある。
【課題を解決するための手段】
【0008】
上記目的は、構音障害の話者をトレーニングするシステムにより本発明に従って達成される。システムは、話者の入力の発話について音質の測定値を自動的に決定するために適合される第一の計算モジュール、前記音質の測定値を話者の少なくとも1つの前の音質の測定値と自動的に比較するために適合される第二の計算モジュール、及び、この比較に基づいて話者にバイオフィードバック(生体自己制御:biofeedback)を自動的に提供するために適合されるフィードバックモジュールを有する。
【0009】
本発明の目的は、構音障害の話者をトレーニングする方法により達成され、話者の入力の発話について音質の測定値を自動的に決定するステップ、前記音質の測定値を話者の少なくとも1つの前の音質の測定値と自動的に比較するステップ、及びこの比較に基づいて、話者のバイオフィードバックを自動的に提供するステップを有する。
【0010】
また、本発明の目的は、コンピュータで実行されるためコンピュータプログラムにより達成され、前記プログラムは、該コンピュータプログラムがコンピュータで実行されたとき、話者の入力の発話について音質の測定値を自動的に決定するコンピュータ命令、前記音質の測定値を話者の少なくとも1つの前の音質の測定値と自動的に比較するコンピュータ命令、及び、この比較に基づいて、話者にバイオフィードバックを自動的に提供するコンピュータ命令を有する。本発明に従う必要な技術的な効果は、本発明に係るコンピュータプログラムの命令に基づいて実現される。
【0011】
係るコンピュータプログラムは、CD−ROMのようなキャリアに記憶することができるか、又はインターネット又は別のコンピュータネットワークを通して利用可能とすることができる。コンピュータプログラムを実行する前に、該コンピュータプログラムは、たとえばCD−ROMプレーヤといったキャリアから、又はインターネットからコンピュータプログラムを読み取り、それをコンピュータのメモリ記憶することでコンピュータにロードされる。コンピュータは、中央処理ユニット(CPU)、バスシステム、たとえばRAM又はROM等のようなメモリ手段、たとえばフロプティカルディスク又はハードディスクユニット等のようなストレージ手段、及び入力/出力ユニットを含む。代替的に、本発明の方法は、たとえば1以上の集積回路を使用してハードウェアで実現される。
【0012】
本発明のコアとなる考えは、シンプルで安価なトレーニングシステムにより、構音障害の話者を自動的にトレーニングする技術を提供することである。この考えは、たとえば標準的なコンピュータシステム、コンピュータシステムに結合されるマイクロフォン及びコンピュータシステムで実行される専用のコンピュータプログラムにより実現される。
【0013】
本発明の別のコアとなる考えは、たとえばリハビリを行なっている患者である話者がバイオフィードバックの効果により彼の状態を改善することである。バイオフィードバックは、彼自身の人体からの信号を使用することで、ある人物が彼のからだの状態を改善するためにトレーニングされる技術である。本発明のケースでは、話者の話す能力に関する情報は、話者に与えられる。好ましくは、フィードバック情報は、音声の品質の改善又は品質低下に依存する。このフィードバック情報を使用して、話者は、彼の話す能力を改善するステップを取る。バイオフィードバックのメカニズムにより、話者は、彼の話す能力に関する情報を受信、たとえば見るか又は聞くことができる。この目的のため、話者の発話は、信号に「変換」され、この信号は、たとえば点滅する電球、警報機等で話者により検出される。たとえば、前の結果に比較される音声の品質における改善は、「トラフィックライト」又は特定の音の形式で例示される。話者は、彼の技術を改善しようとし、彼自身の能力を監視する。バイオフィードバック信号を通して提供される結果によれば、話者は、彼の音声を「自動的に」調節する。係るバイオフィードバックメカニズムを使用することで、詳細な言語の訂正についての必要がない。これは、トレーニングのコスト及び努力を著しく低減する。トレーニングは完全に自動的に提供されたため、治療又はトレーニングエラーが生じない。したがって、本発明に係るトレーニング技術は、非常に信頼性が高い。
【0014】
本発明によれば、話者は、コンピュータによってのみ理解される音声を生成するためにトレーニングされない。この狙いは、話者に常に同じやり方で所定の単語を繰り返すことを要求することで容易に到達される。代わりに、本発明に係るシステム及び方法は、それぞれ平均的な人間のリスナについてユーザの音声の理解度を改善することにある。この理由のため、本発明の好適な実施の形態では、音声の品質の測定値は、平均化された通常の音声の生成から生成された音声の偏差に相関する。
【0015】
本発明は、構音障害の話者の音声の品質をトレーニングする技術の実現を与える。本発明により、ユーザは、スピーチセラピストの存在なしに、発音をトレーニングすることができる。フィードバックが患者に与えられ、良好な音声の品質に彼を導く。
【0016】
本発明によれば、管理されないトレーニングを提供することができる。したがって、本発明は、スピーチセラピストにより高価なセッションを含むコストの係るセラピーを短縮するか、又は除去することができる。要するに、本発明は、管理の必要なしに、構音障害の話者をトレーニングするためのシンプルであって、安価且つ信頼性の高い技術を提供することができる。
【0017】
本発明のこれらの態様及び他の態様は、従属の請求項で定義される以下の実施の形態に基づいて更に明らかにされるであろう。
【0018】
本発明の好適な実施の形態によれば、システムは、話者の入力の発話を記録するために適合される記録装置を有する。本発明の方法によれば、話者の入力の発話は、音声の品質の測定値を決定する前に記録される。たとえば、マイクロフォンである記録装置は、話者の声において直接に供給するため、第一の計算モジュールに接続されることが好ましい。代替的に、話者の発話は、マイクロフォンから、たとえばボイスフィルタ等の前処理装置に送信され、この前処理装置は、第一の計算モジュールにより実行される計算ステップの前に話者の声を前処理するために適合される。好ましくは、話者の発話は、発話が行なわれた直後に処理され、評価される。すなわち、発話は、データベース等に記憶されない。したがって、トレーニングシステムは、非常にシンプル且つ安価なやり方で設計される。
【0019】
本発明の別の好適な実施の形態によれば、システムは、話すことの命令を話者に提供するために適合されるインタフェースモジュールを有する。本発明の方法によれば、話すことの命令は、話者の入力の発話を記録する前に、話者に供給される。この目的のため、トレーニングシステムのインタフェースモジュールは、話者に繰り返されることとなる単語を表示するための、たとえばビルトインディスプレイといったモニタ手段を有することが好ましい。言い換えれば、話者は、繰り返されるべき単語を読む。ビルトインモニタ手段の代わりに、インタフェースモジュールは、外部ディスプレイに接続される。モニタリング手段の代わりに、又は付加的に、インタフェースモジュールは、話者により繰り返されるべき単語を再生するための、たとえばビルトインラウドスピーカといった音声出力装置を有する。言い換えれば、スピーカは、繰り返されるべき1又は複数の単語を聞く。係る話すことの命令が実現された場合、第一の計算モジュールにより実行される音声分析は、話者がランダムな単語を話すケースよりも容易であって高速且つ複雑さのないものとすることができる。したがって、第一の計算モジュールは、複雑さのないやり方で構築することができ、これにより、大幅なコスト削減となる。
【0020】
スピーカの発話がトレーニングシステムに入力された後、システムは、音声の品質を自動的に評価する。この目的のため、音声認識技術が使用される。
【0021】
本発明の別の好適な実施の形態によれば、第一の計算モジュールは、音素及び/又は単語レベルで音声認識及び音声分析を実行するために適合される音声分析コンポーネントを有する。本発明の方法によれば、音声の品質の測定値を決定するステップは、音素及び/又は単語レベルで音声分析を実行するステップを含む。構音障害の話者は大部分のケースにおいて特定の音の生成における不足を有するため、音素及び/又は単語レベルでの音声分析が好ましい。これらの音は音素を形成し、この音素は、音節、単語及び文全体の音における違いを形成する音声の最小ユニットである。ある単語レベルでの音声分析は、たとえば「チーズ“cheeze”」及び「フリーズ“freeze”」といった両者共に“e”の音素を含む類似の単語における音素の品質の比較を可能にする。また、これは、たとえば患者が“cold”、“mold”及び“kitten”を話すことができる一方で“killed”を発音することに問題を示す場合、近傍の音素の環境における音素を分析することもでき、“i”及び“l”のシーケンスが問題を引き起こすことが明らかとなる。したがって、音素に基づいた音声分析は、複数の構音障害ではない話者により発話された同じ音から、どの特定の音が逸脱するかを分析するのを可能にする。
【0022】
本発明の別の好適な実施の形態によれば、第一の計算モジュールは、複数の構音障害ではない話者のデータに基づいて、入力の発話と基準データとを比較するために適合される。本発明の方法によれば、音声の品質の測定値を決定するステップは、入力の発話を係る基準データと比較するステップを含む。好ましくは、基準データは、複数の構音障害の話者の平均化されたデータに基づいている。この目的のため、基準となる発音でのデータは、トレーニングで使用されることとなるそれぞれの単語について、たとえばデータベースに提供される。基準となる発音データは、トレーニングの前に収集され、複数の構音障害ではない話者による単語の平均化された発音を表す。
【0023】
音声分析及び基準データとの比較に基づいて、第一の計算モジュールは、客観的な音声の品質の測定値を計算する。音声の品質の測定値は、それぞれ単一のトレーニングワードについて決定されることが好ましい。全ての結果、すなわちトレーニングワードについての音声の品質の測定値は、トレーニングデータベースに第一の計算モジュールにより記憶される。好ましくは、トレーニングの結果は、タイムスタンプと共に記憶される。この手段により、それぞれの結果は、特定の日時及び時間に後に割り当てられる。
【0024】
本発明の別の好適な実施の形態によれば、第二の計算モジュールは、話者の前の結果に関して音声の品質の測定値の相対的な評価を実行するために適合される評価コンポーネントを有する。本発明の方法によれば、音声の品質の測定値を比較するステップは、話者の前の結果に関する音声の品質の測定値の相対的な評価を実行するステップを含む。この目的のため、履歴のトレーニングデータ、すなわちそれぞれの単語の前の音声の品質の測定値は、比較を実行するために使用される。係る履歴のトレーニングデータは、トレーニングデータベースに記憶され、このデータベースは、第二の計算モジュールによりアクセスされる。好ましくは、第二の計算モジュールは、前の結果だけでなく、トレーニングが実行された日時に依存して音声の品質を評価する。したがって、時間に依存するパフォーマンスの変動は、最小化されるか、又は除去される。
【0025】
前の結果に関する音声の品質の測定値の評価の結果として、好ましくはそれぞれ1つの単語について発音の改善又は障害に関する情報が改善される。言い換えれば、個人の改善は、バイオフィードバックについて使用される。
【0026】
本発明のこれらの態様及び他の態様は、以下の実施の形態及び添付図面を参照して、例示を通して、以下に更に詳細に記載される。
【発明を実施するための最良の形態】
【0027】
記載される実施の形態では、構音障害のスピーカをトレーニングするシステム1は、たとえばノートブック又はPCといった標準のコンピュータシステム2、コンピュータシステム2に結合されるマイクロフォン3、及びコンピュータシステム2で実行される専用コンピュータプログラムにより実現される。コンピュータシステム2で実行されるコンピュータプログラムは、第一の計算モジュール4及び第二の計算モジュール5を実現する。さらに、コンピュータシステム2は、結合されたインタフェース及びフィードバックモジュール6を有する。システム1の全ての機器は、本発明に係る方法を実行するために適合される。全てのモジュール、装置及びコンポーネントは、データ及び/又は情報の入力、処理及び出力の手順が本発明の方法に従って実行されるやり方で構築及びプログラムされる。特に、コンピュータシステム2の処理ユニットは、結果を決定及び評価するのと同様に、入力データを計算する全てのタスクを実行するために適合される。これは、ソフトウェアがコンピュータシステム1の処理ユニットで実行されるとき、本発明の方法のステップを実行するために適合されるコンピュータ命令を含む専用のコンピュータソフトウェアにより、本発明に従って達成される。処理ユニット自身は、機能モジュール又はユニットを含む場合があり、これは、ハードウェア、ソフトウェア、又は両者の組み合わせの形式で実現される。
【0028】
第一のステップ101では、ユーザ(スピーカ)は、ある単語又は短い文を話すことを要求される。このため、結合されたインタフェース及びフィードバックモジュール6は、話者に話すことの命令を提供する。結合されたインタフェース及びフィードバックモジュール6は、コンピュータシステム2のビルトインモニタ7、又はコンピュータシステムに接続されるたとえばテレビジョンセットである外部モニタリング手段を有する。結合されたインタフェース及びフィードバックモジュール6は、話者により繰り返される単語を再生するビルトインラウドスピーカ8を更に有する。話すことの命令を提供するため、結合されたインタフェース及びフィードバックモジュール6は、専用のコンピュータプログラムにより制御される。
【0029】
次のステップ102では、ユーザの話、すなわちスピーカの入力の発話は、マイクロフォン3により記録され、このマイクロフォンは、コンピュータシステム2に接続され、処理のためにコンピュータシステム2に音声信号を転送するために適合される。
【0030】
その後、話者の入力の発話について音声の品質の測定値は、第一の計算モジュール4により計算される。このため、音声認識は、第一の計算モジュール4の音声分析コンポーネント11によりステップ103で実行される。音声認識は、話された1又は複数の単語を決定するため、音素及び/又は単語レベルで実行される。その後、第一の計算モジュール4の比較コンポーネント12は、ステップ104で、入力の発話を基準データと比較する。この基準データは、複数の構音障害ではない話者の平均化されたデータに基づく。このため、比較コンポーネント12は、リファレンスデータベース9にアクセスし、このデータベースでは、それぞれのトレーニングワードの基準データが記憶されている。音声分析及び基準データとの比較に基づいて、第一の計算モジュール4は、それぞれの1つのトレーニングワードについて客観的な音声の品質の測定値を計算する。
【0031】
好ましくは、第一の計算モジュール4は、以下のように動作する。単語Wは、発音のトレーニングのために与えられる。話者の音の生成は、単語Oである場合がある。第一の計算モジュール4は、2つの確率を計算する。はじめに、与えられた音の生成Oが与えられた単語Wに整合する、いわゆる「強制アライメント“forced alignment”」の確率。第二に、所与の音の生成Oが任意の一連の音素、いわゆる「フリー音素ループ」である確率の最大値。2つの確率の比(R=W/O)は、与えられた単語Wの発音の品質の測定値を与える。このアプローチを説明する詳細は、H.Boulard及びB.D’hoorsによる論文“Optimizing recognition and rejection performance in word spotting systems” Proc. ICASSP, Vol 1, Page373, April1994で発見される。
【0032】
その後、音声の品質の測定値Rは、タイムスタンプ及び対応する1以上の単語と共にトレーニングデータベース10における第一の計算モジュール4により記憶される。
【0033】
次のステップ105では、第二の計算モジュール5の評価コンポーネント13は、音声の品質の測定値を話者の少なくとも1つの前の音声の品質の測定値と自動的に比較する。このステップの間、前の結果は、現在のセッションの全ての値を平均化し、及び/又はセッションの最小/最大値を使用し、及び/又は時間に関してそれぞれの値を重み付けし(最近の値がより大きく重み付けされる)、続いて平均化し、前のセッションの累積された結果が考慮される。このため、評価コンポーネントは、トレーニングデータベース10にアクセスし、このデータベースでは、それぞれのトレーニングワードの前の結果が記憶される。システムが最初に使用される場合、標準の単語のセットに関する測定された音声の品質は、履歴のトレーニングデータのデータベース10を初期化し、バイオフィードバックが相対的に与えられるパフォーマンスレベルを初期化するために使用される。
【0034】
次のステップ106において、フィードバックが話者に与えられ、このフィードバックは、現在のエクササイズの結果に基づいている。このため、結合されたインタフェース及びフィードバックモジュール6は、「トラフィックライト」シグナリングスキームを提供し、このスキームでは、改善のケースにおいて、コンピュータシステム2のビルトインモニタ7を通して話者に緑色の光が示され、改善がないケースにおいて、黄色の光が示され、品質低下のケースにおいて、赤色の光が示される。フィードバック情報を提供するため、結合されたインタフェース及びフィードバックモジュール6は、コンピュータプログラムにより制御される。
【0035】
好ましくは、話者は、終了条件に適合するまで、トレーニングプロセスを繰り返すことが要求される(ステップ107)。係る終了条件は、たとえば、最長のトレーニング時間に到達したこと、ある行における最大の「緑色」の結果に到達したこと、ある行における最大の「黄色」の結果に到達したこと、ある行における最大の「赤色」の結果に到達したこと、エクササイズのランの最大数を超えたこと、手動的な停止である。
【0036】
一般的なトレーニング結果は、それぞれ1つのワード又はフレーズに関連するトレーニング結果と同様に、結果のデータベース(図示せず)に記憶され、及び/又はたとえばインターネット等のコンピュータネットワークを通してセラピストへのオンラインデータ伝送により、コンピュータシステム2によりセラピストにとって利用可能にされる。
【0037】
本発明は、家庭用の卒中検査の一部として、家庭ベースのリハビリ機器の一部として、リハビリテーションクリニックの一部として使用されることが好ましい。本発明は、遠隔治療のプラットフォームの一部として更に使用される。
【0038】
本発明は上述された例示的な実施の形態の詳細に限定されるものではなく、本発明は、本発明の精神又は本質的な属性から逸脱することなしに他の特定の形式で実施されることは、当業者にとって明らかであろう。したがって、本発明の実施の形態は、例示的であって限定的ではないものとして全ての観点で考慮されるべきであり、本発明の範囲は、上述された記載ではなく特許請求の範囲により示され、請求項の等価なものの意味及び範囲に含まれる全ての変形は、本発明にあると受け入れられることが意図される。さらに、単語「有する“comprising”」は、他のエレメント又はステップを排除しないこと、単語“a”又は“an”は、複数を排除するものではなく、コンピュータシステム又は別のユニットのような1つのエレメントは、請求項で引用される幾つかの手段の機能を達成することは明らかである。請求項における参照符号は、関連される請求項を限定するものとして解釈されるべきではない。
【図面の簡単な説明】
【0039】
【図1】本発明に係るシステムの概念的なブロック図である。
【図2】本発明に係る方法の簡略化されたフローチャートである。
【符号の説明】
【0040】
1:システム
2:コンピュータ
3:マイクロフォン
4:第一の計算手段
5:第二の計算手段
6:結合されたインタフェース及びフィードバックモジュール
7:モニタ
8:ラウドスピーカ
9:リファレンスデータベース
10:トレーニングデータベース
11:音声分析コンポーネント
12:比較コンポーネント
13:評価コンポーネント

【特許請求の範囲】
【請求項1】
話者の入力の発話について音声の品質の測定値を自動的に決定する第一の計算モジュールと、
前記音声の品質の測定値を、前記話者の少なくとも1つの前の音声の品質の測定値と自動的に比較する第二の計算モジュールと、
上記比較に基づいてバイオフィードバックを前記話者に自動的に供給するフィードバックモジュールと、
を有する構音障害の話者をトレーニングするシステム。
【請求項2】
前記話者の入力の発話を記録する記録手段を有する、
請求項1記載のシステム。
【請求項3】
前記話者に話す命令を供給するインタフェースモジュールを有する、
請求項1記載のシステム。
【請求項4】
前記第一の計算モジュールは、音素及び/又は単語レベルでの音声分析を実行する音声分析手段を有する、
請求項1記載のシステム。
【請求項5】
前記第一の計算モジュールは、前記入力の発話を基準データと比較する比較手段を有し、前記基準データは、複数の構音障害ではない話者のデータに基づく、
請求項1記載のシステム。
【請求項6】
前記第二の計算モジュールは、前記話者の前の結果に関する前記音声の品質の測定値の相対的な評価を実行する評価手段を有する、
請求項1記載のシステム。
【請求項7】
構音障害の話者をトレーニングする方法であって、
話者の入力の発話について音声の品質の測定値を自動的に決定するステップと、
前記音声の品質の測定値を、前記話者の少なくとも1つの前の音声の品質の測定値と自動的に比較するステップと、
上記比較に基づいて、バイオフィードバックを前記話者に自動的に供給するステップと、
を有する方法。
【請求項8】
コンピュータで実行されるコンピュータプログラムであって、
話者の入力の発話について音声の品質の測定値を自動的に決定するコンピュータ命令と、
前記音声の品質の測定値を、前記話者の少なくとも1つの前の音声の品質の測定値と自動的に比較するコンピュータ命令と、
上記比較に基づいて、バイオフィードバックを前記話者に自動的に供給するコンピュータ命令と、
を有するコンピュータプログラム。


【図1】
image rotate

【図2】
image rotate


【公表番号】特表2009−538441(P2009−538441A)
【公表日】平成21年11月5日(2009.11.5)
【国際特許分類】
【出願番号】特願2009−511623(P2009−511623)
【出願日】平成19年5月11日(2007.5.11)
【国際出願番号】PCT/IB2007/051787
【国際公開番号】WO2007/135605
【国際公開日】平成19年11月29日(2007.11.29)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【Fターム(参考)】