説明

消費者電化製品に関連する装置をボイス制御する方法及び装置

【課題】 本発明は、ボイス制御する方法を特定することを目的とする。
【解決手段】 消費者電化製品に関連する装置のボイス制御において、ユーザの音声入力はディジタル化されたボイス信号に変換される。音声の個々の音の特性であり、従って口頭の音の認識を可能にする第1の特徴は、ディジタル化されたボイス信号から抽出される。更に、夫々のユーザの声の特性把握を可能にし、異なるユーザの音声入力間で区別するために使用される第2の特徴がディジタル化された音声信号から抽出される。これは、オペレータ制御コマンドを表わす、現在のユーザの音声入力と他の人による発声との間で区別し、現在のユーザのオペレータ制御コマンドにだけ応答するよう、装置が作動されることを可能にさせる。更に、異なるユーザの視聴傾向の分析の質はユーザ間の区別によって改善され得る。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、消費者電化製品に関連する装置をボイス制御する方法及び装置に関わる。
【背景技術】
【0002】
消費者電化製品に関連する装置、例えば、テレビジョンセット又はビデオレコーダのオペレータ制御は、ボイス制御によりユーザに簡単になり得る。例えば、装置設定の変更、例えば、局の選択のようなオペレータ制御器能の実行、又は、プログラミング動作の実施のために音声制御を使用することが公知である。
【0003】
この目的のために、ユーザによって話されるオペレータ制御コマンドは、最初に音響信号として検出され、電気信号に変換され、ディジタル化される。ディジタル化されたボイス信号は、音声認識システムに供給される。音声認識は、通常ここでは音響モデル及び音声モデルに基づく。音響モデルは、多数の音声パターンを使用し、数学的アルゴリズムが口頭の言葉に音響的に最もよく適合する言葉を示すために使用される。音声モデルは、どの文脈中で及びどの頻度である言葉が通常使用されるかにおいて多数の文書サンプルに基づいて確立される分析に基づく。
【0004】
現行のシステムでは、遠隔制御ユニットと一体化されたマイクロホンにオペレータ制御コマンドを話す。騒がしい背景の雑音によって生じる認識率の低下は、ユーザの口の直ぐ前で遠隔制御ユニットを保持することによって防止される。しかしながら、これは、従来の遠隔制御ユニットの場合のように、ユーザが遠隔制御ユニットを持ち上げなくてはならないことをまだ必要とする。音声入力に関して、一つ以上のマイクロホンが消費者電化製品に関連する装置に設けられた場合にはより便利になり得、それによりユーザは遠隔制御ユニットを携帯することなく部屋の任意の所望の場所からオペレータ制御を実行することができる。背景の騒がしさの要求される抑制は、この場合、「統計ビーム形成」又は「ブラインドソース分離」のような特別なマイクロホンアレイ及び方法の使用によって行われ得る。しかしながら、動作中の装置は、どの音声入力が現在のユーザによるものかを判定することができない。従って、これらオペレータ制御コマンドだけに応答するが他の人による発声を無視することは可能でない。
【0005】
ユーザの便宜をよりよくするために更に試みられる方法は、テレビジョン又はセットトップボックスと一体化されたハードディスクへのテレビジョン番組の自動バッファ記憶である。視聴傾向の分析後、この場合、ユーザが定期的に予め選択した番組又は番組のタイプが自動的に記録される。ユーザが任意の時間にテレビジョンをオンにする場合、ユーザはある程度の確率で、お気に入りの番組を観ることができる。しかしながら、ユーザが数人いる場合、どのユーザがどの時間にテレビジョンを作動したかを区別することが可能でないことにより分析の質が劣化される。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明は、前述の不都合な点を回避する、ボイス制御する方法を特定する目的に基づく。
【課題を解決するための手段】
【0007】
この目的は、請求項1記載の方法によって実現される。
【0008】
原則として、消費者電化製品に関連する装置をボイス制御する方法は、ユーザの音声入力をディジタル化されたボイス信号に変換することを含む。音声の個々の音の特性であり、従って、口頭の音の認識を可能にする第1の特徴がディジタル化されたボイス信号から抽出される。更に、夫々のユーザの声の特性把握を可能にし、異なるユーザの音声入力の間で区別するために使用される第2の特徴がディジタル化された音声信号から抽出される。第1のユーザからのボイスコマンドの後、特徴的な声の特徴に関して更なる音声入力を試験し、これら特徴に基づいて同じ話者にこの音声入力が割り当てられ得る場合にだけこの音声入力を受けることによって、更なるボイスコマンドがこの第1のユーザからだけ受けられる。
【0009】
結果として、所与の期間中に幾人かの同時ユーザのうちの一人だけがボイス制御に関わる装置を作動し得ることを確実にし得、これは幾人かのユーザのうち一人だけが適合する遠隔制御ユニットを有する場合に類似する。
【0010】
特に、装置をオンにするためのボイスコマンドが任意の第1のユーザから受けられることが有利であり、その後、この第1のユーザからのボイスコマンド入力だけが受けられる。
【0011】
装置をオフにするためのボイスコマンドは、第1のユーザからだけ受けられることが好ましく、装置をオフにした後、ボイスコマンドが任意のユーザから再び受けられることが可能となる。
【0012】
しかしながら、ある適用法に関して、装置をオフにするためのボイスコマンドが任意のユーザから受けられることが有利となり得る。
【0013】
同様にして、第1のユーザに入力された後に、第2のユーザからのボイスコマンドが受けられることを可能にするオペレータ制御コマンドが有利的に提供される。これにより、第1のユーザから第2のユーザへ遠隔制御ユニットを渡すことに相当するように、オペレータ制御の権限を譲ることを可能にする。
【0014】
視聴傾向の分析を実施し、この分析から様々なユーザのプロフィールを形成するために、様々なユーザの識別が行われることが特に有利となる。
【0015】
このようにして得られるユーザプロフィールは、異なるユーザのために好ましい番組を別々にバッファ記憶することを可能にするようテレビジョン番組のバッファ記憶装置において好ましくは使用される。
【0016】
同様にして、ユーザプロフィールは、様々なユーザの視聴傾向に適する視聴されるべき番組を提案するために使用されてもよい。
【図面の簡単な説明】
【0017】
【図1】あるユーザからだけ将来のボイスコマンドを受けるために様々なユーザのボイスコマンド間で区別する方法のシーケンスを概略的に示す図である。
【図2】この識別から様々なユーザのユーザプロフィールを形成するために様々なユーザを識別する方法のシーケンスを概略的に示す図である。
【発明を実施するための形態】
【0018】
本発明の実施例を図面に基づいて説明する。
【0019】
第1の実施例のシーケンスをフローチャートの形態で図1中に概略的に示す。ボイス制御されたテレビジョンの場合、あるユーザからだけ将来の音声入力を受けるために様々なユーザ間の音声入力で区別される。
【0020】
最初に、第1の方法の段階1において、アナログボイス信号を生成するために音響信号が電気信号に変換され、アナログ音声信号はディジタル音声信号に変換される。
【0021】
次の方法の段階2において、音声の可能な限り典型的な個々の音であり、騒がしさ並びに発音における変動に関してエラー強い第1の特徴がディジタル化された音響信号から得られる。同様にして、方法の段階3において、夫々のユーザの声の特性把握を可能にし、様々なユーザの音声入力間で区別する第2の特徴がディジタル化された音響信号から抽出される。提示する実施例において、この特徴の抽出は、音声認識ユニット及び話者認識ユニットに対して別々に行われるが、一緒に行われてもよい。
【0022】
第1の特徴に基づいて、実際の音声認識が方法の段階4において行われる。方法の段階5において、その時に話しているユーザを識別するために話者認識が第2の特徴を補助として行われる。しかしながら、同様にして、個々のユーザの識別が行われること無く他のユーザからの区別を可能にするために第2の特徴だけが記憶されてもよい。
【0023】
方法の段階6において、テレビジョンが既にオンにされたか否かが確認される。オンの場合、方法の段階7及び8が実行され、さもなければ方法の段階9及び10が実行される。テレビジョンがまだオンにされていない場合、方法の段階9において、例えば、「オン」又は「テレビジョン オン」のようなオンにするコマンドが与えられたか否かが次に確認される。このコマンドが与えられた場合、方法の段階10において、テレビジョンがオンにされ、入力を発生するユーザが認められる。識別の代わりに、異なるユーザ間で区別だけが行われる場合、現在のユーザを特徴付ける第2の特徴が相応じて記憶される。その後、方法の段階9においてオンにするコマンドが与えられていない場合と同じように方法の段階1に戻る。
【0024】
既にオンされたテレビジョンの場合において、方法の段階6の後に方法の段階7が続く。この段階では、音声入力が既に方法の段階10において予め認められたユーザによるものか否かが確認される。そのユーザによるものである場合、ボイス制御されたシステムを制御する入力コマンドが方法の段階8において、例えば、メニューコントロール又はナビゲーションのために使用される。その後、方法の段階7においてユーザの中で変更が確立された場合と同じように方法の段階1に戻る。
【0025】
この実施例の様々な変更態様が考えられる。例えば、装置をオフにする音声入力が任意のユーザから受けられてもよい。同様にして、第1のユーザによって入力されるとき、第2の又は更なるユーザの音声入力が将来受けられることを可能にするオペレータ制御コマンドが設けられてもよい。
【0026】
第2の実施例のシーケンスをフローチャートの形態で図2に概略的に示す。この場合、ボイス制御されたテレビジョンの様々なユーザの識別が行われ、これは、この識別からこれらユーザに対してユーザプロフィールを形成するためである。
【0027】
方法の段階1乃至5は、図1からの実施例の段階1乃至5と一致するが、一方で方法の段階5では、その時話しているユーザを識別することが重要となる。他方で、方法の段階6、7、及び、9における様々な分岐が不要となる。音声入力に対応するオペレータ制御コマンドは、方法の段階8において実行される。更に、方法の段階11において、入力を発生する識別されたユーザが現在の時間及びテレビジョンチャネルに関する詳細、又は、その時放送している番組に関する詳細と一緒に記憶される。これら詳細は、テレビジョンセットで既に利用できてもよく、又は、特に、垂直帰線消去間隔におけるアナログテレビジョン信号の場合、更なる信号としてテレビジョン信号と伝送されてもよい。例えば、内部クロックからの時刻が使用され得、又は、テレテキストで伝送される時間信号が評価される。同様にして、テレビジョンチャネルは、その時選択されたテレビジョンセットの番組サイトから、又は、テレテキスト又はVPS信号12における対応する詳細から直接的に決定されてもよい。最後に、その時放送されている番組に関する詳細、即ち、題名、ジャンル、例えば、エンターテイメント、スポーツ等が装置に既にあるEPG又は相応じて伝送されるデータから捕捉されてもよい。
【0028】
音声認識の使用により決定されるユーザプロフィールは、ハードディスク上のテレビジョン番組のバッファ記憶装置又はテレビジョン並びにセットトップボックスに設けられる同様の記憶媒体において特に使用され得る。視聴傾向の分析の正確さは、夫々のユーザの認識によってこの場合著しく高められる。子供達が親よりも著しく長い時間テレビジョンの前で過ごす家族の例において、ハードディスクは従って子供用番組だけでもはや満たされない。その代わりに、更なる話者認識は、家族の構成員の数に対して視聴傾向分析が別々に形成されることを可能にする。ハードディスクの限られたバッファメモリ空間は、特定のキーに従って個々のユーザの中で分割され得、それにより、各ユーザに所定の分け前のハッファ記憶されたテレビジョン番組が与えられる。
【0029】
同様にして、音声認識の使用により決定されるユーザプロフィールは、ラジオ番組又は他の伝送されたデータを記録するためにも使用され得る。
【0030】
ボイス信号の検出のために、単一のマイクロホン又は2つ以上のマイクロホンを有するマイクロホンアレイが設けられてもよい。マイクロホンアレイは、例えば、テレビジョン受像機と一体化されてもよい。マイクロホンは、検出された音響信号を電気信号に変換し、この電気信号は増幅器によって増幅され、AD変換器によってディジタル信号に変換され、信号処理ユニットに供給される。後者は、検出された音信号の異なるスケーリング又は処理によってユーザがいる夫々の場所を考慮し得る。更に、スピーカから発せられる音響信号に対するマイクロホン信号の補正が行われてもよい。このようにして調整される信号は、音声認識ユニット及び話者認識ユニットに供給され、アルゴリズム又はハードウェアユニットが別々に構成、又は、さもなければ一緒に構成されることが可能となる。決定されるコマンド及びユーザの識別は、システムを制御するために最終的にシステムマネージャに供給される。
【0031】
本発明は、例えば、TVセット、ビデオレコーダ、DVDプレーヤ、衛星受信器、組み合わされたTV−ビデオシステム、オーディオ機器、又は、完全なオーディオシステムのような消費者電化製品に関連する幅広い種類の装置のボイス遠隔制御のために使用されてもよい。

【特許請求の範囲】
【請求項1】
ユーザの音声入力がディジタル化されたボイス信号に変換され、
上記音声の個々の音の特性であり従って口頭の音の認識を可能にする第1の特徴が上記ディジタル化された音声信号から抽出され、
夫々のユーザの声の特性把握を可能にし異なるユーザの音声入力の間で区別するために使用される第2の特徴が上記ディジタル化された音声信号から抽出される、消費者電化製品に関連する装置をボイス制御する方法であって、
上記装置が、様々なユーザの識別を行い、上記識別されたユーザの視聴傾向の分析を実施し、上記分析から上記様々なユーザのユーザプロフィールを形成することを特徴とする方法。
【請求項2】
上記ユーザプロフィールは、上記装置が、異なるユーザに対して好ましい番組を別々にバッファ記憶することを可能にするために、テレビジョン番組のバッファ記憶装置において使用することを特徴とする請求項1記載の方法。
【請求項3】
上記ユーザプロフィールは、上記装置が、識別された上記ユーザに対して視聴されるべき番組を提案するために使用することを特徴とする請求項1記載の方法。
【請求項4】
請求項1乃至3のうちいずれか一項記載の方法を実行する装置。

【図1】
image rotate

【図2】
image rotate


【公開番号】特開2012−100309(P2012−100309A)
【公開日】平成24年5月24日(2012.5.24)
【国際特許分類】
【出願番号】特願2011−278728(P2011−278728)
【出願日】平成23年12月20日(2011.12.20)
【分割の表示】特願2001−275281(P2001−275281)の分割
【原出願日】平成13年9月11日(2001.9.11)
【出願人】(501263810)トムソン ライセンシング (2,848)
【氏名又は名称原語表記】Thomson Licensing 
【住所又は居所原語表記】1−5, rue Jeanne d’Arc, 92130 ISSY LES MOULINEAUX, France
【Fターム(参考)】