説明

AV機器

【課題】ユーザの所望とする情報やこれに対する付加的情報を容易に出力できるAV機器を実現する。
【解決手段】関連情報取得部10には、外部ソース装置から外部ソース音信号Ss0,Ss1が入力される。関連情報取得部10には、エコーキャンセル後収音信号Sme1〜Sme8が入力される。関連情報取得部10は、エコーキャンセル後収音信号Sme1〜Sme8から話者音声信号Sspを生成し、ユーザの発言に対応する発音信号Sspaを生成する。関連情報取得部10は、発音信号Sspaに対応する発音区間外部ソース音信号Ssaを生成し、これらを音声認識処理する。関連情報取得部10は、音声認識結果を参照して、ユーザの発言、および、この発言と同じタイミングでの外部ソース音に基づく情報検索の語句を抽出し、関連情報を検索する。得られた関連情報は、表示装置300に表示される。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、外部ソースからの映像や音楽および音声を、表示器やスピーカから出力するAV機器、特に、ユーザの発声音に応じた情報を出力するAV機器に関する。
【背景技術】
【0002】
従来、各種のAV機器が考案されている。このようなAV機器には、ユーザからの情報に基づいて、表示動作や放音動作を行うものがある。例えば、特許文献1に記載の装置では、指示装置から入力されたり指示されたキーワードと、外部入力される映像信号や音声信号とを照合して、キーワードを含む映像や音声を出力する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平11−161661号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に記載の装置では、ユーザが所望とする映像や音声を出力する際に、わざわざリモコン等の操作入力端末を用いて指示しなければならず、操作が煩わしい。
【0005】
また、ユーザが所望とする情報を直接入力しなければならないため、常に的確なキーワードの入力を行う必要がある。このため、所望とする情報を出力するためのキーワードを的確に入力しなければならず、これも、ユーザにとって操作が煩わしくなる原因となる。
【0006】
また、出力される映像や音声に対する付加的情報を出力することもできない。
【0007】
したがって、本発明の目的は、ユーザにとって煩わしい操作を行うことなく、ユーザの所望とする情報やこれに対する付加的情報を容易に出力できるAV機器を実現することにある。
【課題を解決するための手段】
【0008】
この発明はAV装置に関する。このAV装置は、外部ソース音取得部、発声音取得部、関連情報取得部、および関連情報出力部を備える。外部ソース音取得部は、外部ソースの音信号を取得する。発声音取得部は、ユーザの発声音を収音して発声音信号を取得する。関連情報取得部は、外部ソースの音信号と発声音信号とを時間軸上で対応付けし、該対応付けられた発声音信号と外部ソースの音信号とに基づいて関連情報を取得する。関連情報出力部は関連情報を所定形式で出力する。
【0009】
この構成では、ユーザの発声音と外部ソースからの音とが時間軸上で対応付けされる。外部ソース音に対するユーザの反応を対応付けできるので、これら対応付けられた音同士の関係から、関連情報を検索できる。例えば、ユーザが外部ソース音に対して疑問の言葉を発したとすれば、当該発した言葉とその時点の外部ソース音とが対応付けされ、疑問の答えを検索することができる。そして、検索結果(例えば答え)を出力することで、ほぼリアルタイムにユーザの発声音に基づく所望の情報等を提供できる。この際、ユーザはリモコン等の操作子を用いなくても良いので、煩わしい操作を必要としない。
【0010】
また、この発明のAV機器の関連情報取得部は、音声区間検出部、発声音認識部、外部ソース音情報取得部、および関連情報検索部を備える。音声区間検出部は発声音信号に基づいて音声区間を検出する。発声音認識部は音声区間の検出された発声音信号を音声認識する。外部ソース音情報取得部は、音声認識された発声音信号に対応付けられた外部ソース音情報を取得する。関連情報検索部は発声音の音声認識結果と取得した外部ソース音情報とに基づいて、外部ソース音情報に関連する関連情報を検索する。
【0011】
この構成では、上述の関連情報の具体的取得方法を実現する構成を示している。これらの構成を備えることで、発声音からユーザの所望とする情報の存在する部分が効率的に抽出され、抽出された内容に応じて所望の情報を検索、取得できる。
【0012】
また、この発明のAV機器の外部ソース音情報取得部は、音声認識された発声音信号に対応付けられた外部ソースの音信号を音声認識することで、外部ソース音情報を取得する。
【0013】
この構成では、具体的な外部ソース音情報の内容について示している。この構成とすれば、外部ソース音に関する情報がテキスト情報でなくても、上述の処理に対応させることができる。
【0014】
また、この発明のAV機器の発声音取得部は、収音信号を生成するマイクロホンと、放音される外部ソースの音信号に基づいてマイクロホンの収音信号から外部ソースの音信号をエコーキャンセル処理するエコーキャンセル部と、を備える。
【0015】
この構成では、エコーキャンセルを行うことで、マイクロホンの収音信号に含まれる外部ソース音を抑圧でき、ユーザの発声音のみを効果的に取得できる。これにより、さらに確実に所望とする情報を取得することができる。
【0016】
また、この発明のAV機器では、マイクロホンは複数ある。関連情報取得部は、複数のマイクロホンの収音信号から話者検出を行う話者検出部を備え、検出された話者毎に関連情報の取得処理を実行する。
【0017】
この構成では、話者検出を行うことができる。したがって、話者が複数人いる場合であっても、各話者からの発声音を個別に取得できる。これにより、複数人が同時に話しても、各話者の所望情報を個別に提供することができる。
【0018】
また、この発明のAV機器は、外部ソースの映像信号を取得する外部ソース映像取得部と、外部ソースの映像信号を出力する外部ソース映像表示部と、を備える。関連情報出力部は、関連情報を画像化し、該画像を外部ソースの映像信号に重畳する。
【0019】
この構成では、得られた関連情報が画像化されて表示される。これにより、ユーザは、視覚的に所望情報を容易に得ることができる。
【発明の効果】
【0020】
この発明によれば、ユーザにとって煩わしい操作を行うことなく、ユーザの所望とする情報やこれに対する付加的情報を容易に提供することができる。
【図面の簡単な説明】
【0021】
【図1】第1の実施形態に係るAV機器の構成を示すブロック図である。
【図2】第1の実施形態の関連情報取得部10の具体的構成を示すブロック図である。
【図3】第1の実施形態の具体的な実施の状況を示す図である。
【図4】第2の実施形態のAV機器の関連情報取得部10Aの構成を示すブロック図である。
【図5】第2の実施形態の具体的な実施の状況を示す図である。
【図6】第3の実施形態のAV機器の関連情報取得部10Bの構成を示すブロック図である。
【発明を実施するための形態】
【0022】
本発明の第1の実施形態に係るAV機器について、図を参照して説明する。図1は本実施形態のAV機器の全体構成を示すブロック図である。
【0023】
AV機器100は、関連情報取得部10、出力音生成部20、出力映像生成部30、エコーキャンセル部40を備える。AV装置100は、外部ソース入力端子101および収音信号入力端子102、放音信号出力端子103、映像出力端子104を備える。
【0024】
外部ソース入力端子101は、内部回路的には、関連情報取得部10、出力音生成部20、および出力映像生成部30、に接続している。外部ソース入力端子には、放送信号受信装置201やメディア再生装置202等の外部ソース音の出力装置が接続されている。なお、本実施形態では、放送信号受信装置201とメディア再生装置202とが接続されている例を示す。
【0025】
収音信号入力端子102は、内部回路的にはエコーキャンセル部40に接続している。収音信号入力端子102には、複数のマイクロホンMC1〜MC8が接続されている。なお、本実施形態では、マイクロホン数は8個であるが、当該マイクロホンの個数は適宜設定すればよい。
【0026】
放音信号出力端子103は、内部回路的には出力音生成部20に接続している。放音信号出力端子103には、スピーカSPが接続されている。なお、本実施形態では、スピーカ数は1個であるが、当該スピーカの個数も適宜設定すればよい。
【0027】
映像出力端子104は、内部回路的には出力映像生成部30に接続している。映像出力端子104には、液晶ディスプレイ等の表示装置300が接続されている。
【0028】
また、図1に示すように、関連情報取得部10は、図示しないネットワーク端子を介して外部ネットワーク900に接続している。なお、この外部ネットワーク900への接続に関する構成は省略することもできる。
【0029】
放送信号受信装置201からの映像信号Sv0は、外部ソース入力端子101を介して出力映像生成部30へ入力される。メディア再生装置202からの映像信号Sv1も、外部ソース入力端子101を介して出力映像生成部30へ入力される。
【0030】
放送信号受信装置201からの外部ソース音信号Ss0は、外部ソース入力端子101を介して出力音生成部20および関連情報取得部10へ入力される。メディア再生装置202からの映像信号Sv1も、外部ソース入力端子101を介して出力音生成部20および関連情報取得部10へ入力される。
【0031】
各マイクロホンMC1〜MC8は所定の配置パターンで配置されている。各マイクロホンMC1〜MC8で収音された収音信号Sm1〜Sm8は、収音信号入力端子102を介してエコーキャンセル部40へ入力される。この収音信号には、ユーザからの発声音や外部環境ノイズ、さらにはスピーカの放音された音の回り込み音等が含まれている。
【0032】
エコーキャンセル部40は、マイクロホンMC1〜MC8毎に対応するエコーキャンセラ401〜408を備える。各エコーキャンセラ401〜408には、出力音生成部20から出力された最終的な放音信号が与えられている。エコーキャンセラ401〜408は、この放音信号に基づいて適応パラメータを設定し、入力される収音信号Sm1〜Sm8に対してエコーキャンセル処理を行う。これにより、エコーキャンセル部40からは、エコーキャンセル後収音信号Sme1〜Sme8が出力され、関連情報取得部10へ入力される。具体的に、例えば、エコーキャンセラ401は、マイクロホンMC1からの収音信号Sm1に対してエコーキャンセル処理を行い、エコーキャンセル後収音信号Sme1を出力する。
【0033】
関連情報取得部10は、エコーキャンセル後収音信号Sme1〜Sme8と、外部ソース音信号Ss0、Ss1のいずれかを用いて関連情報映像信号Svrや関連情報音声信号Ssrを出力する。図2は関連情報取得部10の具体的構成を示すブロック図である。
【0034】
関連情報取得部10は、話者音声検出部11、話者音声用音声区間抽出部12、ソース音用音声区間抽出部13、情報解析部14、および関連情報生成部15を備える。また、関連情報取得部10は、音声認識サーバ91および情報検索サーバ92を備える。
【0035】
話者音声検出部11は、エコーキャンセル後収音信号Sme1〜Sme8に基づいて、話者音声の検出を行う。具体的には、例えば、話者音声検出部11は、エコーキャンセル後収音信号Sme1〜Sme8を用いて、AV機器100を基準にした所定範囲内の複数方向に強い収音感度を有する指向性の収音ビーム信号を形成する。話者音声検出部11は、複数の収音ビーム信号の振幅が所定閾値以上である場合に当該収音ビーム信号を話者音声信号Sspとして出力する。この際、話者音声検出部11は、話者音声信号Sspの強い収音感度を有する方位を話者方位PSpとして、話者音声信号Sspとともに出力する。なお、所定閾値以上の収音ビーム信号が複数有れば、それぞれを個別の話者音声信号Sspとして出力する。
【0036】
話者音声用音声区間抽出部12は、話者音声信号Sspを時間軸上で所定期間毎に順次サンプリングする。サンプリングした期間の話者音声信号Sspの振幅が所定閾値以上であれば、ユーザが発音しているものと判断する。話者音声用音声区間抽出部12は、ユーザが発音していると判断した区間が連続すれば、これらを1個の発音区間として認識する。
【0037】
話者音声用音声区間抽出部12は、この発音区間として認識した区間の話者音声信号Sspを切り出し、発音信号Sspaとして、音声認識サーバ91に出力する。この際、発音信号Sspaには発音区間の情報が添付されている。
【0038】
また、話者音声用音声区間検出部12は、この発音区間の情報を、ソース音用音声区間検出部13に与える。
【0039】
なお、話者音声用音声区間抽出部12は、話者方位Psp、発音信号Sspaを識別可能な情報とともに、関連情報生成部15へ出力する。
【0040】
ソース音用音声区間抽出部13は、話者音声用音声区間抽出部12からの発音区間の情報に基づいて、該当する時間区間の外部ソース音信号Ss0や外部ソース音信号Ss1を切り出し、発音区間外部ソース音信号Ssaを出力する。この際、発音区間外部ソース音信号Ssaにも発音区間の情報が添付されている。
【0041】
音声認識サーバ91は、発音信号Sspaの音声認識を行う。音声認識の方法は、既知のものを用いればよく、音声認識サーバ91は、音ファイル形式の発音信号Sspaからテキスト形式の発音データWspaを生成する。
【0042】
音声認識サーバ91は、発音区間外部ソース音信号Ssaの音声認識も同様に行う。音声認識サーバ91は、音ファイル形式の発音信号Ssaからテキスト形式の外部ソース音データWsaを生成する。
【0043】
情報解析部14は、テキスト形式の発音データWspaおよび外部ソース音データWsaから情報検索用テキストデータWqを生成する。具体的には、情報解析部14は、発音データWspaに対する各種の定型文を記憶している。情報解析部14は、発音データWspaと各定型文との一致度を検出することで、最もらしい定型文を選択する。情報解析部14は、選択した定型文に基づいて、発音区間の情報により関連付けられた外部ソース音データWsaから、検索に適する語句を抽出する。情報解析部14は、この抽出した語句を情報検索用テキストデータWqとして出力する。情報検索用テキストデータWqは、情報検索サーバ92へ出力される。
【0044】
情報検索サーバ92は、情報検索用テキストデータWqに基づいて、情報検索を行う。例えば、情報検索サーバ92は、情報検索用テキストデータWqで表される語句の意味を検索する。また、情報検索サーバ92は、情報検索用テキストデータWqで表される語句に関連する付加的な情報を検索する。情報検索サーバ92は、検索結果を関連情報データWanとして、関連情報生成部15へ出力する。なお、この関連情報データWanは、テキストデータであってもよく、その他の音楽ファイル形式のデータであってもよい。
【0045】
関連情報生成部15は、関連情報データWanに基づいて関連情報画像データSvrや関連情報音声データSsrを生成する。関連情報生成部15は、関連情報データWanがテキストデータであれば、当該テキストデータに基づく関連情報画像データSvrを生成する。生成された関連情報画像データSvrは、出力映像生成部30へ入力される。
【0046】
また、関連情報生成部15は、関連情報データWanが音声ファイル形式のデータであれば、当該音声ファイル形式のデータに基づく関連情報音声データSsrを生成する。生成された関連情報音声データSsrは、出力音生成部20へ入力される。
【0047】
なお、ここでは、テキストデータの関連情報データWanから関連情報画像データSvrを生成し、音声ファイル形式のデータの関連情報データWanから関連情報音声データSsrを生成する例を示した。しかしながら、これらのファイル形式を変換する構成を備えることで、テキストデータの関連情報データWanから関連情報音声データSsrを生成し、音声ファイル形式のデータの関連情報データWanからテキスト形式の関連情報画像データSvrを生成してもよい。
【0048】
出力音生成部20は、放送信号受信装置201からの外部ソース音信号Ss0や、メディア再生装置202からの外部ソース音信号Ss1を、スピーカSPに与える。スピーカSPは、これらの外部ソース音信号Ss0や外部ソース音信号Ss1を放音する。また、出力音生成部20は、関連情報音声データSsrが入力されれば、関連情報音声データSsrに基づく関連情報音声信号をスピーカSPに与える。この際、出力音生成部20は、関連情報音声信号を外部ソース音信号Ss0や外部ソース音信号Ss1にミキシングしてスピーカに与えたり、スピーカが複数ある場合であれば、関連情報音声信号と外部ソース音信号Ss0や外部ソース音信号Ss1とを、別のスピーカに与える。
【0049】
出力映像生成部30は、放送信号受信装置201からの外部ソース映像信号Sv0やメディア再生装置202からの外部ソース映像信号Sv1を表示装置300に与える。表示装置300は、外部ソース映像信号Sv0や外部ソース映像信号Sv1に基づく映像を表示する。また、出力映像生成部30は、関連情報画像データSvrが入力されれば、関連情報映像データSvrに基づく関連情報映像信号を表示装置300に与える。この際、出力映像生成部30は、関連情報画像信号を外部ソース映像信号Sv0や外部ソース映像信号Sv1に対してOSD表示させるように、表示装置300を制御する。
【0050】
このような構成とすることで、ユーザがテレビジョン放送の映像や各種メディアの再生映像を視聴しながら、当該映像に対して発言をすると、発言と視聴中の映像とに応じた関連情報を、得ることができる。
【0051】
具体的な実施の状況を図3を用いて説明する。図3は本実施形態の具体的な実施の状況を示す図である。
【0052】
図3に示すように、テレビジョン放送でニュースを視聴中に、ユーザが「何のニュース?」と発言すれば、当該発言が検出される。
【0053】
次に、検出した「何のニュース?」の発言と略同時刻のテレビジョン放送の音声が抽出され、ニュースの内容に使用された語句が抽出される。
【0054】
次に、抽出された語句に基づいて、当該語句の意味や、当該語句に関連する情報が検索され、関連情報として検出される。
【0055】
次に、検出された関連情報(例えば語句の意味や説明)が、放送中のテレビジョン放送とともに、画面上に表示される。
【0056】
このように、本実施形態の構成を用いることで、ユーザは、視聴中の映像に対する関連情報を容易に得ることができる。そして、本実施形態の構成を用いれば、従来のようにリモコン等の操作子を用いる必要が無く、意識しないユーザの発声音だけで、関連情報を得ることができ、煩雑な操作を全く必要としない。
【0057】
なお、本実施形態ではエコーキャンセル処理を行った後の音声信号を用いたが、必要に応じてエコーキャンセル部を省略することもできる。ただし、エコーキャンセル処理を実行することで、より確実に、ユーザの発声音のみを関連情報取得部10に与えることができる。これにより、さらに正確な関連情報を提供することができる。
【0058】
また、上述の説明では、一人のユーザに対する関連情報の提供処理を例に示したが、複数人の場合にはそれぞれのユーザに対して関連情報を提供することができる。この際、話者方位が識別できているので、表示画面上の各ユーザに対応する領域毎に関連情報を表示することもできる。また、関連情報を音声形式で出力する場合であれば、複数のスピーカやアレイスピーカ等を用いて、ユーザ毎に放音指向性を向けて、関連情報を放音することもできる。
【0059】
また、上述の説明では、関連情報のみを表示したり、放音する例を示したが、抽出した発声音や語句を、関連情報とともに表示、放音してもよい。これにより、リアルタイムに関連情報を提供できない場合、すなわち、関連情報の提供が遅延する場合であっても、関連情報がどのような発声音や語句を元に提供されたかを知ることができる。これにより、関連情報が遅延しても、ユーザは関連情報をより分かりやすく理解することができる。
【0060】
次に、第2の実施形態に係るAV機器について、図を参照して説明する。本実施形態のAV機器は、第1の実施形態に示したAV機器に対して関連情報取得部10Aの構成およびこれに関連する外部ソース入力端子の構成が異なるのみで、他の構成は同じである。したがって、異なる箇所のみを説明する。図4は本実施形態のAV機器の関連情報取得部10Aの構成を示すブロック図である。
【0061】
本実施形態のAV機器では、外部ソース入力端子から、楽曲情報等の付加データSD0,SD1を入力することができる構造を有する。これらの付加データSD0,SD1は、関連情報取得部10Aの時刻位置対応情報抽出部16へ入力される。
【0062】
時刻位置対応情報抽出部16には、上述の実施形態にも示した話者音声用音声区間抽出部12から、発音区間の情報が与えられている。時刻位置対応情報抽出部16は、当該発音区間の情報に基づいて、該当する時間区間に対応する付加データSD0,SD1を抽出し、発音区間対応付加データSDaを出力する。この際、発音区間対応付加データSDaにも発音区間の情報が添付されている。
【0063】
情報解析部14Aは、テキスト形式の発音データWspaおよび発音区間対応付加データSDaから情報検索用テキストデータWqを生成する。具体的には、情報解析部14は、発音データWspaに対する各種の定型文が記憶している。情報解析部14は、発音データWspaと各定型文との一致度を検出することで、最もらしい定型文を選択する。情報解析部14は、選択した定型文に基づいて、発音区間対応付加データSDaから、検索に適する語句を抽出する。情報解析部14は、この抽出した語句を情報検索用テキストデータWqとして出力する。
【0064】
このように、外部ソース装置から音声信号ではない、テキスト形式の付加データが得られる場合であっても、上述の第1の実施形態と同様に、関連情報をユーザに提供することができる。また、このように付加データが得られる場合であれば、外部ソース音信号の音声認識を行わなくてもよく、処理負荷を軽減することができる。
【0065】
具体的な実施の状況を図5を用いて説明する。図5は本実施形態の具体的な実施の状況を示す図である。
【0066】
図5に示すように、外部ソース装置であるメディア再生装置202でCDやDVDに記録された音楽を再生中に、ユーザが「誰の曲だっけ?」と発言すれば、当該発言が検出される。
【0067】
次に、検出した「誰の曲だっけ?」の発言と略同時刻の楽曲情報が抽出され、アーティスト名や楽曲名等の語句が抽出される。
【0068】
次に、抽出された語句に基づいて、当該語句に関連する情報が検索され、関連情報として検出される。例えば、アーティストの詳細情報、ライブ情報、楽曲の歌詞等が関連情報が検出される。この際、情報検索サーバ92は、外部ネットワーク900等により定期的に記憶情報が更新されることで、上述のライブ情報とし、近日中や近い将来のライブ情報も提供することができる。
【0069】
次に、検出された関連情報が、放送中のテレビジョン放送とともに、画面上に表示される。
【0070】
このような構成とすることで、単に音楽を聴くだけでなく、当該音楽に関連する情報を、ユーザへ容易に提供することができる。
【0071】
次に、第3の実施形態に係るAV機器について、図を参照して説明する。本実施形態のAV機器は、第2の実施形態に示したAV機器に対して関連情報取得部10Bの構成が異なるのみで、他の構成は同じである。したがって、異なる箇所のみを説明する。図6は本実施形態のAV機器の関連情報取得部10Bの構成を示すブロック図である。
【0072】
本実施形態のAV機器の関連情報取得部10Bは、第1の実施形態の関連情報取得部10と第2の実施形態の関連情報取得部10Aとを組み合わせたような構成を備える。すなわち、外部ソース装置から付加データSD0,SD1が得られれば、これらを用いて情報検索を行う。一方、外部ソース装置から付加データSD0,SD1が得られなければ、外部ソース音信号Ss0や外部ソース音信号Ss1を音声認識して情報検索を行う。
【0073】
関連情報取得部10Bは、上述の各実施形態に示したソース音用音声区間抽出部13および時刻位置対応情報抽出部16をともに備えるとともに、付加データ検出部17を備える。
【0074】
付加データ検出部17は、外部ソース装置からの入力信号に付加データSD0,SD1が存在するかどうかを検出する。付加データ検出部17は、付加データSD0,SD1を検出すれば、これらを時刻位置対応情報抽出部16に出力する。
【0075】
付加データ検出部17は、外部ソース音信号Ss0や外部ソース音信号Ss1をソース音用音声区間抽出部13へ出力する。
【0076】
情報解析部14Bは、付加データSD0,SD1に基づく発音区間対応付加データSDaが入力されれば、これらに基づいて情報検索の語句を抽出する。一方、情報解析部14Bは、発音区間対応付加データSDaが入力されなければ、音声認識したテキスト形式の外部ソース音データWsaに基づいて情報検索の語句を抽出する。
【0077】
このような構成であっても、上述の各実施形態と同様に、所望の関連情報を容易に提供することができる。
【0078】
なお、本実施形態では、付加データSD0,SD1が存在する場合には、これらに基づく発音区間対応付加データSDaのみを用いて情報検索の語句を抽出する例を示した。しかしながら、付加データSD0,SD1に基づく発音区間対応付加データSDaと外部ソース音データWsaとを用いて情報検索の語句を抽出してもよい。
【符号の説明】
【0079】
100−AV機器、201−放送信号受信装置201、202−メディア再生装置、300−表示装置、900−外部ネットワーク、
101−外部ソース入力端子、102−収音信号入力端子、103−放音信号出力端子、104−映像出力端子、10−関連情報取得部、20−出力音生成部、30−出力映像生成部、40−エコーキャンセル部、401〜408−エコーキャンセラ、
11−話者音声検出部、12−話者音声用音声区間抽出部、13−ソース音用音声信号抽出部、14,14A−情報解析部、15−関連情報生成部、16−時刻位置対応情報抽出部、17−付加データ検出部、91−音声認識サーバ、92−情報検索サーバ

【特許請求の範囲】
【請求項1】
外部ソースの音信号を取得する外部ソース音取得部と、
ユーザの発声音を収音して発声音信号を取得する発声音取得部と、
前記外部ソースの音信号と前記発声音信号とを時間軸上で対応付けし、該対応付けられた発声音信号と外部ソースの音信号とに基づいて、関連情報を取得する関連情報取得部と、
該関連情報を出力する関連情報出力部と、を備えるAV機器。
【請求項2】
請求項1に記載のAV機器であって、
前記関連情報取得部は、
前記発声音信号に基づいて音声区間を検出する音声区間検出部と、
前記音声区間の検出された前記発声音信号を音声認識する発声音認識部と、
前記音声認識された発声音信号に対応付けられた外部ソース音情報を取得する外部ソース音情報取得部と、
前記発声音の音声認識結果と取得した外部ソース音情報とに基づいて、該外部ソース音情報に関連する前記関連情報を検索する関連情報検索部と、を備えるAV機器。
【請求項3】
請求項2に記載のAV機器であって、
前記外部ソース音情報取得部は、
前記音声認識された発声音信号に対応付けられた外部ソースの音信号を音声認識することで、前記外部ソース音情報を取得する、AV機器。
【請求項4】
請求項1乃至請求項3のいずれかに記載のAV機器であって、
前記発声音取得部は、
収音信号を生成するマイクロホンと、
放音される外部ソースの音信号に基づいて、前記マイクロホンの収音信号から前記外部ソースの音信号をエコーキャンセル処理するエコーキャンセル部と、を備える、AV機器。
【請求項5】
請求項4に記載のAV機器であって、
前記マイクロホンは複数あり、
前記関連情報取得部は、
前記複数のマイクロホンの収音信号から話者検出を行う話者検出部を備え、
検出された話者毎に前記関連情報の取得処理を実行する、AV機器。
【請求項6】
請求項1乃至請求項5に記載のAV機器であって、
前記外部ソースの映像信号を取得する外部ソース映像取得部と、
前記外部ソースの映像信号を出力する外部ソース映像表示部と、を備え、
前記関連情報出力部は、
前記関連情報を画像化し、該画像を前記外部ソースの映像信号に重畳する、AV機器。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2011−199698(P2011−199698A)
【公開日】平成23年10月6日(2011.10.6)
【国際特許分類】
【出願番号】特願2010−65525(P2010−65525)
【出願日】平成22年3月23日(2010.3.23)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】