説明

情報処理装置およびその制御方法

【課題】 従来、発言を音声認識した結果を字幕としてディスプレイ等に表示する場合に、視聴者の周囲の騒音レベルに応じて、字幕の表示と非表示とを切り替えると、発言の一部が音声認識の対象とならず、所望の音声認識の結果を得られないという課題があった。
【解決手段】 上記課題を解決するために、本発明の情報処理装置は、視聴者に対して音を出力し、前記音に含まれる音声区間の始端または終端を検出し、前記視聴者の周囲の騒音レベルを測定し、逐次、各前記騒音レベルが閾値以上であるか否か判断し、音声区間の始端において前記騒音レベルが前記閾値以上でない場合、音声区間の始端から、前記音声区間の音を保持し、前記音声区間の少なくとも一部において、前記騒音レベルが前記閾値以上となった場合、前記音声区間の始端から終端までの音を音声認識し、音声認識した結果を字幕として表示することを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識した結果を字幕として表示する技術に関する。
【背景技術】
【0002】
従来、インターネットや電話回線網を利用して複数の拠点間を通信回線で結び、互いの映像や音声を通信して会議を行うテレビ会議システムが知られている。
【0003】
そして、例えば、会議での発言を音声認識した結果を字幕としてディスプレイ等に表示する技術が知られている(例えば、特許文献1)。
【0004】
また、視聴者の周囲の騒音レベルが所定の閾値以上である場合、字幕を表示し、視聴者の周囲の騒音レベルが所定の閾値に満たない場合、字幕を表示しないようにする技術が知られている(例えば、特許文献2)。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2002−237911号公報
【特許文献2】特許第4128916号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、例えば、会議での発言を音声認識した結果を字幕としてディスプレイ等に表示する場合に、視聴者の周囲の騒音レベルに応じて、字幕の表示と非表示とを切り替えると、以下のような課題が生じる。
【0007】
即ち、視聴者の周囲の騒音レベルが所定の閾値以上となった場合のみ音声認識処理を実行すると、騒音レベルの変動が激しい場合には、例えば、単語の一部が音声認識の対象とならず、所望の音声認識の結果を得られないという課題がある。
【0008】
一方、視聴者の周囲の騒音レベルに関わらず、常に音声認識処理を実行すると、字幕として表示しない発言に相当する音声も音声認識の対象となるため、計算リソースを浪費するという課題がある。
【0009】
本発明は、以上のような課題を解決するためになされたものであり、視聴者の周囲の騒音レベルに応じて、音声認識した結果を字幕として表示するか否かを切り替える際に、計算リソースの使用を抑えると共に、音声認識の結果の正確性を担保することを目的とする。
【課題を解決するための手段】
【0010】
上記課題を解決するために、本発明の情報処理装置は、視聴者に対して音を出力する音声出力手段と、前記音に含まれる音声区間の始端または終端を検出する検出手段と、
前記視聴者の周囲の騒音レベルを測定する測定手段と、逐次、各前記騒音レベルが閾値以上であるか否か判断する判断手段と、音声区間の始端において前記騒音レベルが前記閾値以上でない場合、音声区間の始端から、前記音声区間の音を保持する保持手段と、前記音声区間の少なくとも一部において、前記騒音レベルが前記閾値以上となった場合、前記音声区間の始端から終端までの音を音声認識する音声認識手段と、音声認識した結果を字幕として表示する字幕表示手段とを有することを特徴とする。
【発明の効果】
【0011】
本発明の情報処理装置によれば、視聴者の周囲の騒音レベルに応じて、音声認識した結果を字幕として表示するか否かを切り替える際に、計算リソースの使用を抑えると共に、音声認識の結果の正確性を担保することが可能となる。
【図面の簡単な説明】
【0012】
【図1】テレビ会議装置100の機能構成を示す機能ブロック図である。
【図2】2つの拠点間でのテレビ会議を行う様子を示す図である。
【図3】映像および音声を送信する処理の流れを示すフローチャートである。
【図4】騒音レベルの変動と字幕付与の判断を説明する図である。
【図5】音声認識部105の機能構成を示す機能ブロック図である。
【図6】音声データを保存する処理または認識する処理の流れを示すフローチャートである。
【図7】音声データの保存する処理または認識する処理の流れを示すフローチャートである。
【図8】音声認識を開始する処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0013】
以下、図面を参照しながら本発明の実施形態について説明していく。
【0014】
(第1の実施形態)
本実施形態では、本発明の情報処理装置を、テレビ会議装置として説明するが、例えば、講演、講義等の映像および音声を遠隔地の視聴者へ配信する装置であってもよい。
【0015】
図1は本発明のテレビ会議装置100の機能構成を示す機能ブロック図である。
【0016】
テレビ会議装置100は、受信部101、デコード部102、表示部103、音声出力部104、音声認識部105、騒音収録部106、騒音測定部107を有する。また、テレビ会議装置100は、字幕付与判断部108、撮像部109、音声入力部110、エンコード部111、送信部112、制御部113を有する。
【0017】
受信部101は、通信インタフェース(I/F)であって、インターネット等の通信網190を介して、会議を行う相手方の映像および音声がエンコードされた信号を受信する。
【0018】
尚、受信する信号には、例えば撮像部109の動作を制御するための制御コードなど、本装置の動作に必要な、映像、音声以外の情報が含まれても良い。
【0019】
デコード部102は、マイクロプロセッサ(MPU)等で構成され、受信部101で受信した信号を映像信号、音声信号に分離する。
【0020】
尚、デコード部102は、制御コード等、映像、音声以外の信号が含まれる場合、これらの信号も分離する。
【0021】
表示部103は、液晶ディスプレイ等の表示装置から構成され、デコード部102で分離された映像を表示する。すなわち、テレビ会議を行う場合には、会議の相手方を撮像した映像等を表示する。また、表示部103は、会議の相手方の発言内容を後述する音声認識部105が認識した結果を字幕として表示する。
【0022】
尚、表示する字幕は、相手方を撮像した映像に合成しても良いし、映像を表示する装置とは別の表示装置に字幕を表示しても良い。
【0023】
また、表示部103が表示する情報には、テレビ会議で使用する資料や図など、画像や文字等により構成される各種の情報を表示しても良い。
【0024】
音声出力部104は、スピーカ等の音声出力装置から構成され、デコード部102で分離された音声信号を出力する。即ち、会議の相手先の発言等を示す音声を出力する。
【0025】
音声認識部105は、MPU等で構成され、デコード部102で分離された音声信号を音声認識して、音声信号に対応する文字列に変換する。尚、音声認識部105は、隠れマルコフモデルを用いた音声認識アルゴリズムなど、周知の手法を用いて音声認識処理を実行する。
【0026】
騒音収録部106は、マイクロフォン等の音声入力装置から構成され、音声入力装置を介して入力される音を収録する。尚、騒音収録部106を構成する音声入力装置は、後述する音声入力部110のマイクロフォンと共用してもよい。
【0027】
騒音測定部107は、MPU等から構成され、騒音収録部106が集音した音の騒音レベルを算出する。尚、騒音測定部107は、例えば、等価騒音レベルを算出する手法、一定期間ごとの平均音声パワーを算出する手法等、周知の方法を用いる。
【0028】
字幕付与判断部108は、MPU等で構成され、騒音測定部107で測定した騒音レベルによって字幕が必要か不要かを判断する。尚、本実施形態では、騒音測定部107が測定した騒音レベルが所定の閾値を超えた場合に、字幕は必要と判断する。即ち、騒音測定部107が測定した騒音レベルが所定の閾値を以下である場合には、字幕は不要と判断する。
【0029】
撮像部109は、ビデオカメラ等の動画像を撮影する撮像装置から構成され、会議の参加者(視聴者)等の映像を撮像する。
【0030】
音声入力部110は、マイクロフォン等の音声入力装置から構成され、会議参加者の発言などの音声を集音する。
【0031】
エンコード部111は、MPU等で構成され、撮像部109が撮像した映像信号、音声入力部で集音した音声信号を後段で行う送信処理に適した形式に変換する。また、映像、音声以外にも制御コードなどテレビ会議システムの動作に必要な情報を合わせてエンコードしても良い。
【0032】
送信部112は、通信I/Fであって、インターネット等の通信網190を介して、エンコード部111がエンコードした信号を送信先に送信する。
【0033】
制御部113は、MPU等で構成され、以上で説明した各部を制御し、本システムの動作を制御する。
【0034】
尚、上述したMPU等で構成される各部は、MPUが、リードオンリメモリ(ROM)等に記憶されたプログラムをランダムアクセスメモリ(RAM)等に展開し、実行することによって、その機能を実現する。
【0035】
図2は、2つの情報処理装置100を、通信網190を介して接続した様子を示す図である。尚、この様子は、2つの拠点間でのテレビ会議を行う様子に相当する。
【0036】
本図において、拠点1にはテレビ会議装置100を、拠点2には、テレビ会議装置100と同様の構成を有するテレビ会議装置200を設置し、双方の装置は通信網190を介して接続されているものとする。尚、本図において、テレビ会議装置200を構成する各部は、テレビ会議装置200を構成する同名の各部と同様の構成及び機能を有するため、その説明を省略する。
【0037】
図3は、テレビ会議装置200によって撮像された映像および集音された音声をテレビ会議装置100へ送信する処理の流れを示すフローチャートである。
【0038】
まず、ステップS301において、撮像部209は、拠点2の会議参加者の映像を撮像し、音声入力部210は、撮像と同時に、拠点2の会議参加者の発言を集音する。
【0039】
次に、ステップS302において、エンコード部211は、撮像した映像および集音した音声を所定の信号形式にエンコードする。
【0040】
次に、ステップS303において、送信部212は、通信網190を介して、送信先にあたるテレビ会議装置100に、撮像した映像および集音した音声を含む信号を送信する。
【0041】
次に、ステップS304において、受信部101は、テレビ会議装置200から送信された信号を受信する。
【0042】
次に、ステップS305において、デコード部102は、受信した信号をデコードし、元の映像を示す信号、音声を示す信号に分離する。
【0043】
一方、ステップS104、S105の処理と並行して、ステップS306において、騒音収録部106は、逐次、拠点1の会議参加者の周囲の音を収録する。
【0044】
次に、ステップS307において、騒音測定部107は、騒音収録部106が収録した音の騒音レベルを算出する。
【0045】
尚、騒音収録部106による音の収録、騒音測定部107による騒音レベルの測定は、常時行っても良いし、1分毎、10秒毎等、所定の時間単位ごとに行っても良い。
【0046】
また、所定の時間毎に騒音測定を行う場合は、少なくとも最新の測定結果をRAM等に記憶し、ステップS307の処理で、記憶された測定結果をメモリから呼び出せばよい。
【0047】
次に、ステップS308において、字幕付与判断部108は、測定された騒音レベルが所定の閾値を超えているか否か判断する。
【0048】
ステップS308において、測定された騒音レベルが所定の閾値を超えていると判断された場合、ステップS309の処理を実行し、測定された騒音レベルが所定の閾値を超えていないと判断された場合、ステップS311の処理を実行する。
【0049】
ステップS309において、音声認識部105は、デコード部102が分離した音声、すなわち音声入力部210が集音した拠点2の会議参加者の発言を含む音を音声認識する。
【0050】
次に、ステップS310において、表示部103は、認識結果を字幕として表示する。
【0051】
次に、ステップS311において、音声出力部104は、受信した音声を出力し、表示部103は受信した映像を表示する。尚、ステップS311の処理は、ステップS310の処理と並行して実行される。
【0052】
以上説明したように、字幕が不要である場合、音声認識処理は実行しない。
【0053】
尚、本図においては、映像および音声を拠点2から拠点1に送信した場合の処理の流れについて説明したが、映像および音声を拠点1から拠点2に送信した信号の処理の流れについても同様である。
【0054】
また、映像および音声を拠点1から拠点2に送信する場合の処理と、映像および音声を拠点2から拠点1に送信する場合の処理とを並行して行っても良い。
【0055】
(第1の実施形態の変形例1)
図4は、騒音レベルの変動と字幕付与の判断を説明する図である。
【0056】
図4(a)は、音声入力部210が集音した音の音声波形を示す図である。尚、本図の横軸は時刻であり、縦軸は各時点における振幅である。
【0057】
また、音声波形401は、「次回のミーティングは来週月曜の13時からです。」「では、よろしくお願いします。」という2つの発言(発言402、403)からなる発声に相当する音声波形である。
【0058】
図4(b)(c)(d)は、騒音収録部106が収録した拠点1の会議参加者の周囲の音から測定された騒音レベルを示す図である。尚、本図の横軸は時刻であり、縦軸は各時点における騒音レベルである。
【0059】
ここで、線404、406、408は、変動する騒音レベルを示しており、線405、407、409は、所定の閾値を示している。
【0060】
即ち、図4(b)は、発言開始時点t1では騒音レベルが所定の閾値を超えず、発言中の時点t2において騒音レベルが所定の閾値を超える場合といえる。
【0061】
また、図4(c)は、発言開始時点t1では騒音レベルが所定の閾値を超えているが、発言中の時点t2において騒音レベルが所定の閾値を超えない場合といえる。
【0062】
また、図4(d)は、発言開始時点t1から発言終了時点t3までの間に、何度も騒音レベルと所定の閾値との大小関係が変動する場合といえる。
【0063】
以下、このような場合においても、「次回のミーティングは来週月曜の13時からです。」や「では、よろしくお願いします。」のような文あるいは発言を単位とした意味のある字幕を表示する機能を備えるテレビ会議装置について説明する。
【0064】
より具体的には、図4(b)の場合、字幕が必要と判断した時点t2以降の部分的な字幕ではなく、発言402の冒頭からの字幕を表示する。また、発言403の字幕も表示する。
【0065】
また、図4(c)の場合、発言の途中で字幕は不要と判断した時点t2以降も、発言402が終わるまでの字幕を表示する。また、図4(c)のように、音声区間Bにおいて騒音レベルが所定の閾値を超えない場合、発言403の字幕は表示しない。
【0066】
また、図4(d)の場合、発言402の冒頭からの字幕を表示し、発言402が終わるまでの字幕を表示する。また、発言403についても同様に字幕を表示する。
【0067】
図5は、騒音レベルと所定の閾値との大小関係が変動した場合でも、音声入力部210が集音した音を、一まとまりの発言等を単位とした意味のある字幕として表示するための処理を実行する音声認識部105の機能構成を示す機能ブロック図である。
【0068】
音声認識部105は、より詳細にはプログラムモジュールとして、音声検出部501、一時記憶部502、読み出し部503、音響分析部504、探索部505を有する。以下、各部の機能について説明する。
【0069】
音声検出部501は、周知の音声検出手法を用いて音声入力部210が集音した音から、パワーの変化等に基づいて拠点2の会議参加者が発言した音声区間の始端または終端を検出する。尚、音声検出には、ピッチ成分やゼロ交差回数の変化などを他の基準値を用いた周知の音声検出手法を用いても良い。
【0070】
一時記憶部502は、入力された音声を一時的に記憶する。
【0071】
読み出し部503は、一時記憶部502で記憶した音声を読み出す。
【0072】
音響分析部504は、音声を分析し音声認識に適した特徴パラメータ(例えばMFCC、LPCケプストラムなど)を求める。
【0073】
探索部505は、所定の音響モデル、言語モデル等を用いて、音響分析部504が求めた特徴パラメータの尤度を最大にする音声認識結果を求める。
【0074】
尚、パーソナルコンピュータのサウンドカード等、オーディオ入力装置では、一般的に、入力された音声データを一時的に記憶するメモリを備える。
【0075】
しかし、一時記憶部502はこれらのオーディオ入力装置が備えるメモリとは別のメモリとする。
【0076】
以下、騒音レベルと所定の閾値との大小関係が変動した場合でも、音声入力部210が集音した音を、一まとまりの発言等を単位とした意味のある字幕として表示するために、音声認識部105が実行する処理について説明する。
【0077】
尚、音声認識部105における処理は、騒音測定部107、字幕付与判断部108の処理と並行して実行するものとする。また、音声認識部105は、音声データを所定量(たとえば100ミリ秒間のデータとする。)毎に順次処理するものとする。
【0078】
図6、図7は、騒音レベルと所定の閾値との大小関係が変動する場合に、音声データを保存する処理または認識する処理の流れを示すフローチャートである。
【0079】
尚、本図において用いる、「VAD」とは、音声区間であるかか否かを示すためのフラグとする。また、「CAP」とは、字幕を表示するか否かを示すフラグとする。また、「REC」とは、音声データを保存するか否かのフラグとする。また、「ASR」とは、音声認識実行中であるかか否かを示すフラグとする。尚、フラグとは、処理の条件判定結果を保持するレジスタである。
【0080】
また、これらのフラグの管理およびフラグの値(YES、NO等)の制御は、制御部113が行う。また、いずれのフラグも、テレビ会議装置の起動時はNOであるものとする。
【0081】
尚、「CAP」は字幕を表示するか否かを示すフラグであって、字幕付与判断部108の字幕要否の判断とは必ずしも一致しない。また、「CAP」は字幕を表示することを示す「YES」、字幕を表示しないことを示す「NO」のほかに、音声認識終了後に字幕付与を終了することを示す「TBF」という値を取る。
【0082】
まず、ユーザがテレビ会議を開始する操作を行うと、ステップS600において、制御部113が各フラグを初期化する。すなわち、「VAD」の値を「NO」に、「CAP」の値を「NO」に、「REC」の値を「NO」に設定する。
【0083】
次に、ステップS601において、音声認識部105は、前述した所定量を単位とする音声データを取得する。
【0084】
次に、ステップS602において、制御部113は、「VAD」の値を参照して、現在の状態が音声区間中であるか否か判断する。
【0085】
ステップS602において、音声区間中の場合(「VAD」の値が「YES」である場合)は、ステップS701の処理を実行し、音声区間中でない場合(「VAD」の値が「NO」である場合)は、ステップS603の処理を実行する。
【0086】
ステップS603において、字幕付与判断部108は、字幕表示が必要か否か判断する。
【0087】
ステップS603において、字幕表示が必要と判断された場合、ステップS605において、制御部113が「CAP」の値を「YES」とし、表示部103が字幕表示を開始するよう制御する。
【0088】
一方、ステップS603において、字幕表示は不要と判断された場合、ステップS604において、制御部113は「CAP」の値を「NO」にし、表示部103が字幕表示を終了するよう制御する。
【0089】
次に、ステップS606において、音声検出部501は、取得した音声データが、音声の始端であるか否か判定する。
【0090】
ステップS606において、取得した音声データが音声の始端であると判定された場合、ステップS607において、制御部113は、「VAD」の値を「YES」にする。
【0091】
次に、ステップS608において、制御部113は、「CAP」の値が「YES」であるか「NO」であるか判定する。
【0092】
ステップS608において、「CAP」の値が「YES」であると判定された場合、ステップS610において、制御部113は音声認識を開始する処理を実行するよう音響分析部504と探索部505を制御する。
【0093】
一方、ステップS608において、「CAP」の値が「NO」であると判定された場合、ステップS609において、制御部113は、一時記憶部502が音声データの保存を開始するよう制御する。
【0094】
尚、ステップS610における音声認識開始処理では、ステップS601で取得した音声データを、音響分析部504が音響分析し、探索部505が探索処理を実行する。
【0095】
尚、この探索処理で、取得した音声に対して認識結果が確定した部分については、字幕として表示部103に表示する。尚、音声区間中にある時点までの認識結果を確定する探索方法には、例えば、最尤単語列を逐次比較する技術等、周知の技術を用いる。
【0096】
尚、ステップS610で、制御部113は、システムの状態が音声認識中であることを示す「ASR」の値を「YES」にする。
【0097】
一方、ステップS609におけるデータ保存開始処理では、ステップS601で取得した音声データを、一時記憶部502に記憶する処理を開始する。尚、このとき、制御部113は「REC」の値を「YES」とする。また、このとき、一時記憶部502に過去の別の音声区間に対応する音声データが保持されている場合、一時記憶部502は、そのデータを抹消してもよい。
【0098】
ステップS611において、制御部113は、テレビ会議を終了するか否か判断する。
【0099】
ステップ611において、テレビ会議を終了すると判断した場合、一連の処理を終了する。一方、ステップS611において、テレビ会議を終了しないと判断した場合、次の所定量の音声データに対して、ステップS601からの処理を実行する。
【0100】
続いて、図7を参照しながら、ステップS602において、音声区間中(「VAD」の値が「YES」)の場合の処理を説明する。
【0101】
ステップS701において、制御部113は、字幕を表示中であるか否か判断する。
【0102】
ステップS701において、字幕を表示中であると判断された場合(「CAP」の値が「YES」または「TBF」である場合)、ステップS706の処理を実行する。
【0103】
一方、ステップS701において、字幕を表示中でない場合(「CAP」の値が「NO」である場合)、ステップS702の処理を実行する。
【0104】
ステップS702において、字幕付与判断部108は、字幕表示が必要か否か判断する。
【0105】
ステップS702において、字幕表示は不要と判断された場合、ステップS603において、一時記憶部502にステップS601で取得した音声データを記憶する。
【0106】
即ち、ステップS603では、字幕表示を行わない場合でも音声区間中の音声データを一時的に記憶する処理を実行する。
【0107】
一方、ステップS702において、字幕表示が必要と判断された場合、ステップS704において、制御部部113は、「CAP」の値を「YES」にし、表示部103が字幕表示を開始するよう制御する。
【0108】
次に、ステップS705において、音声認識部105は、音声認識を開始する処理を実行する。
【0109】
図8は、ステップS705における音声認識を開始する処理の流れを示すフローチャートである。
【0110】
まず、ステップS801において、制御部113は、音声認識中であることを示すためフラグ「ASR」の値を「YES」にする。
【0111】
次に、ステップS802において、読み出し部503は、一時記憶部502が記憶している音声データを読み出す。
【0112】
次に、ステップS803において、制御部113は、データ保存を終了するためフラグ「REC」の値を「NO」にする。
【0113】
次に、ステップS804において、音響分析部504は、ステップS802で読み出した音声データおよびS601で取得した音声データを音響分析する。
【0114】
次に、ステップS805において、探索部505は、探索処理を実行する。
【0115】
尚、探索処理とは、前述したように、探索部505が、所定の音響モデル、言語モデル等を用いて、音響分析部504が求めた特徴パラメータの尤度を最大にする音声認識結果を求める処理をいう。
【0116】
次に、ステップS806において、表示部103は、ステップS610の処理と同様に、読み出した音声の認識結果が確定した部分を字幕として表示する。
【0117】
以上の処理で、音声区間中すなわち発言中に字幕表示が必要と判断した場合でも、一時的に記憶した音声データを読み出して、発言の最初から音声認識処理を行うことができる。
【0118】
一方、ステップS706において、字幕付与判断部108は、字幕表示が必要であるか否か判断する。
【0119】
ステップS706において、字幕表示が不要と判断された場合、ステップS707において、制御部113は、後述する処理で音声認識終了後に字幕表示を終了するよう制御するため、「CAP」の値を「TBF」にする。
【0120】
尚、この処理により、字幕付与判断部108が字幕不要と判断しても、音声認識を行っている間は字幕の表示を行う。
【0121】
また、音声認識は後段で説明する音声の終端を検出するまで行なわれるので、発言終了まで字幕表示を継続することになる。従って、発言の途中で字幕表示を終了することがなくなる。
【0122】
一方、ステップS706において、字幕表示は必要と判断された場合、制御部113は、フラグ「CAP」の値を「YES」にする。
【0123】
尚、この処理により、一旦、認識終了後に字幕表示終了とした場合(「CAP」の値を「TBF」とした場合)でも、その後の音声区間中に字幕付与が必要と判断した場合には、以降の発言でも字幕表示を継続することができる。
【0124】
次に、ステップS708において、音響分析部504は、ステップS601で取り込んだ音声データを音響分析し、探索部505は、探索処理を行う。
【0125】
また、ステップS610での処理と同様に、ステップS708の探索処理において、取り込んだ音声に対して認識結果が確定した部分は、表示部103に字幕として表示するよう制御部113が制御する。
【0126】
ステップS710において、音声検出部501は、取得した音声データが音声の終端であるか否か判断する。
【0127】
ステップS710において、音声の終端でないと判断された場合、制御部113はステップS601で取得した音声に対する処理を終了するよう制御する。
【0128】
一方、ステップS710において、音声の終端であると判断された場合、ステップS711において、制御部113は、「CAP」の値が「NO」であるか否かを判断する。
【0129】
ステップS711において、「CAP」の値が「NO」であると判断された場合、ステップS712において、制御部113は、「REC」の値を「NO」にして、一時記憶部502が音声データの保存を終了するよう制御する。
【0130】
一方、ステップS712において、「CAP」の値が「NO」でないと判断された場合(「CAP」の値が「YES」または「TBF」である場合)、ステップS713の処理を実行する。
【0131】
ステップS713において、制御部113は、「ASR」の値を「NO」にして、音声認識の処理を終了するよう音声認識部105を制御する。
【0132】
次に、ステップS714において、制御部113は、認識終了後に字幕表示を終了するか否かを判断する。即ち、「CAP」の値が「TBF」であるか否か判断する。
【0133】
ステップ714において、字幕表示を終了すると判断された場合、ステップS715において、制御部113は、「CAP」の値を「NO」にして、字幕表示を終了するよう表示部103を制御する。
【0134】
ステップS716において、制御部113は、フラグ「VAD」の値を、音声区間ではないことを示す「NO」にする。このとき、制御部113はステップS601で取得した音声データに対する処理を終了するよう制御する。
【0135】
尚、上述のステップS703の説明において、一時記憶部502が音声データを保存する場合について説明したが、音響分析部504で音声データを分析した結果の特徴パラメータを記憶してもよい。
【0136】
この場合、ステップS802では、音響分析済みの特徴パラメータが読み出される。また、ステップS804では、ステップS601で取り込んだ音声であって、音響分析が完了していない音声に対して音響分析を実行する。
【0137】
以上のように、本実施例のテレビ会議装置によれば、直ちに字幕表示を行わない場合でも音声データを一時的に保存し、字幕表示が必要になった場合に読み出して音声認識を実行する。
【0138】
即ち、音声区間の少なくとも一部において、騒音レベルが閾値以上となった場合、当該音声区間の始端から終端までの音に対する音声認識を実行する。
【0139】
したがって、発言中に騒音レベルの変動があり字幕表示が必要になった場合であっても、発言の最初の部分から字幕を表示することができる。
【0140】
また、本実施例のテレビ会議装置によれば、字幕を表示している間は騒音レベルの変動があっても字幕表示を継続し、発言の途中で字幕表示が中止されることがない。
【0141】
従って、一まとまりの発言等の単位で字幕の表示、非表示を切り替えることによって、利用者にとって、より見やすい字幕表示が可能となる。
【0142】
(第1の実施形態の変形例2)
以下、テレビ会議装置100の周囲の騒音レベルに応じて、テレビ会議装置200で入力された音を、テレビ会議装置100が字幕として表示するか否かを切り替える場合について説明する。
【0143】
このような場合において、第1の実施形態では、字幕付与の判断および音声認識処理をテレビ会議装置100が実行していたが、音声認識処理をテレビ会議装置200が実行し、字幕付与の判断を、テレビ会議装置100が実行してもよい。
【0144】
この場合、音声認識部205は、音声入力部210が集音した音声を認識して認識結果を求める。即ち、第1の実施形態において音声認識部105が実行する処理を、音声認識部205が実行する。また、エンコード部211は、撮像部209が撮像した映像、音声入力部210が集音した音声に加え、音声認識部205が出力する認識結果をエンコードする。また、送信部212はエンコード部211がエンコードした信号を送信先に送信する。また、受信部101は映像信号、音声信号、認識結果を含む信号を受信する。また、デコード部102は、受信部101が受信した信号を元の映像信号、音声信号、認識結果に分離する。
【0145】
尚、以上のような構成にすると、送信側に相当するテレビ会議装置200で音声認識をするので、受信側に相当するテレビ会議装置100における処理の負荷を軽減できる。
【0146】
(第1の実施の変形例3)
以下、テレビ会議装置100の周囲の騒音レベルに応じて、テレビ会議装置200で入力された音を、テレビ会議装置100が字幕として表示するか否かを切り替える場合について説明する。
【0147】
このような場合において、第1の実施形態では、字幕付与の判断および音声認識処理をテレビ会議装置100が実行していたが、字幕付与の判断および音声認識処理をテレビ会議装置200が実行してもよい。
【0148】
この場合、エンコード部111は、騒音測定部107が測定した騒音レベルを示す情報をエンコードする。また、送信部112は、所定の形式にエンコードされた騒音レベルを示す情報を受信部201へ送信する。また、受信部201は、騒音レベルを示す情報を受信する。デコード部202は、受信部201が受信した信号から騒音レベルを示す情報をデコードする。また、字幕付与判断部108は、受信部201が受信した騒音レベルを示す情報に基づき、字幕付与の要否を判断する。即ち、字幕付与判断部208は、騒音測定部107が測定した騒音レベルに基づき、字幕付与の要否を判断する。また、音声認識部205は、音声入力部210が集音した音声を認識して認識結果を求める。また、エンコード部211は、撮像部209が撮像した映像、音声入力部210が集音した音声、音声認識部205が出力する認識結果をエンコードする。また、送信部212はエンコード部211がエンコードした信号を送信先に送信する。また、受信部101は映像信号、音声信号、認識結果を含む信号を受信する。また、デコード部102は、受信部101が受信した信号を元の映像信号、音声信号、認識結果に分離する。
【0149】
尚、以上のような構成にすると、送信側に相当するテレビ会議装置200で字幕付与の判断および音声認識をするので、受信側に相当するテレビ会議装置100における処理の負荷を軽減できる。
【0150】
(第1の実施形態の変形例4)
第1の実施形態では、音声認識した結果を字幕として表示すると説明した。しかしながら、周知の文書要約技術を用いて、音声認識結果を要約した字幕を表示しても良い。また、周知のキーワード抽出技術を用いて、音声認識結果に含まれる重要語等のキーワードのみを字幕として表示しても良い。また、周知の翻訳技術を用いて、音声認識結果を別の言語に翻訳した字幕を表示しても良い。また、音声認識結果に対応する画像やアイコン等を、字幕に相当する情報として表示しても良い。
【0151】
(第1の実施形態の変形例5)
第1の実施形態から第3の実施形態において、字幕付与判断部108が字幕付与の要否を判断に用いる騒音レベルの閾値は、テレビ会議装置の使用者が任意に設定できるようにしてもよい。
【0152】
すなわち、上記の実施形態では、テレビ会議装置100の使用者が騒音レベルの閾値を所定の値に設定できるようにする。このとき、第3の実施形態においては、設定した騒音レベルの閾値は、測定した騒音レベルとともに送信部112から送信先となるテレビ会議装置200に送信されるものとする。
【0153】
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

【特許請求の範囲】
【請求項1】
視聴者に対して音を出力する音声出力手段と、
前記音に含まれる音声区間の始端または終端を検出する検出手段と、
前記視聴者の周囲の騒音レベルを測定する測定手段と、
逐次、各前記騒音レベルが閾値以上であるか否か判断する判断手段と、
音声区間の始端において前記騒音レベルが前記閾値以上でない場合、音声区間の始端から、前記音声区間の音を保持する保持手段と、
前記音声区間の少なくとも一部において、前記騒音レベルが前記閾値以上となった場合、前記音声区間の始端から終端までの音を音声認識する音声認識手段と、
音声認識した結果を字幕として表示する字幕表示手段とを有する情報処理装置。
【請求項2】
前記検出手段は、前記音のパワーに基づいて、前記音声区間の始端または終端を検出することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
音声認識した結果を字幕として表示する情報処理装置の制御方法であって、
前記音に含まれる音声区間の始端または終端を検出する検出工程と、
前記視聴者の周囲の騒音レベルを測定する測定工程と、
逐次、各前記騒音レベルが閾値以上であるか否か判断する判断工程と、
音声区間の始端において前記騒音レベルが前記閾値以上でない場合、音声区間の始端から、前記音声区間の音を保持する保持工程と、
前記音声区間の少なくとも一部において、前記騒音レベルが前記閾値以上となった場合、前記音声区間の始端から終端までの音を音声認識する音声認識工程と、
音声認識した結果を字幕として表示する字幕表示工程とを有する制御方法。
【請求項4】
請求項3に記載の制御方法をコンピュータに実行させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2011−119943(P2011−119943A)
【公開日】平成23年6月16日(2011.6.16)
【国際特許分類】
【出願番号】特願2009−274957(P2009−274957)
【出願日】平成21年12月2日(2009.12.2)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】