説明

音声入出力装置

【課題】 ビデオカメラ等の音声入出力装置において、撮影者が音声入力装置に一番近い位置にいるため、被撮影者よりも音量が大きく記録・再生されるという問題があった。この問題をユーザーの手間やコストを掛けることなく解決すること。
【解決手段】 入力された音声データに対し、データベースとの音声認識を行い、音声認識の結果に応じてアナログアンプまたはデジタルアンプにより音量を制御する、または、音声認識の結果に応じてフィルタリング処理を行なう、または、音声認識された後、相関性算出の結果に応じて指向性制御を行なうことで音量が大きい撮影者の音声などの特定の音声に関して音量を下げることを可能とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明はマイクロホンまたは記録媒体等からの音声入力を行なう音声入力装置を備えた、音声入出力可能な装置に関するものである。
【背景技術】
【0002】
本来、例えばビデオカメラ等の音声入出力装置において、撮影者が音声入力装置に一番近い位置にいるため、被撮影者よりも音量が大きく記録・再生されるという問題があった。この問題に対応するために、従来技術ではマイクロホン等による音声入力装置を備えた音声入出力可能な装置において、ある特定の音声の音量が大きい場合においては、決められた一定期間の音量を調節する機能を持ったものがある。(例えば、特許文献1参照。)また、撮像装置のナレーションの音量調節においては、ナレーションマイクを独立チャンネルに配置し、そのナレーション音量を通常マイクの音量調節とは独立して調節可能なものがある。(例えば、特許文献2参照。)このような技術を用いることで、従来では撮影者の音声ボリュームが大きく、被撮影者の音声ボリュームが撮影者に対して小さくなってしまうこと、または被撮影者の音声ボリュームに対して撮影者の音声ボリュームが大きくなってしまうことを回避することが可能であった。
【特許文献1】特開2003-078879号公報
【特許文献2】特開2002-171482号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、上記従来例では、ある一定期間の音量を一律で下げる(上げる)方法がとられているが、一定期間をユーザーがその都度指示しなくてはならないということがあった。また、これを改善するために別にナレーションマイクを備え、その信号を用いることで、ナレーションの音量を単独で調節できるようにしているものがあるが、専用マイクを必要とするため、コストがかかるということがあった。
【0004】
本発明では、音声認識技術、ボリュームコントロール、フィルタリング処理、および指向性制御を利用することにより、ユーザーがその都度指示することなく、且つ、部品にかかるコストを上げることなく、特定の音声期間または特定の音声成分の音量を調節することを可能とすることを目的とする。
【課題を解決するための手段】
【0005】
上記目的を達成するため、本出願にかかわる第一の発明は、音声入力手段とその音声信号を処理する信号処理手段と、信号を周波数変換・逆変換する手段と、音声認識をする手段と、相関性を算出する手段と、音量を制御する制御手段と、フィルタリング処理手段と、指向性制御手段とを備えており、入力された音声データに対し、データベースとの音声認識を行い、音声認識の結果に応じてアナログアンプまたはデジタルアンプにより音量を制御する、または、音声認識の結果に応じてフィルタリング処理を行なう、または、音声認識された後、相関性算出の結果に応じて指向性制御を行なうことで音量が大きい撮影者の音声などの特定の音声に関して、結果として音量を下げる制御を行なうことを特徴としている。
【0006】
また、本発明の他の特徴とするところは、記録媒体から音声を読み出す入力手段とその記録媒体からの音声信号を処理する信号処理手段と、信号を周波数変換・逆変換する手段と、音声認識をする手段と、相関性を算出する手段と、音量を制御する制御手段と、フィルタリング処理手段と、指向性制御手段と、その各種信号処理が施された音声信号を出力・再生する手段を備えており、記録媒体から読み出された音声データに対しデータベースとの音声認識を行い、音声認識の結果に応じてアナログアンプまたはデジタルアンプにより音量を制御する、または、音声認識の結果に応じてフィルタリング処理を行なう、または、音声認識された後、相関性算出の結果に応じて指向性制御を行なうことで音量が大きい撮影者の音声などの特定の音声に関して、結果として音量を下げる制御を行なうことを特徴としている。
【発明の効果】
【0007】
以上説明したように、本発明によれば、ボタン等によりその都度指示を出すことなく、自動的に問題となる一定期間の音量をコントロールすることが可能となる。また、ナレーションマイク等の特別な音声入力装置を必要としないため、コストを上げることなく問題となる特定の音量をコントロールすることや、指向性を持たせることで特定の音量バランスをコントロールすることが可能となる。
【発明を実施するための最良の形態】
【0008】
次に、本発明の詳細を実施例の記述に従って説明する。
【実施例1】
【0009】
本発明の実施例として、本実施例ではビデオカメラを例に挙げ説明を行なう。図1は本発明の特徴を表す図である。また、図2に示すような構成になっても良い。同図1において1はレンズ、2はCCD、3はCDS/AGC回路、4はA/D回路、5はデジタル信号処理回路を示しており、ビデオカメラのシステムにおけるの撮像系を示している。
【0010】
また、7,8は音声入力装置であるマイク、9は音声信号を増幅するアンプ、10は音声信号をサンプリングしデジタル信号に変換するA/D変換、11はデジタル変換された音声信号を処理する音声信号処理回路である。この信号処理されたデジタル音声データは5のデジタル信号処理回路に伝達され、マイコンの指示により必要に応じて信号処理を行なう。ここで、11の音声信号処理回路は場合によっては5に示すデジタル信号処理回路に含まれた構成となることもある。
【0011】
通常は5のデジタル信号処理回路によりフィルタリング等の信号処理された音声信号データが12のD/A変換によりアナログ信号に変換され、13のアンプにより適切な振幅を持ち適切なレベルとなった信号に調節され、スピーカ等の14の音声出力装置または音声出力端子に出力される。
【0012】
本発明においては11の音声信号処理回路の出力が5のデジタル信号処理回路に入り、この信号に対して、6のマイクロコンピュータにて、本発明の動作の実行命令を下す。この実行命令が下された場合に、15の音声認識回路によって音声認識を行ない、あらかじめ登録された16のデータベース情報とマッチした場合に20のボリュームコントロールにて音声データのボリュームをコントロールすることを特徴とする装置である。認識結果がデータベースとマッチしている場合にボリュームを下げる制御を行い、認識結果がデータベースとマッチしている時間中、ボリュームを下げた状態を維持するわけだが、急激にボリュームを下げると不自然となったり、かえって耳障りになりかねないため、徐々に制御を行なう方法も有効である。
【0013】
より具体的には、5に示すデジタル信号処理からの音声データを16の周波数変換回路によって周波数成分のデータに変換する。ここではフーリエ変換を用いて周波数成分情報に変換し、単に2乗演算を施すことで、パワースペクトラム情報に変換するが、例えばウェーブレット変換のように周波数ごとではなく、グルーピングされた周波数ごとのレベル分類を行うことでホルマントと同等の結果を得ることも可能であり、ここでは音声認識手段の如何は問わない。そして、例えばここでは、周波数分類されたパワースペクトラム情報からピークを持つホルマント周波数を算出し、データベースのホルマント情報との相関性を計算する。相関性の演算は、ここでは例えば2つのデータ間で内積演算を行なうことで相関データを算出する。その結果、ある一定値以上の相関性があると認識された場合に21に示すボリュームコントロール回路によりボリュームコントロールを行なうことを特徴とする制御である。
【0014】
フローチャートを用いて説明すると図3に示す制御フローになる。まず、S11のステップ1で本発明の処理を行なう要求があるかを判断する。ここで結果がNOであった場合には繰り返し判断があるまで条件判断を行なう。また、結果がYESであった場合にS12のステップ2に進む。S12のステップ2では音声認識等に必要なフーリエ変換等の音声信号処理が行なわれ、S13のステップ3に進む。S13のステップ3では音声認識が行なわれ、S14のステップ4に進む。S14のステップ4では、音声認識処理で、データベースとどの程度相関があるかを算出し、S15のステップ5に進む。S15のステップ5では音声認識の相関性算出の結果がデータベースと同じ人物の音声かどうかが判断される。ここで結果がNOであれば、引き続きS12のステップ2に進み、時間的にずれた次のデータを用いて音声信号処理が行なわれれる。また、判断結果がYESであった場合は、S16のステップ6に進み音声のボリュームコントロールが行なわれる。これが本発明の実施例1の基本動作である。
【実施例2】
【0015】
本発明の実施例2として、実施例1同様にビデオカメラを例に挙げ説明を行なう。実施例1と同様に音声信号処理が行なわれている音声入出力装置において、11の音声信号処理回路の出力が5のデジタル信号処理回路に入り、この信号に対して、6のマイクロコンピュータにて、本発明の実施例2の動作の実行命令を下す。この実行命令が下された場合に、15の音声認識回路によって音声認識を行ない、あらかじめ登録された16のデータベース情報とマッチした場合に21のフィルタ制御回路により、音声データにフィルタリング処理を行なうことを特徴とする装置である。
【0016】
より具体的には、実施例1と同様に、5に示すデジタル信号処理からの音声データを17の周波数変換回路によって周波数成分のデータに変換する。ここではフーリエ変換を用いて周波数成分情報に変換し、単に2乗演算を施すことで、パワースペクトラム情報に変換するが、例えばウェーブレット変換のように周波数ごとではなく、グルーピングされた周波数ごとのレベル分類を行うことでホルマントと同等の結果を得ることも可能であり、ここでは音声認識手段の如何は問わない。そして、例えばここでは、周波数分類されたパワースペクトラム情報からピークを持つホルマント周波数を算出し、データベースのホルマント情報との相関性を計算する。相関性の演算は、ここでは例えば2つのデータ間で内積演算を行なうことで相関データを算出する。その結果、ある一定値以上の相関性があると認識された場合に、あらかじめデータベースに登録された人の特徴を示す周波数帯のゲインを落とすフィルタを音声信号に掛けることでフィルタリングを行なうことを特徴とする制御である。
【0017】
フローチャートを用いて説明すると図4に示す制御フローになる。まず、S21のステップ1で本発明の処理を行なう要求があるかを判断する。ここで結果がNOであった場合には繰り返し判断があるまで条件判断を行なう。また、結果がYESであった場合にS22のステップ2に進む。S22のステップ2では音声認識等に必要なフーリエ変換等の音声信号処理が行なわれ、S23のステップ3に進む。S23のステップ3では音声認識が行なわれ、S24のステップ4に進む。
【0018】
S24のステップ4では、音声認識処理でデータベースとどの程度相関があるかを算出し、S25のステップ5に進む。S25のステップ5では音声認識の相関性算出の結果がデータベースと同じ人物の音声かどうかが判断される。ここで結果がNOであれば、引き続きS22のステップ2に進み、時間的にずれた次のデータを用いて音声信号処理が行なわれれる。また、判断結果がYESであった場合は、S26のステップ6に進み音声信号に対してフィルタリング処理が行なわれる。これが本発明の実施例2の基本動作である。
【実施例3】
【0019】
本発明の実施例3として、実施例1同様にビデオカメラを例に挙げ説明を行なう。実施例1と同様に音声信号処理が行なわれている音声入出力装置において、11の音声信号処理回路の出力が5のデジタル信号処理回路に入り、この信号に対して、6のマイクロコンピュータにて、本発明の実施例3の動作の実行命令を下す。
【0020】
この実行命令が下された場合に、本実施例では実施例1と同様に音声認識されるわけだが、特に複数のマイクを持った装置で、その複数の入力音声信号を用い、17の周波数変換回路により周波数成分に変換され、更に18に示す位相分離回路により、マイクに対してあらかじめ複数に分類された方向(角度)の音声信号情報に切り分ける。
【0021】
この複数の方向に対する音声信号を元に複数回に分け音声認識処理が15の音声認識回路によって行なわれる。その音声認識の結果、データベースの音声情報と同じ人の音声であると判断された場合に音声のボリュームをコントロールするわけだが、実施例1のように単に20のボリュームコントロールによりボリュームを制御するのではなく、21に示す指向性制御回路により指向性を制御することで実質的に登録された人物の音量バランスを変更する。
【0022】
より具体的には、5に示すデジタル信号処理からの音声データを17の周波数変換回路によってフーリエ変換され、周波数成分情報に変換し実数部と虚数部の成分に分けられる。ここで虚数部の情報は位相情報を示しているため、この位相情報によりあらかじめ定められたグループごとにデータ分けされる。そして分けられたデータごとに17の周波数変換・逆変換回路によりフーリエ逆変換され、音声信号に戻される。この複数の音声データごとに15の音声認識回路により音声認識が行なわれる。そして、この位相ごとの音声信号から音声認識された結果、データベースとの相関性をそれぞれ計算し、ある一定以上の相関性があると認識された場合に、その位相情報に従って、マイクの指向性を制御することを特徴とする制御である。マイクの指向性制御に関しては、20のマイク指向性制御回路により、11の音声信号処理回路、または5のデジタル信号処理回路に指示する。11の音声信号処理回路または、5のデジタル信号処理回路では、位相ごとに分離された複数の音声データに対して、相関性の度合いに応じたボリュームコントロールを行ない、位相別データにボリュームコントロールされたデータを19のMIX回路により18の位相分離されたデータを合成することで、指向性制御を実現する。
【0023】
フローチャートを用いて説明すると図5に示す制御フローになる。まず、S31のステップ1で本発明の処理を行なう要求があるかを判断する。ここで結果がNOであった場合には繰り返し判断があるまで条件判断を行なう。また、結果がYESであった場合にS32のステップ2に進む。S32のステップ2では音声認識等に必要なフーリエ変換等の音声信号処理が行なわれ、S33のステップ3に進む。S33のステップ3ではフーリエ変換されたデータをもとに位相情報ごとに分類され、分類された情報ごとに逆フーリエ変換によって時系列の音声データに変換され、S34のステップ4に進む。S34のステップ4では各時系列の音声データごとに音声認識が行なわれ、S35のステップ5に進む。S35のステップ5では、音声認識処理でデータベースとどの程度相関があるかを算出し、S36のステップ6に進む。S36のステップ6では音声認識の結果がデータベースと同じ人物の音声かどうかが判断される。ここで結果が全てのデータに対してNOであれば、引き続きS32のステップ2に進み、時間的にずれた次のデータを用いて音声信号処理が行なわれる。また、判断結果が1つ以上のデータに関してYESであった場合は、S37のステップ7に進む。そしてS37のステップ7では認識結果がYESであったデータに対して、相関性の高低に応じたボリュームコントロールを施すことで指向性の制御が行なわれる。これが本発明の実施例3の基本動作である。
【実施例4】
【0024】
本発明の実施例4として、本実施例を実現するための構成図を図2に示す。実施例1に示した構成に対し、23の記録媒体からの入出力を備えた装置であり、また例えば、20のボリュームコントロール回路、21のフィルタ処理回路、22の指向性制御回路を5のデジタル信号処理の内部に持ち、記録媒体からの音声信号に対して、実施例1の処理を行なうことを可能とした制御である。
【0025】
つまり、実施例1ではマイク等の音声入力手段からの音声信号に処理を施すことで実現したが、本実施例では23の記録媒体からの音声信号に対し処理を施すことで、再生時に同等の効果を得るものである。そのため、フローチャートに関しては実施例1のフローチャートである図3と同じであり、同じフローが行なわれる。
【実施例5】
【0026】
本発明の実施例5として、本実施例を実現するための構成図を図2に示す。実施例2に示した構成に対し、23の記録媒体からの入出力を備えた装置であり、また例えば、20のボリュームコントロール回路、21のフィルタ処理回路、22の指向性制御回路を5のデジタル信号処理の内部に持ち、記録媒体からの音声信号に対して、実施例2の処理を行なうことを可能とした制御である。
【0027】
つまり、実施例2ではマイク等の音声入力手段からの音声信号に処理を施すことで実現したが、本実施例では23の記録媒体からの音声信号に対し処理を施すことで、再生時に同等の効果を得るものである。そのため、フローチャートに関しては実施例2のフローチャートである図4と同じであり、同じフローが行なわれる。
【実施例6】
【0028】
本発明の実施例6として、本実施例を実現するための構成図を図2に示す。実施例3に示した構成に対し、23の記録媒体からの入出力を備えた装置であり、また例えば、20のボリュームコントロール回路、21のフィルタ処理回路、22の指向性制御回路を5のデジタル信号処理の内部に持ち、記録媒体からの音声信号に対して、実施例3の処理を行なうことを可能とした制御である。
【0029】
つまり、実施例3ではマイク等の音声入力手段からの音声信号に処理を施すことで実現したが、本実施例では23の記録媒体からの音声信号に対し処理を施すことで、再生時に同等の効果を得るものである。そのため、フローチャートに関しては実施例3のフローチャートである図5と同じであり、同じフローが行なわれる。
【図面の簡単な説明】
【0030】
【図1】本発明の実施例に係るブロック図である。
【図2】本発明の実施例に係るブロック図であり、図1と構成が異なるブロック図である。
【図3】実施例1・4の制御フローを示すフローチャートである。
【図4】実施例2・5の制御フローを示すフローチャートである。
【図5】実施例3・6の制御フローを示すフローチャートである。
【符号の説明】
【0031】
1 レンズ
2 CCD
3 CDS/AGC回路
4 A/D変換回路
5 デジタル信号処理
6 マイクロコンピュータ
7 マイク
8 マイク
9 アンプ
10 A/D変換回路
11 音声信号処理
12 D/A変換
13 アンプ
14 音声出力装置または音声出力端子
15 音声認識回路
16 データベース
17 周波数変換・逆変換回路
18 位相分離回路
19 MIX回路
20 ボリュームコントロール回路
21 フィルタ処理回路
22 指向性制御回路
23 記録媒体
24 相関性算出回路
S11 音声処理要求判断
S12 音声信号処理開始
S13 音声認識
S14 相関性算出
S15 データベースと同じ音声であるかの条件判断
S16 ボリュームコントロール
S21 音声処理要求判断
S22 音声信号処理開始
S23 音声認識
S24 相関性算出
S25 データベースと同じ音声であるかの条件判断
S26 フィルタ処理
S31 音声処理要求判断
S32 音声信号処理開始
S33 音声位相分離処理
S34 音声認識
S35 相関性算出
S36 データベースと同じ音声であるかの条件判断
S37 指向性制御

【特許請求の範囲】
【請求項1】
音声を収音するマイクロホンと
マイクロホンからの音声信号を周波数変換・逆変換する手段と
音声情報をデータベースと比較し、認識する音声認識手段と
音声入力段の音量を調節する音量調節手段と
その調節された音声信号を記録または出力する手段を備えた音声入出力装置において、
音声認識手段により音声認識された結果、データベースと同一音声であると判断した場合に、
音声入力段の音量を調節することを特徴とする音声入出力装置。
【請求項2】
音声を収音するマイクロホンと
マイクロホンからの音声信号を周波数変換・逆変換する手段と
音声情報をデータベースと比較し、認識する音声認識手段と
音声入力段の音声信号にフィルタリング処理を施すフィルタリング手段と
その調節された音声信号を記録または出力する手段を備えた音声入出力装置において、
音声認識手段により音声認識された結果、データベースと同一音声であると判断した場合に、
音声入力段の音声データに対しフィルタリング処理をすることを特徴とする音声入出力装置。
【請求項3】
音声を収音するマイクロホンと
マイクロホンからの音声信号を周波数変換する手段と
周波数変換されたデータから位相情報によりデータを分類する手段と
その各データを時系列信号に逆変換する手段と
各音声情報をデータベースと比較し、認識する音声認識手段と
音声認識手段により認識され、相関性を計算する手段と
それぞれの音声信号に対し音量を制御する指向性制御手段と
その指向性制御された音声信号を記録または出力する手段を備えた音声入出力装置において、
音声認識手段により音声認識され、データベースと同一音声であると判断した場合に、
音声認識結果の相関性に応じて、入力段の各位相別の音声データに対し音量を制御することで指向性を制御することを特徴とする音声入出力装置。
【請求項4】
音声を記録した媒体から音声データを取り込む手段と
その取り込まれた音声データを信号処理する音声信号処理手段と
その音声データを周波数変換・逆変換する手段と
音声情報をデータベースと比較し、認識する音声認識手段と
音声信号の音量を調節する音量調節手段と
その調節された音声信号を記録または出力する手段を備えた音声入出力装置において、
音声認識手段により音声認識された結果、データベースと同一音声であると判断した場合に、音声出力段の音量を調節することを特徴とする音声入出力装置。
【請求項5】
音声を記録した媒体から音声データを取り込む手段と
その取り込まれた音声データを信号処理する音声信号処理手段と
その音声データを周波数変換・逆変換する手段と
音声情報をデータベースと比較し、認識する音声認識手段と
音声信号にフィルタリング処理を施すフィルタリング手段と
その調節された音声信号を記録または出力する手段を備えた音声入出力装置において、
音声認識手段により音声認識された結果、データベースと同一音声であると判断した場合に、音声出力段の音声データに対しフィルタリング処理をすることを特徴とする音声入出力装置。
【請求項6】
音声を記録した媒体から音声データを取り込む手段と
その取り込まれた音声データを信号処理する音声信号処理手段と
その音声データを周波数変換する手段と
周波数変換されたデータから位相情報によりデータを分類する手段と
その各データを時系列信号に逆変換する手段と
さらにその各データを周波数変換する手段と
その変換された各音声情報をデータベースと比較し、認識する音声認識手段と
音声認識手段により認識され、相関性を計算する手段と
それぞれの音声信号に対し音量を制御する指向性制御手段と
その指向性制御された音声信号を記録または出力する手段を備えた音声入出力装置において、
音声認識手段により音声認識され、データベースと同一音声であると判断した場合に、音声認識結果の相関性に応じて、出力段の各位相別の音声データに対し音量を制御することで指向性を制御することを特徴とする音声入出力装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2009−122370(P2009−122370A)
【公開日】平成21年6月4日(2009.6.4)
【国際特許分類】
【出願番号】特願2007−295794(P2007−295794)
【出願日】平成19年11月14日(2007.11.14)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】