音声処理装置、音声処理方法、及び、プログラム
【課題】複数の音声入力部から入力された音声から、特定方向から発せられる目的音と撮影者音声とを抽出し、当該撮影者音声を含むシーンの切れ目情報からなるチャプター情報を再生時に利用する音声処理装置等を提供する。
【解決手段】本発明に係る音声処理装置は、複数の音声を取得する音声取得部と、取得される複数の音声から、所定の音声を抽出する音声抽出部と、抽出される所定の音声に基づいて、複数の音声の区切りを判定する判定部と、判定される区切りに基づいて、所定の音声に対応付けられる区切りを示す情報を生成する生成部と、生成される区切りを示す情報を表示する表示部と、を備える。
【解決手段】本発明に係る音声処理装置は、複数の音声を取得する音声取得部と、取得される複数の音声から、所定の音声を抽出する音声抽出部と、抽出される所定の音声に基づいて、複数の音声の区切りを判定する判定部と、判定される区切りに基づいて、所定の音声に対応付けられる区切りを示す情報を生成する生成部と、生成される区切りを示す情報を表示する表示部と、を備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のマイク(アレイマイク)を備え、収録目的の被写体音声(目的音)を抽出及び収録して、その収録した目的音を再生する音声処理装置、音声処理方法、及び、コンピュータを音声処理装置として機能させるプログラムに関する。
【背景技術】
【0002】
音声収録や映像撮影の分野では、個々のマイクから複数の音声を入力し、当該マイクの入力音声を時刻情報とともに記録しておき、その複数の記録音声を利用して、再生時に機器の使用者の使い勝手を向上させる技術が存在する。例えばその一つとして、被写体音声を収録する第一の音声入力部と、撮影者音声を収録する第二の音声入力部と、を備え、撮影者の発話音声と被写体の音声とを別々に収録し、音声分析部によりその撮影者発話音声をテキスト化したものを時刻情報とともにメタデータ化して管理し、再生時に映像に対応した撮影者発話音声をテロップとして映像と合わせて表示する技術が開示されている(特許文献1参照)。また、特許文献1には、機器使用者が被写体の音声と撮影者の発話音声とを自由に選択して再生する技術も開示されている。
【0003】
また、被写体音声の収録に関しては、遠方の目的音や会議における特定の目的音の収録において、複数の入力音声を処理することで目的音以外の周囲雑音を抑圧することにより、その目的音の明瞭性を向上する技術が多く存在する。例えば、特許文献2には、アレイマイクを備え、そのアレイマイクで取得した複数の音声から、各マイクに入力される同一音源音声の位相差により、それぞれの音源音声の方向を判定し、特定方向からの例えば被写体音声といった目的音のみを抽出する音源分離技術が開示されている。これらの技術により、被写体音声などの機器使用者が期待する特定音源の音声のみを周囲雑音から抽出する事が可能となる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007−104405号公報
【特許文献2】特開2006−227328号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、特許文献1及び2に開示されている構成では、収録した音声を再生時に利用するには、音声入力部の入力音声から同時に取り込まれる周囲雑音、その他の音声を雑音として除去し、収録する音源音声の明瞭性を保つ必要がある。また、複数の入力音声を撮影時に常時記録するために、複数音声のコーデックを常時動作させる必要がある。さらに、音源音声を抽出するための音源分離技術を用いておらず、音源音声の明瞭性が確保されていない場合には、テキスト化が困難となる可能性がある。
【0006】
本発明は、上記問題に鑑みてなされたものであり、複数の音声入力部からの入力音声から、特定方向から発せられる被写体音声といった目的音と撮影者音声とを高い明瞭性で抽出する。また、収録期間判定手段により撮影者音声の収録期間を限定することで、判定した収録期間の撮影者音声とその時刻情報を含むチャプター情報(シーンの切れ目情報)を記録し、再生時にそのチャプター情報を利用する音声処理装置等を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記の目的を達成するため、本発明の第1の観点に係る音声処理装置は、
複数の音声を取得する音声取得部と、
前記取得される複数の音声から、所定の音声を抽出する音声抽出部と、
前記抽出される所定の音声に基づいて、前記複数の音声の区切りを判定する判定部と、
前記判定される区切りに基づいて、前記所定の音声に対応付けられる区切りを示す情報を生成する生成部と、
前記生成される区切りを示す情報を表示する表示部と、を備える、ことを特徴とする。
【0008】
前記複数の音声が取得される時刻を計時する計時部、をさらに備える、ことも可能である。
前記表示部は、前記計時される時刻と前記区切りを示す情報とを対応付けて表示する、ことも可能である。
【0009】
前記複数の音声とともに、動画像を撮像する撮像部、をさらに備える、ことも可能である。
前記生成部は、前記区切りに対応付けられる前記動画像を構成する所定のフレームを、前記区切りを示す情報として生成する、ことも可能である。
【0010】
前記所定の音声を、当該音声に相当する文字列に変換する文字変換部、をさらに備える、ことも可能である。
前記表示部は、前記文字列を、前記区切りを示す情報と対応付けて表示する、ことも可能である。
【0011】
前記判定部は、前記複数の音声の音量に基づいて、前記複数の音声の区切りを判定する、ことも可能である。
【0012】
前記音声処理装置の移動量を検出する移動検出部、をさらに備える、ことも可能である。
前記判定部は、前記検出される移動量が所定の閾量以上である場合、前記複数の音声の区切りを判定する、ことも可能である。
【0013】
上記の目的を達成するため、本発明の他の観点に係る音声処理方法は、音声取得部と、音声抽出部と、判定部と、生成部と、表示部と、を有する音声処理装置にて実行される音声処理方法であって、
前記音声取得部は、複数の音声を取得する音声取得工程と、
前記音声抽出部は、前記取得される複数の音声から、所定の音声を抽出する音声抽出工程と、
前記判定部は、前記抽出される所定の音声に基づいて、前記複数の音声の区切りを判定する判定工程と、
前記生成部は、前記判定される区切りに基づいて、前記所定の音声に対応付けられる区切りを示す情報を生成する生成工程と、
前記表示部は、前記生成される区切りを示す情報を表示する表示工程と、を備える、ことを特徴とする。
【0014】
上記の目的を達成するため、本発明の他の観点に係るプログラムは、
コンピュータを
複数の音声を取得する音声取得部と、
前記取得される複数の音声から、所定の音声を抽出する音声抽出部と、
前記抽出される所定の音声に基づいて、前記複数の音声の区切りを判定する判定部と、
前記判定される区切りに基づいて、前記所定の音声に対応付けられる区切りを示す情報を生成する生成部と、
前記生成される区切りを示す情報を表示する表示部と、として機能させる。
【発明の効果】
【0015】
本発明によれば、収録シーンの切れ目を示すチャプターを作成することができ、使用者にとって利便性の高いシーン検索を行うことができる。また、音声処理装置の省電力化を図ることができる。
【図面の簡単な説明】
【0016】
【図1】実施形態1における動画撮影装置のブロック構成を示す図である。
【図2】レベル測定部を含むブロック構成の一例を示す図である。
【図3】機器の移動検出部を含むブロック構成の一例を示す図である。
【図4】実施形態1におけるチャプター情報の一例を示す図である。
【図5】チャプター情報テーブルの一例を示す図である。
【図6】一回の撮影における撮影シーンの一覧例を示す図である。
【図7】実施形態1における音声を再生するためのメニュー画面例を示す図である。
【図8】実施形態2における動画撮影装置のブロック構成を示す図である。
【図9】実施形態2におけるチャプター情報の一例を示す図である。
【図10】実施形態2における音声を再生するためのメニュー画面例を示す図である。
【発明を実施するための形態】
【0017】
(実施形態1)
本発明は、音声入力部として複数のマイク(アレイマイク)を実装する音声記録再生機能を備える機器に適用されるものである。実施形態1に係る発明を、図1〜図7を参照して説明する。図1は、本発明に係る音声処理装置を動画撮影装置100に適用した端末装置のブロック構成図である。
【0018】
以下の実施形態では、本発明を動画撮影装置100として説明するため、映像の区切りやひとかたまりの画像を示す「チャプター」という用語を用いる。
【0019】
なお、本発明は、動画撮影に限定されるものではなく、例えば音声のみの記録再生機能を持つマイクロレコーダへも適用可能である。また同等機能を備える携帯電話、デジタルスチルカメラなどへも適用可能である。
【0020】
また、マイクロレコーダ等の音声記録再生装置に利用する場合には、映像との関連情報は存在しないため、シーン区切りの情報として置き換えることで活用可能である。
【0021】
動画撮影装置100は、映像および音声を統括処理する映像音声処理部20と、各部を制御する制御部21と、使用者からの操作を受け付ける操作部22と、周期クロックによって一定時間の計測を行うタイマー部23とから構成される。
【0022】
映像音声処理部20は、アレイマイク1、ADC2、音声抽出部3、収録期間判定部4、カメラ5、画像処理部6、コーデック部7、チャプター情報生成部8、記録部9、チャプター情報読出部10、OSD作成部11、OSD合成部12、表示部13、DAC14、スピーカー15から構成される。
【0023】
アレイマイク1は、複数の音声の入力を受け付ける。アレイマイク1は、相互に接続された個別の複数のマイクが配列されて構成される。マイクの配列は、例えば、一次元、二次元、三次元に配置される。
【0024】
ADC2は、アレイマイク1から入力されたアナログ音声信号をデジタル音声信号に変換する。
【0025】
音声抽出部3は、アレイマイク1から入力された複数音声から特定方向から発せられた複数の音声(例えば、被写体音声、撮影者音声)を個別に抽出する。
【0026】
収録期間判定部4は、撮影者音声の収録期間を判定する。収録期間判定部4は、任意の方法に基づいて、収録期間を判定することができる。
【0027】
カメラ5は、映像を撮影する。カメラ5は、動画像や静止画像等の任意の画像を撮像することができる。
【0028】
画像処理部6は、カメラ5からの出力信号に画質調整やリサイズなどの信号処理を施す。
【0029】
コーデック部7は、撮影時に音声抽出部3から出力された音声信号及び画像処理部6から出力された映像信号に圧縮処理を施す。
【0030】
なお、本実施形態では、撮影時における画像処理部6から出力される映像信号と音声抽出部3から出力される音声信号とを、再生時における当該コーデック部7内で伸張された音声信号及び映像信号に切り替える機能を有する構成としたが、コーデック部7の外部に設ける構成とすることも可能である。
【0031】
チャプター情報生成部8は、映像の切れ目(区切り)を示すチャプター情報を生成する。
【0032】
記録部9は、コーデック部7で圧縮された映像音声データ及びチャプター情報生成部8で作成されたチャプター情報を記録する。
【0033】
チャプター情報読出部10は、記録部9に記録されたチャプター情報を映像再生時に読み出す。
【0034】
OSD作成部11は、操作部22が受け付けた使用者からの操作、もしくは、タイマー23からのタイミング情報またはチャプター情報読出部10で読み出したチャプター情報をもとにメニューや情報表示などのOSD(On Screen Display)を作成する。
【0035】
OSD合成部12は、OSD作成部11で作成されたOSDおよびコーデック部7から出力された映像信号を合成する。
【0036】
表示部13は、OSD合成部12から出力された映像信号を表示する。
【0037】
DAC14は、コーデック部7から出力されたデジタル音声信号をアナログ音声信号に変換する。
【0038】
スピーカー15は、DAC14で変換されたアナログ音声信号を出力する。
【0039】
図1のブロック構成図を用いて、撮影時の処理の流れについて説明する。
【0040】
アレイマイク1により取り込まれた複数の音声信号は、ADC2によりデジタル信号化された後、音声抽出部3により被写体音声と撮影者音声とが抽出されて、コーデック部7に入力される。
【0041】
カメラ5により取り込まれた映像信号は、画像処理部6により画質調整やリサイズなどの信号処理が施された後、コーデック部7に入力される。
【0042】
音声抽出部3からの出力である被写体音声は、再生時にスピーカー15から出力される音声である。被写体音声は、映像記録時に画像処理部6からの出力である映像信号とともに、撮影記録中はコーデック部7で圧縮された上で、記録部9に記録される。
【0043】
音声抽出部3からの出力である撮影者音声は、チャプター情報として利用される目的の音声である。撮影者音声は、撮影記録中においてチャプターと同一の再生位置の撮影者音声のみコーデック部7に出力されて、記録部9に記録される。
【0044】
ここで、チャプター情報とは、動画画像の区切り(シーンの切れ目)であり、再生時に使用者が意図するシーンに容易にジャンプ可能とするために使用される情報である。
【0045】
撮影者音声の収録期間は、収録期間判定部4により判定される。制御部21は、判定期間に応じて音声抽出部3及びコーデック部7を制御して、収録期間における撮影者音声のみを記録部9に記録する。
【0046】
次に、収録期間判定部4が収録期間を判定する方法について、図1を参照して説明する。
【0047】
収録期間判定部4は、第一の例として、操作部22が受け付けた撮影者(使用者)からの撮影開始操作に合わせ、収録期間を判定する。チャプター情報生成部8は、収録期間判定部4の判定に基づいて、開始から一定期間の撮影者音声を取り込み、チャプター情報の生成を行う。ここで、一定期間の計測は、タイマー部23にて実行される。
【0048】
収録期間判定部4は、第二の例として、操作部22に設けられたチャプターボタンを、撮影者(使用者)が操作することにより撮影者音声を取り込む収録期間を判定する。チャプター情報生成部8は、収録期間判定部4の判定に基づいて、チャプター情報の生成を行う。撮影者の操作による収録期間の設定方法は、例えば、トグルボタン、ON/OFF、押し下げ状態時、ボタン押し下げから一定期間等、任意の方法により定められる。第一の例および第二の例ともに、図1のブロック構成図に新たに処理部を追加することなく撮影者のボタン操作により、実現可能である。
【0049】
次に、収録期間判定部4が収録期間を判定する他の方法について、図2を参照して説明する。
【0050】
図2は、レベル測定部の測定結果に基づいて、収録期間の判定を行うためのブロック構成図である。図2は、音声抽出部3の撮影者音声レベルを測定するレベル測定部30を図1に追加した構成である。収録期間判定部4が収録期間を判定する第三の例を図2に示す。以下、図1と同様の処理部は同一の番号を付し、説明を省略する。
【0051】
レベル測定部30は、撮影者音声の音声レベルがあらかじめ設定されている特定レベルに達しているかどうかを収録期間判定部4に通知する。収録期間判定部4では特定レベルに達している期間を収録期間と判定する。チャプター情報生成部8は、収録期間判定部4の判定結果に基づいて、撮影映像に対する撮影者音声の位置情報を含むチャプター情報を生成し、当該チャプター情報を記録部9に記録する。音声抽出部3は、収録期間判定部4の判定に基づいて生成された一つのチャプター情報に関連した撮影者音声をコーデック部7に出力する。コーデック部7は、音声抽出部3から出力された撮影者音声を圧縮して、当該撮影者音声を記録部9に記録する。
【0052】
なお、特定レベルは、例えば、一定音量以上の音声レベル、一定音量以下の音声レベル、60dB〜80dBの範囲内の音声レベル等、任意の音声レベルである。
【0053】
次に、収録期間判定部4が収録期間を判定する他の方法について、図3を参照して説明する。図3は、移動検出部40の検出結果に基づいて、収録期間の判定を行うためのブロック構成図である。図3は、機器の移動状態を検出する移動検出部40を図1に追加した構成である。収録期間判定部4が収録期間を判定する第四の例を図3に示す。以下、図1と同様の処理部は同一の番号を付し、説明を省略する。
【0054】
移動検出部40は、例えば、物体の移動や移動量を検出できる一般的な移動検出センサを備え、撮影中の機器の移動開始、移動停止を検出し、収録期間判定部4に通知する。収録期間判定部4は、移動検出部40から通知された移動検出通知からの一定期間を収録期間と判定する。制御部21は、収録期間判定部4で判定された収録期間に応じ、チャプター情報生成部8にチャプター情報を生成させて、コーデック部7に撮影者音声を圧縮するよう指示する。チャプター情報生成部8は、撮影映像に対する撮影者音声の位置情報を含むチャプター情報を生成し、記録部9に記録する。コーデック部7は、圧縮された撮影者音声を記録部9に記録する。
【0055】
移動検出部40としては、例えば、GPS(Global Positioning System)や加速度センサが存在するが、GPSや加速度センサに限定されない。移動検出部40は、位置情報を取得できる機能を備え、その位置情報から算出される移動情報等を利用できる任意の装置としても考えられる。
【0056】
なお、上述する第一の例〜第四の例は、撮影者音声の収録期間を判定する方法を限定するものではなく、各例を組み合わせての活用も可能である。
【0057】
次に、チャプター情報の具体例を図4に示し、その中に含まれる項目の内容について説明する。
【0058】
チャプター情報400は、チャプター一つに対して、撮影者音声格納場所及び時刻情報の各項目を少なくとも一つ備える。撮影者音声格納場所は、記録部9に記録される撮影者音声が格納された場所を示す。例えば、撮影者が撮影者音声を動物園で格納した場合には、撮影者音声格納場所は、動物園となる。撮影者音声は、シーン関連情報としてシーン内容を判断するために利用される。時刻情報は、記録部9に記録される撮影者音声の発話が開始された時刻を示す。例えば、撮影者が10時12分12秒に発話を開始した場合には、時刻情報は、10時12分12秒となる。この時刻情報には、日付情報やチャプター位置情報も含まれる。また、この時刻情報は、撮影画像中の再生位置情報を示すためのものであり、フレーム番号とすることも可能である。
【0059】
次に、チャプター情報テーブルの例を図5に示す。チャプター情報テーブル500には、一つの撮影動画(一回の撮影開始から停止まで)に対して、少なくとも一つのチャプター情報が記録される。例えば、図5に示すように、撮影画像1、撮影画像2、撮影画像3には、それぞれ4つ、3つ、5つのチャプター情報が存在する。一つのチャプターには、チャプター名、撮影音声格納場所、及び、時刻情報が対応付けられて記録される。このチャプター情報テーブル500は、記録部9に記録される。
【0060】
次に、再生時のチャプター情報の利用方法、及び、その際の各処理部の動作について、図1、図6及び図7を参照して説明する。動物園において様々な動物を撮影した場合を例に取り、撮影者がその動物の種類を撮影者音声として記録した動画を利用する手法について説明する。
【0061】
図6は、一回の撮影における撮影シーンの一覧を模式的に示した図である。図6では、一回の撮影で動物園の入口、ゾウ、ライオン、サルを撮影したときを例としている。記録画像撮影シーンは、撮影された動画の1シーンや、1つの静止画像である。被写体音声は、動画を撮影する際に、アレイマイク1により集音された被写体が発した音声(例えば、動物の鳴き声)である。撮影者発話音声は、動画を撮影する際に、アレイマイク1により集音された撮影者の音声である。時刻情報は、撮影者音声の発話が開始された時刻を示す。
【0062】
チャプター情報生成部8は、動物園の入口等のそれぞれのシーンに対して、チャプター情報を生成して、当該チャプター情報を記録部9に記録する。チャプター情報生成部8は、記録画像撮影シーンの一部をチャプター情報とすることもできる。
【0063】
チャプター情報を再生するためのメニュー画面を表示する際、チャプター情報読出部10は、記録部9に記録されたチャプター情報を読み出して、当該チャプター情報をOSD作成部11に渡す。OSD作成部11は、チャプター情報に基づいて、OSD(On Screen Display)を作成して、当該OSDをOSD合成部12に渡す。OSDは、OSD合成部12において映像信号と合成されて、表示部13に表示される。
【0064】
図7は、チャプター情報に対応する音声を再生するためのメニュー画面例である。メニュー画像700には、記録部9に記録されている撮影動画の数に対応する選択ボタン701が表示される。選択ボタン701が選択されると、当該選択された選択ボタン701に対応付けられた音声が再生される。例えば、図6に示す4つの記録画像撮影シーンを含む撮影動画が、図7に示す撮影動画1に対応している。このため、撮影動画1に対応する選択ボタン701が選択されると、図6に示される4つの撮影シーンが再生される。
【0065】
また、メニュー画像700には、チャプター情報の時間的な位置を示すプログレスバー702が表示される。プログレスバー702には、撮影動画(記録画像撮影シーン)に対応する時刻情報が表示される。
【0066】
撮影者(使用者)により、撮影動画1に対応する選択ボタン701が選択されると、撮影動画1の選択ボタン701が例えばハイライト表示され、撮影動画1に対するチャプター情報内の時刻情報より(1)10:12:12といった時刻情報がプログレスバー702上に表示される。各チャプター情報に関連付けられた撮影者発話音声が順次再生されるとともに、再生中の音声に対応する時刻情報がハイライト表示される。
【0067】
その際に再生される音声は、「○○動物園」、「ゾウ」、「ライオン」、「サル」といった撮影者発話音声である。記録画像撮影シーンに対応する撮影者発話音声が再生されている際に、撮影者(使用者)は、操作部22が備える再生ボタン等で再生を指示することにより、所望の動画シーンを再生することができる。例えば、「ゾウ」という撮影者発話音声が再生されている際に、所定の再生ボタンが操作されると、当該撮影者発話音声が記録された時刻10:15:31から記録画像撮影シーンが再生される。
【0068】
撮影動画1〜3を示す全ての選択ボタン701、もしくは、撮影動画1〜3を再生するための「全て」の選択ボタン701が選択されると、撮影動画1〜3に対するチャプター情報に対応する音声が順次再生される。例えば、再生されている撮影動画に対応する選択ボタン701がハイライト表示されることにより、どの撮影画像が再生されているのかを撮影者は認識することができる。
【0069】
なお、図7に示すように、選択ボタン701には撮影動画1〜3と表示されているが、各撮影動画の先頭のチャプター情報から取得した日付情報を含む時刻情報を選択ボタン701内に表示してもよい。また、メニュー画像700において、撮影動画が再生される際に、特徴的な被写体音声を再生することもできる。
【0070】
以上、本実施形態に示すように、動画画像の音声記録を再生に利用した場合、撮影者が意図した撮影シーンにチャプター情報を作成することができ、再生時には記録したチャプター情報により、容易にチャプタースキップ、シーン検索等を実行することができる。
【0071】
また、収録期間判定部により撮影者音声の収録期間が制限されて、エンコードの処理負荷を抑えることができるため、特にバッテリー容量の限られた携帯機器に対して求められる低消費電力化にも貢献できる。
【0072】
さらに、収録期間を限定することにより、チャプター情報をシーン検索等に利用した際に、使用者がチャプター音声として認識していない音声に起因する誤検索の可能性を極力抑えることができる。
【0073】
(実施形態2)
実施形態2に係る発明を、図8〜図10を参照して説明する。図8は、本発明に係る音声処理装置を動画撮影装置100に適用した端末装置のブロック構成図である。図8は、図1のブロック構成図に対して、音声抽出部3とチャプター情報生成部8の間に音声分析テキスト化部50を追加した構成である。以下、図1と同様の処理部は同一の番号を付し、説明を省略する。
【0074】
音声分析テキスト化部50は、音声抽出部3から出力される撮影者発話音声をテキスト化して、当該テキストをチャプター情報生成部8に渡す。また、音声分析テキスト化部50は、撮影者発話音声の音量の大小、撮影者からの指示、もしくは、撮影時間等に基づいて、所定の内容を含む撮影者発話音声の全部、もしくは、一部をテキスト化することもできる。
【0075】
チャプター情報生成部8は、チャプター情報とともにテキスト化された撮影者発話音声の内容を記録部9に記録する。
【0076】
記録部9に記録される本実施形態に係るチャプター情報の具体例を図9に示す。実施形態1と同様に、撮影者音声格納場所及び時刻情報が、チャプター情報として記録される。本実施形態では、テキスト化された撮影者発話内容がチャプター情報として含まれる。
【0077】
チャプター情報を再生するためのメニュー画面を表示する際、実施形態1と同様に、チャプター情報読出部10は、記録部9に記録されたチャプター情報を読み出して、当該チャプター情報をOSD作成部11に渡す。OSD作成部11は、チャプター情報に基づいて、OSDを作成して、当該OSDをOSD合成部12に渡す。OSDは、OSD合成部12において映像信号と合成されて、表示部13に表示される。
【0078】
図10は、チャプター情報に対応する音声を再生するためのメニュー画面例である。メニュー画像1000には、記録部9に記録されている撮影動画のチャプターに対応する撮影者発話音声がテキスト化されたものが選択ボタン1001として表示される。例えば、図6に示す撮影シーンを含む動画が、撮影動画1とすると、撮影者発話音声が「○○動物園」、「ゾウ」、「ライオン」、「サル」と記録されているため、音声情報である「○○動物園」がテキスト化されて、文字情報である「○○動物園」が選択ボタン1001上に表示される。そして、撮影動画1の「ライオン」と表示された選択ボタン1001を撮影者が選択すると、撮影動画1のライオンのシーンから再生される。
【0079】
なお、図10において、各撮影動画像に対して撮影動画1、撮影動画2等と記載したが、各撮影動画の先頭のチャプター情報から取得した日付情報を含む時刻情報を表示してもよい。
【0080】
以上、本実施形態に示すように、チャプター情報が表示されるメニュー画面上にある選択ボタンに表示されるテキスト情報から、チャプター以降に再生されるシーンを容易に認識することが可能となり、所望するシーンから再生するといった再生の利便性を高めることができる。
【0081】
なお、本発明は上記実施の形態に限定されず、種々の変形及び応用が可能である。
【0082】
チャプター情報生成部8は、一つの撮影動画に対する撮影シーンを複数生成することもできる。表示部13は、複数生成された撮影シーンが連続するように表示することもできる。例えば、図6に示される記録画像撮影シーンが、連続する複数のシーンとして、また、動画像として表示される。
【符号の説明】
【0083】
100…動画撮影装置、1…アレイマイク、2…ADC、3…音声抽出部、4…収録期間判定部、5…カメラ、6…画像処理部、7…コーデック部、8…チャプター情報生成部、9…記録部、10…チャプター情報読出部、11…OSD作成部、12…OSD合成部、13…表示部、14…DAC、15…スピーカー、20…映像音声処理部、21…制御部、22…操作部、23…タイマー部、30…レベル測定部、40…移動検出部
【技術分野】
【0001】
本発明は、複数のマイク(アレイマイク)を備え、収録目的の被写体音声(目的音)を抽出及び収録して、その収録した目的音を再生する音声処理装置、音声処理方法、及び、コンピュータを音声処理装置として機能させるプログラムに関する。
【背景技術】
【0002】
音声収録や映像撮影の分野では、個々のマイクから複数の音声を入力し、当該マイクの入力音声を時刻情報とともに記録しておき、その複数の記録音声を利用して、再生時に機器の使用者の使い勝手を向上させる技術が存在する。例えばその一つとして、被写体音声を収録する第一の音声入力部と、撮影者音声を収録する第二の音声入力部と、を備え、撮影者の発話音声と被写体の音声とを別々に収録し、音声分析部によりその撮影者発話音声をテキスト化したものを時刻情報とともにメタデータ化して管理し、再生時に映像に対応した撮影者発話音声をテロップとして映像と合わせて表示する技術が開示されている(特許文献1参照)。また、特許文献1には、機器使用者が被写体の音声と撮影者の発話音声とを自由に選択して再生する技術も開示されている。
【0003】
また、被写体音声の収録に関しては、遠方の目的音や会議における特定の目的音の収録において、複数の入力音声を処理することで目的音以外の周囲雑音を抑圧することにより、その目的音の明瞭性を向上する技術が多く存在する。例えば、特許文献2には、アレイマイクを備え、そのアレイマイクで取得した複数の音声から、各マイクに入力される同一音源音声の位相差により、それぞれの音源音声の方向を判定し、特定方向からの例えば被写体音声といった目的音のみを抽出する音源分離技術が開示されている。これらの技術により、被写体音声などの機器使用者が期待する特定音源の音声のみを周囲雑音から抽出する事が可能となる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007−104405号公報
【特許文献2】特開2006−227328号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、特許文献1及び2に開示されている構成では、収録した音声を再生時に利用するには、音声入力部の入力音声から同時に取り込まれる周囲雑音、その他の音声を雑音として除去し、収録する音源音声の明瞭性を保つ必要がある。また、複数の入力音声を撮影時に常時記録するために、複数音声のコーデックを常時動作させる必要がある。さらに、音源音声を抽出するための音源分離技術を用いておらず、音源音声の明瞭性が確保されていない場合には、テキスト化が困難となる可能性がある。
【0006】
本発明は、上記問題に鑑みてなされたものであり、複数の音声入力部からの入力音声から、特定方向から発せられる被写体音声といった目的音と撮影者音声とを高い明瞭性で抽出する。また、収録期間判定手段により撮影者音声の収録期間を限定することで、判定した収録期間の撮影者音声とその時刻情報を含むチャプター情報(シーンの切れ目情報)を記録し、再生時にそのチャプター情報を利用する音声処理装置等を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記の目的を達成するため、本発明の第1の観点に係る音声処理装置は、
複数の音声を取得する音声取得部と、
前記取得される複数の音声から、所定の音声を抽出する音声抽出部と、
前記抽出される所定の音声に基づいて、前記複数の音声の区切りを判定する判定部と、
前記判定される区切りに基づいて、前記所定の音声に対応付けられる区切りを示す情報を生成する生成部と、
前記生成される区切りを示す情報を表示する表示部と、を備える、ことを特徴とする。
【0008】
前記複数の音声が取得される時刻を計時する計時部、をさらに備える、ことも可能である。
前記表示部は、前記計時される時刻と前記区切りを示す情報とを対応付けて表示する、ことも可能である。
【0009】
前記複数の音声とともに、動画像を撮像する撮像部、をさらに備える、ことも可能である。
前記生成部は、前記区切りに対応付けられる前記動画像を構成する所定のフレームを、前記区切りを示す情報として生成する、ことも可能である。
【0010】
前記所定の音声を、当該音声に相当する文字列に変換する文字変換部、をさらに備える、ことも可能である。
前記表示部は、前記文字列を、前記区切りを示す情報と対応付けて表示する、ことも可能である。
【0011】
前記判定部は、前記複数の音声の音量に基づいて、前記複数の音声の区切りを判定する、ことも可能である。
【0012】
前記音声処理装置の移動量を検出する移動検出部、をさらに備える、ことも可能である。
前記判定部は、前記検出される移動量が所定の閾量以上である場合、前記複数の音声の区切りを判定する、ことも可能である。
【0013】
上記の目的を達成するため、本発明の他の観点に係る音声処理方法は、音声取得部と、音声抽出部と、判定部と、生成部と、表示部と、を有する音声処理装置にて実行される音声処理方法であって、
前記音声取得部は、複数の音声を取得する音声取得工程と、
前記音声抽出部は、前記取得される複数の音声から、所定の音声を抽出する音声抽出工程と、
前記判定部は、前記抽出される所定の音声に基づいて、前記複数の音声の区切りを判定する判定工程と、
前記生成部は、前記判定される区切りに基づいて、前記所定の音声に対応付けられる区切りを示す情報を生成する生成工程と、
前記表示部は、前記生成される区切りを示す情報を表示する表示工程と、を備える、ことを特徴とする。
【0014】
上記の目的を達成するため、本発明の他の観点に係るプログラムは、
コンピュータを
複数の音声を取得する音声取得部と、
前記取得される複数の音声から、所定の音声を抽出する音声抽出部と、
前記抽出される所定の音声に基づいて、前記複数の音声の区切りを判定する判定部と、
前記判定される区切りに基づいて、前記所定の音声に対応付けられる区切りを示す情報を生成する生成部と、
前記生成される区切りを示す情報を表示する表示部と、として機能させる。
【発明の効果】
【0015】
本発明によれば、収録シーンの切れ目を示すチャプターを作成することができ、使用者にとって利便性の高いシーン検索を行うことができる。また、音声処理装置の省電力化を図ることができる。
【図面の簡単な説明】
【0016】
【図1】実施形態1における動画撮影装置のブロック構成を示す図である。
【図2】レベル測定部を含むブロック構成の一例を示す図である。
【図3】機器の移動検出部を含むブロック構成の一例を示す図である。
【図4】実施形態1におけるチャプター情報の一例を示す図である。
【図5】チャプター情報テーブルの一例を示す図である。
【図6】一回の撮影における撮影シーンの一覧例を示す図である。
【図7】実施形態1における音声を再生するためのメニュー画面例を示す図である。
【図8】実施形態2における動画撮影装置のブロック構成を示す図である。
【図9】実施形態2におけるチャプター情報の一例を示す図である。
【図10】実施形態2における音声を再生するためのメニュー画面例を示す図である。
【発明を実施するための形態】
【0017】
(実施形態1)
本発明は、音声入力部として複数のマイク(アレイマイク)を実装する音声記録再生機能を備える機器に適用されるものである。実施形態1に係る発明を、図1〜図7を参照して説明する。図1は、本発明に係る音声処理装置を動画撮影装置100に適用した端末装置のブロック構成図である。
【0018】
以下の実施形態では、本発明を動画撮影装置100として説明するため、映像の区切りやひとかたまりの画像を示す「チャプター」という用語を用いる。
【0019】
なお、本発明は、動画撮影に限定されるものではなく、例えば音声のみの記録再生機能を持つマイクロレコーダへも適用可能である。また同等機能を備える携帯電話、デジタルスチルカメラなどへも適用可能である。
【0020】
また、マイクロレコーダ等の音声記録再生装置に利用する場合には、映像との関連情報は存在しないため、シーン区切りの情報として置き換えることで活用可能である。
【0021】
動画撮影装置100は、映像および音声を統括処理する映像音声処理部20と、各部を制御する制御部21と、使用者からの操作を受け付ける操作部22と、周期クロックによって一定時間の計測を行うタイマー部23とから構成される。
【0022】
映像音声処理部20は、アレイマイク1、ADC2、音声抽出部3、収録期間判定部4、カメラ5、画像処理部6、コーデック部7、チャプター情報生成部8、記録部9、チャプター情報読出部10、OSD作成部11、OSD合成部12、表示部13、DAC14、スピーカー15から構成される。
【0023】
アレイマイク1は、複数の音声の入力を受け付ける。アレイマイク1は、相互に接続された個別の複数のマイクが配列されて構成される。マイクの配列は、例えば、一次元、二次元、三次元に配置される。
【0024】
ADC2は、アレイマイク1から入力されたアナログ音声信号をデジタル音声信号に変換する。
【0025】
音声抽出部3は、アレイマイク1から入力された複数音声から特定方向から発せられた複数の音声(例えば、被写体音声、撮影者音声)を個別に抽出する。
【0026】
収録期間判定部4は、撮影者音声の収録期間を判定する。収録期間判定部4は、任意の方法に基づいて、収録期間を判定することができる。
【0027】
カメラ5は、映像を撮影する。カメラ5は、動画像や静止画像等の任意の画像を撮像することができる。
【0028】
画像処理部6は、カメラ5からの出力信号に画質調整やリサイズなどの信号処理を施す。
【0029】
コーデック部7は、撮影時に音声抽出部3から出力された音声信号及び画像処理部6から出力された映像信号に圧縮処理を施す。
【0030】
なお、本実施形態では、撮影時における画像処理部6から出力される映像信号と音声抽出部3から出力される音声信号とを、再生時における当該コーデック部7内で伸張された音声信号及び映像信号に切り替える機能を有する構成としたが、コーデック部7の外部に設ける構成とすることも可能である。
【0031】
チャプター情報生成部8は、映像の切れ目(区切り)を示すチャプター情報を生成する。
【0032】
記録部9は、コーデック部7で圧縮された映像音声データ及びチャプター情報生成部8で作成されたチャプター情報を記録する。
【0033】
チャプター情報読出部10は、記録部9に記録されたチャプター情報を映像再生時に読み出す。
【0034】
OSD作成部11は、操作部22が受け付けた使用者からの操作、もしくは、タイマー23からのタイミング情報またはチャプター情報読出部10で読み出したチャプター情報をもとにメニューや情報表示などのOSD(On Screen Display)を作成する。
【0035】
OSD合成部12は、OSD作成部11で作成されたOSDおよびコーデック部7から出力された映像信号を合成する。
【0036】
表示部13は、OSD合成部12から出力された映像信号を表示する。
【0037】
DAC14は、コーデック部7から出力されたデジタル音声信号をアナログ音声信号に変換する。
【0038】
スピーカー15は、DAC14で変換されたアナログ音声信号を出力する。
【0039】
図1のブロック構成図を用いて、撮影時の処理の流れについて説明する。
【0040】
アレイマイク1により取り込まれた複数の音声信号は、ADC2によりデジタル信号化された後、音声抽出部3により被写体音声と撮影者音声とが抽出されて、コーデック部7に入力される。
【0041】
カメラ5により取り込まれた映像信号は、画像処理部6により画質調整やリサイズなどの信号処理が施された後、コーデック部7に入力される。
【0042】
音声抽出部3からの出力である被写体音声は、再生時にスピーカー15から出力される音声である。被写体音声は、映像記録時に画像処理部6からの出力である映像信号とともに、撮影記録中はコーデック部7で圧縮された上で、記録部9に記録される。
【0043】
音声抽出部3からの出力である撮影者音声は、チャプター情報として利用される目的の音声である。撮影者音声は、撮影記録中においてチャプターと同一の再生位置の撮影者音声のみコーデック部7に出力されて、記録部9に記録される。
【0044】
ここで、チャプター情報とは、動画画像の区切り(シーンの切れ目)であり、再生時に使用者が意図するシーンに容易にジャンプ可能とするために使用される情報である。
【0045】
撮影者音声の収録期間は、収録期間判定部4により判定される。制御部21は、判定期間に応じて音声抽出部3及びコーデック部7を制御して、収録期間における撮影者音声のみを記録部9に記録する。
【0046】
次に、収録期間判定部4が収録期間を判定する方法について、図1を参照して説明する。
【0047】
収録期間判定部4は、第一の例として、操作部22が受け付けた撮影者(使用者)からの撮影開始操作に合わせ、収録期間を判定する。チャプター情報生成部8は、収録期間判定部4の判定に基づいて、開始から一定期間の撮影者音声を取り込み、チャプター情報の生成を行う。ここで、一定期間の計測は、タイマー部23にて実行される。
【0048】
収録期間判定部4は、第二の例として、操作部22に設けられたチャプターボタンを、撮影者(使用者)が操作することにより撮影者音声を取り込む収録期間を判定する。チャプター情報生成部8は、収録期間判定部4の判定に基づいて、チャプター情報の生成を行う。撮影者の操作による収録期間の設定方法は、例えば、トグルボタン、ON/OFF、押し下げ状態時、ボタン押し下げから一定期間等、任意の方法により定められる。第一の例および第二の例ともに、図1のブロック構成図に新たに処理部を追加することなく撮影者のボタン操作により、実現可能である。
【0049】
次に、収録期間判定部4が収録期間を判定する他の方法について、図2を参照して説明する。
【0050】
図2は、レベル測定部の測定結果に基づいて、収録期間の判定を行うためのブロック構成図である。図2は、音声抽出部3の撮影者音声レベルを測定するレベル測定部30を図1に追加した構成である。収録期間判定部4が収録期間を判定する第三の例を図2に示す。以下、図1と同様の処理部は同一の番号を付し、説明を省略する。
【0051】
レベル測定部30は、撮影者音声の音声レベルがあらかじめ設定されている特定レベルに達しているかどうかを収録期間判定部4に通知する。収録期間判定部4では特定レベルに達している期間を収録期間と判定する。チャプター情報生成部8は、収録期間判定部4の判定結果に基づいて、撮影映像に対する撮影者音声の位置情報を含むチャプター情報を生成し、当該チャプター情報を記録部9に記録する。音声抽出部3は、収録期間判定部4の判定に基づいて生成された一つのチャプター情報に関連した撮影者音声をコーデック部7に出力する。コーデック部7は、音声抽出部3から出力された撮影者音声を圧縮して、当該撮影者音声を記録部9に記録する。
【0052】
なお、特定レベルは、例えば、一定音量以上の音声レベル、一定音量以下の音声レベル、60dB〜80dBの範囲内の音声レベル等、任意の音声レベルである。
【0053】
次に、収録期間判定部4が収録期間を判定する他の方法について、図3を参照して説明する。図3は、移動検出部40の検出結果に基づいて、収録期間の判定を行うためのブロック構成図である。図3は、機器の移動状態を検出する移動検出部40を図1に追加した構成である。収録期間判定部4が収録期間を判定する第四の例を図3に示す。以下、図1と同様の処理部は同一の番号を付し、説明を省略する。
【0054】
移動検出部40は、例えば、物体の移動や移動量を検出できる一般的な移動検出センサを備え、撮影中の機器の移動開始、移動停止を検出し、収録期間判定部4に通知する。収録期間判定部4は、移動検出部40から通知された移動検出通知からの一定期間を収録期間と判定する。制御部21は、収録期間判定部4で判定された収録期間に応じ、チャプター情報生成部8にチャプター情報を生成させて、コーデック部7に撮影者音声を圧縮するよう指示する。チャプター情報生成部8は、撮影映像に対する撮影者音声の位置情報を含むチャプター情報を生成し、記録部9に記録する。コーデック部7は、圧縮された撮影者音声を記録部9に記録する。
【0055】
移動検出部40としては、例えば、GPS(Global Positioning System)や加速度センサが存在するが、GPSや加速度センサに限定されない。移動検出部40は、位置情報を取得できる機能を備え、その位置情報から算出される移動情報等を利用できる任意の装置としても考えられる。
【0056】
なお、上述する第一の例〜第四の例は、撮影者音声の収録期間を判定する方法を限定するものではなく、各例を組み合わせての活用も可能である。
【0057】
次に、チャプター情報の具体例を図4に示し、その中に含まれる項目の内容について説明する。
【0058】
チャプター情報400は、チャプター一つに対して、撮影者音声格納場所及び時刻情報の各項目を少なくとも一つ備える。撮影者音声格納場所は、記録部9に記録される撮影者音声が格納された場所を示す。例えば、撮影者が撮影者音声を動物園で格納した場合には、撮影者音声格納場所は、動物園となる。撮影者音声は、シーン関連情報としてシーン内容を判断するために利用される。時刻情報は、記録部9に記録される撮影者音声の発話が開始された時刻を示す。例えば、撮影者が10時12分12秒に発話を開始した場合には、時刻情報は、10時12分12秒となる。この時刻情報には、日付情報やチャプター位置情報も含まれる。また、この時刻情報は、撮影画像中の再生位置情報を示すためのものであり、フレーム番号とすることも可能である。
【0059】
次に、チャプター情報テーブルの例を図5に示す。チャプター情報テーブル500には、一つの撮影動画(一回の撮影開始から停止まで)に対して、少なくとも一つのチャプター情報が記録される。例えば、図5に示すように、撮影画像1、撮影画像2、撮影画像3には、それぞれ4つ、3つ、5つのチャプター情報が存在する。一つのチャプターには、チャプター名、撮影音声格納場所、及び、時刻情報が対応付けられて記録される。このチャプター情報テーブル500は、記録部9に記録される。
【0060】
次に、再生時のチャプター情報の利用方法、及び、その際の各処理部の動作について、図1、図6及び図7を参照して説明する。動物園において様々な動物を撮影した場合を例に取り、撮影者がその動物の種類を撮影者音声として記録した動画を利用する手法について説明する。
【0061】
図6は、一回の撮影における撮影シーンの一覧を模式的に示した図である。図6では、一回の撮影で動物園の入口、ゾウ、ライオン、サルを撮影したときを例としている。記録画像撮影シーンは、撮影された動画の1シーンや、1つの静止画像である。被写体音声は、動画を撮影する際に、アレイマイク1により集音された被写体が発した音声(例えば、動物の鳴き声)である。撮影者発話音声は、動画を撮影する際に、アレイマイク1により集音された撮影者の音声である。時刻情報は、撮影者音声の発話が開始された時刻を示す。
【0062】
チャプター情報生成部8は、動物園の入口等のそれぞれのシーンに対して、チャプター情報を生成して、当該チャプター情報を記録部9に記録する。チャプター情報生成部8は、記録画像撮影シーンの一部をチャプター情報とすることもできる。
【0063】
チャプター情報を再生するためのメニュー画面を表示する際、チャプター情報読出部10は、記録部9に記録されたチャプター情報を読み出して、当該チャプター情報をOSD作成部11に渡す。OSD作成部11は、チャプター情報に基づいて、OSD(On Screen Display)を作成して、当該OSDをOSD合成部12に渡す。OSDは、OSD合成部12において映像信号と合成されて、表示部13に表示される。
【0064】
図7は、チャプター情報に対応する音声を再生するためのメニュー画面例である。メニュー画像700には、記録部9に記録されている撮影動画の数に対応する選択ボタン701が表示される。選択ボタン701が選択されると、当該選択された選択ボタン701に対応付けられた音声が再生される。例えば、図6に示す4つの記録画像撮影シーンを含む撮影動画が、図7に示す撮影動画1に対応している。このため、撮影動画1に対応する選択ボタン701が選択されると、図6に示される4つの撮影シーンが再生される。
【0065】
また、メニュー画像700には、チャプター情報の時間的な位置を示すプログレスバー702が表示される。プログレスバー702には、撮影動画(記録画像撮影シーン)に対応する時刻情報が表示される。
【0066】
撮影者(使用者)により、撮影動画1に対応する選択ボタン701が選択されると、撮影動画1の選択ボタン701が例えばハイライト表示され、撮影動画1に対するチャプター情報内の時刻情報より(1)10:12:12といった時刻情報がプログレスバー702上に表示される。各チャプター情報に関連付けられた撮影者発話音声が順次再生されるとともに、再生中の音声に対応する時刻情報がハイライト表示される。
【0067】
その際に再生される音声は、「○○動物園」、「ゾウ」、「ライオン」、「サル」といった撮影者発話音声である。記録画像撮影シーンに対応する撮影者発話音声が再生されている際に、撮影者(使用者)は、操作部22が備える再生ボタン等で再生を指示することにより、所望の動画シーンを再生することができる。例えば、「ゾウ」という撮影者発話音声が再生されている際に、所定の再生ボタンが操作されると、当該撮影者発話音声が記録された時刻10:15:31から記録画像撮影シーンが再生される。
【0068】
撮影動画1〜3を示す全ての選択ボタン701、もしくは、撮影動画1〜3を再生するための「全て」の選択ボタン701が選択されると、撮影動画1〜3に対するチャプター情報に対応する音声が順次再生される。例えば、再生されている撮影動画に対応する選択ボタン701がハイライト表示されることにより、どの撮影画像が再生されているのかを撮影者は認識することができる。
【0069】
なお、図7に示すように、選択ボタン701には撮影動画1〜3と表示されているが、各撮影動画の先頭のチャプター情報から取得した日付情報を含む時刻情報を選択ボタン701内に表示してもよい。また、メニュー画像700において、撮影動画が再生される際に、特徴的な被写体音声を再生することもできる。
【0070】
以上、本実施形態に示すように、動画画像の音声記録を再生に利用した場合、撮影者が意図した撮影シーンにチャプター情報を作成することができ、再生時には記録したチャプター情報により、容易にチャプタースキップ、シーン検索等を実行することができる。
【0071】
また、収録期間判定部により撮影者音声の収録期間が制限されて、エンコードの処理負荷を抑えることができるため、特にバッテリー容量の限られた携帯機器に対して求められる低消費電力化にも貢献できる。
【0072】
さらに、収録期間を限定することにより、チャプター情報をシーン検索等に利用した際に、使用者がチャプター音声として認識していない音声に起因する誤検索の可能性を極力抑えることができる。
【0073】
(実施形態2)
実施形態2に係る発明を、図8〜図10を参照して説明する。図8は、本発明に係る音声処理装置を動画撮影装置100に適用した端末装置のブロック構成図である。図8は、図1のブロック構成図に対して、音声抽出部3とチャプター情報生成部8の間に音声分析テキスト化部50を追加した構成である。以下、図1と同様の処理部は同一の番号を付し、説明を省略する。
【0074】
音声分析テキスト化部50は、音声抽出部3から出力される撮影者発話音声をテキスト化して、当該テキストをチャプター情報生成部8に渡す。また、音声分析テキスト化部50は、撮影者発話音声の音量の大小、撮影者からの指示、もしくは、撮影時間等に基づいて、所定の内容を含む撮影者発話音声の全部、もしくは、一部をテキスト化することもできる。
【0075】
チャプター情報生成部8は、チャプター情報とともにテキスト化された撮影者発話音声の内容を記録部9に記録する。
【0076】
記録部9に記録される本実施形態に係るチャプター情報の具体例を図9に示す。実施形態1と同様に、撮影者音声格納場所及び時刻情報が、チャプター情報として記録される。本実施形態では、テキスト化された撮影者発話内容がチャプター情報として含まれる。
【0077】
チャプター情報を再生するためのメニュー画面を表示する際、実施形態1と同様に、チャプター情報読出部10は、記録部9に記録されたチャプター情報を読み出して、当該チャプター情報をOSD作成部11に渡す。OSD作成部11は、チャプター情報に基づいて、OSDを作成して、当該OSDをOSD合成部12に渡す。OSDは、OSD合成部12において映像信号と合成されて、表示部13に表示される。
【0078】
図10は、チャプター情報に対応する音声を再生するためのメニュー画面例である。メニュー画像1000には、記録部9に記録されている撮影動画のチャプターに対応する撮影者発話音声がテキスト化されたものが選択ボタン1001として表示される。例えば、図6に示す撮影シーンを含む動画が、撮影動画1とすると、撮影者発話音声が「○○動物園」、「ゾウ」、「ライオン」、「サル」と記録されているため、音声情報である「○○動物園」がテキスト化されて、文字情報である「○○動物園」が選択ボタン1001上に表示される。そして、撮影動画1の「ライオン」と表示された選択ボタン1001を撮影者が選択すると、撮影動画1のライオンのシーンから再生される。
【0079】
なお、図10において、各撮影動画像に対して撮影動画1、撮影動画2等と記載したが、各撮影動画の先頭のチャプター情報から取得した日付情報を含む時刻情報を表示してもよい。
【0080】
以上、本実施形態に示すように、チャプター情報が表示されるメニュー画面上にある選択ボタンに表示されるテキスト情報から、チャプター以降に再生されるシーンを容易に認識することが可能となり、所望するシーンから再生するといった再生の利便性を高めることができる。
【0081】
なお、本発明は上記実施の形態に限定されず、種々の変形及び応用が可能である。
【0082】
チャプター情報生成部8は、一つの撮影動画に対する撮影シーンを複数生成することもできる。表示部13は、複数生成された撮影シーンが連続するように表示することもできる。例えば、図6に示される記録画像撮影シーンが、連続する複数のシーンとして、また、動画像として表示される。
【符号の説明】
【0083】
100…動画撮影装置、1…アレイマイク、2…ADC、3…音声抽出部、4…収録期間判定部、5…カメラ、6…画像処理部、7…コーデック部、8…チャプター情報生成部、9…記録部、10…チャプター情報読出部、11…OSD作成部、12…OSD合成部、13…表示部、14…DAC、15…スピーカー、20…映像音声処理部、21…制御部、22…操作部、23…タイマー部、30…レベル測定部、40…移動検出部
【特許請求の範囲】
【請求項1】
複数の音声を取得する音声取得部と、
前記取得される複数の音声から、所定の音声を抽出する音声抽出部と、
前記抽出される所定の音声に基づいて、前記複数の音声の区切りを判定する判定部と、
前記判定される区切りに基づいて、前記所定の音声に対応付けられる区切りを示す情報を生成する生成部と、
前記生成される区切りを示す情報を表示する表示部と、を備える、
ことを特徴とする音声処理装置。
【請求項2】
前記複数の音声が取得される時刻を計時する計時部、をさらに備え、
前記表示部は、前記計時される時刻と前記区切りを示す情報とを対応付けて表示する、
ことを特徴とする請求項1に記載の音声処理装置。
【請求項3】
前記複数の音声とともに、動画像を撮像する撮像部、をさらに備え、
前記生成部は、前記区切りに対応付けられる前記動画像を構成する所定のフレームを、前記区切りを示す情報として生成する、
ことを特徴とする請求項1又は2に記載の音声処理装置。
【請求項4】
前記所定の音声を、当該音声に相当する文字列に変換する文字変換部、をさらに備え、
前記表示部は、前記文字列を、前記区切りを示す情報と対応付けて表示する、
ことを特徴とする請求項1乃至3のいずれか1項に記載の音声処理装置。
【請求項5】
前記判定部は、前記複数の音声の音量に基づいて、前記複数の音声の区切りを判定する、
ことを特徴とする請求項1乃至4のいずれか1項に記載の音声処理装置。
【請求項6】
前記音声処理装置の移動量を検出する移動検出部、をさらに備え、
前記判定部は、前記検出される移動量が所定の閾量以上である場合、前記複数の音声の区切りを判定する、
ことを特徴とする請求項1乃至4のいずれか1項に記載の音声処理装置。
【請求項7】
音声取得部と、音声抽出部と、判定部と、生成部と、表示部と、を有する音声処理装置にて実行される音声処理方法であって、
前記音声取得部は、複数の音声を取得する音声取得工程と、
前記音声抽出部は、前記取得される複数の音声から、所定の音声を抽出する音声抽出工程と、
前記判定部は、前記抽出される所定の音声に基づいて、前記複数の音声の区切りを判定する判定工程と、
前記生成部は、前記判定される区切りに基づいて、前記所定の音声に対応付けられる区切りを示す情報を生成する生成工程と、
前記表示部は、前記生成される区切りを示す情報を表示する表示工程と、を備える、
ことを特徴とする音声処理方法。
【請求項8】
コンピュータを
複数の音声を取得する音声取得部と、
前記取得される複数の音声から、所定の音声を抽出する音声抽出部と、
前記抽出される所定の音声に基づいて、前記複数の音声の区切りを判定する判定部と、
前記判定される区切りに基づいて、前記所定の音声に対応付けられる区切りを示す情報を生成する生成部と、
前記生成される区切りを示す情報を表示する表示部と、
として機能させるためのプログラム。
【請求項1】
複数の音声を取得する音声取得部と、
前記取得される複数の音声から、所定の音声を抽出する音声抽出部と、
前記抽出される所定の音声に基づいて、前記複数の音声の区切りを判定する判定部と、
前記判定される区切りに基づいて、前記所定の音声に対応付けられる区切りを示す情報を生成する生成部と、
前記生成される区切りを示す情報を表示する表示部と、を備える、
ことを特徴とする音声処理装置。
【請求項2】
前記複数の音声が取得される時刻を計時する計時部、をさらに備え、
前記表示部は、前記計時される時刻と前記区切りを示す情報とを対応付けて表示する、
ことを特徴とする請求項1に記載の音声処理装置。
【請求項3】
前記複数の音声とともに、動画像を撮像する撮像部、をさらに備え、
前記生成部は、前記区切りに対応付けられる前記動画像を構成する所定のフレームを、前記区切りを示す情報として生成する、
ことを特徴とする請求項1又は2に記載の音声処理装置。
【請求項4】
前記所定の音声を、当該音声に相当する文字列に変換する文字変換部、をさらに備え、
前記表示部は、前記文字列を、前記区切りを示す情報と対応付けて表示する、
ことを特徴とする請求項1乃至3のいずれか1項に記載の音声処理装置。
【請求項5】
前記判定部は、前記複数の音声の音量に基づいて、前記複数の音声の区切りを判定する、
ことを特徴とする請求項1乃至4のいずれか1項に記載の音声処理装置。
【請求項6】
前記音声処理装置の移動量を検出する移動検出部、をさらに備え、
前記判定部は、前記検出される移動量が所定の閾量以上である場合、前記複数の音声の区切りを判定する、
ことを特徴とする請求項1乃至4のいずれか1項に記載の音声処理装置。
【請求項7】
音声取得部と、音声抽出部と、判定部と、生成部と、表示部と、を有する音声処理装置にて実行される音声処理方法であって、
前記音声取得部は、複数の音声を取得する音声取得工程と、
前記音声抽出部は、前記取得される複数の音声から、所定の音声を抽出する音声抽出工程と、
前記判定部は、前記抽出される所定の音声に基づいて、前記複数の音声の区切りを判定する判定工程と、
前記生成部は、前記判定される区切りに基づいて、前記所定の音声に対応付けられる区切りを示す情報を生成する生成工程と、
前記表示部は、前記生成される区切りを示す情報を表示する表示工程と、を備える、
ことを特徴とする音声処理方法。
【請求項8】
コンピュータを
複数の音声を取得する音声取得部と、
前記取得される複数の音声から、所定の音声を抽出する音声抽出部と、
前記抽出される所定の音声に基づいて、前記複数の音声の区切りを判定する判定部と、
前記判定される区切りに基づいて、前記所定の音声に対応付けられる区切りを示す情報を生成する生成部と、
前記生成される区切りを示す情報を表示する表示部と、
として機能させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【公開番号】特開2010−276728(P2010−276728A)
【公開日】平成22年12月9日(2010.12.9)
【国際特許分類】
【出願番号】特願2009−127059(P2009−127059)
【出願日】平成21年5月26日(2009.5.26)
【出願人】(310006855)NECカシオモバイルコミュニケーションズ株式会社 (1,081)
【Fターム(参考)】
【公開日】平成22年12月9日(2010.12.9)
【国際特許分類】
【出願日】平成21年5月26日(2009.5.26)
【出願人】(310006855)NECカシオモバイルコミュニケーションズ株式会社 (1,081)
【Fターム(参考)】
[ Back to top ]