音声処理装置、音声処理方法、及び、プログラム

【課題】複数の音声入力部から入力された音声から、特定方向から発せられる目的音と撮影者音声とを抽出し、当該撮影者音声を含むシーンの切れ目情報からなるチャプター情報を再生時に利用する音声処理装置等を提供する。
【解決手段】本発明に係る音声処理装置は、複数の音声を取得する音声取得部と、取得される複数の音声から、所定の音声を抽出する音声抽出部と、抽出される所定の音声に基づいて、複数の音声の区切りを判定する判定部と、判定される区切りに基づいて、所定の音声に対応付けられる区切りを示す情報を生成する生成部と、生成される区切りを示す情報を表示する表示部と、を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、複数のマイク（アレイマイク）を備え、収録目的の被写体音声（目的音）を抽出及び収録して、その収録した目的音を再生する音声処理装置、音声処理方法、及び、コンピュータを音声処理装置として機能させるプログラムに関する。
【背景技術】
【０００２】
音声収録や映像撮影の分野では、個々のマイクから複数の音声を入力し、当該マイクの入力音声を時刻情報とともに記録しておき、その複数の記録音声を利用して、再生時に機器の使用者の使い勝手を向上させる技術が存在する。例えばその一つとして、被写体音声を収録する第一の音声入力部と、撮影者音声を収録する第二の音声入力部と、を備え、撮影者の発話音声と被写体の音声とを別々に収録し、音声分析部によりその撮影者発話音声をテキスト化したものを時刻情報とともにメタデータ化して管理し、再生時に映像に対応した撮影者発話音声をテロップとして映像と合わせて表示する技術が開示されている（特許文献１参照）。また、特許文献１には、機器使用者が被写体の音声と撮影者の発話音声とを自由に選択して再生する技術も開示されている。
【０００３】
また、被写体音声の収録に関しては、遠方の目的音や会議における特定の目的音の収録において、複数の入力音声を処理することで目的音以外の周囲雑音を抑圧することにより、その目的音の明瞭性を向上する技術が多く存在する。例えば、特許文献２には、アレイマイクを備え、そのアレイマイクで取得した複数の音声から、各マイクに入力される同一音源音声の位相差により、それぞれの音源音声の方向を判定し、特定方向からの例えば被写体音声といった目的音のみを抽出する音源分離技術が開示されている。これらの技術により、被写体音声などの機器使用者が期待する特定音源の音声のみを周囲雑音から抽出する事が可能となる。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００７−１０４４０５号公報
【特許文献２】特開２００６−２２７３２８号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかし、特許文献１及び２に開示されている構成では、収録した音声を再生時に利用するには、音声入力部の入力音声から同時に取り込まれる周囲雑音、その他の音声を雑音として除去し、収録する音源音声の明瞭性を保つ必要がある。また、複数の入力音声を撮影時に常時記録するために、複数音声のコーデックを常時動作させる必要がある。さらに、音源音声を抽出するための音源分離技術を用いておらず、音源音声の明瞭性が確保されていない場合には、テキスト化が困難となる可能性がある。
【０００６】
本発明は、上記問題に鑑みてなされたものであり、複数の音声入力部からの入力音声から、特定方向から発せられる被写体音声といった目的音と撮影者音声とを高い明瞭性で抽出する。また、収録期間判定手段により撮影者音声の収録期間を限定することで、判定した収録期間の撮影者音声とその時刻情報を含むチャプター情報（シーンの切れ目情報）を記録し、再生時にそのチャプター情報を利用する音声処理装置等を提供することを目的とする。
【課題を解決するための手段】
【０００７】
上記の目的を達成するため、本発明の第１の観点に係る音声処理装置は、
複数の音声を取得する音声取得部と、
前記取得される複数の音声から、所定の音声を抽出する音声抽出部と、
前記抽出される所定の音声に基づいて、前記複数の音声の区切りを判定する判定部と、
前記判定される区切りに基づいて、前記所定の音声に対応付けられる区切りを示す情報を生成する生成部と、
前記生成される区切りを示す情報を表示する表示部と、を備える、ことを特徴とする。
【０００８】
前記複数の音声が取得される時刻を計時する計時部、をさらに備える、ことも可能である。
前記表示部は、前記計時される時刻と前記区切りを示す情報とを対応付けて表示する、ことも可能である。
【０００９】
前記複数の音声とともに、動画像を撮像する撮像部、をさらに備える、ことも可能である。
前記生成部は、前記区切りに対応付けられる前記動画像を構成する所定のフレームを、前記区切りを示す情報として生成する、ことも可能である。
【００１０】
前記所定の音声を、当該音声に相当する文字列に変換する文字変換部、をさらに備える、ことも可能である。
前記表示部は、前記文字列を、前記区切りを示す情報と対応付けて表示する、ことも可能である。
【００１１】
前記判定部は、前記複数の音声の音量に基づいて、前記複数の音声の区切りを判定する、ことも可能である。
【００１２】
前記音声処理装置の移動量を検出する移動検出部、をさらに備える、ことも可能である。
前記判定部は、前記検出される移動量が所定の閾量以上である場合、前記複数の音声の区切りを判定する、ことも可能である。
【００１３】
上記の目的を達成するため、本発明の他の観点に係る音声処理方法は、音声取得部と、音声抽出部と、判定部と、生成部と、表示部と、を有する音声処理装置にて実行される音声処理方法であって、
前記音声取得部は、複数の音声を取得する音声取得工程と、
前記音声抽出部は、前記取得される複数の音声から、所定の音声を抽出する音声抽出工程と、
前記判定部は、前記抽出される所定の音声に基づいて、前記複数の音声の区切りを判定する判定工程と、
前記生成部は、前記判定される区切りに基づいて、前記所定の音声に対応付けられる区切りを示す情報を生成する生成工程と、
前記表示部は、前記生成される区切りを示す情報を表示する表示工程と、を備える、ことを特徴とする。
【００１４】
上記の目的を達成するため、本発明の他の観点に係るプログラムは、
コンピュータを
複数の音声を取得する音声取得部と、
前記取得される複数の音声から、所定の音声を抽出する音声抽出部と、
前記抽出される所定の音声に基づいて、前記複数の音声の区切りを判定する判定部と、
前記判定される区切りに基づいて、前記所定の音声に対応付けられる区切りを示す情報を生成する生成部と、
前記生成される区切りを示す情報を表示する表示部と、として機能させる。
【発明の効果】
【００１５】
本発明によれば、収録シーンの切れ目を示すチャプターを作成することができ、使用者にとって利便性の高いシーン検索を行うことができる。また、音声処理装置の省電力化を図ることができる。
【図面の簡単な説明】
【００１６】
【図１】実施形態１における動画撮影装置のブロック構成を示す図である。
【図２】レベル測定部を含むブロック構成の一例を示す図である。
【図３】機器の移動検出部を含むブロック構成の一例を示す図である。
【図４】実施形態１におけるチャプター情報の一例を示す図である。
【図５】チャプター情報テーブルの一例を示す図である。
【図６】一回の撮影における撮影シーンの一覧例を示す図である。
【図７】実施形態１における音声を再生するためのメニュー画面例を示す図である。
【図８】実施形態２における動画撮影装置のブロック構成を示す図である。
【図９】実施形態２におけるチャプター情報の一例を示す図である。
【図１０】実施形態２における音声を再生するためのメニュー画面例を示す図である。
【発明を実施するための形態】
【００１７】
(実施形態１)
本発明は、音声入力部として複数のマイク（アレイマイク）を実装する音声記録再生機能を備える機器に適用されるものである。実施形態１に係る発明を、図１〜図７を参照して説明する。図１は、本発明に係る音声処理装置を動画撮影装置１００に適用した端末装置のブロック構成図である。
【００１８】
以下の実施形態では、本発明を動画撮影装置１００として説明するため、映像の区切りやひとかたまりの画像を示す「チャプター」という用語を用いる。
【００１９】
なお、本発明は、動画撮影に限定されるものではなく、例えば音声のみの記録再生機能を持つマイクロレコーダへも適用可能である。また同等機能を備える携帯電話、デジタルスチルカメラなどへも適用可能である。
【００２０】
また、マイクロレコーダ等の音声記録再生装置に利用する場合には、映像との関連情報は存在しないため、シーン区切りの情報として置き換えることで活用可能である。
【００２１】
動画撮影装置１００は、映像および音声を統括処理する映像音声処理部２０と、各部を制御する制御部２１と、使用者からの操作を受け付ける操作部２２と、周期クロックによって一定時間の計測を行うタイマー部２３とから構成される。
【００２２】
映像音声処理部２０は、アレイマイク１、ＡＤＣ２、音声抽出部３、収録期間判定部４、カメラ５、画像処理部６、コーデック部７、チャプター情報生成部８、記録部９、チャプター情報読出部１０、ＯＳＤ作成部１１、ＯＳＤ合成部１２、表示部１３、ＤＡＣ１４、スピーカー１５から構成される。
【００２３】
アレイマイク１は、複数の音声の入力を受け付ける。アレイマイク１は、相互に接続された個別の複数のマイクが配列されて構成される。マイクの配列は、例えば、一次元、二次元、三次元に配置される。
【００２４】
ＡＤＣ２は、アレイマイク１から入力されたアナログ音声信号をデジタル音声信号に変換する。
【００２５】
音声抽出部３は、アレイマイク１から入力された複数音声から特定方向から発せられた複数の音声（例えば、被写体音声、撮影者音声）を個別に抽出する。
【００２６】
収録期間判定部４は、撮影者音声の収録期間を判定する。収録期間判定部４は、任意の方法に基づいて、収録期間を判定することができる。
【００２７】
カメラ５は、映像を撮影する。カメラ５は、動画像や静止画像等の任意の画像を撮像することができる。
【００２８】
画像処理部６は、カメラ５からの出力信号に画質調整やリサイズなどの信号処理を施す。
【００２９】
コーデック部７は、撮影時に音声抽出部３から出力された音声信号及び画像処理部６から出力された映像信号に圧縮処理を施す。
【００３０】
なお、本実施形態では、撮影時における画像処理部６から出力される映像信号と音声抽出部３から出力される音声信号とを、再生時における当該コーデック部７内で伸張された音声信号及び映像信号に切り替える機能を有する構成としたが、コーデック部７の外部に設ける構成とすることも可能である。
【００３１】
チャプター情報生成部８は、映像の切れ目（区切り）を示すチャプター情報を生成する。
【００３２】
記録部９は、コーデック部７で圧縮された映像音声データ及びチャプター情報生成部８で作成されたチャプター情報を記録する。
【００３３】
チャプター情報読出部１０は、記録部９に記録されたチャプター情報を映像再生時に読み出す。
【００３４】
ＯＳＤ作成部１１は、操作部２２が受け付けた使用者からの操作、もしくは、タイマー２３からのタイミング情報またはチャプター情報読出部１０で読み出したチャプター情報をもとにメニューや情報表示などのＯＳＤ（On Screen Display）を作成する。
【００３５】
ＯＳＤ合成部１２は、ＯＳＤ作成部１１で作成されたＯＳＤおよびコーデック部７から出力された映像信号を合成する。
【００３６】
表示部１３は、ＯＳＤ合成部１２から出力された映像信号を表示する。
【００３７】
ＤＡＣ１４は、コーデック部７から出力されたデジタル音声信号をアナログ音声信号に変換する。
【００３８】
スピーカー１５は、ＤＡＣ１４で変換されたアナログ音声信号を出力する。
【００３９】
図１のブロック構成図を用いて、撮影時の処理の流れについて説明する。
【００４０】
アレイマイク１により取り込まれた複数の音声信号は、ＡＤＣ２によりデジタル信号化された後、音声抽出部３により被写体音声と撮影者音声とが抽出されて、コーデック部７に入力される。
【００４１】
カメラ５により取り込まれた映像信号は、画像処理部６により画質調整やリサイズなどの信号処理が施された後、コーデック部７に入力される。
【００４２】
音声抽出部３からの出力である被写体音声は、再生時にスピーカー１５から出力される音声である。被写体音声は、映像記録時に画像処理部６からの出力である映像信号とともに、撮影記録中はコーデック部７で圧縮された上で、記録部９に記録される。
【００４３】
音声抽出部３からの出力である撮影者音声は、チャプター情報として利用される目的の音声である。撮影者音声は、撮影記録中においてチャプターと同一の再生位置の撮影者音声のみコーデック部７に出力されて、記録部９に記録される。
【００４４】
ここで、チャプター情報とは、動画画像の区切り（シーンの切れ目）であり、再生時に使用者が意図するシーンに容易にジャンプ可能とするために使用される情報である。
【００４５】
撮影者音声の収録期間は、収録期間判定部４により判定される。制御部２１は、判定期間に応じて音声抽出部３及びコーデック部７を制御して、収録期間における撮影者音声のみを記録部９に記録する。
【００４６】
次に、収録期間判定部４が収録期間を判定する方法について、図１を参照して説明する。
【００４７】
収録期間判定部４は、第一の例として、操作部２２が受け付けた撮影者（使用者）からの撮影開始操作に合わせ、収録期間を判定する。チャプター情報生成部８は、収録期間判定部４の判定に基づいて、開始から一定期間の撮影者音声を取り込み、チャプター情報の生成を行う。ここで、一定期間の計測は、タイマー部２３にて実行される。
【００４８】
収録期間判定部４は、第二の例として、操作部２２に設けられたチャプターボタンを、撮影者（使用者）が操作することにより撮影者音声を取り込む収録期間を判定する。チャプター情報生成部８は、収録期間判定部４の判定に基づいて、チャプター情報の生成を行う。撮影者の操作による収録期間の設定方法は、例えば、トグルボタン、ON/OFF、押し下げ状態時、ボタン押し下げから一定期間等、任意の方法により定められる。第一の例および第二の例ともに、図１のブロック構成図に新たに処理部を追加することなく撮影者のボタン操作により、実現可能である。
【００４９】
次に、収録期間判定部４が収録期間を判定する他の方法について、図２を参照して説明する。
【００５０】
図２は、レベル測定部の測定結果に基づいて、収録期間の判定を行うためのブロック構成図である。図２は、音声抽出部３の撮影者音声レベルを測定するレベル測定部３０を図１に追加した構成である。収録期間判定部４が収録期間を判定する第三の例を図２に示す。以下、図１と同様の処理部は同一の番号を付し、説明を省略する。
【００５１】
レベル測定部３０は、撮影者音声の音声レベルがあらかじめ設定されている特定レベルに達しているかどうかを収録期間判定部４に通知する。収録期間判定部４では特定レベルに達している期間を収録期間と判定する。チャプター情報生成部８は、収録期間判定部４の判定結果に基づいて、撮影映像に対する撮影者音声の位置情報を含むチャプター情報を生成し、当該チャプター情報を記録部９に記録する。音声抽出部３は、収録期間判定部４の判定に基づいて生成された一つのチャプター情報に関連した撮影者音声をコーデック部７に出力する。コーデック部７は、音声抽出部３から出力された撮影者音声を圧縮して、当該撮影者音声を記録部９に記録する。
【００５２】
なお、特定レベルは、例えば、一定音量以上の音声レベル、一定音量以下の音声レベル、６０ｄＢ〜８０ｄＢの範囲内の音声レベル等、任意の音声レベルである。
【００５３】
次に、収録期間判定部４が収録期間を判定する他の方法について、図３を参照して説明する。図３は、移動検出部４０の検出結果に基づいて、収録期間の判定を行うためのブロック構成図である。図３は、機器の移動状態を検出する移動検出部４０を図１に追加した構成である。収録期間判定部４が収録期間を判定する第四の例を図３に示す。以下、図１と同様の処理部は同一の番号を付し、説明を省略する。
【００５４】
移動検出部４０は、例えば、物体の移動や移動量を検出できる一般的な移動検出センサを備え、撮影中の機器の移動開始、移動停止を検出し、収録期間判定部４に通知する。収録期間判定部４は、移動検出部４０から通知された移動検出通知からの一定期間を収録期間と判定する。制御部２１は、収録期間判定部４で判定された収録期間に応じ、チャプター情報生成部８にチャプター情報を生成させて、コーデック部７に撮影者音声を圧縮するよう指示する。チャプター情報生成部８は、撮影映像に対する撮影者音声の位置情報を含むチャプター情報を生成し、記録部９に記録する。コーデック部７は、圧縮された撮影者音声を記録部９に記録する。
【００５５】
移動検出部４０としては、例えば、ＧＰＳ（Global Positioning System）や加速度センサが存在するが、ＧＰＳや加速度センサに限定されない。移動検出部４０は、位置情報を取得できる機能を備え、その位置情報から算出される移動情報等を利用できる任意の装置としても考えられる。
【００５６】
なお、上述する第一の例〜第四の例は、撮影者音声の収録期間を判定する方法を限定するものではなく、各例を組み合わせての活用も可能である。
【００５７】
次に、チャプター情報の具体例を図４に示し、その中に含まれる項目の内容について説明する。
【００５８】
チャプター情報４００は、チャプター一つに対して、撮影者音声格納場所及び時刻情報の各項目を少なくとも一つ備える。撮影者音声格納場所は、記録部９に記録される撮影者音声が格納された場所を示す。例えば、撮影者が撮影者音声を動物園で格納した場合には、撮影者音声格納場所は、動物園となる。撮影者音声は、シーン関連情報としてシーン内容を判断するために利用される。時刻情報は、記録部９に記録される撮影者音声の発話が開始された時刻を示す。例えば、撮影者が10時12分12秒に発話を開始した場合には、時刻情報は、10時12分12秒となる。この時刻情報には、日付情報やチャプター位置情報も含まれる。また、この時刻情報は、撮影画像中の再生位置情報を示すためのものであり、フレーム番号とすることも可能である。
【００５９】
次に、チャプター情報テーブルの例を図５に示す。チャプター情報テーブル５００には、一つの撮影動画（一回の撮影開始から停止まで）に対して、少なくとも一つのチャプター情報が記録される。例えば、図５に示すように、撮影画像１、撮影画像２、撮影画像３には、それぞれ４つ、３つ、５つのチャプター情報が存在する。一つのチャプターには、チャプター名、撮影音声格納場所、及び、時刻情報が対応付けられて記録される。このチャプター情報テーブル５００は、記録部９に記録される。
【００６０】
次に、再生時のチャプター情報の利用方法、及び、その際の各処理部の動作について、図１、図６及び図７を参照して説明する。動物園において様々な動物を撮影した場合を例に取り、撮影者がその動物の種類を撮影者音声として記録した動画を利用する手法について説明する。
【００６１】
図６は、一回の撮影における撮影シーンの一覧を模式的に示した図である。図６では、一回の撮影で動物園の入口、ゾウ、ライオン、サルを撮影したときを例としている。記録画像撮影シーンは、撮影された動画の１シーンや、１つの静止画像である。被写体音声は、動画を撮影する際に、アレイマイク１により集音された被写体が発した音声（例えば、動物の鳴き声）である。撮影者発話音声は、動画を撮影する際に、アレイマイク１により集音された撮影者の音声である。時刻情報は、撮影者音声の発話が開始された時刻を示す。
【００６２】
チャプター情報生成部８は、動物園の入口等のそれぞれのシーンに対して、チャプター情報を生成して、当該チャプター情報を記録部９に記録する。チャプター情報生成部８は、記録画像撮影シーンの一部をチャプター情報とすることもできる。
【００６３】
チャプター情報を再生するためのメニュー画面を表示する際、チャプター情報読出部１０は、記録部９に記録されたチャプター情報を読み出して、当該チャプター情報をＯＳＤ作成部１１に渡す。ＯＳＤ作成部１１は、チャプター情報に基づいて、ＯＳＤ（On Screen Display）を作成して、当該ＯＳＤをＯＳＤ合成部１２に渡す。ＯＳＤは、ＯＳＤ合成部１２において映像信号と合成されて、表示部１３に表示される。
【００６４】
図７は、チャプター情報に対応する音声を再生するためのメニュー画面例である。メニュー画像７００には、記録部９に記録されている撮影動画の数に対応する選択ボタン７０１が表示される。選択ボタン７０１が選択されると、当該選択された選択ボタン７０１に対応付けられた音声が再生される。例えば、図６に示す４つの記録画像撮影シーンを含む撮影動画が、図７に示す撮影動画１に対応している。このため、撮影動画１に対応する選択ボタン７０１が選択されると、図６に示される４つの撮影シーンが再生される。
【００６５】
また、メニュー画像７００には、チャプター情報の時間的な位置を示すプログレスバー７０２が表示される。プログレスバー７０２には、撮影動画（記録画像撮影シーン）に対応する時刻情報が表示される。
【００６６】
撮影者（使用者）により、撮影動画１に対応する選択ボタン７０１が選択されると、撮影動画１の選択ボタン７０１が例えばハイライト表示され、撮影動画１に対するチャプター情報内の時刻情報より(1)10:12:12といった時刻情報がプログレスバー７０２上に表示される。各チャプター情報に関連付けられた撮影者発話音声が順次再生されるとともに、再生中の音声に対応する時刻情報がハイライト表示される。
【００６７】
その際に再生される音声は、「○○動物園」、「ゾウ」、「ライオン」、「サル」といった撮影者発話音声である。記録画像撮影シーンに対応する撮影者発話音声が再生されている際に、撮影者（使用者）は、操作部２２が備える再生ボタン等で再生を指示することにより、所望の動画シーンを再生することができる。例えば、「ゾウ」という撮影者発話音声が再生されている際に、所定の再生ボタンが操作されると、当該撮影者発話音声が記録された時刻10:15:31から記録画像撮影シーンが再生される。
【００６８】
撮影動画１〜３を示す全ての選択ボタン７０１、もしくは、撮影動画１〜３を再生するための「全て」の選択ボタン７０１が選択されると、撮影動画１〜３に対するチャプター情報に対応する音声が順次再生される。例えば、再生されている撮影動画に対応する選択ボタン７０１がハイライト表示されることにより、どの撮影画像が再生されているのかを撮影者は認識することができる。
【００６９】
なお、図７に示すように、選択ボタン７０１には撮影動画１〜３と表示されているが、各撮影動画の先頭のチャプター情報から取得した日付情報を含む時刻情報を選択ボタン７０１内に表示してもよい。また、メニュー画像７００において、撮影動画が再生される際に、特徴的な被写体音声を再生することもできる。
【００７０】
以上、本実施形態に示すように、動画画像の音声記録を再生に利用した場合、撮影者が意図した撮影シーンにチャプター情報を作成することができ、再生時には記録したチャプター情報により、容易にチャプタースキップ、シーン検索等を実行することができる。
【００７１】
また、収録期間判定部により撮影者音声の収録期間が制限されて、エンコードの処理負荷を抑えることができるため、特にバッテリー容量の限られた携帯機器に対して求められる低消費電力化にも貢献できる。
【００７２】
さらに、収録期間を限定することにより、チャプター情報をシーン検索等に利用した際に、使用者がチャプター音声として認識していない音声に起因する誤検索の可能性を極力抑えることができる。
【００７３】
（実施形態２）
実施形態２に係る発明を、図８〜図１０を参照して説明する。図８は、本発明に係る音声処理装置を動画撮影装置１００に適用した端末装置のブロック構成図である。図８は、図１のブロック構成図に対して、音声抽出部３とチャプター情報生成部８の間に音声分析テキスト化部５０を追加した構成である。以下、図１と同様の処理部は同一の番号を付し、説明を省略する。
【００７４】
音声分析テキスト化部５０は、音声抽出部３から出力される撮影者発話音声をテキスト化して、当該テキストをチャプター情報生成部８に渡す。また、音声分析テキスト化部５０は、撮影者発話音声の音量の大小、撮影者からの指示、もしくは、撮影時間等に基づいて、所定の内容を含む撮影者発話音声の全部、もしくは、一部をテキスト化することもできる。
【００７５】
チャプター情報生成部８は、チャプター情報とともにテキスト化された撮影者発話音声の内容を記録部９に記録する。
【００７６】
記録部９に記録される本実施形態に係るチャプター情報の具体例を図９に示す。実施形態１と同様に、撮影者音声格納場所及び時刻情報が、チャプター情報として記録される。本実施形態では、テキスト化された撮影者発話内容がチャプター情報として含まれる。
【００７７】
チャプター情報を再生するためのメニュー画面を表示する際、実施形態１と同様に、チャプター情報読出部１０は、記録部９に記録されたチャプター情報を読み出して、当該チャプター情報をＯＳＤ作成部１１に渡す。ＯＳＤ作成部１１は、チャプター情報に基づいて、ＯＳＤを作成して、当該ＯＳＤをＯＳＤ合成部１２に渡す。ＯＳＤは、ＯＳＤ合成部１２において映像信号と合成されて、表示部１３に表示される。
【００７８】
図１０は、チャプター情報に対応する音声を再生するためのメニュー画面例である。メニュー画像１０００には、記録部９に記録されている撮影動画のチャプターに対応する撮影者発話音声がテキスト化されたものが選択ボタン１００１として表示される。例えば、図６に示す撮影シーンを含む動画が、撮影動画１とすると、撮影者発話音声が「○○動物園」、「ゾウ」、「ライオン」、「サル」と記録されているため、音声情報である「○○動物園」がテキスト化されて、文字情報である「○○動物園」が選択ボタン１００１上に表示される。そして、撮影動画１の「ライオン」と表示された選択ボタン１００１を撮影者が選択すると、撮影動画１のライオンのシーンから再生される。
【００７９】
なお、図１０において、各撮影動画像に対して撮影動画１、撮影動画２等と記載したが、各撮影動画の先頭のチャプター情報から取得した日付情報を含む時刻情報を表示してもよい。
【００８０】
以上、本実施形態に示すように、チャプター情報が表示されるメニュー画面上にある選択ボタンに表示されるテキスト情報から、チャプター以降に再生されるシーンを容易に認識することが可能となり、所望するシーンから再生するといった再生の利便性を高めることができる。
【００８１】
なお、本発明は上記実施の形態に限定されず、種々の変形及び応用が可能である。
【００８２】
チャプター情報生成部８は、一つの撮影動画に対する撮影シーンを複数生成することもできる。表示部１３は、複数生成された撮影シーンが連続するように表示することもできる。例えば、図６に示される記録画像撮影シーンが、連続する複数のシーンとして、また、動画像として表示される。
【符号の説明】
【００８３】
１００…動画撮影装置、１…アレイマイク、２…ＡＤＣ、３…音声抽出部、４…収録期間判定部、５…カメラ、６…画像処理部、７…コーデック部、８…チャプター情報生成部、９…記録部、１０…チャプター情報読出部、１１…ＯＳＤ作成部、１２…ＯＳＤ合成部、１３…表示部、１４…ＤＡＣ、１５…スピーカー、２０…映像音声処理部、２１…制御部、２２…操作部、２３…タイマー部、３０…レベル測定部、４０…移動検出部

【特許請求の範囲】
【請求項１】
複数の音声を取得する音声取得部と、
前記取得される複数の音声から、所定の音声を抽出する音声抽出部と、
前記抽出される所定の音声に基づいて、前記複数の音声の区切りを判定する判定部と、
前記判定される区切りに基づいて、前記所定の音声に対応付けられる区切りを示す情報を生成する生成部と、
前記生成される区切りを示す情報を表示する表示部と、を備える、
ことを特徴とする音声処理装置。
【請求項２】
前記複数の音声が取得される時刻を計時する計時部、をさらに備え、
前記表示部は、前記計時される時刻と前記区切りを示す情報とを対応付けて表示する、
ことを特徴とする請求項１に記載の音声処理装置。
【請求項３】
前記複数の音声とともに、動画像を撮像する撮像部、をさらに備え、
前記生成部は、前記区切りに対応付けられる前記動画像を構成する所定のフレームを、前記区切りを示す情報として生成する、
ことを特徴とする請求項１又は２に記載の音声処理装置。
【請求項４】
前記所定の音声を、当該音声に相当する文字列に変換する文字変換部、をさらに備え、
前記表示部は、前記文字列を、前記区切りを示す情報と対応付けて表示する、
ことを特徴とする請求項１乃至３のいずれか１項に記載の音声処理装置。
【請求項５】
前記判定部は、前記複数の音声の音量に基づいて、前記複数の音声の区切りを判定する、
ことを特徴とする請求項１乃至４のいずれか１項に記載の音声処理装置。
【請求項６】
前記音声処理装置の移動量を検出する移動検出部、をさらに備え、
前記判定部は、前記検出される移動量が所定の閾量以上である場合、前記複数の音声の区切りを判定する、
ことを特徴とする請求項１乃至４のいずれか１項に記載の音声処理装置。
【請求項７】
音声取得部と、音声抽出部と、判定部と、生成部と、表示部と、を有する音声処理装置にて実行される音声処理方法であって、
前記音声取得部は、複数の音声を取得する音声取得工程と、
前記音声抽出部は、前記取得される複数の音声から、所定の音声を抽出する音声抽出工程と、
前記判定部は、前記抽出される所定の音声に基づいて、前記複数の音声の区切りを判定する判定工程と、
前記生成部は、前記判定される区切りに基づいて、前記所定の音声に対応付けられる区切りを示す情報を生成する生成工程と、
前記表示部は、前記生成される区切りを示す情報を表示する表示工程と、を備える、
ことを特徴とする音声処理方法。
【請求項８】
コンピュータを
複数の音声を取得する音声取得部と、
前記取得される複数の音声から、所定の音声を抽出する音声抽出部と、
前記抽出される所定の音声に基づいて、前記複数の音声の区切りを判定する判定部と、
前記判定される区切りに基づいて、前記所定の音声に対応付けられる区切りを示す情報を生成する生成部と、
前記生成される区切りを示す情報を表示する表示部と、
として機能させるためのプログラム。

【図１】