説明

音声変更装置、音声変更方法、プログラム及び記録媒体

【課題】任意の人物の音声を識別し、識別した音声を改善する音声変更装置、音声変更方法、プログラム及び記録媒体を提供する。
【解決手段】複数の人物が撮影されたカットを含むビデオデータのうち、ユーザに指定された人物のみが撮影されたカットを検索する検索手段と、前記検索手段により検索されたカットから音声を認識する音声認識手段と、前記音声認識手段により認識された音声と同じ人物の音声を変更する音声変更手段と、を備えることを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声変更装置、音声変更方法、プログラム及び記録媒体に関し、特に任意の人物の音声を識別し、識別した音声を改善する音声変更装置、音声変更方法、プログラム及び記録媒体に関する。
【背景技術】
【0002】
マイクロフォン等の音声入力手段から入力された音声情報を識別する技術が様々提案されている。
【0003】
例えば、入力された音声情報に基づき文字符号を入力する音声認識方式がアプリケーションプログラムとして実用化されている。会議において速記の代替として議事録作成などに該音声認識方式を利用する場合は、音声情報を識別し、発言者を特定する機能が必要となる。そこで会話収録中に撮像された複数枚の経時画像を比較し、唇の変化している顔画像を発言者と判定する会話収録装置が提案されている(特許文献1、段落0011)。なお、その発言者の顔画像からサムネイル画像を生成し、文字符号列に変換した一塊の文字符号列のヘッダーとして生成した前記サムネイル画像を付加することで、後にどの発言(文字符号列)がどの発言者のものであるか容易に判断出来る。
【0004】
また、予め発言者の音声特徴情報を記憶しておき、音声入力による記録時に、入力された音声情報と、予め記憶された発言者の音声特徴情報とを比較し、合致判定して発言者を特定する技術も提案されている(特許文献2)。特定された発言者の識別名を出力し、入力された音声情報を文字符号化した文字列(発言内容)と対応付けて記録することも可能である(特許文献2、段落0011)。音声入力による記録時に、音声認識によって変換された文字符号に発言者の識別名を付加した後記録するため、後に発言者が不明になると言うことがない。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2006−235712号公報
【特許文献2】特開平5−35440号公報
【特許文献3】特開2003−163737号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記のような技術には、以下の問題点がある。
【0007】
特許文献1に記載の発明は、その音声を発した人物を、その唇領域の変化を発見することで特定しているが、唇部分が経時画像に写っていない場合は、その音声を発声した人物を特定することが出来ない。
【0008】
特許文献2に記載の発明は、会話に参加する全員の音声特徴情報を予め記録しておかなければならないため、負担が大きい。また、予め記録していない人物の音声は識別することが出来ない。
【0009】
さらに、上記いずれの技術も、音声情報を文字符号化して発言者識別情報を付加するものであるため、入力された音声の音量が低い、又は音質が悪い場合等については特に考慮されていない。音声情報の識別は入力時に行っているため、既に入力された音声情報を再生時に識別することについても考慮されていない。
【0010】
音声が聞き取り難い場合を考慮した技術として、特許文献3記載の携帯電話装置が提案されている。かかる携帯電話装置では、周囲雑音レベルと話者の音声レベルとを正確に比較し、周囲の雑音レベルが話者本人の発声音声レベルよりも高くなった場合に、雑音側音のみを低下させている。具体的には、携帯電話装置のマイクで集音された周囲雑音を含む送話者の送話音声信号に対して、送話者本人の発声音声の特徴パラメータにより送話者本人の音声信号が抽出され符号化された符号化信号を話者の音声レベルと認識し(特許文献3、段落0034)、送話者本人の発声音声の特徴パラメータによる抽出がなされた後の符号化信号が周囲雑音レベルと認識される(特許文献3、段落0035)。
【0011】
しかしながら、特許文献3記載の発明は携帯電話装置に関するものであり、送話者は一人であることが前提となっており、複数人が同時に話している場合の音声情報において個人を特定することは考慮されていない。音声と人物が一対であることが前提となっている点は、特許文献1記載の会話収録装置も同様である。特許文献1記載の会話収録装置は、唇が変化している顔画像を発言者と判定しているため、複数人が同時に話している時に個人を特定し、音声を識別することが出来ない。
【0012】
複数人が同時に発言している場合、例えば討論番組を視聴している際に議論が白熱し特定の人の声が聞こえ難くなる場合がある。このように複数人が登場する場合にも、任意の人物の音声を識別し、音声を変更して聞こえやすくなるよう改善したいというニーズがある。
【0013】
また特許文献3記載の携帯電話装置は、送話者本人の発声音声の特徴パラメータを予め用意しなければならない点は、特許文献2と同様に負担が大きい。したがって、音声情報識別のために予め何らかの情報を用意していなくとも、音声情報と画像データから発言者を識別できるようにしたいというニーズがある。
【0014】
本発明はこのような状況に鑑みてなされたものであり、任意の人物の音声を識別し、識別した音声を改善することを目的としている。
【課題を解決するための手段】
【0015】
本発明に係る第1の音声変更装置は、複数の人物が撮影されたカットを含むビデオデータのうち、ユーザに指定された人物のみが撮影されたカットを検索する検索手段と、前記検索手段により検索されたカットから音声を認識する音声認識手段と、前記音声認識手段により認識された音声と同じ人物の音声を変更する音声変更手段と、を備えることを特徴とする。
【0016】
本発明に係る第2の音声変更装置は、複数の人物が撮像された動画データと音声情報とから成るビデオデータを保持するビデオデータ保持手段と、ユーザに指定された人物を認識する指定人物認識手段と、前記認識した指定人物の特徴を分析する指定人物特徴分析手段と、前記分析した特徴を有する人物の画像データを含む全てのカットを、前記ビデオデータから検索し、該当するカットで流れている音声情報とセットにして検索結果として出力するビデオデータ検索手段と、前記検索結果に基づき、前記指定人物の音声情報を特定する指定人物音声特定手段と、ユーザに指定された音声変更指示に基づき、前記指定人物の音声情報を変更する音声変更手段と、を備えることを特徴とする。
【0017】
本発明に係る音声変更方法は、複数の人物が撮影されたカットを含むビデオデータのうち、ユーザに指定された人物のみが撮影されたカットを検索するステップと、前記検索されたカットから音声を認識するステップと、前記認識された音声と同じ人物の音声を変更するステップと、を備えることを特徴とする。
【0018】
本発明に係る音声変更プログラムは、複数の人物が撮影されたカットを含むビデオデータのうち、ユーザに指定された人物のみが撮影されたカットを検索する処理と、前記検索されたカットから音声を認識する処理と、前記認識された音声と同じ人物の音声を変更する処理と、をコンピュータに実行させることを特徴とする。
【0019】
本発明に係る記録媒体は、上記本発明に係る音声変更プログラムの処理を記録するコンピュータ読取り可能な記録媒体である。
【発明の効果】
【0020】
本発明によれば、任意の人物の音声を識別し、識別した音声を改善することが出来る。
【図面の簡単な説明】
【0021】
【図1】本発明の実施形態に係る音声変更装置の機能ブロック図である。
【図2】本発明の実施形態に係る音声変更装置1のハードウェア構成図である。
【図3】本発明の実施形態に係る表示部6に表示される音声変更方法の表示例を示す図である。
【図4】本発明の実施形態に係る音声変更の動作処理を示すフローチャートである。
【発明を実施するための形態】
【0022】
以下に、本発明の実施形態について図面を用いて詳細に説明する。なお、以下に述べる実施形態は、本発明の好適な実施形態であるから、技術的に好ましい種々の限定が付されているが、本発明の範囲は、以下の説明において特に本発明を限定する旨の記載がない限り、これらの態様に限られるものではない。
【0023】
(構成)
本実施形態に係る音声変更装置は、音声情報と経時画像データ(動画データでも良い)とから成るビデオデータを再生している際に、指定人物の音声を聞きやすくすることを特徴とする。図1は、本実施形態に係る音声変更装置の機能ブロック図である。本実施形態に係る音声変更装置は、ビデオデータ保持部9、指定人物認識部10、指定人物特徴分析部11、ビデオデータ検索部12、指定人物音声特定部13、音声変更情報保持部14、音声変更部15、から構成される。
【0024】
ビデオデータ保持部9は、音声情報と動画データとから成るビデオデータであって、本実施形態に係る音声変更の処理対象となるデータを保持する。処理対象となるビデオデータは、ネットワークを介して取得しても良い。
【0025】
指定人物認識部10は、ユーザが指定した人物を「指定人物」として認識する。ユーザによる指定は、例えば動画再生中に指定したい人物の顔をマウス等のポインティングデバイスでクリック等して行う。人物の顔の他、後ろ姿や、手元、顔画像であってもマスクをして唇画像が写っていなくとも、目や髪型で認識しても良い。
【0026】
指定人物特徴分析部11は、認識した指定人物の特徴を分析する。例えば人物の顔が認識された場合は、その顔画像から特徴を分析する。後ろ姿の場合は服装のデザインや色、手元しか写っていない場合は身に付けている時計等のアクセサリーを特徴としても良い。
【0027】
ビデオデータ検索部12は、指定人物特徴分析部11で分析した特徴を有する人物の画像を含む全てのカットを、ビデオデータ保持部9に保持されているビデオデータから検索し、該当するカットで流れている音声情報とセットにして検索結果とする。ここで、カットとは数秒間(音声の認識に必要な最小時間を最低値とした時間)ごとのコマ(フレーム)である。例えば指定人物特徴分析部11で分析した特徴を有する顔画像を含む全てのカットを検索する。
【0028】
指定人物音声特定部13は、検索結果を参照し、指定人物の音声情報を特定(識別)する。音声特定の詳細については後述する。
【0029】
音声変更情報保持部14は、ユーザから指定された音声変更指示の情報を保持する。音声変更指示の情報は、例えば音質(高さ、声質、ビットレート等)を変更する、音量を上げる等の音声変更情報についてユーザが指示した情報である。ユーザは指定人物の音量を上げたい場合や、指定人物の音質をクリアにして聞きやすくしたい場合等に、音声変更の指示を行う。ユーザによる指示は、例えば、可能な音声変更方法を表示部6(図2参照)に表示し、表示された項目の中からユーザがマウスでクリック等して指定する。図3は、表示部6に表示される音声変更方法の表示例を示す図である。図3(a)は例えば音質の変更方法をスライドバーで示した図である。図3(b)は音声変更方法を文章で示した図である。
【0030】
音声変更部15は、音声変更情報保持部14に保持された音声変更の指示に従い、指定人物音声特定部13で特定された音声情報を変更する。ビデオデータ再生時は、指定人物の音声情報が変更された状態で出力することが可能となる。音声情報が特定された後は、特定された音声情報を全て変更することが可能であるため、指定人物が画像中に写っていない場合でも、指定人物の音声情報が流れている場合は変更することが出来る。
【0031】
なお、音声情報の変更は、必要に応じて指定人物の音声情報以外の音声情報を連動して変更しても良い。例えば、指定人物の音量を大にする指示であった場合に、指定人物の音声情報の音量を大にする処理のみではなく、指定人物の音声情報以外の音(他の人物の音声情報や周囲雑音情報)の音量を小にする処理も行うことで、指定人物とその他の音量の差を大きくすることができ、相対的に指定人物の音声情報の音量を大にすることが可能となる。
【0032】
次に、本実施形態に係る音声変更装置1の基本的なハードウェア構成について図2を用いて説明する。図2は、本実施形態に係る音声変更装置1のハードウェア構成図である。音声変更装置1は、CPU(Central Processing Unit)2、ROM(Read Only Memory)3、RAM(Random Access Memory)4、操作部5、表示部6、スピーカ7、がバス8に接続されている。
【0033】
CPU2は、ROM3やRAM4といったメモリと連帯して、音声変更装置1全体を制御する。ROM3には、音声変更装置1の制御プログラム、各種アプリケーションプログラム等が予め記憶されている。CPU2は、ROM3に記憶された制御プログラムに基づいて各機能ブロックの制御を行う。また、ROM3に記憶されている各種アプリケーションプログラムの起動/停止及び制御等を行う。
【0034】
操作部5は、キーボードやマウス等の外部入力装置から入力を受け付けることが可能である。
【0035】
表示部6は、液晶表示画面等の出力手段である。画像データの再生や、図3に示した音声変更方法の項目が表示等される。
【0036】
スピーカ7は、音声情報等の出力手段である。表示部6で再生する画像データと同期して音声情報をスピーカ7から出力する。
【0037】
図1を用いて説明した機能は、主にCPU2で実行される。ビデオデータ保持部9、音声変更情報保持部14といった保持部は、図1のROM3やRAM4といったメモリに相当する。
【0038】
(動作処理)
次に、本実施形態に係る音声変更の動作処理について図4を用いて説明する。図4は、本実施形態に係る音声変更の動作処理を示すフローチャートである。
【0039】
ユーザにより指定された人物を認識すると(ステップS1)、認識した指定人物の特徴を分析する(ステップS2)。次に、分析した特徴を有する顔画像を含む全てのカット(動画データの1コマ)を、ビデオデータ保持部9に保持されているビデオデータから検索し、該当するカットで流れている音声情報とセットにして検索結果を出力する(ステップS3)。
【0040】
検索結果に基づき、指定人物の音声情報を特定する(ステップS4)。ビデオデータの再生時には、特定された指定人物音声を、ユーザによる音声変更指示に基づき変更する(ステップS5)。
【0041】
次に、指定人物音声特定部13による音声情報の特定について詳述する。例えば下記のような特定方法が考え得る。
【0042】
〔実施例1〕
ビデオデータ検索部12から送られた検索結果から、指定人物の特徴を有する人物のみが写っているカットを抽出し、そのカットで流れている音声情報を、指定人物の音声情報として特定する。ビデオデータを再生した際に、特定された音声が流れる場面では、当該音声の信号が音声変更部15に渡される。音声変更部15は、音声変更情報保持部14に保持された音声変更の指示に従って音声を変更し、変更された音声信号を出力する。これにより、ビデオデータ再生時に指定人物の音声情報が変更されて再生される。
【0043】
〔実施例2〕
指定人物のみが写り、流れている音声情報が一つであるカットがない場合も想定されるため、他の実施例として以下の方法が考え得る。指定人物を含む複数の人物と複数の音声が登場するカットを2つ以上抽出し、どのカットにも共通する音声を1つ抽出し、指定人物の音声と特定する。
【0044】
〔実施例3〕
指定人物のみが写っているが、流れている音声が複数あるカットしか抽出されない場合も想定される。そこで、例えばあるカットでの複数の音声を音声X、音声Yと認識し、別のカットの音声を音声X、音声Z、さらに別のカットでの音声を音声X、音声Y、音声Zと認識した場合に、全てのカットで多く重複している音声Xが指定人物の音声である可能性が高く、最も重複する音声を指定人物の音声と特定する。ここで「重複」とは、指定人物Aのみが写っており、(Aの音声X以外の他の人物の)音声Y,Zのみが流れているカットも含めたうえでの判断を意味する。上記実施例2は、カットに複数の人物が写っていること(少なくとも指定人物が写っていれば良い)が前提の特定方法であるが、実施例3はカットに指定人物のみ写っている場合を前提とした特定方法である。
【0045】
〔実施例4〕
また、写っている人物と結びつかない、いわゆるナレータ等の音声の認識も以下の方法により可能となる。まず人物が一人しか映っておらず、複数の音声のあるカットをビデオデータから検索し、それらのカットの中で多く重複している音声を、ナレータ等の映像に表示されない人物の音声として認識することが出来る。若しくは、人物が映っておらず、音声のあるカットを全てビデオデータから検索し、検索されたカットの中で多く重複している音声をナレータ等の映像に表示されない人物の音声として認識することも出来る。
なお、その後、ナレータ等の音声として認識した音声は指定人物の音声候補から除外して、上記各実施例の特定方法を実施しても良い。
【0046】
〔実施例5〕
上記実施例により特定された音声情報を、例えば一定時間流して(スピーカ7から出力して)ユーザに提示し、許可されてから音声変更を行っても良い。実施例1で特定した音声情報で許可されなかった場合は実施例2を実行する等、複数の特定方法を用いても良い。
【0047】
以上説明したように、本実施形態に係る音声変更装置によれば、予め音声情報識別のための情報を用意していなくとも、音声情報と画像データからどの発言者の音声情報であるかを識別でき、また、複数人が登場する場合にも、任意の人物の音声を識別でき、音声を変更して改善することが可能となる。
【0048】
なお、各図のフローチャートに示す処理を、CPUが実行するためのプログラムは本発明によるプログラムを構成する。このプログラムを記録する記録媒体としては、半導体記憶部や光学的及び/又は磁気的な記憶部等を用いることができる。このようなプログラム及び記録媒体を、前述した各実施形態とは異なる構成のシステム等で用い、そこのCPUで上記プログラムを実行させることにより、本発明と実質的に同じ効果を得ることができる。
【0049】
以上、本発明を好適な実施形態に基づき具体的に説明したが、本発明は上記のものに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。
【符号の説明】
【0050】
1 音声変更装置
2 CPU
3 ROM
4 RAM
5 操作部
6 表示部
7 スピーカ
8 バス
9 ビデオデータ保持部
10 指定人物認識部
11 指定人物特徴分析部
12 ビデオデータ検索部
13 指定人物音声特定部
14 音声変更情報保持部
15 音声変更部

【特許請求の範囲】
【請求項1】
複数の人物が撮影されたカットを含むビデオデータのうち、ユーザに指定された人物のみが撮影されたカットを検索する検索手段と、
前記検索手段により検索されたカットから音声を認識する音声認識手段と、
前記音声認識手段により認識された音声と同じ人物の音声を変更する音声変更手段と、
を備えることを特徴とする音声変更装置。
【請求項2】
複数の人物が撮像された動画データと音声情報とから成るビデオデータを保持するビデオデータ保持手段と、
ユーザに指定された人物を認識する指定人物認識手段と、
前記認識した指定人物の特徴を分析する指定人物特徴分析手段と、
前記分析した特徴を有する人物の画像データを含む全てのカットを、前記ビデオデータから検索し、該当するカットで流れている音声情報とセットにして検索結果として出力するビデオデータ検索手段と、
前記検索結果に基づき、前記指定人物の音声情報を特定する指定人物音声特定手段と、
ユーザに指定された音声変更指示に基づき、前記指定人物の音声情報を変更する音声変更手段と、
を備えることを特徴とする音声変更装置。
【請求項3】
前記指定人物音声特定手段は、前記検索結果のカットのうち、前記指定人物のみが写っているカットにおいて流れている音声情報を、前記指定人物の音声情報と特定することを特徴とする請求項2記載の音声変更装置。
【請求項4】
前記指定人物音声特定手段は、前記検索結果のカットのうち、前記指定人物と1以上の他の人物が写っている複数のカットにおいて、重複する音声情報が流れている場合は、前記重複する音声情報を前記指定人物の音声情報と特定することを特徴とする請求項2記載の音声変更装置。
【請求項5】
前記指定人物音声特定手段は、前記検索結果のカットのうち、前記指定人物のみが写っている複数のカットにおいて複数の音声情報が流れている場合は、前記指定人物を含む他のカットにおいて流れている音声情報と最も多く重複する音声情報を、前記指定人物の音声情報と特定することを特徴とする請求項2記載の音声変更装置。
【請求項6】
前記ビデオデータから、複数の音声が流れているカットであって、人物が一人写っている若しくは一人も写っていないカットを検索し、検索されたカットのうち多く重複している音声情報を、前記ビデオデータに撮像されていない人物の音声情報として認識し、
前記指定人物音声特定手段は、前記ビデオデータに撮像されていない人物の音声情報として認識された音声情報を除外して、前記指定人物の音声情報を特定することを特徴とする請求項3から5のいずれか1項記載の音声変更装置。
【請求項7】
前記指定人物認識手段は、前記ビデオデータ再生中に、ユーザがポインティングデバイスを用いて指定した人物を指定人物と認識することを特徴とする請求項2から6のいずれか1項記載の音声変更装置。
【請求項8】
前記音声変更手段は、前記音声変更指示に基づき、前記指定人物の音声情報以外の音声情報も変更することを特徴とする請求項2から7のいずれか1項記載の音声変更装置。
【請求項9】
複数の人物が撮影されたカットを含むビデオデータのうち、ユーザに指定された人物のみが撮影されたカットを検索するステップと、
前記検索されたカットから音声を認識するステップと、
前記認識された音声と同じ人物の音声を変更するステップと、
を備えることを特徴とする音声変更方法。
【請求項10】
複数の人物が撮影されたカットを含むビデオデータのうち、ユーザに指定された人物のみが撮影されたカットを検索する処理と、
前記検索されたカットから音声を認識する処理と、
前記認識された音声と同じ人物の音声を変更する処理と、
をコンピュータに実行させることを特徴とする音声変更プログラム。
【請求項11】
請求項10記載の音声変更プログラムの処理を記録するコンピュータ読取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2011−150191(P2011−150191A)
【公開日】平成23年8月4日(2011.8.4)
【国際特許分類】
【出願番号】特願2010−12255(P2010−12255)
【出願日】平成22年1月22日(2010.1.22)
【出願人】(302069930)NECパーソナルプロダクツ株式会社 (738)
【Fターム(参考)】