説明

録音装置、録音装置の制御方法、および、プログラム

【課題】特定の話者の音声データが存在する区間における音データを記憶する。
【解決手段】本発明の録音装置は、周囲の音を集音し、音データとして出力する取得部と、前記取得部から出力された音データに音声データが含まれているか否かを判定し、前記音声データが含まれている場合には、声紋に応じて音声データを分類するとともに、分類した各音声データを示す分類情報を出力する話者解析部と、前記分類情報をユーザに通知する通知部と、前記分類情報の通知に基づく音声データの指定を受け取る入力部と、前記取得した音データから、前記指定された音声データが存在する区間における音データを抽出する録音制御部と、を有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、録音装置、録音装置の制御方法、および、プログラムに関する。
【背景技術】
【0002】
マイクを用いて周囲の音を集音し、音データとして記憶する録音機能を備えた録音装置が、会議、打合せなどの内容を記録するために用いられることがある。なお、近年のマイクの性能向上、小型化に伴い、ICレコーダに代表される専用の録音装置だけでなく、携帯電話、スマートフォンなども録音装置として用いられるようになっている。
【0003】
会議中の全区間における音データを録音装置に記憶させると、その音データには、特定の話者以外の話者が話している区間、あるいは、だれも話していない区間などにおける音データも含まれる。
【0004】
会議などの内容を記録する際には、特定の話者の音声データが存在する区間における音データだけを抽出して記録しておきたい場合がある。特定の話者の音声データが存在する区間における音データだけを記録する方法としては、ユーザが、その特定の話者の発話状況に合わせて録音装置を用いた録音の実行と録音の停止とを繰り返す方法、会議中の全区間における音データを取得した後、その音データを編集して、特定の話者の音声データが存在する区間以外の区間における音データを削除する方法などがある。しかし、上述したいずれの方法であっても、手間がかかるという問題がある。
【0005】
そこで、特許文献1(特開2006−208482号公報)には、会議中の話者の音声データの声紋分析を行って話者を識別し、識別した各話者の発話区間などの発話状況を記憶する技術が開示されている。この技術によれば、特定の話者の音声データが存在する区間が容易に分かるので、音データの編集の手間を、ある程度、削減することができる。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2006−208482号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、特許文献1に開示の技術によっても、特定の話者の音声データが存在する区間以外の区間における音データの削除などの編集自体はユーザが行う必要があり、手間がかかるという課題がある。
【0008】
本発明の目的は、上述した課題を解決し、特定の話者の音声データが存在する区間における音データを抽出するための手間を削減することができる録音装置、録音装置の制御方法、および、プログラムを提供することにある。
【課題を解決するための手段】
【0009】
上記目的を達成するために本発明の録音装置は、
周囲の音を集音し、音データとして出力する取得部と、
前記取得部より出力された前記音データに音声データが含まれているか否かを判定し、前記音声データが含まれている場合には、声紋に応じて音声データを分類するとともに、分類した各音声データを示す分類情報を出力する話者解析部と、
前記話者解析部より出力された分類情報をユーザに通知する通知部と、
前記分類情報に基づく音声データの指定を受け取る入力部と、
前記取得部より出力された音データから、前記指定された音声データが存在する区間における音データを抽出する録音制御部と、を有する。
【0010】
上記目的を達成するために本発明の録音装置の制御方法は、
録音装置の制御方法であって、
周囲の音を集音した音データを取得し、
前記取得した音データに音声データが含まれているか否かを判定し、前記音声データが含まれている場合には、声紋に応じて音声データを分類するとともに、分類した各音声データを示す分類情報を出力し、
前記分類情報をユーザに通知し、
前記分類情報に基づく音声データの指定を受け取り、
前記取得した音データから、前記指定された音声データが存在する区間における音データを抽出する。
【0011】
上記目的を達成するために本発明のプログラムは、
録音装置に、
周囲の音を集音した音データを取得する処理と、
前記取得した音データに音声データが含まれているか否かを判定し、前記音声データが含まれている場合には、声紋に応じて音声データを分類するとともに、分類した各音声データを示す分類情報を出力する処理と、
前記分類情報をユーザに通知する処理と、
前記分類情報の入力に応じて入力される、音声データの指定の入力を受け取り、
前記取得した音データから、前記指定された音声データが存在する区間における音データを抽出する処理と、を実行させる。
【発明の効果】
【0012】
本発明によれば、特定の話者の音声データが存在する区間における音データを抽出するための手間を削減することができる。
【図面の簡単な説明】
【0013】
【図1】本発明の第1の実施形態の録音装置の構成を示すブロック図である。
【図2】図1に示す録音装置の録音時の動作を示すフローチャートである。
【図3】図1に示す録音装置の再生時の動作を示すフローチャートである。
【図4】本発明の第2の実施形態の録音装置の構成を示すブロック図である。
【発明を実施するための形態】
【0014】
以下に、本発明を実施するための形態について図面を参照して説明する。
【0015】
(第1の実施形態)
図1は、本発明の第1の実施形態の録音装置10の構成を示すブロック図である。
【0016】
図1に示す録音装置10は、入力部11と、通知部12と、録音部13と、再生部14と、を有する。
【0017】
録音部13は、マイク101と、ADC(Analog to Digital Converter)102と、受信メモリ103と、話者解析部104と、録音制御部105と、エンコード部106と、保存メモリ107と、からなる。
【0018】
再生部14は、保存メモリ107と、再生制御部108と、デコード部109と、DAC(Digital to Analog Converter)110と、スピーカー111と、からなる。
【0019】
なお、マイク101は、取得部の一例であり、保存メモリ107は、記憶部の一例であり、スピーカー111は、出力部の一例である。
【0020】
入力部11は、操作入力が行われ、入力された操作に応じた制御信号を録音部13の録音制御部105と再生部14の再生制御部108とに出力する。なお、入力部11の具体例としては、キーボタン、タッチパネルなどがある。
【0021】
通知部12は、種々の情報をユーザに通知する。なお、通知部12の具体例としては、種々の情報に応じた映像を表示するディスプレイなどがある。
【0022】
録音部13は、周囲の音を集音し、音データとして記憶する録音機能を有する。
【0023】
マイク101は、周囲の音を集音し、アナログ形式の音データをADC102に出力する。
【0024】
ADC102は、マイク101から出力された音データをデジタル形式の音データにAD変換し、受信メモリ103に出力する。
【0025】
受信メモリ103は、ADC102から出力された音データを一時的に記憶し、話者解析部104および録音制御部105に出力する。
【0026】
話者解析部104は、受信メモリ103から出力された音データの周波数分析を行い、その音データに人の音声データが含まれているか否かを判定する。音声データが含まれている場合には、話者解析部104は、音声データの声紋の解析を行い、声紋に応じて音声データを分類し、分類した各音声データを示す分類情報を録音制御部105に出力する。また、話者解析部104は、音データに音声データが含まれていない場合には、その旨を録音制御部105に通知する。
【0027】
録音制御部105は、録音を行う旨が入力部11を介して入力されると、マイク101に周囲の音を集音させる。
【0028】
また、録音制御部105は、通知部12に話者解析部104から出力された分類情報をユーザに通知させる。通知された分類情報に基づき、音データに含まれる音声データのうち、特定の音声データを指定する旨が入力部11を介して入力されると、録音制御部105は、受信メモリ103より出力された音データから、指定された音声データが存在する区間における音データを抽出する。また、録音制御部105は、録音を開始後、録音を停止するまでの全区間の時間を計測し、指定された音声データが存在する区間における音データに、録音を行った全区間におけるその区間の位置を示すマーキング情報を付与し、その音データとマーキング情報とをエンコード部106に出力する。なお、マーキング情報には、例えば、録音を開始してから音データを抽出した区間の開始時間、音データを抽出した区間の順番を示すフレーム番号などが含まれる。ここで、音データを抽出した区間の開始時間は、例えば、録音を行った全区間におけるその区間が占める位置から特定することができる。また、フレーム番号は、マイク101が取得した音データの最初から、指定された音声データが存在する区間における音データを抽出した順に付される。
【0029】
また、録音制御部105は、音データに音声データが含まれていない旨が話者解析部104から通知された場合には、マーキング情報の付与は行わず、受信メモリ103から出力された音データをそのままエンコード部106に出力する。
【0030】
エンコード部106は、録音制御部105から出力された音データにAMR(Adaptive Multi-Rate)、MP3(MPEG Audio Layer-3)、AAC(Advanced Audio Coding)などの方式を用いてエンコード処理を施し、エンコード後の音データとその音データに付与されたマーキング情報とを保存メモリ107に出力する。なお、保存メモリ107のサイズが十分に確保されている場合には、エンコード部106を設けず、録音制御部105から出力された音データを非圧縮のまま、保存メモリ107に入力するようにしてもよい。
【0031】
保存メモリ107は、エンコード部106から出力された音データとその音データに付与されたマーキング情報とを対応させて記憶する。
【0032】
なお、一般的に、声紋の解析には複雑な計算を行うため時間を要する。そのため、通常は、録音を開始後、録音を停止する旨が入力されるまでの全区間における音データを受信メモリ103にて一旦記憶した後に、声紋の解析、エンコード処理などを行うことが考えられる。しかし、声紋の解析がリアルタイムで処理可能な方式であれば、音データの取得に応じて、逐次、声紋の解析、エンコード処理などを行うようにしてもよい。
【0033】
再生部14は、保存メモリ107に記憶されている音データに応じた音を録音装置10の外部に出力する再生機能を有する。
【0034】
再生制御部108は、保存メモリ107に記憶されている音データの再生を行う旨が入力部11を介して入力されると、その音データに対応してマーキング情報が保存メモリ107に記憶されている場合には、通知部12にそのマーキング情報をユーザに通知させる。通知されたマーキング情報に基づき、音データの再生を開始する位置を指定する旨が入力されると、再生制御部108は、その指定された位置から順に、音データを保存メモリ107から取得して、デコード部109に出力する。
【0035】
なお、生成制御部108は、音データに対応してマーキング情報が保存メモリ107に記憶されていない場合、また、音データの再生を開始する位置を指定する旨が入力されたなった場合には、デコード部109への音データの出力を行っていなければ、保存メモリ107に記憶されている音データを最初から順にデコード部109に出力し、既に音データをデコード部109に出力済みであれば、直近に出力した音データに続く音データをデコード部109に出力する。
【0036】
デコード部109は、再生制御部108から出力された音データに、エンコード部106が施したエンコード処理に応じたデコード処理を施し、デコード後の音データをDAC110に出力する。なお、保存メモリ107に非圧縮の音データが記憶されている場合には、デコード部109は設けられず、再生制御部108から出力された音データはDAC110に入力される。
【0037】
DAC110は、デコード部109から出力された音データをアナログ形式の音データにDA変換し、スピーカー111に出力する。
【0038】
スピーカー111は、DAC110から出力された音データに応じた音を出力する。
【0039】
次に、本実施形態の録音装置10の動作について説明する。
【0040】
まず、録音装置10の録音時の動作について、図2に示すフローチャートを参照して説明する。
【0041】
録音を行う旨が入力部11を介して入力されると、録音制御部105は、マイク101に音データの取得を開始させる(ステップS201)。
【0042】
ADC102は、マイク101が取得した音データにAD変換を施して出力し、受信メモリ103は、ADC102から出力された音データを格納する(ステップS202)。
【0043】
受信メモリ103に格納された音データは、話者解析部104と録音制御部105とに出力される。
【0044】
話者解析部104は、受信メモリ103から出力された音データの周波数分析を行い、その音データに音声データが含まれているか否かを判定する(ステップS203)。
【0045】
音データに音声データが含まれている場合には(ステップS203:Yes)、話者解析部104は、音声データの声紋の解析を行い、声紋に応じて音声データを分類し、分類した各音声データを示す分類情報を録音制御部105に出力する。
【0046】
録音制御部105は、話者解析部104から出力された分類情報をユーザに通知し(ステップS204)、特定の音声データを指定する旨の入力を受け付ける(ステップS205)。
【0047】
音声データを指定する旨が入力部11を介して入力されると(ステップS205:Yes)、録音制御部105は、受信メモリ103から出力された音データから、指定された音声データが存在する区間における音データを抽出し(ステップS206)、抽出した音データにマーキング情報を付与して(ステップS207)、エンコード部106に出力する。
【0048】
エンコード部106は、録音制御部105から出力された音データにエンコード処理を施し(ステップS208)、エンコード後の音データとその音データに付与されたマーキング情報とを保存メモリ107に出力し、保存メモリ107は、その音データとマーキング情報とを対応させて記憶する(ステップS209)。
【0049】
音データに音声データが含まれていない場合には(ステップS203:No)、話者解析部104は、音データに音声データが含まれていない旨を録音制御部105に通知する。
【0050】
音データに音声データが含まれていない旨が話者解析部104から通知された場合、および、音声データを指定する旨が入力部11を介して入力されなかった場合には(ステップS205:No)、録音制御部105は、受信メモリ103から出力された音データをそのままエンコード部106に出力する。録音制御部105から出力されたデータは、ステップS208およびステップS209の処理を経て、保存メモリ107に格納される。
【0051】
なお、音データに音声データが含まれていない旨が通知された場合、および、音声データを指定する旨が入力されなかった場合には、音データへのマーキング情報の付与は行われないので、ステップS208においては、マーキング情報の保存メモリ107への出力は行われず、また、ステップS209においては、マーキング情報の保存メモリ107への記憶は行われない。
【0052】
次に、録音装置10の再生時の動作について、図3に示すフローチャートを参照して説明する。なお、図3においては、音データとその音データに対応するマーキング情報とが保存メモリ107に記憶されているものとする。
【0053】
保存メモリ107に記憶されている音データの再生を行う旨が入力部11を介して入力されると、再生制御部108は、通知部12にその音データに対応して記憶されているマーキング情報をユーザに通知させ(ステップS301)、再生を開始する位置の指定を受け付ける(ステップS302)。
【0054】
再生の開始位置を指定する旨が入力部11を介して入力された場合には(ステップS302:Yes)、再生制御部108は、指定された位置から順に、音データを保存メモリ107から取得し、デコード部109に出力する(ステップS303)。
【0055】
再生の開始位置を指定する旨が入力部11を介して入力されなかった場合には(ステップS302:No)、再生制御部108は、デコード部109への音データの出力を行っていなければ、保存メモリ107に記憶されている音データを最初から順にデコード部109に出力し、既に音データをデコード部109に出力済みであれば、直近に出力した音データに続く音データをデコード部109に出力する(ステップS304)。
【0056】
デコード部109は、再生制御部108から出力された音データにデコード処理を施し(ステップS305)、スピーカー111は、そのデコード後の音データに応じた音を出力する(ステップS306)。
【0057】
次に、再生制御部108は、デコード部109に出力した音データが保存メモリ107に記憶されている音データの終端に相当するか否かを判定する(ステップS307)。
【0058】
出力した音データが保存メモリ107に記憶されている音データの終端に相当する場合には(ステップS307:Yes)、再生制御部108は、処理を終了する。
【0059】
出力した音データが保存メモリ107に記憶されている音データの終端に相当しない場合には(ステップS307:No)、再生制御部108は、ステップS302の処理に戻る。
【0060】
このように、本実施形態によれば、録音装置10は、音データに含まれる音声データを声紋に応じて分類し、音声データを指定する旨が入力されると、指定された音声データが存在する区間における音データを抽出し、記憶する。
【0061】
そのため、ユーザが音声データの指定を行うだけで、その音声データの声紋と声紋が同じ音声データが存在する区間の音データだけをまとめて記録することができる。
【0062】
また、本実施形態によれば、録音装置10は、録音時に、指定された音声データが存在する区間における音データと録音が行われた全区間におけるその区間の位置を示すマーキング情報とを対応させて記憶し、再生時に、そのマーキング情報に応じて、再生を開始する位置が指定されると、その指定された位置から再生を開始する。
【0063】
そのため、容易にユーザが所望する位置から音データの再生を開始することができる。
【0064】
なお、本実施形態においては、録音装置10が、録音部13および再生部14を有する場合を例として説明したが、これに限られるものではない。例えば、録音装置10が録音部13を有し、他の装置が再生部14を有し、録音装置10の録音部13が抽出した音データを、外部記憶媒体などを介して他の装置に移動させ、他の装置において、再生部14を用いてその音データを再生するようにしてもよい。
【0065】
(第2の実施形態)
図4は、本発明の第2の実施形態の録音装置の構成を示すブロック図である。
【0066】
図4に示す録音装置20は、入力部21と、通知部22と、取得部23と、話者解析部24と、録音制御部25と、を有する。
【0067】
入力部21は、操作入力が行われ、入力された操作に応じた制御信号を録音制御部25に出力する。
【0068】
通知部22は、種々の情報をユーザに通知する。なお、通知部22の具体例としては、映像を表示するディスプレイなどがある。
【0069】
取得部23は、周囲の音を集音し、音データとして話者解析部24と録音制御部25とに出力する。
【0070】
話者解析部24は、取得部23から出力された音データに音声データが含まれているか否かを判定し、音声データが含まれている場合には、声紋に応じて音声データを分類し、分類した各音声データを示す分類情報を録音制御部25に出力する。
【0071】
録音制御部25は、通知部22に話者解析部24から出力された分類情報をユーザに通知させる。通知された分類情報に基づき、特定の音声データを指定する旨が入力部21を介して入力されると、録音制御部25は、取得部23より入力された音データから、指定された音声データが存在する区間における音データを抽出して、録音装置20の外部に出力する。
【0072】
このように本実施形態によれば、録音装置20は、音データに含まれる音声データを声紋に応じて分類し、音声データが指定されると、その音データに中から指定された音声データが存在する区間における音データを抽出し、記憶する。
【0073】
そのため、ユーザが音声データの指定を行うだけで、特定の話者の音声データが存在する区間の音データだけをまとめて記録することができる。
【符号の説明】
【0074】
10,20 録音装置
11,21 入力部
12,22 通知部
13 録音部
14 再生部
101 マイク
102 ADC
103 受信メモリ
104,24 話者解析部
105,25 録音制御部
106 エンコード部
107 保存メモリ
108 再生制御部
109 デコード部
110 DAC
111 スピーカー
23 取得部

【特許請求の範囲】
【請求項1】
周囲の音を集音し、音データとして出力する取得部と、
前記取得部より出力された前記音データに音声データが含まれているか否かを判定し、前記音声データが含まれている場合には、声紋に応じて音声データを分類するとともに、分類した各音声データを示す分類情報を出力する話者解析部と、
前記話者解析部より出力された分類情報をユーザに通知する通知部と、
前記分類情報に基づく音声データの指定を受け取る入力部と、
前記取得部より出力された音データから、前記指定された音声データが存在する区間における音データを抽出する録音制御部と、を有することを特徴とする録音装置。
【請求項2】
請求項1記載の録音装置において、
前記録音制御部が抽出した音データを記憶する記憶部をさらに有することを特徴とする録音装置。
【請求項3】
請求項1または2記載の録音装置において、
前記録音制御部は、前記取得部が前記音データを取得した全区間の時間を計測し、前記指定された音声データが存在する区間における音データと、前記取得部が前記音データを取得した全区間における前記指定された音声データが存在する区間の位置を示すマーキング情報と、を対応させて前記記憶部に記憶させることを特徴とする録音装置。
【請求項4】
請求項3記載の録音装置において、
前記通知部は、前記音データに対応して前記記憶部に記憶されているマーキング情報をユーザに通知し、
前記入力部は、前記マーキング情報に基づく、前記記憶部に記憶されている音データの再生を開始する位置の指定を受け取り、
前記指定された位置から順に音データを前記記憶部から取得して出力する再生制御部と、
前記再生制御部から出力された音データに応じた音を出力する出力部と、を有することを特徴とする録音装置。
【請求項5】
録音装置の制御方法であって、
周囲の音を集音した音データを取得し、
前記取得した音データに音声データが含まれているか否かを判定し、前記音声データが含まれている場合には、声紋に応じて音声データを分類するとともに、分類した各音声データを示す分類情報を出力し、
前記分類情報をユーザに通知し、
前記分類情報に基づく音声データの指定を受け取り、
前記取得した音データから、前記指定された音声データが存在する区間における音データを抽出することを特徴とする録音装置の制御方法。
【請求項6】
請求項5記載の録音装置の制御方法において、
前記抽出した音データを記憶することを特徴とする録音装置の制御方法。
【請求項7】
請求項5または6記載の録音装置の制御方法において、
前記音データを取得した全区間の時間を計測し、前記指定された音声データが存在する区間における音データと、前記取得部が前記音データを取得した全区間における前記指定された音声データが存在する区間の位置を示すマーキング情報と、を対応させて記憶することを特徴とする録音装置の制御方法。
【請求項8】
請求項7記載の録音装置の制御方法において、
前記音データに対応して記憶しているマーキング情報をユーザに通知し、
前記マーキング情報に基づく、前記記憶している音データの再生を開始する位置の指定を受け取り、前記指定された位置から順に音データを出力し、
前記出力した音データに応じた音を出力することを特徴とする録音装置の制御方法。
【請求項9】
録音装置に、
周囲の音を集音した音データを取得する処理と、
前記取得した音データに音声データが含まれているか否かを判定し、前記音声データが含まれている場合には、声紋に応じて音声データを分類するとともに、分類した各音声データを示す分類情報を出力する処理と、
前記分類情報をユーザに通知する処理と、
前記分類情報の入力に応じて入力される、音声データの指定の入力を受け取り、
前記取得した音データから、前記指定された音声データが存在する区間における音データを抽出する処理と、を実行させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2012−215773(P2012−215773A)
【公開日】平成24年11月8日(2012.11.8)
【国際特許分類】
【出願番号】特願2011−81875(P2011−81875)
【出願日】平成23年4月1日(2011.4.1)
【出願人】(310006855)NECカシオモバイルコミュニケーションズ株式会社 (1,081)
【Fターム(参考)】