説明

音声ファイル処理装置

【課題】 予め作成されている音声ファイルに対しても画像の関連付けを行なうことが出来る音声ファイル処理装置を提供する。
【解決手段】 本発明に係る音声ファイル処理装置10は、音声タイプ標本データテーブル8と録音状況標本データテーブル9とを有し、音声タイプ標本データテーブル8から、音声ファイルに含まれる音声データと最も一致度の高い音声タイプ標本データを特定すると共に、録音状況標本データテーブル9から、音声ファイルに含まれる音声データと最も一致度の高い録音状況標本データを特定し、特定された音声タイプ標本データに対応する要素画像を、特定された録音状況標本データによって表わされる録音状況に応じて合成することにより、1枚の標章画像を生成し、表示する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声再生機能と画像表示機能を有する装置に関し、より具体的には、一連の音声データを含む音声ファイルに1枚の標章画像を割り当てて、音声ファイルと標章画像を1対1に関連付けることにより、音声ファイルの判別を容易にする音声ファイル処理装置に関するものである。
【背景技術】
【0002】
一般に、多数の音声ファイルを蓄積する装置においては、各音声ファイルにファイル名が付与されており、ファイル名やファイル作成日時の入力によって特定の音声ファイルの読み出しを行なうことが出来る。
この様な音声ファイル蓄積装置においては、音声ファイルを選択する際の音声ファイルの判別を容易なものとするために、ディスプレイの画面に各音声ファイルの内容を視覚的に表わすアイコン(ラベル)を表示するものが知られており(特許文献1参照)、この様な音声ファイル蓄積装置においては、画面に表示されている複数のアイコンの中から特定のアイコンをクリックすれば、そのアイコンに関連付けられている音声ファイルが読み出されることになる。
【特許文献1】特開2000−305748号公報[G06F3/16]
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、上記従来の音声ファイル蓄積装置においては、音声の録音時にカメラによって画像が撮影され、録音によって作成された音声ファイルとカメラによって撮影された画像とが互いに関連付けられるに過ぎず、音声の録音時にカメラによって画像を撮影することが必須となる。
従って、予め作成されている音声ファイルに対して新たに画像を関連付けることが出来ない問題があった。
【0004】
そこで本発明の目的は、予め作成されている音声ファイルに対しても画像を関連付けて、音声ファイル読み出し時の判別を容易にすることが出来る、新規な音声ファイル処理装置を提供することである。
【課題を解決するための手段】
【0005】
本発明に係る音声ファイル処理装置は、一連の音声データを含む音声ファイルの入力に応じて、入力された音声ファイルに含まれる音声データに関連する画像を作成し、その画像を該音声ファイルに対応づけるものであって、
複数種類の音声についての標本データが予め格納されている標本データ格納手段と、
標本データ格納手段に格納されている複数の標本データのそれぞれについて、標本データによって表わされる音声の種類に関連した要素画像が予め格納されている画像格納手段と、
標本データテーブルに格納されている複数の標本データの内、入力された音声ファイルに含まれる音声データと最も一致度の高い1或いは複数の標本データを特定するデータ特定手段と、
特定された1或いは複数の標本データに対応する1或いは複数の要素画像を前記画像格納手段から読み出し、読み出した1或いは複数の要素画像に基づいて1枚の標章画像を生成し、該標章画像を入力された音声ファイルと関連付ける画像関連付け手段
とを具えている。
【0006】
上記本発明の音声ファイル処理装置においては、1つの音声ファイルが入力されると、先ず、該音声ファイルに含まれる画像データがフーリエ解析等によって解析される。そして、その解析結果に基づいて標本データテーブルが検索され、入力された音声ファイルに含まれる音声データと最も一致度の高い1或いは複数の標本データが特定される。ここで一致度は、例えば両データの相関係数を算出することによって導出することが出来る。
その後、特定された1或いは複数の標本データに対応する1或いは複数の要素画像が、前記画像格納手段から読み出され、読み出された1或いは複数の要素画像に基づいて1枚の標章画像が生成され、該標章画像が、入力された音声ファイルと1対1に関連付けられる。
【0007】
具体的には、前記標本データ格納手段には、音声の質に応じた音声タイプ毎に分類された複数の音声タイプ標本データを含む音声タイプ標本データテーブルと、音声が録音された状況毎に分類された複数の録音状況標本データを含む録音状況標本データテーブルとが格納されている。
そして、前記データ特定手段は、音声タイプ標本データテーブルから、入力された音声ファイルに含まれる音声データと最も一致度の高い1或いは複数の音声タイプ標本データを特定すると共に、入力された音声ファイルに含まれる音声データと最も一致度の高い1或いは複数の録音状況標本データを特定する。
又、前記画像関連付け手段は、前記特定された1或いは複数の音声タイプ標本データに対応する1或いは複数の要素画像を前記画像格納手段から読み出し、読み出した1或いは複数の要素画像を、前記特定された1或いは複数の録音状況標本データによって表わされる録音状況に応じて合成することにより、1枚の標章画像を生成する。
【0008】
該具体的構成によれば、データ特定手段によって、音声タイプ標本データテーブルから、入力された音声ファイルに含まれる音声データと最も一致度の高い1或いは複数の音声タイプ標本データが特定されると共に、録音状況標本データテーブルから、入力された音声ファイルに含まれる音声データと最も一致度の高い1或いは複数の録音状況標本データが特定される。ここで、音声タイプとしては、男性の声、女性の声、車の音、笛の音、犬の鳴き声、猫の鳴き声などが挙げられる。又、録音状況としては、会議、公園、図書館、雑踏、砂浜、船上などが挙げられる。
次に、画像関連付け手段によって、前記特定された1或いは複数の音声タイプ標本データに対応する1或いは複数の要素画像が前記画像格納手段から読み出され、読み出された1或いは複数の要素画像が、前記特定された1或いは複数の録音状況標本データによって表わされる録音状況に応じて合成される。例えば、画像格納手段には、男性を表わす要素画像、女性を表わす要素画像、犬を表わす要素画像などが格納されており、録音状況が会議であれば、男性を表わす1或いは複数の要素画像と女性を表わす1或いは複数の要素画像とを円陣に配列した1枚の標章画像が生成される。
【0009】
斯くして、入力された音声ファイルに含まれる音声データの特徴を表わす1枚の標章画像が生成され、該標章画像が、入力された音声ファイルに関連付けられる。
従って、上記標章画像を参照することにより、ユーザは、その音声ファイルに含まれる音声データが、どの様なタイプの音声で、どの様な状況で録音されたかを視覚的に認識することが出来、これによって容易に音声ファイルを判別することが出来る。
【発明の効果】
【0010】
本発明に係る音声ファイル処理装置によれば、予め作成されている音声ファイルに対しても標章画像を関連付けて、音声ファイル読み出し時の判別を容易にすることが出来る。
【発明を実施するための最良の形態】
【0011】
以下、本発明を音声ファイル蓄積システムに実施した形態につき、図面に沿って具体的に説明する。
本発明に係る音声ファイル蓄積システムは、図1に示す如く、音声再生機能と画像表示機能を有する音声ファイル処理装置(10)に対し、複数の音声ファイルを蓄積するためのハードディスク装置等の外部記憶装置(1)を接続して構成されている。
【0012】
音声ファイル処理装置(10)は、マイクロホン(4)と、マイクロホン(4)から得られる音声信号を音声データに変換するA/D変換回路(5)と、A/D変換回路(5)から得られる音声データに圧縮等の必要な処理を施して音声ファイルを作成する信号処理回路(6)と、各種のデータを格納するためのメモリ(3)と、所定のコンピュータプログラムを実行するCPU(2)と、CPU(2)によって作成された画像を表示する液晶ディスプレイ(7)とから構成されている。
【0013】
メモリ(3)には、図1に示す音声タイプ標本データテーブル(8)と録音状況標本データテーブル(9)とが予め格納されている。
音声タイプ標本データテーブル(8)には、音声の質に応じた音声タイプ(例えば、男性の声、女性の声、車の音、笛の音、犬の鳴き声、猫の鳴き声など)毎に分類された複数の音声タイプ標本データSAMPLE[0]〜SAMPLE[MAX]が含まれている。一方、録音状況標本データテーブル(9)には、音声が録音された状況(例えば、会議、公園、図書館、雑踏、砂浜、船上など)毎に分類された複数の録音状況標本データSAMPLE[0]〜SAMPLEs[MAX]が含まれている。
【0014】
又、メモリ(3)には、複数の音声タイプについて、各音声タイプに関連したアイコン(例えば、男性、女性、犬、猫など)の画像が格納されると共に、複数の録音状況について、各録音状況に応じたアイコン画像操作方法(画像合成手続き)が格納されている。
【0015】
図2及び図3は、前記外部記憶装置(1)に格納されている複数の音声ファイルを対象として各音声ファイルに標章画像を割り当てるための手続きを表わしている。
先ず図2のステップS1にて、1つの音声ファイルに含まれる解析対象の音声データを複数のデータブロックDATA[0]〜DATA[MAX]に時分割する。
【0016】
そして、ステップS2にてカウンター変数I及びJを0に設定した上、ステップS3では、DATA[I]にフーリエ解析を施す。
次に、ステップS4では、フーリエ解析の結果と音声タイプ標本データSAMPLE[J]とが一致している割合(一致度)を算出し、その結果を一致度変数BUF[J]に代入する。
【0017】
次にステップS5にて、カウンター変数Jをインクリメントして、ステップS6では、カウンター変数Jが所定の上限値MAXを越えたか否かを判断し、ノーと判断されたときはステップS4に戻って、ステップS4〜ステップS6を繰り返す。そして、ステップS6にてイエスと判断されたとき、ステップS7に移行する。
【0018】
ステップS7では、一致度変数BUF[0]〜BUF[MAX]の中で最も数値の高いものを選択し、それを最大一致度BUF[A]とする。
次にステップS8では、最大一致度BUF[A]が所定の閾値を越えているか否かを判断し、イエスと判断されたときはステップS9に移行し、ノーと判断されたときはステップS10に移行する。
【0019】
ステップS9では、最大一致度BUF[A]に対応する音声タイプ標本データの識別番号をデータブロックDATA[I]の解析結果として、解析結果データRESULT[I]に代入する。
ステップS10では、データブロックDATA[I]に対する標本データは存在しないと判断し、解析結果データRESULT[I]にNULLを代入する。
【0020】
その後、ステップS11では、カウンター変数Iをインクリメントして、ステップS12では、カウンター変数Iが上限値MAXを越えたか否かを判断し、ノーと判断されたときはステップS3に戻って、ステップS3〜ステップS12を繰り返す。
この結果、入力された1つの音声ファイルについての解析結果データRESULT[0]〜RESULT[MAX]が得られることになる。
【0021】
続いて、図3のステップS13にて、解析対象の音声データ全体に対してフーリエ解析を行なった後、ステップS14にてカウンター変数Iを0に設定する。
そして、ステップS15では、フーリエ解析の結果と録音状況標本データSAMPLE[I]とが一致している割合(一致度)を算出し、その結果を一致度変数BUF[I]に代入する。
【0022】
次にステップS16にて、カウンター変数Iをインクリメントして、ステップS17では、カウンター変数Iが所定の上限値MAXを越えたか否かを判断し、ノーと判断されたときはステップS15に戻って、ステップS15〜ステップS17を繰り返す。そして、ステップS17にてイエスと判断されたとき、ステップS18に移行する。
【0023】
ステップS18では、一致度変数BUF[0]〜BUF[MAX]の中で最も数値の高いものを選択し、それを最大一致度BUF[B]とする。
次にステップS19では、最大一致度BUF[B]に対応する録音状況標本データの識別番号を状況の解析結果として、解析結果データRESULTに代入する。
【0024】
その後、ステップS20では、解析結果データRESULTの識別番号に対応する複数のアイコンデータをアイコン格納部ICONに代入する。
続いて、ステップS21では、アイコン格納部ICONのデータを解析結果データRESULTの識別番号に対応する画像操作方法に従って、標章画像の生成を行ない、生成された標章画像ファイルを元の音声ファイルの音声データに関連付ける。
【0025】
そして、最後にステップS22にて、音声ファイルの一覧表示等の画面にて、音声ファイルのファイル名の替わりに、前記関連付けされた標章画像ファイルを表示させ、手続きを終了する。
【0026】
上記本発明の音声ファイル蓄積システムによれば、例えば図4に示す如く男性と女性が参加する会議で録音された音声データのファイルについては、音声タイプ標本データテーブル(8)から、音声ファイルに含まれる音声データと最も一致度の高い音声タイプ標本データとして、男性の声の標本データと女性の声の標本データが特定されると共に、録音状況標本データテーブル(9)から、音声ファイルに含まれる音声データと最も一致度の高い録音状況標本データとして、会議の標本データが特定される。
【0027】
そして、前記特定された男性の声の標本データと女性の声の標本データに対応する男性のアイコン(11)と女性のアイコン(12)の画像ファイルが前記メモリ(3)から読み出され、読み出された2つの画像ファイルが、前記特定された録音状況標本データによって表わされる会議の録音状況に応じた画像操作方法に従って合成され、例えば男性のアイコン(11)と女性のアイコン(12)が円陣に配置された1枚の標章画像(13)が生成されることになる。
【0028】
又、図5に示す如く、森の中に犬と猫が居る状況で録音された音声データのファイルについては、犬のアイコン(14)と猫のアイコン(15)の画像ファイルが前記メモリ(3)から読み出され、読み出された2つの画像ファイルが、森の中の録音状況に応じた画像操作方法に従って合成され、例えば犬のアイコン(14)と猫のアイコン(15)と共に木のアイコン(17)が配置された1枚の標章画像(16)が生成されることになる。
【0029】
又、図6に示す如く、親子で花火を観ている状況で録音された音声データのファイルについては、男性のアイコン(11)と、女性のアイコン(12)と、子供のアイコン(18)とが、花火のイラストを背景として合成され、1枚の標章画像(19)が生成されることになる。
【0030】
これらの標章画像は、音声ファイルの一覧表示の画面に音声ファイル毎に表示されるので、ユーザは、その標章画像に基づいて各音声ファイルの内容を概ね正確に把握することが出来る。例えば図9に示す標章画像(19)によれば、親子で花火を観ている状況で録音された音声ファイルであると、推測することが出来る。
そこで、ユーザが複数の標章画像の中から目的の音声ファイルであると思われる1つの標章画像を選択すると、その標章画像と関連付けられている音声ファイルが読み出され、音声が再生されることになる。
【0031】
上述の如く、本発明の音声ファイル蓄積システムによれば、予め作成されている音声ファイルに対しても、その音声ファイルに含まれる音声データを表わす標章画像が自動的に生成されて、音声ファイルに関連付けられるので、カメラを有しない画像蓄積装置においても、標章画像の表示に基づく音声ファイルの読み出しを実現することが出来る。
【0032】
又、上記の音声ファイル蓄積システムでは、音声タイプと録音状況の判別によって標章画像を生成しているので、音声タイプの判別のみによって標章画像を生成する場合に比べて、音声ファイルの内容をより詳しく認識することが出来、これによって精度の高い画像ファイルの選択が可能である。
【0033】
尚、本発明の各部構成は上記実施の形態に限らず、特許請求の範囲に記載の技術的範囲内で種々の変形が可能である。例えば、図1の如く録音機能と再生機能を有する音声ファイル処理装置(10)では、録音の直後と音声データの再生時の何れにおいても、標章画像の生成及び関連付けの処理を行なうことが可能である。これに対し、再生機能のみを有する音声ファイル処理装置(10)では、音声データの再生時に標章画像の生成及び関連付けの処理を行なう。
又、入力された音声ファイルに含まれる音声データと標本データとの一致度は、両データの相関係数を算出する方法や両データの周波数特性を比較する方法等、周知の種々の方法を用いて導出することが可能である。
【図面の簡単な説明】
【0034】
【図1】本発明に係る音声ファイル蓄積システムの構成を示すブロック図である。
【図2】本発明の音声ファイル処理装置による標章画像の生成及び関連付けの具体的手続きの前半を示すフローチャートである。
【図3】同上手続きの後半を示すフローチャートである。
【図4】標章画像の生成例を示す図である。
【図5】他の標章画像の生成例を示す図である。
【図6】更に他の標章画像の生成例を示す図である。
【符号の説明】
【0035】
(1) 外部記憶装置
(10) 音声ファイル処理装置
(2) CPU
(3) メモリ
(8) 音声タイプ標本データテーブル
(9) 録音状況標本データテーブル
(11) アイコン
(12) アイコン
(13) 標章画像
(14) アイコン
(15) アイコン
(16) 標章画像
(18) アイコン
(19) 標章画像

【特許請求の範囲】
【請求項1】
一連の音声データを含む音声ファイルの入力に応じて、入力された音声ファイルに含まれる音声データに関連する画像を作成し、その画像を該音声ファイルに対応づける音声ファイル処理装置であって、
複数種類の音声についての標本データが予め格納されている標本データ格納手段と、
標本データ格納手段に格納されている複数の標本データのそれぞれについて、標本データによって表わされる音声の種類に関連した要素画像が予め格納されている画像格納手段と、
標本データテーブルに格納されている複数の標本データの内、入力された音声ファイルに含まれる音声データと最も一致度の高い1或いは複数の標本データを特定するデータ特定手段と、
特定された1或いは複数の標本データに対応する1或いは複数の要素画像を前記画像格納手段から読み出し、読み出した1或いは複数の要素画像に基づいて1枚の標章画像を生成し、該標章画像を入力された音声ファイルと関連付ける画像関連付け手段
とを具えていることを特徴とする音声ファイル処理装置。
【請求項2】
前記データ特定手段は、入力された音声ファイルに含まれる画像データを解析するデータ解析手段を有している請求項1に記載の音声ファイル処理装置。
【請求項3】
前記標本データ格納手段には、音声の質に応じた音声タイプ毎に分類された複数の音声タイプ標本データを含む音声タイプ標本データテーブルと、音声が録音された状況毎に分類された複数の録音状況標本データを含む録音状況標本データテーブルとが格納され、
前記データ特定手段は、音声タイプ標本データテーブルから、入力された音声ファイルに含まれる音声データと最も一致度の高い1或いは複数の音声タイプ標本データを特定すると共に、入力された音声ファイルに含まれる音声データと最も一致度の高い1或いは複数の録音状況標本データを特定し、
前記画像関連付け手段は、前記特定された1或いは複数の音声タイプ標本データに対応する1或いは複数の要素画像を前記画像格納手段から読み出し、読み出した1或いは複数の要素画像を、前記特定された1或いは複数の録音状況標本データによって表わされる録音状況に応じて合成することにより、1枚の標章画像を生成する請求項1又は請求項2に記載の音声ファイル処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2006−285653(P2006−285653A)
【公開日】平成18年10月19日(2006.10.19)
【国際特許分類】
【出願番号】特願2005−104951(P2005−104951)
【出願日】平成17年3月31日(2005.3.31)
【出願人】(000001889)三洋電機株式会社 (18,308)
【Fターム(参考)】