説明

音声情報付与方法、音声情報付与装置及びコンピュータプログラム

【課題】アダプタもしくはサーバで画像情報に音声情報を付与する場合、アダプタのマイク等から入力した音声信号をアダプタもしくはサーバで音声認識し、音声信号に含まれる言葉のみでなく、個人を識別する情報等も抽出するようにする。
【解決手段】画像撮影装置に保存された画像情報を取得する(ステップS4001)。次に画像情報に音声情報を付与するために、音声情報のもととなる音声信号をアダプタもしくは画像撮影装置のマイクから入力する(ステップS4003)。次に、入力した音声信号をアダプタで音声認識及び話者照合する(ステップS4004)。次に認識した情報を音声情報に変換する(ステップS4005)。次にステップS4005で作成された音声情報を取得した画像情報に付与・リンクして、音声情報付き画像情報を作成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像情報に音声信号を音声認識・話者照合したことで抽出された音声情報を付与する画像情報への音声情報付与方法等に関するものである。
【背景技術】
【0002】
画像撮影装置で撮影して、画像撮影装置、アダプタ、又はサーバに保存した画像情報に、画像撮影装置に接続したアダプタを用いて、アダプタのマイク等から入力した音声信号を音声認識し、抽出した情報(音声情報)を付与することができる。画像情報に付与される音声情報はユーザが入力した音声信号を音声認識し、音声信号に含まれている言葉を抽出したものである。
【0003】
また、あらかじめサーバに保存した画像情報に、端末装置からネットワークを介して、サーバにアクセスし、端末装置のマイク等から入力した音声信号を音声認識し、認識した音声情報を付与することができる。
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、上記のアダプタもしくはサーバは、画像情報に音声情報を付与する場合、アダプタのマイク等から入力した音声信号に含まれる言葉のみを音声認識により抽出し、音声情報として画像情報に付与する。そのため、アダプタのマイク等から入力した音声情報に含まれていた多くの情報が音声認識により、音声信号から音声情報に変換されたことで欠落する。欠落する情報とは、個人を識別する情報や性別を識別する情報や喜怒哀楽を識別する情報等である。
【0005】
本発明は係る実情に鑑みて、アダプタのマイク等から入力した音声信号から、個人を識別する情報や性別を識別する情報や喜怒哀楽を識別する情報等も抽出することができるようにする。
【課題を解決するための手段】
【0006】
本発明の音声情報付与方法は、画像撮影装置と、前記画像撮影装置に接続されており、前記画像撮影装置に保存された画像情報に音声情報の付与を行うアダプタと、前記アダプタによって通信端末およびネットワークを介して音声情報付き画像情報が保存されるサーバと、前記サーバに保存されている音声情報付き画像情報に含まれている音声情報をネットワークを介して修正及び追加する端末装置とで構成される画像情報への音声情報付与システムにおける音声情報付与方法であって、画像情報に、音声認識及び話者照合の少なくとも何れかを行うことで音声信号から抽出した音声情報を付与するステップを有することを特徴とする。
また、本発明のコンピュータプログラムは、画像撮影装置と、前記画像撮影装置に接続されており、前記画像撮影装置に保存された画像情報に音声情報の付与を行うアダプタと、前記アダプタによって通信端末およびネットワークを介して音声情報付き画像情報が保存されるサーバと、前記サーバに保存されている音声情報付き画像情報に含まれている音声情報をネットワークを介して修正及び追加する端末装置とで構成される画像情報への音声情報付与システムにおける音声情報付与方法をコンピュータに実行させるためのコンピュータプログラムであって、画像情報に、音声認識及び話者照合の少なくとも何れかを行うことで音声信号から抽出した音声情報を付与するステップをコンピュータに実行させることを特徴とする。
また、本発明の音声情報付与装置は、画像撮影装置と、前記画像撮影装置に接続されており、前記画像撮影装置に保存された画像情報に音声情報の付与を行うアダプタと、前記アダプタによって通信端末およびネットワークを介して音声情報付き画像情報が保存されるサーバと、前記サーバに保存されている音声情報付き画像情報に含まれている音声情報をネットワークを介して修正及び追加する端末装置とで構成される画像情報への音声情報付与装置であって、画像情報に、音声認識及び話者照合の少なくとも何れかを行うことで音声信号から抽出した音声情報を付与する手段を有することを特徴とする。
【発明の効果】
【0007】
本発明によれば、アダプタもしくはサーバで画像情報に音声情報を付与する場合、アダプタのマイク等から入力した音声信号をアダプタもしくはサーバで音声認識し、音声信号に含まれる言葉のみでなく、個人を識別する情報等も抽出することができる。これの他にも、性別を識別する情報や喜怒哀楽を識別する情報等も抽出することができる。
また、アダプタもしくはサーバは入力された音声信号から音声認識・話者照合によって抽出された音声情報をアダプタもしくはサーバにあらかじめ保存されている、特定の画像情報に付与することができる。
また、サーバに音声情報付き画像情報を保存するとき、音声情報付き画像情報に含まれている音声情報に基づいて、保存する記憶媒体の領域を決定することができる。
【発明を実施するための最良の形態】
【0008】
以下、本発明の実施の形態を、図面を参照して説明する。
(第1の実施の形態)
図1は、本発明の第1の実施形態を示すシステム構成図である。該システム(音声情報付与システム)において、101はデジタルカメラ等の画像撮影装置である。102は画像情報に音声情報の付与を行うアダプタである。103はネットワーク104とアダプタ102とをつなぐ携帯電話等の通信端末である。105は音声情報付き画像情報の保存、画像情報(音声情報付き画像情報)に音声情報の付与を行うサーバであり、通信端末103とネットワーク104を介して接続されている。
【0009】
<アダプタの説明>
次に、本発明の実施形態に係るアダプタ102について詳しく説明する。図2はアダプタ102の電気的構成を示すブロック図である。本実施形態におけるアダプタ102は、通信端末103にインターフェース2101を介して接続し、インターフェース2101は内部バス2110に接続する。
【0010】
インターフェース2101は異なる通信端末を接続する際に電気特性の相違を吸収して内部バス2110に接続する。
【0011】
画像撮影装置101は画像撮影装置インターフェース2104を介してアダプタ102の内部バス2110に接続する。本実施形態ではアダプタ102と画像撮影装置101はUSBで接続される。画像撮影装置インターフェース2104のUSBのネゴシエーションにより画像撮影装置101からアダプタ102は、画像撮影装置IDを取得できる。
【0012】
内部バス2110には、全体動作を制御するマイコン2102と、内部の動作プログラムを記憶するとともに設定内容を記憶するROM2105、プログラム実行領域及び送受信データの一時記憶をするRAM2106が接続される。さらに、内部バス2110には、マイク2116を通して入力された音声信号をデジタルデータに変換する音声I/F2108、ユーザからの操作や、ユーザへの表示を行うユーザインターフェースであるU/I2103が接続される。
【0013】
U/I2103には、ユーザにアダプタ102の状態を通知する表示装置2115が備えられている。ROM2105は書き換えが可能なROMであり、ソフトウェアの追加変更が可能である。
【0014】
通信端末103に用意されている外部インターフェース部は、アダプタ102によるネットワーク104との間の発信、着信、切断などを、外部からインターフェース2101を介して制御する。そして、マイコン2102はインターフェース2101を介して通信端末103に対し、発信、着信、切断等の制御を行う。また通信端末103は自己の電話番号や電話の着信情報(RING情報、着信電話番号、通信端末103のステータス)をインターフェース2101に出力する。これによりアダプタ102は通信端末103の電話番号等の各種情報を取得することができる。
【0015】
サーバ105及び通信端末103はともにネットワーク104に接続されている。通信端末103が無線方式の通信端末である場合は無線基地経由にてネットワーク104に接続される。アダプタ102はインターフェース2101を介して通信端末103に、サーバ105側の通信端末の電話番号に発呼する処理を行う。
【0016】
通信端末103はネットワーク104に対し前述電話番号での接続を試みる。ここでの接続の確立はネットワーク104の方式に従う。サーバ105側の通信端末が通信端末103からの発呼を受理するとネットワーク104での接続が完了する。
【0017】
ROM2105は新しいソフトウェアを、インターフェース2101やインターフェース2104を介してダウンロードし、内部プログラムの書き換えをする。また、ROM2105には、接続に必要な電話番号、アダプタID等も格納され、同様に変更することができる。電源2107はアダプタ102を動作させる電源である。
【0018】
<アダプタのソフトウェア構成図>
図3はアダプタ102に実装されるソフトウェアの構成を示す図である。画像撮影装置101とアダプタ102とを接続したのち、画像情報取得部3001は、画像撮影装置101で撮影され、画像撮影装置101に保存された画像情報を取得する。そして、アダプタ102の画像情報データベース3008に保存する。
【0019】
ここで、画像情報取得部3001が画像撮影装置101から取得し、画像情報データベース3008に保存した画像情報とは、画像データはもちろん、画像データに関する画像データのタイトル名、サイズ、階調度等を含む。なお、画像情報取得部3001は画像データおよび画像データに関する情報すべてを保存することもできる。また、画像データおよび画像データに関する情報の1部だけを保存することもできる(画像データおよび画像データに関する情報を画像情報と呼ぶ)。
【0020】
音声信号取得部3002はマイク2116から入力された音声信号を音声デジタル信号に変換する。音声認識・話者照合部3003は音声I/F2108で変換された音声デジタル信号を音声認識データベース3004に登録されている音声に含まれる個人的な情報(以下、音声個人識別情報)や音声認識グラマーを用いて、音声認識・話者照合する。ここで、話者照合とは音声を用いた個人認証のことである。
【0021】
また、音声認識データベース3004に登録されている音声個人識別情報とは個人の音声信号そのものである場合もあるし、個人の音声信号に関する特徴量・パラメータである場合もある。特徴量・パラメータとは、スペクトル包括、ピッチ、パワーなどの時間・周波数的特徴量、またその時間・周波数的特徴量から抽出した統計的特徴量である。
【0022】
音声情報作成部3005は音声認識・話者照合部3003で音声認識・話者照合された結果、抽出された情報を音声情報に変換する。音声認識データベース3004に音声個人識別情報を登録するには、まず音声I/F2108によってマイク2116から入力された音声信号を音声デジタル信号に変換する。そして、その変換した音声デジタル信号を音声認識・話者照合部3003で音声個人識別情報に変換し、音声認識データベース3004に登録する。
【0023】
音声情報付き画像情報作成部3006は画像情報取得部3001で画像情報データベース3008に保存された画像情報、あらかじめアダプタデータベース3007に保存されたアダプタ識別情報、音声情報作成部3005で作成された音声情報をリンクする。そしてリンクした情報を基に、音声情報付き画像情報を作成する。
【0024】
ここで、音声情報付き画像情報作成部3006での画像情報、アダプタ識別情報、音声情報のリンク方法(音声情報付き画像情報の作成方法)は、アダプタ識別情報、音声情報を画像情報のヘッダ部に組み込むようにしてもよい。そして組み込んだ、これら3つの情報を1つのファイルにまとめるようにしてもよい。
【0025】
また、画像情報、アダプタ識別情報、音声情報を別々のファイルとして保存し、これらをリンクさせることもできる。
【0026】
送受信部3009は、音声情報付き画像情報作成部3006で作成された音声情報付き画像情報を通信端末103、ネットワーク104を介して、サーバ105に送信し、サーバ105に保存する。
【0027】
このとき、送受信部3009もしくはサーバ105は、送受信部3009が通信端末103、ネットワーク104を介して、サーバ105に送信した音声情報付き画像情報を音声情報付き画像情報に含まれるアダプタ情報、音声情報をもとに場所を特定し保存する。
【0028】
例えば、"吉田幸司"という音声情報が画像情報に付与されておれば、送受信部3009もしくはサーバ105はユーザ"吉田幸司"が使用している記憶領域に"吉田幸司"という音声情報が付与されている画像情報を保存する。
【0029】
<アダプタの動作説明>
次いで、本発明の第1の実施形態のアダプタの動作について説明する。図4は第1の実施形態のアダプタの動作を示すフローチャートである。
【0030】
まずアダプタ102は画像撮影装置101で撮影され、画像撮影装置101に保存された画像情報を取得する。アダプタ102が取得した画像情報は画像データそのものでもよいし、特定の画像を表すシンボル(画像データのタイトル等)であってもよい(ステップS4001)。
【0031】
次に、音声情報を付与する画像情報を選択する場合、画像撮影装置の表示画面を使って選択することもできるし、アダプタの表示画面を使って選択することもできる(ステップS4002)。
【0032】
次に、画像情報に音声情報を付与するために、音声情報のもととなる音声信号をアダプタもしくは画像撮影装置のマイクから入力し、入力した音声信号を図3のアダプタの音声信号取得部3002で音声デジタル信号に変換する(ステップS4003)。
【0033】
次に、アダプタの音声認識、話者照合部は、音声信号を認識する。ここでは、図3のアダプタの音声信号取得部で変換された音声デジタル信号と図3の音声認識データベース内の音声個人識別情報と音声認識グラマーをもとに入力された音声信号にどのような言葉が含まれていたのか等が認識される。この他にも、音声信号は誰のものであるのか、男か女かなどが認識される(ステップS4004)。
【0034】
次に、ステップS4004で認識された情報は音声情報に変換される(ステップS4005)。
【0035】
次に、ステップS4005で作成された音声情報はステップS4001でアダプタが取得した画像情報に付与・リンクされ、音声情報付き画像情報が作成される(ステップS4006)。
【0036】
ステップS4006で作成された音声情報付き画像情報は図3の画像情報データベース3008に保存される(ステップS4007)。
【0037】
ステップS4007で画像情報データベース3008に保存された音声情報付き画像情報は図3の送受信部3009により、通信端末103を介して、サーバ105に送信され、サーバ105に保存される(ステップS4008)。以上で説明した処理は、本発明でいう、画像情報に、音声認識及び話者照合の少なくとも何れかを行うことで音声信号から抽出した音声情報を付与するステップに相当する。
【0038】
なお、サーバ105に音声情報付き画像情報を保存するとき、音声情報付き画像情報に含まれている音声情報に基づいて、サーバ105に記憶する領域を決定することもできる。
【0039】
(第2の実施の形態)
次いで、本発明の第2の実施形態について説明する。図5は、本発明の第2の実施形態を示すシステム構成図である。第1の実施形態はアダプタ102での画像情報への音声情報付与方法についてであったが、第2の実施形態は端末装置106を使った、ネットワーク104を介した、サーバ105での画像情報への音声付与方法についてである。
【0040】
第2の実施形態でのシステムにおいて、101はデジタルカメラ等の画像撮影装置である。102は画像情報に音声情報の付与を行うアダプタである。103はネットワーク104とアダプタ102とをつなぐ携帯電話等の通信端末である。105は音声情報付き画像情報の保存・画像情報への音声情報の付与・音声情報付き画像情報に含まれる音声情報の修正を行うサーバである。106はサーバ105に音声情報付き画像情報の保存・画像情報への音声情報の付与・音声情報付き画像情報に含まれる音声情報の修正を指示する端末装置106である。
【0041】
<サーバのソフトウェア構成図>
次に、本発明の実施形態に係るサーバ105について詳しく説明する。図6はサーバに実装されるソフトウェアの構成を示す図である。
【0042】
サーバ105で画像情報(音声情報付き画像情報)が保存されるとき、送受信部6001はサーバ105に送られてきた情報は画像情報(音声情報付き画像情報)であると判断し、画像情報取得部6006を介して、画像情報データベース6008に保存する。
【0043】
サーバ105に保存された画像情報(音声情報付き画像情報)への音声情報の付与は、端末装置106がネットワーク104を介して、サーバ105に指示することで行われる。
【0044】
端末装置106がサーバ105にアクセスすると、サーバ105の送受信部6001はサーバ105に送られてきた情報が画像情報でないと判断し、端末装置106から送られる情報を音声信号取得部6002に送る。
【0045】
端末装置106からサーバ105にアクセスするには、サーバ105が認証する必要があり、そのために端末装置106はサーバ105の音声信号取得部6002へユーザ名、パスワード等を音声信号、バイナリデータ、テキストデータを送信する。
【0046】
また、端末装置106は、サーバ105で音声情報付き画像情報に音声情報を付与するために、音声情報のもととなる音声信号をサーバ105に送信する。
【0047】
音声信号取得部6002は、端末装置106から送信された情報に含まれる音声信号を音声デジタル信号に変換する。
【0048】
音声認識・話者照合部6003は、音声信号取得部6002で変換された音声デジタル信号を音声認識データベース6007に登録されている音声個人識別情報や音声認識グラマーを用いて、音声認識・話者照合する。
【0049】
ここで、話者照合とは音声を用いた個人認証のことであり、音声個人識別情報とは個人の音声信号そのものである場合もあるし、個人の音声信号に関する特徴量・パラメータである場合もある。特徴量・パラメータとは、スペクトル包括、ピッチ、パワーなどの時間・周波数的特徴量、またその時間・周波数的特徴量から抽出した統計的特徴量等である。
【0050】
音声情報作成部6004は、音声認識・話者照合部6003で音声認識・話者照合された情報をもとに音声情報を作成する。音声認識データベース6007に音声個人識別情報を登録するには、まず端末装置106によって、ネットワーク104を介して、サーバに入力された音声信号を音声デジタル信号に変換する。そして、音声認識・話者照合部6003はその変換した音声デジタル信号を個人識別情報変換し、音声認識データベース6007に登録する。
【0051】
音声情報付き画像情報作成部6005は、画像情報取得部6006で画像情報データベース6008に保存された画像情報、音声情報作成部6004で作られた音声情報をリンクし、音声情報付き画像情報を作成する。ここで、音声情報付き画像情報作成部6005での画像情報、音声情報のリンク方法(音声情報付き画像情報の作成方法)であるが、音声情報を画像情報のヘッダ部に組み込み、音声情報と画像情報を1つのファイルにすべてまとめることもできる。音声情報と画像情報をそれぞれの別のファイルに格納し、それをリンクさせることもできる。
【0052】
<動作説明>
次いで、本発明の第2の実施形態の動作について説明する。図7は第2の実施形態の動作を示すフローチャートである。
【0053】
まず端末装置106からネットワーク104を介して、サーバ105にアクセスする。そして、サーバ105にあらかじめ保存されている画像情報(音声情報付き画像情報)の一覧から、音声情報を付与しようとする画像情報(音声情報付き画像情報)を選択する(ステップS7001)。
【0054】
次に、画像情報に音声情報を付与するために、音声情報のもとのなる音声信号を端末装置106から入力し、入力した音声信号を図6のサーバの音声信号取得部で音声デジタル信号に変換する(ステップS7002)。
【0055】
図5のサーバの音声認識、話者照合部は入力された音声信号を認識する。ここでは、図5のサーバの音声信号取得部6002で変換された音声デジタル信号と図5の音声認識データベース6007内の音声個人識別情報と音声認識グラマーとをもとに、入力された音声信号はどのような言葉が含まれていたのか等が認識される。これの他にも、音声信号は、誰のものであるのか、男か女かなどが認識する(ステップS7003)。
【0056】
ステップS7003で認識された情報は音声情報に変換される(ステップS7004)。
【0057】
ステップS7004で作成された音声情報はあらかじめサーバに保存されている画像情報とリンクされる(ステップS7005)。
【0058】
ステップS7005での画像情報と音声情報のリンク方法であるが、画像情報と音声情報は画像情報のヘッダ部に音声情報を組み込み、1つのファイルにまとめることもできる。また、画像情報と音声情報を別々のファイルとして保存し、それらをリンクさせることもできる。ステップS7005で画像情報と音声情報をリンクしたものを音声情報付き画像情報と呼ぶ。
【0059】
ステップS7005で作成された音声情報付き画像情報は図6の画像情報データベース6008に保存される(ステップS7006)。画像情報データベース6008に音声情報付き画像情報を保存するとき、音声情報付き画像情報に含まれている音声情報に基づいて画像情報データベース6008の記憶媒体の領域を決定することもできる。以上で説明した処理は、本発明でいう、画像情報に、音声認識及び話者照合の少なくとも何れかを行うことで音声信号から抽出した音声情報を付与するステップに相当する。
【0060】
なお、本発明を実現するために、上述した実施形態の機能を実現するソフトウェアのプログラムコード(コンピュータプログラム)を記録した記憶媒体を用いても良い。この場合には記憶媒体をシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによって本発明の目的が達成される。
【0061】
この場合、記憶媒体から読み出されたプログラムコード自体が上述した実施形態の機能を実現することになり、プログラムコード自体及びそのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0062】
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。
【0063】
また、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(基本システム或いはオペレーティングシステム)等が実際の処理の一部又は全部を行う場合も含まれることは言うまでもない。
【0064】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれてもよい。この場合には、書き込まれたプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部又は全部を行ってもよい。
【図面の簡単な説明】
【0065】
【図1】本発明の第1の実施の形態に係るシステムの構成を示す図である。
【図2】本発明の第1の実施の形態に係るアダプタの電気的構成を示すブロック図である。
【図3】本発明の第1の実施の形態に係るアダプタに実装されるソフトウェアの構成を示す図である。
【図4】本発明の第1の実施の形態に係るシステムにおける動作を説明するフローチャートである。
【図5】本発明の第2の実施の形態に係るシステムの構成を示す図である。
【図6】本発明の第2の実施の形態に係るサーバに実装されるソフトウェアの構成を示す図である。
【図7】本発明の第2の実施の形態に係るサーバでの処理の流れを説明するフローチャートである。
【符号の説明】
【0066】
101 画像撮影装置
102 アダプタ
103 通信端末
104 ネットワーク
105 サーバ
106 端末装置
2101 I/F
2102 マイコン
2103 UI
2104 画像撮影装置I/F
2105 ROM
2106 RAM
2107 電源
2108 音声I/F
2110 内部バス
2115 表示装置
2116 マイク
3001 画像情報取得部(アダプタ)
3002 音声信号取得部(アダプタ)
3003 音声認識・話者照合部(アダプタ)
3004 音声認識データベース(アダプタ)
3005 音声情報作成部(アダプタ)
3006 音声情報付き画像情報作成部(アダプタ)
3007 アダプタデータベース(アダプタ)
3008 画像情報データベース(アダプタ)
3009 送受信部(アダプタ)
6001 送受信部(サーバ)
6002 音声信号取得部(サーバ)
6003 音声認識・話者照合部(サーバ)
6004 音声情報作成部(サーバ)
6005 音声情報付き画像情報作成部(サーバ)
6006 画像情報取得部(サーバ)
6007 音声認識データベース(サーバ)
6008 画像情報データベース(サーバ)

【特許請求の範囲】
【請求項1】
画像撮影装置と、前記画像撮影装置に接続されており、前記画像撮影装置に保存された画像情報に音声情報の付与を行うアダプタと、前記アダプタによって通信端末およびネットワークを介して音声情報付き画像情報が保存されるサーバと、前記サーバに保存されている音声情報付き画像情報に含まれている音声情報をネットワークを介して修正及び追加する端末装置とで構成される画像情報への音声情報付与システムにおける音声情報付与方法であって、
画像情報に、音声認識及び話者照合の少なくとも何れかを行うことで音声信号から抽出した音声情報を付与するステップを有することを特徴とする音声情報付与方法。
【請求項2】
画像撮影装置と、前記画像撮影装置に接続されており、前記画像撮影装置に保存された画像情報に音声情報の付与を行うアダプタと、前記アダプタによって通信端末およびネットワークを介して音声情報付き画像情報が保存されるサーバと、前記サーバに保存されている音声情報付き画像情報に含まれている音声情報をネットワークを介して修正及び追加する端末装置とで構成される画像情報への音声情報付与システムにおける音声情報付与方法をコンピュータに実行させるためのコンピュータプログラムであって、
画像情報に、音声認識及び話者照合の少なくとも何れかを行うことで音声信号から抽出した音声情報を付与するステップをコンピュータに実行させることを特徴とするコンピュータプログラム。
【請求項3】
画像撮影装置と、前記画像撮影装置に接続されており、前記画像撮影装置に保存された画像情報に音声情報の付与を行うアダプタと、前記アダプタによって通信端末およびネットワークを介して音声情報付き画像情報が保存されるサーバと、前記サーバに保存されている音声情報付き画像情報に含まれている音声情報をネットワークを介して修正及び追加する端末装置とで構成される画像情報への音声情報付与装置であって、
画像情報に、音声認識及び話者照合の少なくとも何れかを行うことで音声信号から抽出した音声情報を付与する手段を有することを特徴とする音声情報付与装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate