説明

録画録音情報処理装置及び録画録音情報処理方法並びにそのプログラム、録画録音情報処理システム

【課題】調査報告のデータを作成する効率化を図り、ビデオ映像を有効利用することのできる録画録音情報処理装置を提供する。
【解決手段】再生位置信号挿入装置がユーザの発話区間の信号を発信し、撮影装置が発話区間の信号を受け付けて、撮影時の音と発話区間の信号の音とを録音する。端末は撮影装置から映像データと録音データを受信して、発話区間の文字列を認識し、発話区間毎に認識した文字列と、当該発話区間の発話区間開始時刻と、その発話区間のIDとを少なくとも対応付けた再生時刻特定テーブルを生成し、認識した文字列とその文字列を発話した発話区間の識別情報とを発話区間毎に表示する。発話区間のIDの指定を受け付け、発話区間の識別情報に対応する発話区間開始時刻を再生時刻特定テーブルから特定して、発話区間開始時刻からの録画した映像と録音した音を再生する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、被写体の撮影と、撮影時の音声を録画録音したデータを、加工する録画録音情報処理装置及び録画録音情報処理方法並びにそのプログラム、録画録音情報処理システムに関する。
【背景技術】
【0002】
従来、屋外の設備の調査・点検業務においては、ビデオ映像を用いてその調査・点検対象を撮影し、その映像データに基づいて報告書等を作成する作業が発生する場合がある。そしてこのような技術として、野外での調査において、調査地点の景観を撮影したビデオ映像から取り込んだ静止画、またGPSにより取得した調査地点の位置データ、調査時の時間データ、調査時にライトペンで記入したコメントから、観測データを生成するシステムが特許文献1に開示されている。
また、下水管などの管路内部の点検において、予め点検箇所の状況を表す単語を登録しておき、点検時にオペレータがタッチパネルにより選択した単語を点検地点の静止画と関連付けて記憶し、表示するシステムが特許文献2に開示されている。
【特許文献1】特開平8−97927号公報
【特許文献2】特開2004−69711号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、上述の特許文献1の技術では、調査地点の状況や、GPSから取得した位置情報を、調査者が、ライトペンで記入して観測データを作成するため、記入時間と手間がかかり、またヒューマンエラーによる入力ミスも発生しやすい。
また、上述の特許文献2の技術では、登録されている単語が多数ある場合、入力するべき単語を選択するのに時間と手間がかかり、また、誤操作により誤った単語が入力される恐れがある。さらに、入力したい単語が登録されていない場合、その場で単語を登録するか、手で単語を入力することになり、時間と手間がかかってしまう。
つまり、ビデオ映像を用いた屋外の調査・点検業務における、作業結果である調査報告書等を作成するにあたり、従来技術の手法では記録時間と手間を要し非効率であり、また調査報告書としてビデオカメラで撮影した映像のうちのある特定の静止画像を利用しているため、ビデオカメラで撮影した映像が有効に利用されていない。
【0004】
そこでこの発明は、調査報告のデータを作成する効率化を図り、ビデオ映像を有効利用することのできる録画録音情報処理装置及び録画録音情報処理方法並びにそのプログラム、録画録音情報処理システムを提供することを目的としている。
【課題を解決するための手段】
【0005】
上記目的を達成するために、本発明は、被写体を撮影して録画する撮影手段と、録音する音を集音する集音手段と、前記被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号を受け付ける発話区間指定受付手段と、撮影時の音と前記発話区間開始信号と発話区間終了信号とを録音する録音手段と、前記発話区間開始信号と前記発話区間終了信号を受け付けた期間に前記ユーザが発した音声の信号に基づいて当該音声に対応する文字列を認識する音声認識手段と、前記発話区間毎に認識した文字列と、当該発話区間の前記発話区間開始信号の録音時の発話区間開始時刻と、その発話区間の識別情報とを少なくとも対応付けた再生時刻特定テーブルを生成する再生時刻特定テーブル生成手段と、前記認識した文字列を前記発話区間毎に表示する発話文字列表示手段と、前記発話区間の識別情報の指定を受け付ける発話区間指定受付手段と、前記発話区間の識別情報に対応する前記発話区間開始時刻を前記再生時刻特定テーブルから特定し、当該発話区間開始時刻からの前記録画した映像と前記録音した音を再生する再生手段と、を備えることを特徴とする録画録音情報処理装置である。
【0006】
また本発明は、上述の録画録音情報処理装置において、所定の時間間隔毎の定期的な位置を示す定期位置情報と、前記発話区間開始信号と発話区間終了信号を受け付けた時刻の位置を示す発話時位置情報とを特定する位置情報取得手段と、前記発話時位置情報と前記発話区間の識別情報を少なくとも対応付けた位置情報テーブルを生成する位置情報テーブル生成手段と、前記定期位置情報に基づく前記ユーザの移動した軌跡と、前記軌跡上において前記発話時位置情報に基づく位置を特定する発話時位置特定画像とを出力する軌跡・発話位置出力手段と、を備えることを特徴とする。
【0007】
また本発明は、上述の録画録音情報処理装置において、前記発話時位置特定画像の指定を受け付けた場合に、その画像に対応する発話位置情報に対応付けられて前記位置情報テーブルに記録されている前記発話区間の識別情報を特定し、当該発話区間の識別情報に対応する前記発話区間開始時刻からの前記録画した映像と前記録音した音の再生を前記再生手段に指示する再生指示手段と、を備えることを特徴とする。
【0008】
また本発明は、上述の録画録音情報処理装置において、前記発話区間開始信号と前記発話区間終了信号を受け付ける際に、前記集音手段から前記録音手段へ出力される音を遮断する集音遮断手段とを備え、前記録音手段は、前記音の遮断中に、前記前記発話区間開始信号と前記発話区間終了信号の音のみを録音することを特徴とする。
【0009】
また本発明は、上述の録画録音情報処理装置において、前記発話文字列表示手段は、前記認識した文字列とその文字列を発話した前記発話区間の識別情報とを前記発話区間毎に表示する際に、当該文字列が予め記憶する対象文字列に該当する場合には、その文字列に特化した表示を、その文字列を認識した発話区間についてのみ行うことを特徴とする。
【0010】
また本発明は、録画録音情報処理装置における録画録音情報処理方法であって、撮影手段が、被写体を撮影して録画し、集音手段が、録音する音を集音し、発話区間指定受付手段が、前記被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号を受け付け、録音手段が、撮影時の音と前記発話区間開始信号と発話区間終了信号とを録音し、音声認識手段が、前記発話区間開始信号と前記発話区間終了信号を受け付けた期間に前記ユーザが発した音声の信号に基づいて当該音声に対応する文字列を認識し、再生時刻特定テーブル生成手段が、前記発話区間毎に認識した文字列と、当該発話区間の前記発話区間開始信号の録音時の発話区間開始時刻と、その発話区間の識別情報とを少なくとも対応付けた再生時刻特定テーブルを生成し、発話文字列表示手段が、前記認識した文字列を前記発話区間毎に表示し、発話区間指定受付手段が、前記発話区間の識別情報の指定を受け付け、再生手段が、前記発話区間の識別情報に対応する前記発話区間開始時刻を前記再生時刻特定テーブルから特定し、当該発話区間開始時刻からの前記録画した映像と前記録音した音を再生することを特徴とする録画録音情報処理方法である。
【0011】
また本発明は、上述の録画録音情報処理方法において、位置情報取得手段が、所定の時間間隔毎の定期的な位置を示す定期位置情報と、前記発話区間開始信号と発話区間終了信号を受け付けた時刻の位置を示す発話時位置情報とを特定し、位置情報テーブル生成手段が、前記発話時位置情報と前記発話区間の識別情報を少なくとも対応付けた位置情報テーブルを生成し、軌跡・発話位置出力手段が、前記定期位置情報に基づく前記ユーザの移動した軌跡と、前記軌跡上において前記発話時位置情報に基づく位置を特定する発話時位置特定画像とを出力することを特徴とする。
【0012】
また本発明は、録画録音情報処理装置のコンピュータを、被写体を撮影して録画する撮影手段、録音する音を集音する集音手段、前記被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号を受け付ける発話区間指定受付手段、撮影時の音と前記発話区間開始信号と発話区間終了信号とを録音する録音手段、前記発話区間開始信号と前記発話区間終了信号を受け付けた期間に前記ユーザが発した音声の信号に基づいて当該音声に対応する文字列を認識する音声認識手段、前記発話区間毎に認識した文字列と、当該発話区間の前記発話区間開始信号の録音時の発話区間開始時刻と、その発話区間の識別情報とを少なくとも対応付けた再生時刻特定テーブルを生成する再生時刻特定テーブル生成手段、前記認識した文字列を前記発話区間毎に表示する発話文字列表示手段、前記発話区間の識別情報の指定を受け付ける発話区間指定受付手段、前記発話区間の識別情報に対応する前記発話区間開始時刻を前記再生時刻特定テーブルから特定し、当該発話区間開始時刻からの前記録画した映像と前記録音した音を再生する再生手段、として機能させるためのプログラムである。
【0013】
また本発明は、上述のプログラムの処理に加え、さらに前記コンピュータを、所定の時間間隔毎の定期的な位置を示す定期位置情報と、前記発話区間開始信号と発話区間終了信号を受け付けた時刻の位置を示す発話時位置情報とを特定する位置情報取得手段、前記発話時位置情報と前記発話区間の識別情報を少なくとも対応付けた位置情報テーブルを生成する位置情報テーブル生成手段、前記定期位置情報に基づく前記ユーザの移動した軌跡と、前記軌跡上において前記発話時位置情報に基づく位置を特定する発話時位置特定画像とを出力する軌跡・発話位置出力手段、として機能させるためのプログラムである。
【0014】
また本発明は、撮影装置と、再生位置信号挿入装置と、情報処理装置とからなる録画録音情報処理システムであって、前記再生位置信号挿入装置が、被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号の発信指示を受け付けて発信する信号発信手段、を備え、前記撮影装置が、被写体を撮影して録画する撮影手段と、録音する音を集音する集音手段と、前記被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号を受け付ける発話区間指定受付手段と、撮影時の音と前記発話区間開始信号と発話区間終了信号とを録音する録音手段と、を備え、前記情報処理装置が、前記発話区間開始信号と前記発話区間終了信号を受け付けた期間に前記ユーザが発した音声の信号に基づいて当該音声に対応する文字列を認識する音声認識手段と、前記発話区間毎に認識した文字列と、当該発話区間の前記発話区間開始信号の録音時の発話区間開始時刻と、その発話区間の識別情報とを少なくとも対応付けた再生時刻特定テーブルを生成する再生時刻特定テーブル生成手段と、前記認識した文字列を前記発話区間毎に表示する発話文字列表示手段と、前記発話区間の識別情報の指定を受け付ける発話区間指定受付手段と、前記発話区間の識別情報に対応する前記発話区間開始時刻を前記再生時刻特定テーブルから特定し、当該発話区間開始時刻からの前記録画した映像と前記録音した音を再生する再生手段と、を備えることを特徴とする録画録音情報処理システムである。
【0015】
また本発明は、上述の録画録音情報処理システムにおいて、位置情報取得装置を有し、当該位置情報取得装置が、所定の時間間隔毎の定期的な位置を示す定期位置情報と、前記発話区間開始信号と発話区間終了信号を受け付けた時刻の位置を示す発話時位置情報とを特定する位置情報取得手段を備え、前記情報処理装置が、前記発話時位置情報と前記発話区間の識別情報を少なくとも対応付けた位置情報テーブルを生成する位置情報テーブル生成手段と、前記定期位置情報に基づく前記ユーザの移動した軌跡と、前記軌跡上において前記発話時位置情報に基づく位置を特定する発話時位置特定画像とを出力する軌跡・発話位置出力手段と、をさらに備えることを特徴とする。
【発明の効果】
【0016】
本発明によれば、端末の処理として、映像再生開始テーブルを表示して、その映像再生開始テーブルから指定された発話区間の映像を再生することができるので、ユーザは、モニタに表示された映像再生開始テーブル内の文字列を見ながら、映像データにおけるどの被写体のどのような状況を撮影したものかを直ちに判定することができるとともに、その文字列に対応する撮影内容を直ちに視聴することができる。従って、端末の各処理行うアプリケーションプログラムを当該端末に登録し、撮影したデータを保存して、さらに、各生成したデータを保存することにより、調査結果としての利便性を高めることができる。また、直感的に発した言葉を音声認識技術により調査結果の情報として自動的に取り込むことができるので、入力時間の削減等、ユーザの労力を軽減することができる。
【0017】
また、本発明によれば、軌跡描画画面上にユーザの移動軌跡を表示し、またスタート地点のアイコン画像と、エンド地点のアイコン画像と、発話開始位置を示すアイコン画像を表示している。そして、地図データに、軌跡描画画面を合成して、モニタに表示する。これによりユーザは調査時におけるユーザの移動軌跡と、発話開始の地点を容易に把握することができる。また、マウスなどで指定された画面上の位置が、軌跡描画画面におけるアイコン画像の図形領域の位置に一致したと判定した場合には、その画像に対応する発話区間の開始時刻を読み取り、当該開始時刻からの再生処理を開始する。従って、この処理によれば、ユーザは、どの地点においてどのような発話をしたかの把握や、その撮影映像の確認を短時間で行うことができるので、調査報告として使い勝手の良いデータを生成することができる。
【発明を実施するための最良の形態】
【0018】
以下、本発明の一実施形態による録画録音情報処理システムを図面を参照して説明する。
図1は同実施形態による録画録音情報処理システムの構成を示すブロック図である。
この図が示すように、録画録音情報処理システムは、再生位置信号挿入装置1、ビデオカメラ等の撮影装置2、PC(Personal Computer)等の端末3(情報処理装置)、位置情報特定装置4(GPS装置)が通信ケーブルによって接続されて構成されたものである。録画録音情報システムは図1で示した破線部内の位置情報特定装置4と端末3内の2つの処理部を有する場合と、有しない場合とで2つの実施形態に分けることができる。まず録画録音情報システムが、図1で示した破線部内の位置情報特定装置4と端末3内の2つの処理部を有しない場合の実施形態について説明する。なお、本実施形態においては、再生位置信号挿入装置1と撮影装置2と端末3が通信ケーブルで接続されて構成されたものであるが、再生位置信号挿入装置1と撮影装置2と端末3の機能が1つの装置内に備えられているようにしても良いし、撮影装置2と端末3の機能が1つの装置内に備えられているようにしても良い。また、再生位置信号挿入装置1、ビデオカメラ等の撮影装置2、位置情報特定装置4(GPS装置)が有線または無線により接続され、位置情報特定装置4から端末3へのデータの受け渡しを、メモリカード等の記録媒体を介して行うようにしてもよい。
【0019】
(実施形態1)
実施形態1の録画録音情報システムにおいては、再生位置信号挿入装置1が、出力部11、集音部12、発話区間指定受付部13、集音遮断部14を備えている。ここで、再生位置信号挿入装置1は、ユーザが手で携帯するものであり、複数のボタンを備え、当該ボタンのうち所定のボタンが押下されると、発話区間指定受付部13がそれを検出し、所定の音信号<本実施形態においてはDTMF(Dual-Tone Multi-Frequency)信号>を撮影装置2へ出力する。なお、本実施形態においては、発話開始ボタンと発話終了ボタンが同一のボタン(以下、発話開始・終了ボタンと呼ぶ)であり、またこれとは別に、発話取り消しボタンが取り付けられている。そして、発話開始・終了ボタンが押下されると、発話開始・終了ボタンに対応するDTMF信号が撮影装置2へ出力される。また発話取り消しボタンでは、他のDTFM信号が送信されることとなる。具体的には再生位置信号挿入装置1には0〜9のプッシュボタンが取り付けられており、「0」が発話開始・終了ボタン、「1」が発話取り消しボタンであり、それぞれを押下すると、電話機同様に、「0」の数字を示すDTMF信号、または「1」を示すDTMF信号が出力される。なお、どのボタンがどの意味を持つボタンとなるかは一例であり、これに限らない(例えば、発話開始ボタンを「0」、発話終了ボタンを「1」、発話取り消しボタンを「2」とするなど)。また集音部12にはマイクが接続されており、マイクからの信号を集音部12が受け付ける。また集音遮断部14は、発話区間指定受付部13が発話開始・終了ボタンの押下を検出すると、マイクからの信号の撮影装置2への出力を遮断する処理を行う。例えば、回路の切替スイッチを、マイクからの信号の出力から、発話区間指定受付部13からのDTMF信号の出力へ切り替える。
【0020】
撮影装置2は、市販されているビデオカメラであり、再生位置信号挿入装置1からの信号の入力を受け付け、また端末3へ情報を送信する入出力部21と、端末3内の各処理部を制御する制御部22、被写体の撮影を行う撮影部23、マイクから再生位置信号挿入装置1を介して受信した音の信号を録音する録音部24、撮影により取得した映像データや、受信した音の録音データ等を記憶する記憶部25と、を備えている。なお映像データや録音データには、撮影開始時からの経過時間または撮影時の時刻の情報が格納されているものとする。
【0021】
端末3は、撮影装置からの情報の入力を行う入力部301、各処理部を制御する制御部302、撮影装置2から受信した録音データの中かからユーザの発する音声の文字列を認識する音声認識処理部303、音声認識のためのデータを記憶する認識辞書記憶部304、撮影装置2から受信した映像データを記憶する映像データ記憶部305、撮影装置2から受信した録音データを記憶する録音データ記憶部306、ユーザが発話した際の映像を再生するために利用される再生時刻特定テーブルを生成する再生時刻特定テーブル生成部308、再生時刻特定テーブルを記憶する再生時刻特定テーブル記憶部309、音声認識した文字列等を表示する発話情報表示部309、発話情報表示部309から特定の音声認識した文字列の指定を受け付ける発話情報指定受付部310、指定された文字列をユーザが発した際の映像を再生する映像再生部311、とを備えている。なお、本実施形態においては音声認識の精度を上げるために認識辞書記憶部304を備えているが、特に備えなくても実施可能である。
【0022】
そして、本実施形態による録画録音情報処理システムでは、まず、再生位置信号挿入装置1が、被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号の発信指示を受け付けて当該信号を発信し、撮影装置2が、被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号を受け付けて、撮影時の音と発話区間開始信号と発話区間終了信号の音とを録音する。そして、端末3は撮影装置2から映像データと録音データを受信すると、まず、発話区間開始信号と発話区間終了信号を受け付けた期間にユーザが発した音声の信号に基づいて当該音声に対応する文字列を認識し、発話区間毎に認識した文字列と、当該発話区間における発話区間開始信号の受信時の発話区間開始時刻と、その発話区間の識別情報とを少なくとも対応付けた再生時刻特定テーブルを生成し、認識した文字列とその文字列を発話した発話区間の識別情報とを発話区間毎に表示する。そして、発話区間の識別情報の指定を受け付け、当該発話区間の識別情報に対応する発話区間開始時刻を再生時刻特定テーブルから特定して、当該発話区間開始時刻からの録画した映像と録音した音を再生する処理を行う。
【0023】
次に、録画録音情報システムの処理フローについて説明する。
図2は実施形態1における録画録音情報システムの処理フローを示す図である。
まず、ユーザは、マイクを再生位置信号挿入装置1の入力端子に接続し、また、当該再生位置信号挿入装置1の出力ケーブルを撮影装置2の入力端子に接続する。そして、再生位置信号挿入装置1と撮影装置2を携帯して、調査対象の被写体を撮影する(ステップS101)。そして、被写体を撮影しながら、調査状況の説明をマイクに入力する。さらに、ユーザは、調査報告として特に重要な被写体の状況を撮影した場合には、再生位置信号挿入装置1の発話開始・終了ボタンを押下し(ステップS102)、その被写体の状況をマイクに向かって発音して入力する(ステップS103)。そして被写体の状況説明をし終えると発話開始・終了ボタンを押下する(ステップS104)。なお、発話開始・終了ボタンの2回の押下の間を発話区間と呼ぶ。そしてこの発話区間の間に、ユーザは、例えば、被写体の対象物、被写体状況、対応方法の単語を、それぞれ間隔をあけて発話する。なお、本実施形態においては被写体の対象物、被写体状況、対応方法の単語の順に端末3が音声を認識するので、その順番で発話することが必要となる。
【0024】
再生位置信号挿入装置1は、撮影装置2が被写体を撮影している間、集音部12がマイクから集音した音の信号を撮影装置2へ出力する。しかしながら、発話区間指定受付部13は、発話開始・終了ボタンの押下を検出した場合には、マイクからの音の撮影装置2の出力を、発話開始・終了ボタンの押下時に発生するDTMF信号の出力へと切り替えて出力する。発話開始・終了ボタンに対応するDTMF信号が出力していない時間には、マイクにより集音した信号を撮影装置2に出力している。そして、撮影装置2においては撮影部23がユーザの操作によって被写体を撮影しその映像データを記憶部25に記録し(ステップS105)、また、再生位置信号挿入装置1から受信した音の信号(マイクにより集音した音と、DTMF信号の音)による録音データを記憶部25に記録する(ステップS106)。再生位置信号挿入装置1が、マイクからの音を遮断して、DTMF信号のみを撮影装置2へ出力することで、撮影装置2ではDTMF信号の音がクリアに録音され、これにより、発話区間の検出を容易にすることが可能となる。
【0025】
図3は端末の処理概要を示す図である。
図4は信号録音時刻テーブルを示す図である。
図5は発話区間の特定処理の概要を示す図である。
ユーザは複数の調査対象の被写体を撮影し、またマイクからその状況の説明を入力して、撮影を終了し、その後、端末3を操作して撮影装置2の記憶部25に記録されている映像データと録音データを当該端末3へ読み込ませる(ステップS107)。映像データは映像データ記憶部305へ、また録音データは録音データ記憶部306へ格納される。そして、ユーザが端末3に処理開始の指示を入力する。次に端末3では、音声認識処理部303が、録音データ記憶部306から録音データを読み取り、当該録音データからDTMF信号(発話区間開始信号または発話区間終了信号)が記録されている経過時刻と信号の種類を特定する(ステップS108)。なお、このDTMF信号は2つの周波数を組み合わせた音の信号である。従って、具体的には高速フーリエ変換により2つの周波数を特定し、このDTMF信号が、発話開始・終了ボタンの押下時を示す発話区間開始信号や発話区間終了信号を示す信号であるか、または発話取り消しボタンの押下時を示す発話取り消し信号であるかを特定する。
【0026】
次に、音声認識処理部203は、録音データに格納されている時刻の情報から、発話区間開始信号や発話区間終了信号や、発話取り消し信号となるDTMF信号の録音を行った録音時刻を特定し、発話区間開始信号・発話区間終了信号である旨を示すIDや、発話区間取り消し信号である旨を示すIDをとその録音時刻とを対応付けた信号録音時刻テーブル(図4)を生成する(ステップS109)。ここで、発話区間開始信号・発話区間終了信号である旨を示すIDを「0」、発話区間取り消し信号である旨を示すIDを「1」とする。そして、図5で示すように、録音時刻の順に、奇数番目の発話区間開始信号・発話区間終了信号を示すID「0」の時刻から、偶数番目の発話区間開始信号・発話区間終了信号を示す次のID「0」の時刻まで1つの組合せを、1つの発話区間と特定し、その発話区間に対応する録音データ中のデータをコピーして、発話区間の音声データを生成する(ステップS110)。発話区間取り消し信号である旨を示すID「1」が、信号録音時刻テーブルに記録されている場合には、その前の2つのID「0」に対応する発話区間開始信号から発話区間終了信号までの発話区間については、取り消されたものとして発話区間の音声データのファイル生成の処理は行わない。なお、発話区間開始信号である旨を示すIDを「0」、発話区間終了信号である旨を示すIDを「1」、発話区間取り消し信号である旨を示すIDを「2」として、発話区間開始信号「0」の時刻から、次の発話区間終了信号を示すID「1」の時刻まで1つの組合せを1つの発話区間と特定するようにしてもよい。
【0027】
そして、音声認識処理部303は、発話区間の音声データに記録されている音声信号の周波数と、認識辞書記憶部304に記録されている各文字列の周波数とを比較して、一致または近似な周波数に対応付けられて認識辞書記憶部304に記録されている文字列を読み取り、認識する(ステップS111)。なお、認識辞書記憶部304のデータを用いずに、音声データからそのまま文字列に変換する技術を用いるようにしてもよい。また音声認識した発話区間の音声データの先頭の時刻に対応する静止画像を、映像データ記憶部305に格納されている映像データから読み取る。そして、1つの発話区間の音声データに対して、インデックスIDを割り振り、インデックスID、その発話区間の発話区間開始時刻、その開始時刻の静止画像、認識した文字列を、発話区間毎に記録した再生時刻特定テーブルを生成する(ステップS112)。なお、音声認識処理部303は、発話区間の中に、時間間隔を空けて発話されている音声を別々に認識して、それら複数の文字列を分けて、再生時刻特定テーブルのカラムに書き込む。本実施形態においては項目1〜項目3までの3つの文字列を、発話区間において時間間隔を空けて録音されている3つの音声から認識して再生時刻特定テーブルに書き込んでいる。これにより、調査における状況説明では、『チェッカープレート』,『腐食』,『観察必要』など、どこの部材が、どのような状況であり、どのような処置が必要かを、別々に登録することができる。なお、いくつの文字列を認識できるかは、プログラムの作り次第である。再生時刻特定テーブル生成部308は、生成した再生時刻特定テーブルのファイル名を、映像データのファイル名と同一にして、再生時刻特定テーブル記憶部307に記録する。
【0028】
図6は再生時刻特定テーブルの例を示す図である。
この図が示すように、再生時刻特定テーブルは、インデックスID、発話区間の開始時刻の静止画像、発話区間の開始時刻、発話区間において認識した文字列(項目1〜項目3)を対応付けて、発話区間ごとに記録している。
【0029】
再生時刻特定テーブルの作成が終了すると、次に、発話情報表示部309が、再生時刻特定テーブルを読み込み、インデックスIDと、認識した文字列(項目1〜項目3)と、を発話区間毎に示したマトリックス状の映像再生開始テーブルを生成して、端末3のモニタに表示する(ステップS113)。このとき発話情報表示部309は、文字列が重要文字列として記憶部などに登録されている場合には、その文字列を含む発話区間のカラムを、色をつけて表示するようにしてもよい。これにより、調査対象の重要な項目をすぐに見分けることが可能となる。
【0030】
図7は映像再生開始テーブルを表示した表示画面の例を示す図である。
そして、ユーザは、図7で示すような表示画面に表示されている映像再生開始テーブルにおいて、インデックスIDと文字列(項目1〜項目3)とタイムレコードとを対応付けた、ある発話区間のカラムを、マウス等を用いて指定することで、その発話区間の開始時刻からの映像再生を行うことができる。発話区間のカラムの指定を受け付けると(ステップS114)、そのインデックスIDを発話情報指定受付部310が取得し、当該インデックスIDに基づいて、再生時刻特定テーブルから、その発話区間の開始時刻を読み取る。そして、映像再生部311が、映像データ記憶部305と録音データ記憶部306から映像データと録音データとを読み取り、指定された発話区間の開始時刻からの再生処理を開始する(ステップS115)。
【0031】
以上の処理によれば、端末の処理として、映像再生開始テーブルを表示して、その映像再生開始テーブルから指定された発話区間の映像を再生することができるので、ユーザは、モニタに表示された項目1〜項目3の文字列を見ながら、映像データにおけるどの被写体のどのような状況を撮影したものかを判定することができるとともに、その文字列に対応する撮影内容を直ちに視聴することができる。従って、上述の処理を端末に行わせるアプリケーションプログラムを登録し、撮影したデータを保存して、さらに、上記生成したデータを保存することにより、調査結果としての利便性を高めることができる。また、直感的に発した言葉を音声認識技術により調査結果の情報として自動的に取り込むことができるので、入力時間の削減等、ユーザの労力を軽減することができる。
【0032】
(実施形態2)
実施形態2の録画録音情報システムにおいては、実施形態1で説明した各装置に加え、さらに、図1で示す破線内の位置情報特定装置4を備える。また端末3内に、破線内で示す位置情報テーブル生成部313、軌跡・発話位置出力部314、位置情報テーブル記憶部315を備える。位置情報特定装置4はGPS(Global Positioning System)装置であり、入出力部41、制御部42、GPS衛星からの信号受信により緯度経度を算出する位置情報取得部43、再生位置信号挿入装置1から発話開始・終了ボタンの押下または発話取り消しボタンのどちらが押下されたのかの押下ボタン識別情報を受信する発話区間取得部44、GPS衛星からの信号により算出した移動経度とDTMF信号を受信した時刻等を記憶する取得データ記憶部45を備えている。
【0033】
図8は位置情報特定装置の処理概要を示す図である。
図9は実施形態2における録画録音情報システムの処理フローを示す図である。
本実施形態2においては、まず、位置情報特定装置4の位置情報取得部43が、GPS からの信号を受信して、当該信号に基づいて、図8で示すように、定期的に緯度経度の座標情報を算出して、定期取得を示すID(本実施形態においては「3」)と、算出した座標情報と、GPSからの信号を受信した時刻とを対応付けて取得データ記憶部45に記録し(ステップS201)、発話区間取得部44が、再生位置信号挿入装置1から発話開始・終了ボタンや、発話取り消しボタンのいずれかを示す押下ボタン識別情報を受信して、その押下ボタン識別情報を示すID(発話開始・終了ボタンの場合は「0」,発話取り消しボタンの場合は「1」)と受信時刻とその時刻における座標情報を対応付けて取得データ記憶部45に記録する(ステップS202)。取得データ記憶部45に記録されたデータを位置情報データと呼ぶ。本実施形態においては、GPSからの信号の受信は60秒おきとするが、どのような間隔であってもよい。そして、撮影終了後に位置情報特定装置4と端末3とをケーブル等で接続し、ユーザの操作により、位置情報特定装置4で取得した位置情報データを端末3に読み取らせる(ステップS203)。この位置情報データは、位置情報テーブル生成部313がメモリ等に記録する。
【0034】
次に、実施形態2においては、ユーザの処理開始の指示を受け付けるとことにより、実施形態1のステップS101〜ステップS113と同様の処理を行う。また位置情報テーブル生成部313が、メモリに一時記録した位置情報データを読み取り、当該位置情報テーブルより、押下ボタン識別情報のID「0」となっている奇数番目と偶数番目の記録のうち、発話区間開始時刻に対応する奇数番目の記録時刻とその座標情報とを読み取り、押下ボタン識別情報のID「0」の場合には「2」というIDを割り当てて、当該「2」と発話区間開始時刻と座標情報と、ステップS112において映像再生開始テーブル生成時に割り振ったインデックスIDとを対応付けた位置情報テーブルを生成する(ステップS204)。なお、インデックスIDは、映像再生開始テーブル生成時に割り振ったインデックスIDの順番どおりに割り当てればよい。
【0035】
また、端末3は、ユーザが撮影しながら調査のために移動した際の移動軌跡を描く長方形の地図のデータにおいて、左上と右下の緯度経度の情報の入力を受け付ける。そして、位置情報テーブルの生成が完了すると、軌跡・発話位置出力部314が、幅w,高さhの軌跡描画画面をモニタに表示する(ステップS205)。そして、当該軌跡描画画面における左上と右下の緯度経度をユーザから入力を受け付けた緯度経度と仮定して、当該軌跡描画画面においてユーザが移動した軌跡の対応座標を、位置情報データおいて、定期取得を示すID「3」に対応付けられて記録されている座標情報に基づいて算出する。ここで、ユーザの移動した実座標に対応する、軌跡描画画面における対応座標を(x,y)とすると、
x={w×(実際の経度−画面左上に対応する経度)/(画面右下に対応する経度−画面左上に対応する経度)}
y={h×(画面左上に対応する緯度−実際の緯度)/(画面左上に対応する緯度−画面右下に対応する緯度)}
により算出することができる。
【0036】
そして、軌跡・発話位置出力部314は、ユーザの移動した軌跡を、軌跡描画画面に表示する(ステップS206)。また軌跡・発話位置出力部314は、位置情報テーブルにおいて、発話開始を示すID「2」に対応付けられて記録されている座標情報を読み取り、当該座標に対応する軌跡描画画面上の座標を上記式により算出する。そして、その発話区間開始時刻にユーザが位置した座標に対応する軌跡描画画面上の座標に、発話開始位置を示すアイコン画像を表示し(ステップS207)、また位置情報データおいて、定期取得を示すID「3」に対応付けられて記録されている最初と最後の座標情報を読み取り、その座標に対応する軌跡描画画面上の座標に、スタート地点のアイコン画像と、エンド地点のアイコン画像とを表示する(ステップS208)。本実施形態のいては、ユーザの移動軌跡の上に、発話開始位置を示すアイコン画像として楕円の画像を出力し、またスタート地点とエンド地点の画像としてスタートマーク、エンドマークを示す特有の画像を出力している。
【0037】
図10は軌跡描画画面を示す図である。
この図が示すように、軌跡・発話位置出力部314は、軌跡描画画面上にユーザの移動軌跡を表示し、またスタート地点のアイコン画像と、エンド地点のアイコン画像と、発話開始位置を示すアイコン画像を表示している。
【0038】
図11は地図データに軌跡描画画面を合成した例を示す図である。
また、軌跡・発話位置出力部314は、地図のデータを受け付ける(ステップS209)。例えば地図の画像をスキャナで読み込んだものを読み込んでも良いし、地図データとして記録されているものを読み込んでも良い。この地図データは、左上と右下の緯度経度がユーザより入力を受け付けた緯度経度に対応するものである。そして、図11で示すように、入力を受け付けた地図データに、軌跡描画画面を合成して、モニタに表示する(ステップS210)。これによりユーザは調査時におけるユーザの移動軌跡と、発話開始の地点を容易に把握することができる。また、この他、地図データの基準点の緯度経度と、軌跡のデータや、発話位置のデータやその発話開始位置のアイコン画像を、地図表示プログラムに対して転送し、当該地図表示プログラムが、受け付けた基準点の緯度経度に基づいてデータベースから取り出し地図データに、ユーザの移動軌跡や、発話開始位置のアイコン画像等を表示するようにしてもよい。
【0039】
また、軌跡・発話位置出力部314は、発話開始位置を示すアイコン画像(楕円)の、軌跡描画画面における図形領域と、その発話開始位置に対応するインデックスIDとを対応付けた発話位置指定テーブルを生成してメモリで保持する。そして、発話情報指定受付部310は、マウスなどの指定位置が、軌跡描画画面における図形領域の位置に一致したと判定した場合には(ステップS211)、発話位置指定テーブルからインデックスIDを読み取って、当該インデックスIDに基づいて、再生時刻特定テーブルから、その発話区間の開始時刻を読み取る。そして、映像再生部311が、映像データ記憶部305と録音データ記憶部307から映像データと録音データとを読み取り、指定された発話区間の開始時刻からの再生処理を開始する(ステップS212)。この処理によれば、ユーザは、どの地点においてどのような発話をしたかの把握や、その撮影映像の確認を短時間で行うことができるので、調査報告として使い勝手の良いデータを生成することができる。
【0040】
次に、録音データの録音・再生手法について説明する。
上述の処理によれば、ユーザからの発話区間の指定により映像や音声を再生する際には、端末3の録音データ記憶部306に記録されている録音データを用いて再生している。ここで、この録音データには発話区間開始信号と発話区間終了信号などのDTMF信号が記録されている。そしてこのDTMF信号は、マイクから入力される音を遮断して録音データに記録されているため、録音データを再生すると、クリアなDTMF信号の音が出力される。そして、発話区間が多いと再生中に何度も信号音が鳴り、耳障りとなる。従って、このDTMF信号の信号音を消去する仕組みが必要である。また、発話区間開始信号と発話区間終了信号などのDTMF信号の検出精度の向上がさらに必要な場合がある。このような場合には、撮影装置2の仕様がボタン信号音を左、発話音声を右として録音できれば(例えば、ボタン信号音を撮影装置2の音声トラックの左チャネル、発話音声を右チャネルとして録音できれば)そのように録音し、撮影装置2から端末3への出力形式をステレオと設定し、またDTMF信号の検出対象が左チャネルと設定する。また端末3においては、左側のラインから、DTMF信号の検出を行う。これにより、環境音が全く無く、DTMF信号音のみが存在する音声ファイルから精度良くDTMF信号を検出することができる。また、DTMF信号検出後に発話音声が入っている右側のラインを映像と合成して再生させることにより、再生時にDTMF信号の音が入っていない映像として再生することができる。
【0041】
なお、上述の処理においては、調査対象の調査報告のデータを作成する際の処理に利用する場合について説明したが、この他、例えばハイキングや登山における撮影時や、スポーツの試合の撮影時において上記のシステムを利用し、後で映像を視聴する際に、特定の場所の映像を視聴するためのものとして利用するようにしても良い。
【0042】
上述の各装置や端末は内部に、コンピュータシステムを有している。そして、上述した各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
【0043】
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【図面の簡単な説明】
【0044】
【図1】録画録音情報処理システムの構成を示すブロック図である。
【図2】実施形態1における録画録音情報システムの処理フローを示す図である。
【図3】端末の処理概要を示す図である。
【図4】信号録音時刻テーブルを示す図である。
【図5】発話区間の特定処理の概要を示す図である。
【図6】再生時刻特定テーブルの例を示す図である。
【図7】映像再生開始テーブルを表示した表示画面の例を示す図である。
【図8】位置情報特定装置の処理概要を示す図である。
【図9】実施形態2における録画録音情報システムの処理フローを示す図である。
【図10】軌跡描画画面を示す図である。
【図11】地図データに軌跡描画画面を合成した例を示す図である。
【符号の説明】
【0045】
1・・・再生位置信号挿入装置
2・・・撮影装置
3・・・端末
4・・・位置情報特定装置

【特許請求の範囲】
【請求項1】
被写体を撮影して録画する撮影手段と、
録音する音を集音する集音手段と、
前記被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号を受け付ける発話区間指定受付手段と、
撮影時の音と前記発話区間開始信号と発話区間終了信号とを録音する録音手段と、
前記発話区間開始信号と前記発話区間終了信号を受け付けた期間に前記ユーザが発した音声の信号に基づいて当該音声に対応する文字列を認識する音声認識手段と、
前記発話区間毎に認識した文字列と、当該発話区間の前記発話区間開始信号の録音時の発話区間開始時刻と、その発話区間の識別情報とを少なくとも対応付けた再生時刻特定テーブルを生成する再生時刻特定テーブル生成手段と、
前記認識した文字列を前記発話区間毎に表示する発話文字列表示手段と、
前記発話区間の識別情報の指定を受け付ける発話区間指定受付手段と、
前記発話区間の識別情報に対応する前記発話区間開始時刻を前記再生時刻特定テーブルから特定し、当該発話区間開始時刻からの前記録画した映像と前記録音した音を再生する再生手段と、
を備えることを特徴とする録画録音情報処理装置。
【請求項2】
所定の時間間隔毎の定期的な位置を示す定期位置情報と、前記発話区間開始信号と発話区間終了信号を受け付けた時刻の位置を示す発話時位置情報とを特定する位置情報取得手段と、
前記発話時位置情報と前記発話区間の識別情報を少なくとも対応付けた位置情報テーブルを生成する位置情報テーブル生成手段と、
前記定期位置情報に基づく前記ユーザの移動した軌跡と、前記軌跡上において前記発話時位置情報に基づく位置を特定する発話時位置特定画像とを出力する軌跡・発話位置出力手段と、
を備えることを特徴とする請求項1に記載の録画録音情報処理装置。
【請求項3】
前記発話時位置特定画像の指定を受け付けた場合に、その画像に対応する発話位置情報に対応付けられて前記位置情報テーブルに記録されている前記発話区間の識別情報を特定し、当該発話区間の識別情報に対応する前記発話区間開始時刻からの前記録画した映像と前記録音した音の再生を前記再生手段に指示する再生指示手段と、
を備えることを特徴とする請求項2に記載の録画録音情報処理装置。
【請求項4】
前記発話区間開始信号と前記発話区間終了信号を受け付ける際に、前記集音手段から前記録音手段へ出力される音を遮断する集音遮断手段とを備え、
前記録音手段は、前記音の遮断中に、前記前記発話区間開始信号と前記発話区間終了信号の音のみを録音する
ことを特徴とする請求項1から請求項3のいずれかに記載の録画録音情報処理装置。
【請求項5】
前記発話文字列表示手段は、前記認識した文字列とその文字列を発話した前記発話区間の識別情報とを前記発話区間毎に表示する際に、当該文字列が予め記憶する対象文字列に該当する場合には、その文字列に特化した表示を、その文字列を認識した発話区間についてのみ行う
ことを特徴とする請求項1から請求項4に記載の録画録音情報処理装置。
【請求項6】
録画録音情報処理装置における録画録音情報処理方法であって、
撮影手段が、被写体を撮影して録画し、
集音手段が、録音する音を集音し、
発話区間指定受付手段が、前記被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号を受け付け、
録音手段が、撮影時の音と前記発話区間開始信号と発話区間終了信号とを録音し、
音声認識手段が、前記発話区間開始信号と前記発話区間終了信号を受け付けた期間に前記ユーザが発した音声の信号に基づいて当該音声に対応する文字列を認識し、
再生時刻特定テーブル生成手段が、前記発話区間毎に認識した文字列と、当該発話区間の前記発話区間開始信号の録音時の発話区間開始時刻と、その発話区間の識別情報とを少なくとも対応付けた再生時刻特定テーブルを生成し、
発話文字列表示手段が、前記認識した文字列を前記発話区間毎に表示し、
発話区間指定受付手段が、前記発話区間の識別情報の指定を受け付け、
再生手段が、前記発話区間の識別情報に対応する前記発話区間開始時刻を前記再生時刻特定テーブルから特定し、当該発話区間開始時刻からの前記録画した映像と前記録音した音を再生する
ことを特徴とする録画録音情報処理方法。
【請求項7】
位置情報取得手段が、所定の時間間隔毎の定期的な位置を示す定期位置情報と、前記発話区間開始信号と発話区間終了信号を受け付けた時刻の位置を示す発話時位置情報とを特定し、
位置情報テーブル生成手段が、前記発話時位置情報と前記発話区間の識別情報を少なくとも対応付けた位置情報テーブルを生成し、
軌跡・発話位置出力手段が、前記定期位置情報に基づく前記ユーザの移動した軌跡と、前記軌跡上において前記発話時位置情報に基づく位置を特定する発話時位置特定画像とを出力する
ことを特徴とする請求項6に記載の録画録音情報処理方法。
【請求項8】
録画録音情報処理装置のコンピュータを、
被写体を撮影して録画する撮影手段、
録音する音を集音する集音手段、
前記被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号を受け付ける発話区間指定受付手段、
撮影時の音と前記発話区間開始信号と発話区間終了信号とを録音する録音手段、
前記発話区間開始信号と前記発話区間終了信号を受け付けた期間に前記ユーザが発した音声の信号に基づいて当該音声に対応する文字列を認識する音声認識手段、
前記発話区間毎に認識した文字列と、当該発話区間の前記発話区間開始信号の録音時の発話区間開始時刻と、その発話区間の識別情報とを少なくとも対応付けた再生時刻特定テーブルを生成する再生時刻特定テーブル生成手段、
前記認識した文字列を前記発話区間毎に表示する発話文字列表示手段、
前記発話区間の識別情報の指定を受け付ける発話区間指定受付手段、
前記発話区間の識別情報に対応する前記発話区間開始時刻を前記再生時刻特定テーブルから特定し、当該発話区間開始時刻からの前記録画した映像と前記録音した音を再生する再生手段、
として機能させるためのプログラム。
【請求項9】
請求項8に記載の処理に加え、さらに前記コンピュータを、
所定の時間間隔毎の定期的な位置を示す定期位置情報と、前記発話区間開始信号と発話区間終了信号を受け付けた時刻の位置を示す発話時位置情報とを特定する位置情報取得手段、
前記発話時位置情報と前記発話区間の識別情報を少なくとも対応付けた位置情報テーブルを生成する位置情報テーブル生成手段、
前記定期位置情報に基づく前記ユーザの移動した軌跡と、前記軌跡上において前記発話時位置情報に基づく位置を特定する発話時位置特定画像とを出力する軌跡・発話位置出力手段、
として機能させるためのプログラム。
【請求項10】
撮影装置と、再生位置信号挿入装置と、情報処理装置とからなる録画録音情報処理システムであって、
前記再生位置信号挿入装置が、
被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号の発信指示を受け付けて発信する信号発信手段、を備え、
前記撮影装置が、
被写体を撮影して録画する撮影手段と、
録音する音を集音する集音手段と、
前記被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号を受け付ける発話区間指定受付手段と、
撮影時の音と前記発話区間開始信号と発話区間終了信号とを録音する録音手段と、
を備え、
前記情報処理装置が、
前記発話区間開始信号と前記発話区間終了信号を受け付けた期間に前記ユーザが発した音声の信号に基づいて当該音声に対応する文字列を認識する音声認識手段と、
前記発話区間毎に認識した文字列と、当該発話区間の前記発話区間開始信号の録音時の発話区間開始時刻と、その発話区間の識別情報とを少なくとも対応付けた再生時刻特定テーブルを生成する再生時刻特定テーブル生成手段と、
前記認識した文字列を前記発話区間毎に表示する発話文字列表示手段と、
前記発話区間の識別情報の指定を受け付ける発話区間指定受付手段と、
前記発話区間の識別情報に対応する前記発話区間開始時刻を前記再生時刻特定テーブルから特定し、当該発話区間開始時刻からの前記録画した映像と前記録音した音を再生する再生手段と、
を備えることを特徴とする録画録音情報処理システム。
【請求項11】
位置情報取得装置を有し、当該位置情報取得装置が、所定の時間間隔毎の定期的な位置を示す定期位置情報と、前記発話区間開始信号と発話区間終了信号を受け付けた時刻の位置を示す発話時位置情報とを特定する位置情報取得手段を備え、
前記情報処理装置が、
前記発話時位置情報と前記発話区間の識別情報を少なくとも対応付けた位置情報テーブルを生成する位置情報テーブル生成手段と、
前記定期位置情報に基づく前記ユーザの移動した軌跡と、前記軌跡上において前記発話時位置情報に基づく位置を特定する発話時位置特定画像とを出力する軌跡・発話位置出力手段と、をさらに備える
ことを特徴とする請求項10に記載の録画録音情報処理システム。



【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2009−206602(P2009−206602A)
【公開日】平成21年9月10日(2009.9.10)
【国際特許分類】
【出願番号】特願2008−44480(P2008−44480)
【出願日】平成20年2月26日(2008.2.26)
【出願人】(397065480)エヌ・ティ・ティ・コムウェア株式会社 (187)
【Fターム(参考)】