録画録音情報処理装置及び録画録音情報処理方法並びにそのプログラム、録画録音情報処理システム

【課題】調査報告のデータを作成する効率化を図り、ビデオ映像を有効利用することのできる録画録音情報処理装置を提供する。
【解決手段】再生位置信号挿入装置がユーザの発話区間の信号を発信し、撮影装置が発話区間の信号を受け付けて、撮影時の音と発話区間の信号の音とを録音する。端末は撮影装置から映像データと録音データを受信して、発話区間の文字列を認識し、発話区間毎に認識した文字列と、当該発話区間の発話区間開始時刻と、その発話区間のＩＤとを少なくとも対応付けた再生時刻特定テーブルを生成し、認識した文字列とその文字列を発話した発話区間の識別情報とを発話区間毎に表示する。発話区間のＩＤの指定を受け付け、発話区間の識別情報に対応する発話区間開始時刻を再生時刻特定テーブルから特定して、発話区間開始時刻からの録画した映像と録音した音を再生する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、被写体の撮影と、撮影時の音声を録画録音したデータを、加工する録画録音情報処理装置及び録画録音情報処理方法並びにそのプログラム、録画録音情報処理システムに関する。
【背景技術】
【０００２】
従来、屋外の設備の調査・点検業務においては、ビデオ映像を用いてその調査・点検対象を撮影し、その映像データに基づいて報告書等を作成する作業が発生する場合がある。そしてこのような技術として、野外での調査において、調査地点の景観を撮影したビデオ映像から取り込んだ静止画、またＧＰＳにより取得した調査地点の位置データ、調査時の時間データ、調査時にライトペンで記入したコメントから、観測データを生成するシステムが特許文献１に開示されている。
また、下水管などの管路内部の点検において、予め点検箇所の状況を表す単語を登録しておき、点検時にオペレータがタッチパネルにより選択した単語を点検地点の静止画と関連付けて記憶し、表示するシステムが特許文献２に開示されている。
【特許文献１】特開平８−９７９２７号公報
【特許文献２】特開２００４−６９７１１号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
しかしながら、上述の特許文献１の技術では、調査地点の状況や、ＧＰＳから取得した位置情報を、調査者が、ライトペンで記入して観測データを作成するため、記入時間と手間がかかり、またヒューマンエラーによる入力ミスも発生しやすい。
また、上述の特許文献２の技術では、登録されている単語が多数ある場合、入力するべき単語を選択するのに時間と手間がかかり、また、誤操作により誤った単語が入力される恐れがある。さらに、入力したい単語が登録されていない場合、その場で単語を登録するか、手で単語を入力することになり、時間と手間がかかってしまう。
つまり、ビデオ映像を用いた屋外の調査・点検業務における、作業結果である調査報告書等を作成するにあたり、従来技術の手法では記録時間と手間を要し非効率であり、また調査報告書としてビデオカメラで撮影した映像のうちのある特定の静止画像を利用しているため、ビデオカメラで撮影した映像が有効に利用されていない。
【０００４】
そこでこの発明は、調査報告のデータを作成する効率化を図り、ビデオ映像を有効利用することのできる録画録音情報処理装置及び録画録音情報処理方法並びにそのプログラム、録画録音情報処理システムを提供することを目的としている。
【課題を解決するための手段】
【０００５】
上記目的を達成するために、本発明は、被写体を撮影して録画する撮影手段と、録音する音を集音する集音手段と、前記被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号を受け付ける発話区間指定受付手段と、撮影時の音と前記発話区間開始信号と発話区間終了信号とを録音する録音手段と、前記発話区間開始信号と前記発話区間終了信号を受け付けた期間に前記ユーザが発した音声の信号に基づいて当該音声に対応する文字列を認識する音声認識手段と、前記発話区間毎に認識した文字列と、当該発話区間の前記発話区間開始信号の録音時の発話区間開始時刻と、その発話区間の識別情報とを少なくとも対応付けた再生時刻特定テーブルを生成する再生時刻特定テーブル生成手段と、前記認識した文字列を前記発話区間毎に表示する発話文字列表示手段と、前記発話区間の識別情報の指定を受け付ける発話区間指定受付手段と、前記発話区間の識別情報に対応する前記発話区間開始時刻を前記再生時刻特定テーブルから特定し、当該発話区間開始時刻からの前記録画した映像と前記録音した音を再生する再生手段と、を備えることを特徴とする録画録音情報処理装置である。
【０００６】
また本発明は、上述の録画録音情報処理装置において、所定の時間間隔毎の定期的な位置を示す定期位置情報と、前記発話区間開始信号と発話区間終了信号を受け付けた時刻の位置を示す発話時位置情報とを特定する位置情報取得手段と、前記発話時位置情報と前記発話区間の識別情報を少なくとも対応付けた位置情報テーブルを生成する位置情報テーブル生成手段と、前記定期位置情報に基づく前記ユーザの移動した軌跡と、前記軌跡上において前記発話時位置情報に基づく位置を特定する発話時位置特定画像とを出力する軌跡・発話位置出力手段と、を備えることを特徴とする。
【０００７】
また本発明は、上述の録画録音情報処理装置において、前記発話時位置特定画像の指定を受け付けた場合に、その画像に対応する発話位置情報に対応付けられて前記位置情報テーブルに記録されている前記発話区間の識別情報を特定し、当該発話区間の識別情報に対応する前記発話区間開始時刻からの前記録画した映像と前記録音した音の再生を前記再生手段に指示する再生指示手段と、を備えることを特徴とする。
【０００８】
また本発明は、上述の録画録音情報処理装置において、前記発話区間開始信号と前記発話区間終了信号を受け付ける際に、前記集音手段から前記録音手段へ出力される音を遮断する集音遮断手段とを備え、前記録音手段は、前記音の遮断中に、前記前記発話区間開始信号と前記発話区間終了信号の音のみを録音することを特徴とする。
【０００９】
また本発明は、上述の録画録音情報処理装置において、前記発話文字列表示手段は、前記認識した文字列とその文字列を発話した前記発話区間の識別情報とを前記発話区間毎に表示する際に、当該文字列が予め記憶する対象文字列に該当する場合には、その文字列に特化した表示を、その文字列を認識した発話区間についてのみ行うことを特徴とする。
【００１０】
また本発明は、録画録音情報処理装置における録画録音情報処理方法であって、撮影手段が、被写体を撮影して録画し、集音手段が、録音する音を集音し、発話区間指定受付手段が、前記被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号を受け付け、録音手段が、撮影時の音と前記発話区間開始信号と発話区間終了信号とを録音し、音声認識手段が、前記発話区間開始信号と前記発話区間終了信号を受け付けた期間に前記ユーザが発した音声の信号に基づいて当該音声に対応する文字列を認識し、再生時刻特定テーブル生成手段が、前記発話区間毎に認識した文字列と、当該発話区間の前記発話区間開始信号の録音時の発話区間開始時刻と、その発話区間の識別情報とを少なくとも対応付けた再生時刻特定テーブルを生成し、発話文字列表示手段が、前記認識した文字列を前記発話区間毎に表示し、発話区間指定受付手段が、前記発話区間の識別情報の指定を受け付け、再生手段が、前記発話区間の識別情報に対応する前記発話区間開始時刻を前記再生時刻特定テーブルから特定し、当該発話区間開始時刻からの前記録画した映像と前記録音した音を再生することを特徴とする録画録音情報処理方法である。
【００１１】
また本発明は、上述の録画録音情報処理方法において、位置情報取得手段が、所定の時間間隔毎の定期的な位置を示す定期位置情報と、前記発話区間開始信号と発話区間終了信号を受け付けた時刻の位置を示す発話時位置情報とを特定し、位置情報テーブル生成手段が、前記発話時位置情報と前記発話区間の識別情報を少なくとも対応付けた位置情報テーブルを生成し、軌跡・発話位置出力手段が、前記定期位置情報に基づく前記ユーザの移動した軌跡と、前記軌跡上において前記発話時位置情報に基づく位置を特定する発話時位置特定画像とを出力することを特徴とする。
【００１２】
また本発明は、録画録音情報処理装置のコンピュータを、被写体を撮影して録画する撮影手段、録音する音を集音する集音手段、前記被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号を受け付ける発話区間指定受付手段、撮影時の音と前記発話区間開始信号と発話区間終了信号とを録音する録音手段、前記発話区間開始信号と前記発話区間終了信号を受け付けた期間に前記ユーザが発した音声の信号に基づいて当該音声に対応する文字列を認識する音声認識手段、前記発話区間毎に認識した文字列と、当該発話区間の前記発話区間開始信号の録音時の発話区間開始時刻と、その発話区間の識別情報とを少なくとも対応付けた再生時刻特定テーブルを生成する再生時刻特定テーブル生成手段、前記認識した文字列を前記発話区間毎に表示する発話文字列表示手段、前記発話区間の識別情報の指定を受け付ける発話区間指定受付手段、前記発話区間の識別情報に対応する前記発話区間開始時刻を前記再生時刻特定テーブルから特定し、当該発話区間開始時刻からの前記録画した映像と前記録音した音を再生する再生手段、として機能させるためのプログラムである。
【００１３】
また本発明は、上述のプログラムの処理に加え、さらに前記コンピュータを、所定の時間間隔毎の定期的な位置を示す定期位置情報と、前記発話区間開始信号と発話区間終了信号を受け付けた時刻の位置を示す発話時位置情報とを特定する位置情報取得手段、前記発話時位置情報と前記発話区間の識別情報を少なくとも対応付けた位置情報テーブルを生成する位置情報テーブル生成手段、前記定期位置情報に基づく前記ユーザの移動した軌跡と、前記軌跡上において前記発話時位置情報に基づく位置を特定する発話時位置特定画像とを出力する軌跡・発話位置出力手段、として機能させるためのプログラムである。
【００１４】
また本発明は、撮影装置と、再生位置信号挿入装置と、情報処理装置とからなる録画録音情報処理システムであって、前記再生位置信号挿入装置が、被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号の発信指示を受け付けて発信する信号発信手段、を備え、前記撮影装置が、被写体を撮影して録画する撮影手段と、録音する音を集音する集音手段と、前記被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号を受け付ける発話区間指定受付手段と、撮影時の音と前記発話区間開始信号と発話区間終了信号とを録音する録音手段と、を備え、前記情報処理装置が、前記発話区間開始信号と前記発話区間終了信号を受け付けた期間に前記ユーザが発した音声の信号に基づいて当該音声に対応する文字列を認識する音声認識手段と、前記発話区間毎に認識した文字列と、当該発話区間の前記発話区間開始信号の録音時の発話区間開始時刻と、その発話区間の識別情報とを少なくとも対応付けた再生時刻特定テーブルを生成する再生時刻特定テーブル生成手段と、前記認識した文字列を前記発話区間毎に表示する発話文字列表示手段と、前記発話区間の識別情報の指定を受け付ける発話区間指定受付手段と、前記発話区間の識別情報に対応する前記発話区間開始時刻を前記再生時刻特定テーブルから特定し、当該発話区間開始時刻からの前記録画した映像と前記録音した音を再生する再生手段と、を備えることを特徴とする録画録音情報処理システムである。
【００１５】
また本発明は、上述の録画録音情報処理システムにおいて、位置情報取得装置を有し、当該位置情報取得装置が、所定の時間間隔毎の定期的な位置を示す定期位置情報と、前記発話区間開始信号と発話区間終了信号を受け付けた時刻の位置を示す発話時位置情報とを特定する位置情報取得手段を備え、前記情報処理装置が、前記発話時位置情報と前記発話区間の識別情報を少なくとも対応付けた位置情報テーブルを生成する位置情報テーブル生成手段と、前記定期位置情報に基づく前記ユーザの移動した軌跡と、前記軌跡上において前記発話時位置情報に基づく位置を特定する発話時位置特定画像とを出力する軌跡・発話位置出力手段と、をさらに備えることを特徴とする。
【発明の効果】
【００１６】
本発明によれば、端末の処理として、映像再生開始テーブルを表示して、その映像再生開始テーブルから指定された発話区間の映像を再生することができるので、ユーザは、モニタに表示された映像再生開始テーブル内の文字列を見ながら、映像データにおけるどの被写体のどのような状況を撮影したものかを直ちに判定することができるとともに、その文字列に対応する撮影内容を直ちに視聴することができる。従って、端末の各処理行うアプリケーションプログラムを当該端末に登録し、撮影したデータを保存して、さらに、各生成したデータを保存することにより、調査結果としての利便性を高めることができる。また、直感的に発した言葉を音声認識技術により調査結果の情報として自動的に取り込むことができるので、入力時間の削減等、ユーザの労力を軽減することができる。
【００１７】
また、本発明によれば、軌跡描画画面上にユーザの移動軌跡を表示し、またスタート地点のアイコン画像と、エンド地点のアイコン画像と、発話開始位置を示すアイコン画像を表示している。そして、地図データに、軌跡描画画面を合成して、モニタに表示する。これによりユーザは調査時におけるユーザの移動軌跡と、発話開始の地点を容易に把握することができる。また、マウスなどで指定された画面上の位置が、軌跡描画画面におけるアイコン画像の図形領域の位置に一致したと判定した場合には、その画像に対応する発話区間の開始時刻を読み取り、当該開始時刻からの再生処理を開始する。従って、この処理によれば、ユーザは、どの地点においてどのような発話をしたかの把握や、その撮影映像の確認を短時間で行うことができるので、調査報告として使い勝手の良いデータを生成することができる。
【発明を実施するための最良の形態】
【００１８】
以下、本発明の一実施形態による録画録音情報処理システムを図面を参照して説明する。
図１は同実施形態による録画録音情報処理システムの構成を示すブロック図である。
この図が示すように、録画録音情報処理システムは、再生位置信号挿入装置１、ビデオカメラ等の撮影装置２、ＰＣ（Personal Computer）等の端末３（情報処理装置）、位置情報特定装置４（ＧＰＳ装置）が通信ケーブルによって接続されて構成されたものである。録画録音情報システムは図１で示した破線部内の位置情報特定装置４と端末３内の２つの処理部を有する場合と、有しない場合とで２つの実施形態に分けることができる。まず録画録音情報システムが、図１で示した破線部内の位置情報特定装置４と端末３内の２つの処理部を有しない場合の実施形態について説明する。なお、本実施形態においては、再生位置信号挿入装置１と撮影装置２と端末３が通信ケーブルで接続されて構成されたものであるが、再生位置信号挿入装置１と撮影装置２と端末３の機能が１つの装置内に備えられているようにしても良いし、撮影装置２と端末３の機能が１つの装置内に備えられているようにしても良い。また、再生位置信号挿入装置１、ビデオカメラ等の撮影装置２、位置情報特定装置４（ＧＰＳ装置）が有線または無線により接続され、位置情報特定装置４から端末３へのデータの受け渡しを、メモリカード等の記録媒体を介して行うようにしてもよい。
【００１９】
（実施形態１）
実施形態１の録画録音情報システムにおいては、再生位置信号挿入装置１が、出力部１１、集音部１２、発話区間指定受付部１３、集音遮断部１４を備えている。ここで、再生位置信号挿入装置１は、ユーザが手で携帯するものであり、複数のボタンを備え、当該ボタンのうち所定のボタンが押下されると、発話区間指定受付部１３がそれを検出し、所定の音信号＜本実施形態においてはＤＴＭＦ（Dual-Tone Multi-Frequency）信号＞を撮影装置２へ出力する。なお、本実施形態においては、発話開始ボタンと発話終了ボタンが同一のボタン（以下、発話開始・終了ボタンと呼ぶ）であり、またこれとは別に、発話取り消しボタンが取り付けられている。そして、発話開始・終了ボタンが押下されると、発話開始・終了ボタンに対応するＤＴＭＦ信号が撮影装置２へ出力される。また発話取り消しボタンでは、他のＤＴＦＭ信号が送信されることとなる。具体的には再生位置信号挿入装置１には０〜９のプッシュボタンが取り付けられており、「０」が発話開始・終了ボタン、「１」が発話取り消しボタンであり、それぞれを押下すると、電話機同様に、「０」の数字を示すＤＴＭＦ信号、または「１」を示すＤＴＭＦ信号が出力される。なお、どのボタンがどの意味を持つボタンとなるかは一例であり、これに限らない（例えば、発話開始ボタンを「０」、発話終了ボタンを「１」、発話取り消しボタンを「２」とするなど）。また集音部１２にはマイクが接続されており、マイクからの信号を集音部１２が受け付ける。また集音遮断部１４は、発話区間指定受付部１３が発話開始・終了ボタンの押下を検出すると、マイクからの信号の撮影装置２への出力を遮断する処理を行う。例えば、回路の切替スイッチを、マイクからの信号の出力から、発話区間指定受付部１３からのＤＴＭＦ信号の出力へ切り替える。
【００２０】
撮影装置２は、市販されているビデオカメラであり、再生位置信号挿入装置１からの信号の入力を受け付け、また端末３へ情報を送信する入出力部２１と、端末３内の各処理部を制御する制御部２２、被写体の撮影を行う撮影部２３、マイクから再生位置信号挿入装置１を介して受信した音の信号を録音する録音部２４、撮影により取得した映像データや、受信した音の録音データ等を記憶する記憶部２５と、を備えている。なお映像データや録音データには、撮影開始時からの経過時間または撮影時の時刻の情報が格納されているものとする。
【００２１】
端末３は、撮影装置からの情報の入力を行う入力部３０１、各処理部を制御する制御部３０２、撮影装置２から受信した録音データの中かからユーザの発する音声の文字列を認識する音声認識処理部３０３、音声認識のためのデータを記憶する認識辞書記憶部３０４、撮影装置２から受信した映像データを記憶する映像データ記憶部３０５、撮影装置２から受信した録音データを記憶する録音データ記憶部３０６、ユーザが発話した際の映像を再生するために利用される再生時刻特定テーブルを生成する再生時刻特定テーブル生成部３０８、再生時刻特定テーブルを記憶する再生時刻特定テーブル記憶部３０９、音声認識した文字列等を表示する発話情報表示部３０９、発話情報表示部３０９から特定の音声認識した文字列の指定を受け付ける発話情報指定受付部３１０、指定された文字列をユーザが発した際の映像を再生する映像再生部３１１、とを備えている。なお、本実施形態においては音声認識の精度を上げるために認識辞書記憶部３０４を備えているが、特に備えなくても実施可能である。
【００２２】
そして、本実施形態による録画録音情報処理システムでは、まず、再生位置信号挿入装置１が、被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号の発信指示を受け付けて当該信号を発信し、撮影装置２が、被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号を受け付けて、撮影時の音と発話区間開始信号と発話区間終了信号の音とを録音する。そして、端末３は撮影装置２から映像データと録音データを受信すると、まず、発話区間開始信号と発話区間終了信号を受け付けた期間にユーザが発した音声の信号に基づいて当該音声に対応する文字列を認識し、発話区間毎に認識した文字列と、当該発話区間における発話区間開始信号の受信時の発話区間開始時刻と、その発話区間の識別情報とを少なくとも対応付けた再生時刻特定テーブルを生成し、認識した文字列とその文字列を発話した発話区間の識別情報とを発話区間毎に表示する。そして、発話区間の識別情報の指定を受け付け、当該発話区間の識別情報に対応する発話区間開始時刻を再生時刻特定テーブルから特定して、当該発話区間開始時刻からの録画した映像と録音した音を再生する処理を行う。
【００２３】
次に、録画録音情報システムの処理フローについて説明する。
図２は実施形態１における録画録音情報システムの処理フローを示す図である。
まず、ユーザは、マイクを再生位置信号挿入装置１の入力端子に接続し、また、当該再生位置信号挿入装置１の出力ケーブルを撮影装置２の入力端子に接続する。そして、再生位置信号挿入装置１と撮影装置２を携帯して、調査対象の被写体を撮影する（ステップＳ１０１）。そして、被写体を撮影しながら、調査状況の説明をマイクに入力する。さらに、ユーザは、調査報告として特に重要な被写体の状況を撮影した場合には、再生位置信号挿入装置１の発話開始・終了ボタンを押下し（ステップＳ１０２）、その被写体の状況をマイクに向かって発音して入力する（ステップＳ１０３）。そして被写体の状況説明をし終えると発話開始・終了ボタンを押下する（ステップＳ１０４）。なお、発話開始・終了ボタンの２回の押下の間を発話区間と呼ぶ。そしてこの発話区間の間に、ユーザは、例えば、被写体の対象物、被写体状況、対応方法の単語を、それぞれ間隔をあけて発話する。なお、本実施形態においては被写体の対象物、被写体状況、対応方法の単語の順に端末３が音声を認識するので、その順番で発話することが必要となる。
【００２４】
再生位置信号挿入装置１は、撮影装置２が被写体を撮影している間、集音部１２がマイクから集音した音の信号を撮影装置２へ出力する。しかしながら、発話区間指定受付部１３は、発話開始・終了ボタンの押下を検出した場合には、マイクからの音の撮影装置２の出力を、発話開始・終了ボタンの押下時に発生するＤＴＭＦ信号の出力へと切り替えて出力する。発話開始・終了ボタンに対応するＤＴＭＦ信号が出力していない時間には、マイクにより集音した信号を撮影装置２に出力している。そして、撮影装置２においては撮影部２３がユーザの操作によって被写体を撮影しその映像データを記憶部２５に記録し（ステップＳ１０５）、また、再生位置信号挿入装置１から受信した音の信号（マイクにより集音した音と、ＤＴＭＦ信号の音）による録音データを記憶部２５に記録する（ステップＳ１０６）。再生位置信号挿入装置１が、マイクからの音を遮断して、ＤＴＭＦ信号のみを撮影装置２へ出力することで、撮影装置２ではＤＴＭＦ信号の音がクリアに録音され、これにより、発話区間の検出を容易にすることが可能となる。
【００２５】
図３は端末の処理概要を示す図である。
図４は信号録音時刻テーブルを示す図である。
図５は発話区間の特定処理の概要を示す図である。
ユーザは複数の調査対象の被写体を撮影し、またマイクからその状況の説明を入力して、撮影を終了し、その後、端末３を操作して撮影装置２の記憶部２５に記録されている映像データと録音データを当該端末３へ読み込ませる（ステップＳ１０７）。映像データは映像データ記憶部３０５へ、また録音データは録音データ記憶部３０６へ格納される。そして、ユーザが端末３に処理開始の指示を入力する。次に端末３では、音声認識処理部３０３が、録音データ記憶部３０６から録音データを読み取り、当該録音データからＤＴＭＦ信号（発話区間開始信号または発話区間終了信号）が記録されている経過時刻と信号の種類を特定する（ステップＳ１０８）。なお、このＤＴＭＦ信号は２つの周波数を組み合わせた音の信号である。従って、具体的には高速フーリエ変換により２つの周波数を特定し、このＤＴＭＦ信号が、発話開始・終了ボタンの押下時を示す発話区間開始信号や発話区間終了信号を示す信号であるか、または発話取り消しボタンの押下時を示す発話取り消し信号であるかを特定する。
【００２６】
次に、音声認識処理部２０３は、録音データに格納されている時刻の情報から、発話区間開始信号や発話区間終了信号や、発話取り消し信号となるＤＴＭＦ信号の録音を行った録音時刻を特定し、発話区間開始信号・発話区間終了信号である旨を示すＩＤや、発話区間取り消し信号である旨を示すＩＤをとその録音時刻とを対応付けた信号録音時刻テーブル（図４）を生成する（ステップＳ１０９）。ここで、発話区間開始信号・発話区間終了信号である旨を示すＩＤを「０」、発話区間取り消し信号である旨を示すＩＤを「１」とする。そして、図５で示すように、録音時刻の順に、奇数番目の発話区間開始信号・発話区間終了信号を示すＩＤ「０」の時刻から、偶数番目の発話区間開始信号・発話区間終了信号を示す次のＩＤ「０」の時刻まで１つの組合せを、１つの発話区間と特定し、その発話区間に対応する録音データ中のデータをコピーして、発話区間の音声データを生成する（ステップＳ１１０）。発話区間取り消し信号である旨を示すＩＤ「１」が、信号録音時刻テーブルに記録されている場合には、その前の２つのＩＤ「０」に対応する発話区間開始信号から発話区間終了信号までの発話区間については、取り消されたものとして発話区間の音声データのファイル生成の処理は行わない。なお、発話区間開始信号である旨を示すＩＤを「０」、発話区間終了信号である旨を示すＩＤを「１」、発話区間取り消し信号である旨を示すＩＤを「２」として、発話区間開始信号「０」の時刻から、次の発話区間終了信号を示すＩＤ「１」の時刻まで１つの組合せを１つの発話区間と特定するようにしてもよい。
【００２７】
そして、音声認識処理部３０３は、発話区間の音声データに記録されている音声信号の周波数と、認識辞書記憶部３０４に記録されている各文字列の周波数とを比較して、一致または近似な周波数に対応付けられて認識辞書記憶部３０４に記録されている文字列を読み取り、認識する（ステップＳ１１１）。なお、認識辞書記憶部３０４のデータを用いずに、音声データからそのまま文字列に変換する技術を用いるようにしてもよい。また音声認識した発話区間の音声データの先頭の時刻に対応する静止画像を、映像データ記憶部３０５に格納されている映像データから読み取る。そして、１つの発話区間の音声データに対して、インデックスＩＤを割り振り、インデックスＩＤ、その発話区間の発話区間開始時刻、その開始時刻の静止画像、認識した文字列を、発話区間毎に記録した再生時刻特定テーブルを生成する（ステップＳ１１２）。なお、音声認識処理部３０３は、発話区間の中に、時間間隔を空けて発話されている音声を別々に認識して、それら複数の文字列を分けて、再生時刻特定テーブルのカラムに書き込む。本実施形態においては項目１〜項目３までの３つの文字列を、発話区間において時間間隔を空けて録音されている３つの音声から認識して再生時刻特定テーブルに書き込んでいる。これにより、調査における状況説明では、『チェッカープレート』，『腐食』，『観察必要』など、どこの部材が、どのような状況であり、どのような処置が必要かを、別々に登録することができる。なお、いくつの文字列を認識できるかは、プログラムの作り次第である。再生時刻特定テーブル生成部３０８は、生成した再生時刻特定テーブルのファイル名を、映像データのファイル名と同一にして、再生時刻特定テーブル記憶部３０７に記録する。
【００２８】
図６は再生時刻特定テーブルの例を示す図である。
この図が示すように、再生時刻特定テーブルは、インデックスＩＤ、発話区間の開始時刻の静止画像、発話区間の開始時刻、発話区間において認識した文字列（項目１〜項目３）を対応付けて、発話区間ごとに記録している。
【００２９】
再生時刻特定テーブルの作成が終了すると、次に、発話情報表示部３０９が、再生時刻特定テーブルを読み込み、インデックスＩＤと、認識した文字列（項目１〜項目３）と、を発話区間毎に示したマトリックス状の映像再生開始テーブルを生成して、端末３のモニタに表示する（ステップＳ１１３）。このとき発話情報表示部３０９は、文字列が重要文字列として記憶部などに登録されている場合には、その文字列を含む発話区間のカラムを、色をつけて表示するようにしてもよい。これにより、調査対象の重要な項目をすぐに見分けることが可能となる。
【００３０】
図７は映像再生開始テーブルを表示した表示画面の例を示す図である。
そして、ユーザは、図７で示すような表示画面に表示されている映像再生開始テーブルにおいて、インデックスＩＤと文字列（項目１〜項目３）とタイムレコードとを対応付けた、ある発話区間のカラムを、マウス等を用いて指定することで、その発話区間の開始時刻からの映像再生を行うことができる。発話区間のカラムの指定を受け付けると（ステップＳ１１４）、そのインデックスＩＤを発話情報指定受付部３１０が取得し、当該インデックスＩＤに基づいて、再生時刻特定テーブルから、その発話区間の開始時刻を読み取る。そして、映像再生部３１１が、映像データ記憶部３０５と録音データ記憶部３０６から映像データと録音データとを読み取り、指定された発話区間の開始時刻からの再生処理を開始する（ステップＳ１１５）。
【００３１】
以上の処理によれば、端末の処理として、映像再生開始テーブルを表示して、その映像再生開始テーブルから指定された発話区間の映像を再生することができるので、ユーザは、モニタに表示された項目１〜項目３の文字列を見ながら、映像データにおけるどの被写体のどのような状況を撮影したものかを判定することができるとともに、その文字列に対応する撮影内容を直ちに視聴することができる。従って、上述の処理を端末に行わせるアプリケーションプログラムを登録し、撮影したデータを保存して、さらに、上記生成したデータを保存することにより、調査結果としての利便性を高めることができる。また、直感的に発した言葉を音声認識技術により調査結果の情報として自動的に取り込むことができるので、入力時間の削減等、ユーザの労力を軽減することができる。
【００３２】
（実施形態２）
実施形態２の録画録音情報システムにおいては、実施形態１で説明した各装置に加え、さらに、図１で示す破線内の位置情報特定装置４を備える。また端末３内に、破線内で示す位置情報テーブル生成部３１３、軌跡・発話位置出力部３１４、位置情報テーブル記憶部３１５を備える。位置情報特定装置４はＧＰＳ（Global Positioning System）装置であり、入出力部４１、制御部４２、ＧＰＳ衛星からの信号受信により緯度経度を算出する位置情報取得部４３、再生位置信号挿入装置１から発話開始・終了ボタンの押下または発話取り消しボタンのどちらが押下されたのかの押下ボタン識別情報を受信する発話区間取得部４４、ＧＰＳ衛星からの信号により算出した移動経度とＤＴＭＦ信号を受信した時刻等を記憶する取得データ記憶部４５を備えている。
【００３３】
図８は位置情報特定装置の処理概要を示す図である。
図９は実施形態２における録画録音情報システムの処理フローを示す図である。
本実施形態２においては、まず、位置情報特定装置４の位置情報取得部４３が、ＧＰＳからの信号を受信して、当該信号に基づいて、図８で示すように、定期的に緯度経度の座標情報を算出して、定期取得を示すＩＤ（本実施形態においては「３」）と、算出した座標情報と、ＧＰＳからの信号を受信した時刻とを対応付けて取得データ記憶部４５に記録し（ステップＳ２０１）、発話区間取得部４４が、再生位置信号挿入装置１から発話開始・終了ボタンや、発話取り消しボタンのいずれかを示す押下ボタン識別情報を受信して、その押下ボタン識別情報を示すＩＤ（発話開始・終了ボタンの場合は「０」，発話取り消しボタンの場合は「１」）と受信時刻とその時刻における座標情報を対応付けて取得データ記憶部４５に記録する（ステップＳ２０２）。取得データ記憶部４５に記録されたデータを位置情報データと呼ぶ。本実施形態においては、ＧＰＳからの信号の受信は６０秒おきとするが、どのような間隔であってもよい。そして、撮影終了後に位置情報特定装置４と端末３とをケーブル等で接続し、ユーザの操作により、位置情報特定装置４で取得した位置情報データを端末３に読み取らせる（ステップＳ２０３）。この位置情報データは、位置情報テーブル生成部３１３がメモリ等に記録する。
【００３４】
次に、実施形態２においては、ユーザの処理開始の指示を受け付けるとことにより、実施形態１のステップＳ１０１〜ステップＳ１１３と同様の処理を行う。また位置情報テーブル生成部３１３が、メモリに一時記録した位置情報データを読み取り、当該位置情報テーブルより、押下ボタン識別情報のＩＤ「０」となっている奇数番目と偶数番目の記録のうち、発話区間開始時刻に対応する奇数番目の記録時刻とその座標情報とを読み取り、押下ボタン識別情報のＩＤ「０」の場合には「２」というＩＤを割り当てて、当該「２」と発話区間開始時刻と座標情報と、ステップＳ１１２において映像再生開始テーブル生成時に割り振ったインデックスＩＤとを対応付けた位置情報テーブルを生成する（ステップＳ２０４）。なお、インデックスＩＤは、映像再生開始テーブル生成時に割り振ったインデックスＩＤの順番どおりに割り当てればよい。
【００３５】
また、端末３は、ユーザが撮影しながら調査のために移動した際の移動軌跡を描く長方形の地図のデータにおいて、左上と右下の緯度経度の情報の入力を受け付ける。そして、位置情報テーブルの生成が完了すると、軌跡・発話位置出力部３１４が、幅ｗ，高さｈの軌跡描画画面をモニタに表示する（ステップＳ２０５）。そして、当該軌跡描画画面における左上と右下の緯度経度をユーザから入力を受け付けた緯度経度と仮定して、当該軌跡描画画面においてユーザが移動した軌跡の対応座標を、位置情報データおいて、定期取得を示すＩＤ「３」に対応付けられて記録されている座標情報に基づいて算出する。ここで、ユーザの移動した実座標に対応する、軌跡描画画面における対応座標を（ｘ，ｙ）とすると、
ｘ＝｛ｗ×（実際の経度−画面左上に対応する経度）／（画面右下に対応する経度−画面左上に対応する経度）｝
ｙ＝｛ｈ×（画面左上に対応する緯度−実際の緯度）／（画面左上に対応する緯度−画面右下に対応する緯度）｝
により算出することができる。
【００３６】
そして、軌跡・発話位置出力部３１４は、ユーザの移動した軌跡を、軌跡描画画面に表示する（ステップＳ２０６）。また軌跡・発話位置出力部３１４は、位置情報テーブルにおいて、発話開始を示すＩＤ「２」に対応付けられて記録されている座標情報を読み取り、当該座標に対応する軌跡描画画面上の座標を上記式により算出する。そして、その発話区間開始時刻にユーザが位置した座標に対応する軌跡描画画面上の座標に、発話開始位置を示すアイコン画像を表示し（ステップＳ２０７）、また位置情報データおいて、定期取得を示すＩＤ「３」に対応付けられて記録されている最初と最後の座標情報を読み取り、その座標に対応する軌跡描画画面上の座標に、スタート地点のアイコン画像と、エンド地点のアイコン画像とを表示する（ステップＳ２０８）。本実施形態のいては、ユーザの移動軌跡の上に、発話開始位置を示すアイコン画像として楕円の画像を出力し、またスタート地点とエンド地点の画像としてスタートマーク、エンドマークを示す特有の画像を出力している。
【００３７】
図１０は軌跡描画画面を示す図である。
この図が示すように、軌跡・発話位置出力部３１４は、軌跡描画画面上にユーザの移動軌跡を表示し、またスタート地点のアイコン画像と、エンド地点のアイコン画像と、発話開始位置を示すアイコン画像を表示している。
【００３８】
図１１は地図データに軌跡描画画面を合成した例を示す図である。
また、軌跡・発話位置出力部３１４は、地図のデータを受け付ける（ステップＳ２０９）。例えば地図の画像をスキャナで読み込んだものを読み込んでも良いし、地図データとして記録されているものを読み込んでも良い。この地図データは、左上と右下の緯度経度がユーザより入力を受け付けた緯度経度に対応するものである。そして、図１１で示すように、入力を受け付けた地図データに、軌跡描画画面を合成して、モニタに表示する（ステップＳ２１０）。これによりユーザは調査時におけるユーザの移動軌跡と、発話開始の地点を容易に把握することができる。また、この他、地図データの基準点の緯度経度と、軌跡のデータや、発話位置のデータやその発話開始位置のアイコン画像を、地図表示プログラムに対して転送し、当該地図表示プログラムが、受け付けた基準点の緯度経度に基づいてデータベースから取り出し地図データに、ユーザの移動軌跡や、発話開始位置のアイコン画像等を表示するようにしてもよい。
【００３９】
また、軌跡・発話位置出力部３１４は、発話開始位置を示すアイコン画像（楕円）の、軌跡描画画面における図形領域と、その発話開始位置に対応するインデックスＩＤとを対応付けた発話位置指定テーブルを生成してメモリで保持する。そして、発話情報指定受付部３１０は、マウスなどの指定位置が、軌跡描画画面における図形領域の位置に一致したと判定した場合には（ステップＳ２１１）、発話位置指定テーブルからインデックスＩＤを読み取って、当該インデックスＩＤに基づいて、再生時刻特定テーブルから、その発話区間の開始時刻を読み取る。そして、映像再生部３１１が、映像データ記憶部３０５と録音データ記憶部３０７から映像データと録音データとを読み取り、指定された発話区間の開始時刻からの再生処理を開始する（ステップＳ２１２）。この処理によれば、ユーザは、どの地点においてどのような発話をしたかの把握や、その撮影映像の確認を短時間で行うことができるので、調査報告として使い勝手の良いデータを生成することができる。
【００４０】
次に、録音データの録音・再生手法について説明する。
上述の処理によれば、ユーザからの発話区間の指定により映像や音声を再生する際には、端末３の録音データ記憶部３０６に記録されている録音データを用いて再生している。ここで、この録音データには発話区間開始信号と発話区間終了信号などのＤＴＭＦ信号が記録されている。そしてこのＤＴＭＦ信号は、マイクから入力される音を遮断して録音データに記録されているため、録音データを再生すると、クリアなＤＴＭＦ信号の音が出力される。そして、発話区間が多いと再生中に何度も信号音が鳴り、耳障りとなる。従って、このＤＴＭＦ信号の信号音を消去する仕組みが必要である。また、発話区間開始信号と発話区間終了信号などのＤＴＭＦ信号の検出精度の向上がさらに必要な場合がある。このような場合には、撮影装置２の仕様がボタン信号音を左、発話音声を右として録音できれば（例えば、ボタン信号音を撮影装置２の音声トラックの左チャネル、発話音声を右チャネルとして録音できれば）そのように録音し、撮影装置２から端末３への出力形式をステレオと設定し、またＤＴＭＦ信号の検出対象が左チャネルと設定する。また端末３においては、左側のラインから、ＤＴＭＦ信号の検出を行う。これにより、環境音が全く無く、ＤＴＭＦ信号音のみが存在する音声ファイルから精度良くＤＴＭＦ信号を検出することができる。また、ＤＴＭＦ信号検出後に発話音声が入っている右側のラインを映像と合成して再生させることにより、再生時にＤＴＭＦ信号の音が入っていない映像として再生することができる。
【００４１】
なお、上述の処理においては、調査対象の調査報告のデータを作成する際の処理に利用する場合について説明したが、この他、例えばハイキングや登山における撮影時や、スポーツの試合の撮影時において上記のシステムを利用し、後で映像を視聴する際に、特定の場所の映像を視聴するためのものとして利用するようにしても良い。
【００４２】
上述の各装置や端末は内部に、コンピュータシステムを有している。そして、上述した各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
【００４３】
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。
【図面の簡単な説明】
【００４４】
【図１】録画録音情報処理システムの構成を示すブロック図である。
【図２】実施形態１における録画録音情報システムの処理フローを示す図である。
【図３】端末の処理概要を示す図である。
【図４】信号録音時刻テーブルを示す図である。
【図５】発話区間の特定処理の概要を示す図である。
【図６】再生時刻特定テーブルの例を示す図である。
【図７】映像再生開始テーブルを表示した表示画面の例を示す図である。
【図８】位置情報特定装置の処理概要を示す図である。
【図９】実施形態２における録画録音情報システムの処理フローを示す図である。
【図１０】軌跡描画画面を示す図である。
【図１１】地図データに軌跡描画画面を合成した例を示す図である。
【符号の説明】
【００４５】
１・・・再生位置信号挿入装置
２・・・撮影装置
３・・・端末
４・・・位置情報特定装置

【特許請求の範囲】
【請求項１】
被写体を撮影して録画する撮影手段と、
録音する音を集音する集音手段と、
前記被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号を受け付ける発話区間指定受付手段と、
撮影時の音と前記発話区間開始信号と発話区間終了信号とを録音する録音手段と、
前記発話区間開始信号と前記発話区間終了信号を受け付けた期間に前記ユーザが発した音声の信号に基づいて当該音声に対応する文字列を認識する音声認識手段と、
前記発話区間毎に認識した文字列と、当該発話区間の前記発話区間開始信号の録音時の発話区間開始時刻と、その発話区間の識別情報とを少なくとも対応付けた再生時刻特定テーブルを生成する再生時刻特定テーブル生成手段と、
前記認識した文字列を前記発話区間毎に表示する発話文字列表示手段と、
前記発話区間の識別情報の指定を受け付ける発話区間指定受付手段と、
前記発話区間の識別情報に対応する前記発話区間開始時刻を前記再生時刻特定テーブルから特定し、当該発話区間開始時刻からの前記録画した映像と前記録音した音を再生する再生手段と、
を備えることを特徴とする録画録音情報処理装置。
【請求項２】
所定の時間間隔毎の定期的な位置を示す定期位置情報と、前記発話区間開始信号と発話区間終了信号を受け付けた時刻の位置を示す発話時位置情報とを特定する位置情報取得手段と、
前記発話時位置情報と前記発話区間の識別情報を少なくとも対応付けた位置情報テーブルを生成する位置情報テーブル生成手段と、
前記定期位置情報に基づく前記ユーザの移動した軌跡と、前記軌跡上において前記発話時位置情報に基づく位置を特定する発話時位置特定画像とを出力する軌跡・発話位置出力手段と、
を備えることを特徴とする請求項１に記載の録画録音情報処理装置。
【請求項３】
前記発話時位置特定画像の指定を受け付けた場合に、その画像に対応する発話位置情報に対応付けられて前記位置情報テーブルに記録されている前記発話区間の識別情報を特定し、当該発話区間の識別情報に対応する前記発話区間開始時刻からの前記録画した映像と前記録音した音の再生を前記再生手段に指示する再生指示手段と、
を備えることを特徴とする請求項２に記載の録画録音情報処理装置。
【請求項４】
前記発話区間開始信号と前記発話区間終了信号を受け付ける際に、前記集音手段から前記録音手段へ出力される音を遮断する集音遮断手段とを備え、
前記録音手段は、前記音の遮断中に、前記前記発話区間開始信号と前記発話区間終了信号の音のみを録音する
ことを特徴とする請求項１から請求項３のいずれかに記載の録画録音情報処理装置。
【請求項５】
前記発話文字列表示手段は、前記認識した文字列とその文字列を発話した前記発話区間の識別情報とを前記発話区間毎に表示する際に、当該文字列が予め記憶する対象文字列に該当する場合には、その文字列に特化した表示を、その文字列を認識した発話区間についてのみ行う
ことを特徴とする請求項１から請求項４に記載の録画録音情報処理装置。
【請求項６】
録画録音情報処理装置における録画録音情報処理方法であって、
撮影手段が、被写体を撮影して録画し、
集音手段が、録音する音を集音し、
発話区間指定受付手段が、前記被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号を受け付け、
録音手段が、撮影時の音と前記発話区間開始信号と発話区間終了信号とを録音し、
音声認識手段が、前記発話区間開始信号と前記発話区間終了信号を受け付けた期間に前記ユーザが発した音声の信号に基づいて当該音声に対応する文字列を認識し、
再生時刻特定テーブル生成手段が、前記発話区間毎に認識した文字列と、当該発話区間の前記発話区間開始信号の録音時の発話区間開始時刻と、その発話区間の識別情報とを少なくとも対応付けた再生時刻特定テーブルを生成し、
発話文字列表示手段が、前記認識した文字列を前記発話区間毎に表示し、
発話区間指定受付手段が、前記発話区間の識別情報の指定を受け付け、
再生手段が、前記発話区間の識別情報に対応する前記発話区間開始時刻を前記再生時刻特定テーブルから特定し、当該発話区間開始時刻からの前記録画した映像と前記録音した音を再生する
ことを特徴とする録画録音情報処理方法。
【請求項７】
位置情報取得手段が、所定の時間間隔毎の定期的な位置を示す定期位置情報と、前記発話区間開始信号と発話区間終了信号を受け付けた時刻の位置を示す発話時位置情報とを特定し、
位置情報テーブル生成手段が、前記発話時位置情報と前記発話区間の識別情報を少なくとも対応付けた位置情報テーブルを生成し、
軌跡・発話位置出力手段が、前記定期位置情報に基づく前記ユーザの移動した軌跡と、前記軌跡上において前記発話時位置情報に基づく位置を特定する発話時位置特定画像とを出力する
ことを特徴とする請求項６に記載の録画録音情報処理方法。
【請求項８】
録画録音情報処理装置のコンピュータを、
被写体を撮影して録画する撮影手段、
録音する音を集音する集音手段、
前記被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号を受け付ける発話区間指定受付手段、
撮影時の音と前記発話区間開始信号と発話区間終了信号とを録音する録音手段、
前記発話区間開始信号と前記発話区間終了信号を受け付けた期間に前記ユーザが発した音声の信号に基づいて当該音声に対応する文字列を認識する音声認識手段、
前記発話区間毎に認識した文字列と、当該発話区間の前記発話区間開始信号の録音時の発話区間開始時刻と、その発話区間の識別情報とを少なくとも対応付けた再生時刻特定テーブルを生成する再生時刻特定テーブル生成手段、
前記認識した文字列を前記発話区間毎に表示する発話文字列表示手段、
前記発話区間の識別情報の指定を受け付ける発話区間指定受付手段、
前記発話区間の識別情報に対応する前記発話区間開始時刻を前記再生時刻特定テーブルから特定し、当該発話区間開始時刻からの前記録画した映像と前記録音した音を再生する再生手段、
として機能させるためのプログラム。
【請求項９】
請求項８に記載の処理に加え、さらに前記コンピュータを、
所定の時間間隔毎の定期的な位置を示す定期位置情報と、前記発話区間開始信号と発話区間終了信号を受け付けた時刻の位置を示す発話時位置情報とを特定する位置情報取得手段、
前記発話時位置情報と前記発話区間の識別情報を少なくとも対応付けた位置情報テーブルを生成する位置情報テーブル生成手段、
前記定期位置情報に基づく前記ユーザの移動した軌跡と、前記軌跡上において前記発話時位置情報に基づく位置を特定する発話時位置特定画像とを出力する軌跡・発話位置出力手段、
として機能させるためのプログラム。
【請求項１０】
撮影装置と、再生位置信号挿入装置と、情報処理装置とからなる録画録音情報処理システムであって、
前記再生位置信号挿入装置が、
被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号の発信指示を受け付けて発信する信号発信手段、を備え、
前記撮影装置が、
被写体を撮影して録画する撮影手段と、
録音する音を集音する集音手段と、
前記被写体の撮影中にユーザが発話した発話区間の、発話区間開始信号と発話区間終了信号を受け付ける発話区間指定受付手段と、
撮影時の音と前記発話区間開始信号と発話区間終了信号とを録音する録音手段と、
を備え、
前記情報処理装置が、
前記発話区間開始信号と前記発話区間終了信号を受け付けた期間に前記ユーザが発した音声の信号に基づいて当該音声に対応する文字列を認識する音声認識手段と、
前記発話区間毎に認識した文字列と、当該発話区間の前記発話区間開始信号の録音時の発話区間開始時刻と、その発話区間の識別情報とを少なくとも対応付けた再生時刻特定テーブルを生成する再生時刻特定テーブル生成手段と、
前記認識した文字列を前記発話区間毎に表示する発話文字列表示手段と、
前記発話区間の識別情報の指定を受け付ける発話区間指定受付手段と、
前記発話区間の識別情報に対応する前記発話区間開始時刻を前記再生時刻特定テーブルから特定し、当該発話区間開始時刻からの前記録画した映像と前記録音した音を再生する再生手段と、
を備えることを特徴とする録画録音情報処理システム。
【請求項１１】
位置情報取得装置を有し、当該位置情報取得装置が、所定の時間間隔毎の定期的な位置を示す定期位置情報と、前記発話区間開始信号と発話区間終了信号を受け付けた時刻の位置を示す発話時位置情報とを特定する位置情報取得手段を備え、
前記情報処理装置が、
前記発話時位置情報と前記発話区間の識別情報を少なくとも対応付けた位置情報テーブルを生成する位置情報テーブル生成手段と、
前記定期位置情報に基づく前記ユーザの移動した軌跡と、前記軌跡上において前記発話時位置情報に基づく位置を特定する発話時位置特定画像とを出力する軌跡・発話位置出力手段と、をさらに備える
ことを特徴とする請求項１０に記載の録画録音情報処理システム。

【図１】