情報処理装置、ダイジェスト生成方法、及びダイジェスト生成プログラム

【課題】より適切なダイジェストを生成する。
【解決手段】情報処理装置において、所定時間撮影された１又は複数の被写体を含む映像情報及び音声情報を蓄積する蓄積部と、前記蓄積部に蓄積された映像情報及び音声情報を用いて、予め設定された１又は複数の要素に基づき、前記所定時間の時系列における所定の単位時間毎の変化量を評価し、評価された結果に基づいて１又は複数のダイジェスト候補を抽出するダイジェスト生成部と、を有し、前記ダイジェスト生成部は、前記ダイジェスト候補に対応する映像情報及び音声情報に含まれる被写体の状況又は特徴をパターン認識し、認識された結果に基づいて前記ダイジェスト候補からダイジェストを生成するパターン認識部を有する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、より適切なダイジェストを生成するための情報処理装置、ダイジェスト生成方法、及びダイジェスト生成プログラムに関する。
【背景技術】
【０００２】
従来では、例えば会議の議事録等のように、ある事象に対する情報の全体からダイジェスト（概要情報）を生成する場合がある。例えば、会議の議事録のような場合には、結論や確認事項、次回までの宿題等のアクションアイテム（以下、「Ａ．Ｉ．」と略称する）だけでなく、そこに至るまでの会議参加者の発言や会議の雰囲気等を含めた議事録を生成することが好ましいことが知られている。しかしながら、上述した議事録を生成するためには、音声や画像等のデータの収集が膨大になると共に、後から必要な部分を参照して会議概要を把握する場合には、所望の情報の検索に時間がかかってしまう。
【０００３】
そこで、従来では、発言者の音声から自動的にその文章化と要約文章を作成して議事録を作成する技術が存在する。また、従来では、会議中に発生する各参加者の発話データや映像データ等を時系列形式で蓄積し、会議の開始時刻から現時点までの発話の話速、音程又は音量等により算出される盛上り度により会議概要情報を作成する技術が存在する（例えば、特許文献１，２参照）。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開平２−２０６８２５号公報
【特許文献２】特開２００４−３５０１３４号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、上述した特許文献１に示されている技術では、議事発言者の音声から自動的にその文章化と要約文章を作成して可視化しているが、文章ベースの議事録では会議の雰囲気、発言のニュアンス等の要素を十分に捉えたり、伝えることができなかった。
【０００６】
また、特許文献２に示されている技術では、音声データにより算出される盛上りを、閾値を用いて抽出するという方法を取っているため、議事内容に関わらず盛上りの高い部分が抽出されることになる。また、この閾値は、会議の内容や参加者によって変動すると考えられ、一意に決めることはできない。したがって、このような音としての特徴にのみ注目した閾値による抽出方法では、より適切な会議概要（ダイジェスト）を正確に捉えることができなかった。
【０００７】
開示の技術は、かかる問題を鑑み、より適切なダイジェストを生成することを目的とする。
【課題を解決するための手段】
【０００８】
開示の一態様における情報処理装置は、所定時間撮影された１又は複数の被写体を含む映像情報及び音声情報を蓄積する蓄積部と、前記蓄積部に蓄積された映像情報及び音声情報を用いて、予め設定された１又は複数の要素に基づき、前記所定時間の時系列における所定の単位時間毎の変化量を評価し、評価された結果に基づいて１又は複数のダイジェスト候補を抽出するダイジェスト生成部と、を有し、前記ダイジェスト生成部は、前記ダイジェスト候補に対応する映像情報及び音声情報に含まれる被写体の状況又は特徴をパターン認識し、認識された結果に基づいて前記ダイジェスト候補からダイジェストを生成するパターン認識部を有する。
【発明の効果】
【０００９】
開示の技術によれば、より適切なダイジェストを生成することができる。
【図面の簡単な説明】
【００１０】
【図１】実施例１における会議システムの概要構成例を示す図である。
【図２】情報処理装置の機能構成例の一例を示す図である。
【図３】実施例１における各検出部の具体例を示す図である。
【図４】うなずき検出の具体例を示す図である。
【図５】居眠り判定の具体例を説明するための図である。
【図６】実施例１における画像入力部の位置、向き、画角と、視線との関係の具体例について説明するための図である。
【図７】実施例１における加算要素と減算要素の組み合わせ例を示す図である。
【図８】実施例１における点数結果とダイジェストの抽出例を示す図である。
【図９】実施例２における点数結果とダイジェストの抽出例を示す図である。
【図１０】実施例３における会議システムの概要構成例を示す図である。
【図１１】実施例３における複数の映像情報と被写体との位置関係の取得例について説明するための図である。
【図１２】ダイジェスト生成機能を搭載したＰＣの概観図である。
【図１３】ダイジェスト生成機能を搭載したＰＣのハードウェア構成例を示す図である。
【図１４】ダイジェスト生成処理の一例を示すフローチャートである。
【発明を実施するための形態】
【００１１】
以下、添付図面を参照しながら実施例について詳細に説明する。なお、以下の説明では、ある事象に対する情報の全体からダイジェスト（概要情報）を生成する例として、会議全体から議事録を生成する例について説明するが、これに限定されるものではない。
【００１２】
＜実施例１＞
図１は、実施例１における会議システムの概要構成例を示す図である。図１に示す会議システム１は、情報処理装置１０と、画像・音声取得装置２０とを有する。情報処理装置１０は、データ蓄積部１１と、ダイジェスト生成部１２と、表示部１３とを有する。また、画像・音声取得装置２０は、画像入力部２１と、音声入力部２２とを有する。
【００１３】
データ蓄積部１１は、例えばダイジェスト生成部１２におけるダイジェスト生成、及び表示部１３による表示等に必要な各種情報を蓄積する蓄積部である。また、データ蓄積部１１は、画像・音声取得装置２０の位置情報や、画像入力部２１により得られる映像情報、音声入力部２２により得られる音声情報等の各種データを蓄積する。なお、上述の映像情報は、例えば映像中に含まれる複数の画像情報（例えば、画像フレーム）を含むものとする。また、データ蓄積部１１は、ダイジェスト生成部１２において生成されたダイジェスト情報を蓄積する。
【００１４】
ダイジェスト生成部１２は、データ蓄積部１１に蓄積されている映像情報や音声情報を用いて、例えば予め設定された１又は複数の要素等に基づき、所定の単位時間毎の状況を評価する。また、ダイジェスト生成部１２は、評価結果に基づいて１又は複数のダイジェスト候補を抽出し、抽出された候補の前後の時間を含む映像情報及び音声情報を用いてダイジェストを生成する。
【００１５】
なお、ダイジェスト生成部１２は、上述した映像情報及び音声情報を用いて、予め設定された複数の要素に基づき、所定時間の時系列における所定の単位時間毎の変化量を評価し、評価された結果に基づいて１又は複数のダイジェスト候補を抽出する。そのとき、ダイジェスト生成部１２は、上述したダイジェスト候補に対応する映像情報及び音声情報に含まれる被写体をパターン認識により特定し、特定された被写体情報に基づいてダイジェスト候補からダイジェストを生成する。
【００１６】
表示部１３は、ダイジェスト生成部１２により生成されたダイジェスト情報に基づいて対応するダイジェスト映像や音声を表示する。また、表示部１３は、ダイジェスト生成処理を実行するための設定情報の入力画面や実行経過、実行結果、エラー情報等、多種の情報を表示することができる。表示部１３は、例えばディスプレイやモニタ等である。
【００１７】
画像入力部２１は、所定の画角に基づく周囲の画像（映像も含む）を取得する。なお、映像とは、時系列に配列された複数の画像を含むものである。また、画像入力部２１は、例えばＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）等の撮像素子を有する撮像手段である。音声入力部２２は、周囲の音声を取得する。なお、音声入力部２２は、例えばマイク等である。
【００１８】
ここで、画像入力部２１及び音声入力部２２は、情報処理装置１０内に含まれていてもよく、またそれぞれが別体に設けられていてもよい。また、画像入力部２１及び音声入力部２２は、例えばデジタルカメラやビデオカメラ等の撮像手段を用いることもできる。更に、図１に示すデータ蓄積部１１には、複数の画像・音声取得装置２０を接続し、接続した各装置からの映像情報及び音声情報を取得するようにしてもよい。このとき、複数の画像・音声取得装置２０は、例えば各装置の識別情報を含む映像情報及び音声情報を情報処理装置１０に出力する。これにより、情報処理装置１０は、映像情報や音声情報等を各装置の識別情報に基づいて管理することができる。
【００１９】
＜情報処理装置１０：機能構成例＞
次に、情報処理装置の機能構成例について図を用いて説明する。図２は、情報処理装置の機能構成例の一例を示す図である。図２に示す情報処理装置１０は、図１と同様にデータ蓄積部１１と、ダイジェスト生成部１２と、表示部１３とを有する。データ蓄積部１１は、位置情報蓄積部３１と、画像情報蓄積部３２と、音声情報蓄積部３３と、ダイジェスト情報蓄積部３４とを有する。また、ダイジェスト生成部１２は、顔検出部４１と、視線方向検出部４２と、うなずき検出部４３と、居眠り検出部４４と、発言者検出部４５と、盛上り検出部４６と、演算処理部４７と、パターン認識部４８とを有する。
【００２０】
データ蓄積部１１における位置情報蓄積部３１は、例えば会議室内に設置された画像・音声取得装置２０等の位置情報（例えば、撮影される画角に対応する参加者の位置等）を蓄積する。また、位置情報蓄積部３１は、発言者検出部４５により得られる発言者の位置情報を蓄積する。
【００２１】
画像情報蓄積部３２は、例えば上述した画像入力部２１等から得られる会議中に撮影された映像情報（例えば、複数の画像情報）等を蓄積する。
【００２２】
音声情報蓄積部３３は、例えば上述した音声入力部２２等から得られる会議中に集音された所定方向又は全周囲の音声情報等を蓄積する。なお、画像情報蓄積部３２に蓄積される映像情報と、音声情報蓄積部３３に蓄積される音声情報とは、例えば時間情報等が付加され、お互いが対応付けられているものとする。
【００２３】
また、上述した映像情報や音声情報は、画像入力部２１や音声入力部２２以外の手段から取得してもよい。具体的には、上述した映像情報や音声情報は、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリやＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）等の記録媒体から取得してもよい。また、上述した映像情報や音声情報は、例えばインターネット等の通信ネットワークを介して接続される外部装置からのダウンロード等により取得してもよい。
【００２４】
ダイジェスト情報蓄積部３４は、ダイジェスト生成部１２の演算処理部４７により演算された点数や経過時間等から得られるダイジェスト情報、又はパターン認識部４８により特定されたダイジェスト情報等を蓄積する。
【００２５】
また、ダイジェスト生成部１２における顔検出部４１は、画像情報蓄積部３２に蓄積されている映像に含まれる画像情報に基づいて、画像中に含まれる少なくとも１人の会議参加者（被写体）の顔の位置情報（例えば、画面中の位置座標）等を検出する。なお、顔検出部４１は、入力画像から顔が検出された場合には、その顔の位置情報のみを出力したり、入力画像に顔の位置情報を付加して出力することができる。
【００２６】
視線方向検出部４２は、例えば顔検出部４１により入力される顔の位置情報が付加された画像情報に基づいて、会議参加者毎の視線方向を検出する。また、視線方向検出部４２は、位置情報蓄積部３１から発言者の位置情報を取得し、その位置情報から各参加者の視線が発言者に向いているか否かを判断する。
【００２７】
うなずき検出部４３は、例えば顔検出部４１により入力される画像情報に基づいて、会議参加者のうなずきを検出する。居眠り検出部４４は、例えば顔検出部４１により入力される画像情報に基づいて、会議参加者の居眠りを検出する。発言者検出部４５は、例えば顔検出部４１により入力される画像情報と、音声情報蓄積部３３に蓄積されている音声情報とに基づいて発言者を検出する。盛上り検出部４６は、例えば音声情報蓄積部３３に蓄積されている音声情報等に基づいて、会議が盛り上がっていると判断される位置（時間）を検出する。
【００２８】
演算処理部４７は、例えばダイジェスト生成部１２に含まれる上述した各検出部（顔検出部４１、視線方向検出部４２、うなずき検出部４３、居眠り検出部４４、発言者検出部４５、盛上り検出部４６）から、会議参加者人数、時間、音量等の情報等を取得する。また、演算処理部４７は、取得した各種情報（要素）等に基づいて、所定の単位時間毎の状況を評価するため、所定の単位時間毎の点数等を算出する。また、演算処理部４７は、算出された点数等に基づいて、画像情報蓄積部３２及び音声情報蓄積部３３から所定部分（所定場面）の映像情報（１又は複数の画像情報も含む）及び音声情報をダイジェスト候補として抽出する。
【００２９】
また、演算処理部４７は、抽出した候補の前後の時間を含む映像情報及び音声情報と、予め設定されるダイジェストの合計時間等に応じて、最終的に使用されるダイジェストを生成し、ダイジェスト情報蓄積部３４に出力する。なお、演算処理部４７は、算出された点数等もダイジェスト情報蓄積部３４に出力することができる。
【００３０】
また、演算処理部４７は、上述した映像情報及び音声情報を用いて、予め設定された複数の要素に基づき、所定時間の時系列における所定の単位時間毎の変化量を評価し、評価された結果に基づいて１又は複数のダイジェスト候補を抽出する。
【００３１】
パターン認識部４８は、予め設定されたパターンに基づいて、ダイジェスト情報蓄積部３４に蓄積された内容から抽出すべきダイジェストを認識する。具体的には、パターン認識部４８は、例えば上述したダイジェスト候補に対応する映像情報及び音声情報に含まれる被写体をパターン認識により特定し、特定された被写体情報に基づいて、ダイジェスト候補から所定のダイジェストを生成する。また、パターン認識部４８は、パターン認識結果をダイジェスト情報蓄積部３４に出力する。
【００３２】
また、表示部１３は、上述した処理によりダイジェスト情報蓄積部３４から得られるダイジェストを表示する。
【００３３】
次に、上述した各検出部の具体的な処理内容について説明する。図３は、実施例１における各検出部の具体例を示す図である。なお、図３（Ａ）は視線方向検出部４２の具体例を示し、図３（Ｂ）はうなずき検出部４３の具体例を示し、図３（Ｃ）は居眠り検出部４４の具体例を示し、図３（Ｄ）は発言者検出部４５の具体例を示し、図３（Ｅ）は盛上り検出部４６の具体例を示している。
【００３４】
＜顔検出部４１の具体的な処理内容＞
実施例１における顔検出部４１は、画像情報蓄積部３３に蓄積された映像に含まれる各画像情報から、各画像フレーム内における１又は複数の顔の位置を検出し、後段の検出部に対して顔の位置情報や画像情報を出力する。なお、顔検出部４１における顔検出手法としては、例えば画像中から顔の特徴情報（例えば、顔の輪郭、目、鼻、口等の特徴点）に基づいて顔を検出することができる。また、他の顔検出手法としては、例えば予め設定された特徴パラメータ（例えば、顔の特徴点のそれぞれの位置やバランス、色情報等）とのパターンマッチングを行うことで、顔検出を行うことができるが、これに限定されるものではない。
【００３５】
また、顔検出部４１は、例えば入力画像から顔が検出された場合に、その入力画像に顔の位置情報を付加し、視線方向検出部４２、うなずき検出部４３、居眠り検出部４４、発言者検出部４５等に出力する。
【００３６】
更に、顔検出部４１は、予め複数の人物（被写体）の顔の特徴情報を蓄積しておき、その特徴情報に基づいて、入力画像中に含まれる人物を特定することもできる。
【００３７】
＜視線方向検出部４２の具体的な処理内容＞
図３（Ａ）に示す視線方向検出部４２は、目検出部５１と、方向判定部５２とを有する。目検出部５１は、入力した顔の位置情報が付加された各画像から目の位置を検出する。また、方向判定部５２は、目検出部５１により検出された上述した位置情報蓄積部３１から入力された位置情報に基づいての視線方向を判定する。また、方向判定部５２は、判定された視線の方向が、発言者に対して向けられているかどうかを判定する。なお、発言者の位置は、発言者検出部４５により検出された発言者の位置情報等を位置情報蓄積部３１から取得して用いることができる。
【００３８】
ここで、方向判定部５２は、例えば予め設定された単位時間（例えば、６０秒）のうち、新たに発言者に対して視線を向けていると判定された人物を検出する。そして、方向判定部５２は、上述した人物を検出した場合に、演算処理部４７において注目度合いを算出するために、発言者に視線を向けている人物の画像を抽出し、その人物の画像を出力データとして演算処理部４７に出力する。なお、方向判定部５２は、発言者に視線を向けている人物が、すでに演算処理部４７に出力されている人物と同一である場合には、演算処理部４７への出力は行わない。
【００３９】
ここで、上述した内容について具体的に説明する。なお、実施例１では、例えば発言者検出部４５により単位時間６０秒中のある時点Ｙ_Ａにおける発言者位置を特定できているものとする。このとき、方向判定部５２は、単位時間６０秒中のある時点Ｙ_Ａの画像Ａに映っている参加者（被写体）から見た発言者位置の方向（角度）αと、参加者の視線方向（角度）θ_１とが等しい場合、その参加者は単位時間６０秒中に発言者に視線を向けていると判定する。
【００４０】
これにより、演算処理部４７は、方向判定部５２から判定結果として得られる出力データから単位時間６０秒あたりの発言者に視線を向けている人数として加算する。
【００４１】
＜うなずき検出部４３の具体的な処理内容＞
図３（Ｂ）に示すうなずき検出部４３は、顔傾斜検出部６１と、うなずき判定部６２とを有する。顔傾斜検出部６１は、入力画像に対して顔の傾斜を検出する。また、うなずき判定部６２は、入力した顔の位置情報が付加された各画像を前後の時間の同画像と比較し、顔傾斜検出部６１により検出された顔傾斜情報を用いて、顔の傾斜が閾値以上であればうなずきと判定する。
【００４２】
ここで、うなずき判定部６２は、例えば予め設定された単位時間（例えば、６０秒）のうち、新たにうなずいていると判定された１又は複数の人物を検出する。そして、うなずき判定部６２は、上述した人物を検出した場合に、演算処理部４７においてうなずき度合いを算出するため、うなずいている人物の画像を演算処理部４７に出力する。なお、うなずき判定部６２は、うなずいている人物が、すでに演算処理部４７に出力されている人物と同一である場合には、演算処理部４７への出力は行わない。
【００４３】
ここで、上述したうなずき検出の具体例について説明する。図４は、うなずき検出の具体例を示す図である。うなずき検出部４３は、例えば予め設定された単位時間６０秒（例えば、１８００フレーム）中のある時点Ｙ_Ａにおいて、ある人物の顔の位置情報を有する画像Ａを検出した場合、時間Ｙ_Ａの前後１５フレーム中（計３０フレーム＝１秒間）に同一人物の顔が映っている画像Ａ_１〜Ａ_Ｎを抽出する。次に、うなずき検出部４３は、図４（Ａ）に示すように、画像Ａ_１〜Ａ_Ｎのうち、両目と口を含む矩形領域の高さが最も高い画像Ａ_Ｈ（矩形領域の高さａ_ｈ）と、画像Ａ_Ｈ以外の画像Ａ_１〜Ａ_Ｎに映っている顔について、両目と口を含む矩形領域の高さ（ａ_ｎ）、及び矩形領域の中心点位置の比較を行う。
【００４４】
ここで、人物の顔の高さについての近似計算は、図４（Ｂ）に示すように求めることができる。つまり、実施例１では、画像Ａ_１〜Ａ_Ｎのうち画像Ａ_Ｈに比べ矩形領域の高さが√３／２以下（例えば、顔の傾斜角θが３０°以上）であり、かつ矩形領域中心点が画像Ａ_Ｈの矩形領域中心点Ｃ_Ｈより低い位置にある画像Ａ_Ｕ１〜Ａ_ＵＮを２フレーム以上検出する。また、画像を２フレーム以上検出した場合には、更に図４（Ｃ）に示すようにＡ_Ｕ１〜Ａ_ＵＮ間の画像について、矩形領域中心点Ｃ_Ｈ以上である画像Ａ_Ｕが１フレーム以上あれば、その人物（参加者）は、単位時間中にうなずいていると判定する。
【００４５】
これにより、演算処理部４７は、うなずき判定部６２から判定結果として得られる出力データから単位時間６０秒あたりのうなずいている人数として加算する。
【００４６】
＜居眠り検出部４４の具体的な処理内容＞
図３（Ｃ）に示す居眠り検出部４４は、目検出部７１と、顔傾斜検出部７２と、居眠り判定部７３とを有する。なお、目検出部７１及び顔傾斜検出部７２は、上述した目検出部５１及び顔傾斜検出部６１と同様の処理を行うため、ここでの具体的な説明は、省略する。つまり、目検出部７１は、入力した顔の位置情報が付加された各画像から目を検出する。また、顔傾斜検出部７２は、上述したように入力画像に含まれる顔画像の位置を時系列に計測して顔の傾斜を検出する。居眠り検出部７３は、前後の時間の同画像のうち、目を開いているときの画像と比較し、顔の傾斜が下向きであり、かつ目をつぶっていると判断した場合には、居眠りと判定する。
【００４７】
ここで、居眠り判定部７３は、例えば予め設定された単位時間（例えば、６０秒）のうち、新たに居眠りと判定された１又は複数の人物を検出する。そして、居眠り判定部７３は、上述した人物を検出した場合に、演算処理部４７において居眠り人数を算出するため、居眠りと判定された人物の画像を演算処理部４７に出力する。なお、居眠り判定部７３は、居眠りしている人物が、すでに演算処理部４７に出力されている人物と同一である場合には、演算処理部４７への出力は行わない。
【００４８】
ここで、上述した居眠り判定について更に具体的に説明する。図５は、居眠り判定の具体例を説明するための図である。居眠り判定部７３は、例えば、単位時間６０秒（１８００フレーム）中のある時点Ｙ_Ａにおいて、ある人物の顔の位置情報を持つ画像Ａを検出した場合、単位時間６０秒中に同一人物の顔が映っている画像Ａ_１〜Ａ_Ｎを抽出する。また、居眠り判定部７３は、図５（Ａ）に示すように、会議中の同一人物の顔が映っている画像のうち、両目と口を含む矩形領域の高さが最も高い画像Ａ_Ｈ（矩形領域の高さａ_ｈ）と、画像Ａ_Ｈ以外の画像Ａ_１〜Ａ_Ｎについて、両目と口を含む矩形領域の高さ（ａ_ｎ）、及び矩形領域の中心点位置の比較を行う。なお、図５（Ａ）の例は、上述した図４（Ａ）と同様である。
【００４９】
また、居眠り判定部７３は、上述したように、画像Ａ_１〜Ａ_Ｎのうち画像Ａ_Ｈに比べ矩形領域の高さが√３／２以下（顔の傾斜角θが３０°以上）であり、かつ矩形領域中心点が画像Ａ_Ｈの矩形領域中心点Ｃ_Ｈより低い位置にある画像を取得する。更に居眠り判定部７３は、取得した画像から、図５（Ｂ）に示すように目をつぶっていると判断される画像Ａ_Ｉ１〜Ａ_ＩＮが連続して所定数（例えば、１６２０フレーム（単位時間の９割））以上あれば、その人物は単位時間のうちに居眠りしていると判定する。
【００５０】
これにより、演算処理部４７は、居眠り判定部７３から判定結果として得られる出力データから単位時間６０秒あたりの居眠り人数として加算する。
【００５１】
＜発言者検出部４５の具体的な処理内容＞
図３（Ｄ）に示す発言者検出部４５は、口検出部８１と、発言判定部８２とを有する。口検出部８１は、入力した顔の位置情報が付加された各画像から口の位置を検出する。また、発言判定部８２は、口検出部８１により得られる口検出結果と、音声情報蓄積部３３から入力された音声情報とに基づいて発言者を判定する。
【００５２】
ここで、発言判定部８２は、例えば予め設定された単位時間（例えば、６０秒）のうち、新たに発言者と判定された１又は複数の人物を検出する。そして、発言判定部８２は、上述した人物を検出した場合に、演算処理部４７において発言者数、沈黙度合いを算出するため、発言者画像を演算処理部４７に出力する。なお、発言判定部８２は、発言者がすでに演算処理部４７に出力されている人物と同一である場合には、演算処理部４７への出力は行わない。
【００５３】
＜盛上り検出部４６の具体的な処理内容＞
図３（Ｅ）に示す盛上り検出部４６は、音量判定部９１を有する。音量判定部９１は、音声情報蓄積部３３から入力された音声情報から音量値を測定する。また、音量判定部９１は、測定した音量値が、予め設定した標準値（例えば、６０ｄＢ）以上であれば、演算処理部４７において盛上りを算出するため、音量値を演算処理部４７に出力する。
【００５４】
＜実施例１における画像入力部２１の位置、向き、画角と、視線との関係＞
ここで、実施例１におけるカメラ等の画像入力部２１の位置、向き、画角と、視線との関係の具体例について、図を用いて説明する。図６は、実施例１における画像入力部の位置、向き、画角と、視線との関係の具体例について説明するための図である。
【００５５】
なお、図６の例では、一例として会議参加者である被写体Ａ〜Ｃは、図６（Ａ）に示すように、画像入力部２１であるカメラＤ１の撮影範囲（例えば、画角θ_ｃ）内に収まるように着席しているものとする。
【００５６】
ここで、図６の例では、予め設定された単位時間(例えば、６０秒（１８００フレーム）)中のある時点Ｙ_Ｂにおいて、ある人物の顔の位置情報を有する画像Ｂを検出した場合を示している。このような場合には、図６（Ｂ）に示すように、会議中の同一人物の顔が映っている画像のうち両目と口を含む矩形領域面積が最も広い画像Ｂ_Ｈと画像Ｂの矩形領域の上辺の長さ及び中心点位置より、時間Ｙ_Ｂにおける水平角θ_１を求める。なお、矩形領域面積が最も広い画像Ｂ_Ｈは、例えば画角内の顔位置に関わらず、まっすぐに画像入力部を見ている人物の画像となる。
【００５７】
つまり、図６（Ｂ）の例では、Ｂ_Ｈの矩形領域の上辺の長さｂ_ｈ、Ｂの矩形領域の上辺の長さｂ、顔の水平角をθ_１とし、ｃｏｓθ_１＝ｂ_ｈ／ｂより水平角θ_１を求める。また、実施例１では、図６（Ｃ）に示すように、例えばＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）等の発光部と受光部により、三角測量の原理を利用し、反射光の入射角により、対象物である被写体までの距離Ｉ_１を取得する。また、実施例１では、例えば写真測量法により、画像入力部２１により撮影された画像中心からの実際の距離ｄを取得する。更に、実施例１では、上述した距離Ｉ_１と距離ｄとにより、真正面からの被写体位置の角度θ_１’（例えば、図６（Ｃ）に示すｓｉｎθ_１’＝ｄ／Ｉ_１）を求めることができる。
【００５８】
＜実施例１における演算処理部４７の演算手法＞
次に、実施例１における演算処理部４７の演算手法について説明する。演算処理部４７では、上述した各検出部から得られるデータを用いて、各々の算出手法に基づき点数を算出する。
【００５９】
具体的には、演算処理部４７は、データ蓄積部１１に蓄積された映像情報と音声情報とから予め設定された短い単位時間毎の会議の状況を、複数の観点で数値評価し、その合計点数を算出する。更に、演算処理部４７は、算出された点数の高い場面を上位から複数抽出する。また、演算処理部４７は、抽出した場面の前後に時間を広げた映像と音声とをダイジェスト場面とし、そのダイジェスト場面を複数連結して会議のダイジェストを生成する。
【００６０】
なお、演算処理部４７は、上述した短い単位時間毎の場面の数値評価の例として、例えば注目度合い、うなずき度合い、発言者数、盛上り等を加算要素として用いる。また、演算処理部４７は、居眠り人数、沈黙度合い等を減算要素として用いる。演算処理部４７は、これらの加算要素及び減算要素を用いて評価を行う。
【００６１】
ここで、上述した加算要素及び減算要素のそれぞれの具体例について説明する。
【００６２】
＜加算要素＞
加算要素について、例えば、注目度合いについては、予め設定された単位時間（例えば、６０秒）あたりの発言者に対して視線を向けている人数ｎ（人）及び時間ｍ（秒）を用いて、点数ｘを、例えば以下の式（１）により算出する。
ｘ＝（ｎ×ｍ）／（参加人数×６０）・・・（１）
なお、発言者に対して視線を向けている人数は、例えば上述した視線方向検出部４２から得られる出力データにより取得することができる。
【００６３】
また、うなずき度合いについては、例えば会議参加者のうち、予め設定された単位時間（例えば、６０秒）あたりのうなずいている人数ｎ（人）を用いて、会議参加者に占める割合を点数ｘとして、例えば以下の式（２）により算出する。
ｘ＝ｎ／参加人数・・・（２）
なお、うなずいている人数は、例えば上述したうなずき検出部４３から得られる出力データにより取得することができる。
【００６４】
また、発言者数については、例えば予め設定される単位時間（例えば、６０秒）あたりの発言者数ｎ（人）を用い、会議参加者数に占める割合を点数ｘとして、例えば以下の式（３）により算出する。
ｘ＝ｎ／参加人数・・・（３）
なお、発言者数は、例えば上述した発言者検出部４５から得られる出力データにより取得することができる。
【００６５】
更に、盛上りについては、例えば予め設定された単位時間（例えば、６０秒）あたりの平均ボリューム（音量）ｎ（ｄＢ）を用いて、予め設定されるボリュームの標準値（例えば、６０ｄＢ）からの倍率を点数ｘとして、例えば以下の式（３）により算出する。
ｘ＝１０＾（（ｎ−６０）／２０）・・・（４）
（例えば、ｎ（ｄＢ）＝２０ｌｏｇ_１０（ｘ））
なお、ボリュームについては、例えば上述した盛上り検出部４６から得られる出力データにより取得することができる。
【００６６】
＜減算要素＞
減算要素について、例えば、居眠り人数については、例えば、予め設定された単位時間（例えば、６０秒）のうちに居眠りと判定された人数ｎ（人）を用いて、会議参加者数に占める割合を点数ｘとして、例えば以下の式（５）により算出する。
ｘ＝ｎ／参加人数・・・（５）
なお、居眠り人数については、例えば上述した居眠り検出部４４から得られる出力データにより取得することができる。
【００６７】
更に、沈黙度合いについては、例えば予め設定された単位時間（例えば、６０秒）あたりの発言者数が０人である時間ｎ（秒）を用いて、点数ｘを、例えば以下の式（６）により算出する。
ｘ＝ｎ／６０・・・（６）
なお、発言者数が０人である時間は、例えば上述した発言者検出部４５から得られる出力データにより取得することができる。
【００６８】
上述したようにして得られた加算要素又は減算要素については、それぞれ加算要素については加算、減算要素については減算し、各要素について算出された点数を合計し、その値を経過時間Ｙ（分）の点数Ｘ（点）とする。
【００６９】
更に、実施例１では、上述した各加算要素及び減算要素は、少なくとも１つを用いて点数を算出することができるが、これに限定されるものではなく、例えばダイジェストを生成する目的や入力される映像や音声の内容等に応じて任意に選択することができる。ここで、図７は、実施例１における加算要素と減算要素の組み合わせ例を示す図である。
【００７０】
図７に示す例では、例えば、複数の会議実施形態（映像情報の撮影内容）に応じて、予め設定される加算要素と減算装置との組み合わせ例を示しており、一例として会議実施形態が「ブレーンストーミング」、「説明会」、「講演会」の場合が示されている。
【００７１】
ここで、例えば、会議実施形態が「ブレーンストーミング」の場合には、活発なブレスト（ブレーンストーミング）がされていれば、加算要素が大きく増加することが想定される。また、会議実施形態が「説明会」の場合には、資料閲覧が多く、質疑応答が発生することが想定される。また、会議実施形態が「講演会」の場合には、発言者は固定され、終了前に質疑応答、拍手等の時間があることが想定される。
【００７２】
つまり、実施例１では、それぞれの会議実施形態に応じたダイジェストを抽出する上で、それぞれの会議の特性（例えば、図７に示す「備考」等）に対応させて、信頼性が高く最低限必要な必須要素（例えば、図７における「○」）が選択される。また、実施例１では、信頼性が低い要素（例えば、図７における「△」）については、ユーザ等の選択等により要素に含めるか否かを設定することができる。
【００７３】
また、実施例１では、例えば、加算要素と減算要素の個数が同一になるように調整したり、合計要素数が所定数以下、又は所定数以上となるように設定することもできる。なお、合計要素数を所定数以下とする場合には、その分ダイジェストの生成処理の時間を短縮することができ、所定数以上とする場合には、ダイジェスト候補の抽出精度を向上させることができる。
【００７４】
更に、実施例１において、上述した加算要素と減算要素は、各要素毎にそれぞれ重み付けをつけて調整することができる。例えば上述したうなずき度合いでは、同意のうなずきである場合や単なる相槌の場合が考えられる。そのため、例えば図７に示す会議実施形態のうち「ブレーンストーミング」におけるうなずきの場合には、同意によるうなずきであり、合意事項の可能性が高いとして、重みを大きく設定する。一方、会議実施形態のうち「講演会」におけるうなずきの場合には、単なる相槌によるうなずきであるため、重みを小さく設定する。
【００７５】
また、上述した注目度合いでは、例えば注目されている人数や時間が長いと、重要人物、発言である可能性が高いと想定されるため、重みが大きくなるよう調整する。また、上述した盛上りでは、標準値より静かである場合に、普通の会話以下と判断し、更に議論があまりなされていないことが想定されるため、沈黙度合いをマイナスとして調整する。一方、標準値より騒がしい場合（例えば、最大でも怒鳴っている人ぐらい）には、いろいろな人が発言していると想定されるため、内容に関わらず重要度は比較的高く設定する。
【００７６】
このように、実施例１では、各要素の内容や予め設定される優先度、要素の取得回数等に応じて重み付けを行うことにより、最適なダイジェスト候補を抽出することができる。また、実施例１では、上述したように、予め設定された複数の要素に基づき、所定時間の時系列における所定の単位時間毎の変化量を評価し、評価された結果に基づいて１又は複数のダイジェスト候補を抽出することができる。
【００７７】
なお、上述した加算要素と減算要素の数や種類については、上述した内容に限定されるものではなく、例えば各要素について任意に追加や変更、削除等を行うことができる。
【００７８】
＜ダイジェストの抽出例＞
次に、上述した演算処理部４７により得られる点数結果からダイジェストを抽出する例について、図を用いて説明する。図８は、実施例１における点数結果とダイジェストの抽出例を示す図である。なお、図８（Ａ），（Ｂ）において、横軸は会議時間（分）を示し、縦軸は点数（点）を示している。また、図８（Ａ），（Ｂ）の時間軸に対する枠線（実線）で囲まれた部分が、ダイジェスト候補又はダイジェストとして抽出された部分である。
【００７９】
演算処理部４７は、取得した各単位時間における点数から、予め設定された閾値よりも評価値の高い部分をダイジェスト候補として抽出する。また、演算処理部４７は、そのダイジェスト候補の中から、生成するダイジェストの合計時間等に応じて、最終的に使用されるダイジェストを選択することができる。
【００８０】
具体的に説明すると、図８（Ａ）の例では、会議の長さを１時間（６０分）、会議参加者を１０人と仮定し、ダイジェストの長さは全体の１５％（９分）と設定する。したがって、演算処理部４７は、例えば約１分のダイジェスト場面を９箇所抽出する。そこで、演算処理部４７は、例えば会議経緯説明、結論やＡ．Ｉ．等のまとめに関する発言を逃さないために、会議全体の開始５％及び終了前５％、すなわち会議開始から３分間及び会議終了３分間で、必ず１箇所以上はダイジェスト場面として抽出するよう設定する。また、演算処理部４７は、残り７箇所について、点数Ｘの上位の場面を順に抽出する。
【００８１】
なお、演算処理部４７は、上位から数箇所を抽出する場合に、例えば会議の総合計時間の半分の時間を中心として前後に分け、それぞれからほぼ等しい数が抽出されるように調整してもよい。これにより、会議全体からダイジェストを生成することができる。また、演算処理部４７は、上位の点数を算出した地点の時間の前後において、特に後方に重点を置く場合には、例えばその地点を中心として抽出される前後の時間をそれぞれ異なる時間（区間）で取得してもよい。その場合には、例えば、上位の点数を算出した地点を中心とし、その前１５秒間と、後４５秒間の範囲をダイジェスト候補として取得するようにしてもよい。
【００８２】
また、図８（Ｂ）の例では、抽出地点の前後の時間を拡大する具体例を示している。つまり、実施例１において、演算処理部４７は、各ダイジェスト場面は、点数の高い場面として抽出された時点を基準とし、その点数の高さ等に応じて、その前後の時間を拡大し、各ダイジェスト画面の開始時点と終了時点とを決定してダイジェスト候補として取得してもよい。なお、上述した拡大される時間は、例えば上述した基準時点の前及び後の両方から、それぞれ所定時間拡大させてもよく、前又は後の何れかのみを所定時間拡大させてもよい。
【００８３】
また、実施例１において、演算処理部４７は、抽出された複数のダイジェスト候補を時間情報に基づいて時系列に連結して最終的なダイジェストを生成する。なお、ダイジェストの合計時間は、予め設定された時間であってもよく、また会議実時間に比例した一定の割合の時間として算出された時間であってもよい。
【００８４】
なお、実施例１では、ユーザからダイジェスト時間の拡大を要求される可能性がある。これは、例えば、あるダイジェスト場面の前後の単位時間の点数が、全時間の点数の平均点と比較して高い場合やダイジェスト提供を望むユーザが、図８（Ａ）の例で抽出したダイジェストを閲覧し、不足を感じた場合等である。
【００８５】
そこで、実施例１では、上記の際の拡大方法として、抽出された各ダイジェスト場面の点数と、前後のダイジェスト場面でない単位時間６０秒の点数について比較を行い、所定のダイジェスト候補の時間の拡大を行う。
【００８６】
図８（Ｂ）には、図８（Ａ）の内容に基づいて、２０％（１２分）まで設定時間を拡大してよいとユーザの意思決定があった場合の例を示している。つまり、実施例１では、例えば、図８（Ｂ）の点線で囲まれた部分が、新たに追加抽出されたダイジェスト候補となる。
【００８７】
実施例１では、例えば、あるダイジェスト候補の前の単位時間の点数が、あるダイジェスト候補の点数と比較して８割を超え、かつ未だダイジェスト候補に含まれていない場合、あるダイジェスト候補の前の単位時間（例えば、６０秒）をダイジェスト候補として追加抽出する。
【００８８】
また、実施例１では、図８（Ｂ）の場合に示すように、あるダイジェスト候補の後の単位時間（例えば、６０秒）においても上記と同様の比較により判定する。また、追加抽出されたダイジェスト場面を含めたダイジェスト合計時間が、設定の２０％を越える場合には、追加抽出されたダイジェスト場面の中で、点数が上位の方から追加していき、設定の２０％に到達した時点で追加処理を終了する。
【００８９】
なお、上述した予め設定された単位時間の一例として６０秒としているが、これに限定されるものではなく、３０秒や９０秒、１２０秒、３００秒等でもよい。上述した実施例１によれば、より適切なダイジェストを生成することができる。
【００９０】
＜実施例２＞
次に、実施例２について説明する。実施例２では、上述した実施例１に示すように、単に所定の数値を用いた区間抽出だけではなく、それに関連する特定の出席者の発言も組み合わせることにより、より適切なダイジェストを生成する。
【００９１】
なお、実施例２の情報処理装置における映像情報及び音声情報の収集にあたっては、図１に示す画像入力部２１及び音声入力部２２から取得するものとする。例えば、収集された２時間分の映像情報、音声情報の解析にあたり、以下の要素について、上述した図２，３等の各検出部にて検出を行う。これらの詳細な動作は、上述した実施例１と同じであるため、ここでの具体的な説明は省略する。
【００９２】
実施例２では、例えば会議中の映像情報や音声情報を収集、解析し、会議の状態を示す要素毎に点数を算出する。また、実施例２では、算出結果から、その要素の所定の閾値以上の時系列変化の増減パターン部分と、その前後のキーマン（有力者）の発言、又は司会者の発言とを組み合わせて、ダイジェスト候補から最終的なダイジェストとして抽出する。
【００９３】
なお、キーマンの発言や司会者の発言といった特定の人物の発言を検出する方法としては、従来の顔認識処理や声紋認識といった手法を用いることができる。この場合には、例えば事前にキーマンや司会者の顔認識又は声紋認識データを登録しておき、上述したパターン認識部４８を用いたパターンマッチング処理により判定することができる。つまり、実施例２では、パターン認識処理を行うことで、ダイジェストの精度を上げることができる。
【００９４】
＜パターン認識部４８について＞
ここで、情報処理装置１０におけるパターン認識部４８について具体的に説明する。パターン認識部４８では、ダイジェスト情報蓄積部３４から得られる映像情報等を解析し、例えば以下に示すようなパターンを認識した場合には、その部分から得られる映像区間や音声区間をダイジェストとして抽出する。
【００９５】
例えば、パターン認識部４８は、単位時間あたりの発言者数が多い部分だけでなく、発言者数の増え始めも重要なダイジェストのポイントとして認識する。また、パターン認識部４８は、キーマンの提案の後に参加者のうなずき度合いの増加が起こり、司会者のまとめの発言の後にも参加者のうなずき度合いの増加が起こるため、これらの部分をダイジェストのポイントとして認識する。また、パターン認識部４８は、例えば「まとめ」、「Ａ．Ｉ．」、「アクションアイテム」等といったキーワードの前後が議論のまとめやアクションアイテムの確認を行っている部分をダイジェストのポイントとして認識する。
【００９６】
つまり、実施例２では、パターン認識部４８により認識される状況パターンや被写体（人物）の特徴パターン等に基づいて、より的確なダイジェストの生成を実現することができる。ここで、一例として、実施例２のパターン認識部４８により被写体（人物）を特定（判別）する手法について具体的に説明する。
【００９７】
＜特徴を用いて判別する場合＞
パターン認識部４８は、所定の被写体に対する特徴を予め設定しておき、会議参加者を条件に当てはめて司会者や有力者として判別する。ここで、司会者の特徴としては、例えば「会議の冒頭に会話を切り出し、会議の最後に締めくくる傾向にある」、「議題の切り換わりにその議題のまとめを行い、次の議題の提起を行う傾向にある」等である。また、有力者の特徴としては、例えば「発言時の注目度合いが高い傾向にある」、「服装がスーツである可能性が高い」等である。
【００９８】
また、パターン認識部４８は、例えば予め蓄積された社員データベース等との照合により被写体を特定することもできる。例えば、有力者は役職がある管理職であるとした場合には、例えば会議室の扉を開けるときに使用する従業員カードのＲＦＩＤ（ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩＤｅｎｔｉｆｉｃａｔｉｏｎ）タグ等から得られる情報を利用することができる。例えば、ＲＦＩＤタグから社員番号が取得できる場合には、取得した社員番号を用いて予め蓄積されている社員データベース等を参照し、照合することで被写体を特定することができる。
【００９９】
また、パターン認識部４８は、被写体の座る位置、又は、所定のカメラ（画像入力部２１）の位置とそのカメラからの映像に映る被写体の位置とにより、その被写体が司会者であるか有力者であるかを認識することができる。例えば、ホワイトボードの近くに位置をとるような被写体は、司会者であると判定することができる。また、会議室の上座に座る被写体は、有力者であると判定したりすることができる。
【０１００】
ここで、パターン認識部４８における認識のタイミングについて、例えば上述したように被写体の特徴を用いる場合には、会議終了時に、それぞれの特徴について分析、最も当てはまる人物をそれぞれ司会者、有力者として判別する。
また、例えば社員データベースと照合する場合には、会議室入室時にＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）チップ付ＩＤカードをスキャナ等で読み取ったり、カメラ等で顔画像を取得したり、着席時の顔画像と照合したときに、司会者、有力者を判別する。なお、ＩＤカードがＲＦＩＤタグの場合には、非接触認証が可能である。
また、パターン認識部４８は、例えば予め会議場所を指定する場合に、会議開始時における各被写体の位置を予め指定して、司会者、有力者を認識することもできる。例えば、司会者を認識する場合には、ホワイトボードの横に司会者を位置付けさせる等である。なお、上述したパターン認識手法は、複数を組み合わせてもよい。
【０１０１】
ここで、図９は、実施例２における点数結果とダイジェストの抽出例を示す図である。なお、図９（Ａ），（Ｂ）において、横軸は会議時間（分）を示し、縦軸は点数（点）を示している。また、図９（Ａ），（Ｂ）の時間軸に対する枠線（実線）で囲まれた部分が、ダイジェスト候補又はダイジェストとして抽出された部分である。会議の長さを１時間（６０分）、会議参加者を１０人と仮定し、ダイジェストの長さは全体の１５％（９分）と設定する。
【０１０２】
演算処理部４７は、取得した各単位時間における点数から、予め設定された閾値よりも評価値の高い部分をダイジェスト候補として抽出する。また、演算処理部４７は、そのダイジェスト候補の中から、生成するダイジェストの合計時間等に応じて、最終的に使用されるダイジェストを選択することができる。
【０１０３】
また、パターン認識部４８では、上述した状況パターンや特徴パターン等に基づいて例えば算出された点数結果の時系列から予め設定された条件に対応する点数の時系列的な変化を示す部分を抽出する。
【０１０４】
具体的に説明すると、図９（Ａ）の例では、ある時間方向の閾値以内である一定のうなずき度合いの点数の変化量を示している。なお、図９（Ａ）におけるパターン認識部４８におけるダイジェスト部分の抽出条件としては、例えば「連続する３分間に０．４０以上の増加を示し、かつ、その増加開始時点にてキーマンの発言或いは司会者によるまとめの発言がある場合に、増加開始時点から減少する前の時点を抽出する」という条件が設定されているものとする。
【０１０５】
この条件により、図９（Ａ）では、経過時間３分にてキーマンの発言があり、経過時間３〜５分にうなずき度合いが０．１５→０．６まで上昇し、経過時間５〜６分で減少しているため、経過時間３〜５分をダイジェスト場面として抽出される。また同様に、例えば経過時間１１〜１３分及び５３〜５５分といった時間についても抽出条件を満たしているため、ダイジェスト抽出対象となる。
【０１０６】
また、図９（Ｂ）の例では、ある時間方向の閾値以内である一定の発言者数の点数の変化量を示している。なお、図９（Ｂ）におけるパターン認識部４８におけるダイジェスト部分の抽出条件としては、予め設定された所定の単位時間毎の点数の算出結果の変化量が予め設定された閾値等よりも大きい区間を基準としてダイジェストの開始時点と終了時点を決定する。
【０１０７】
実施例２では、例えば「３分間で０．４０以上の増加を示し、かつその増加開始時点及び増加開始時点の点数以下に到達する議論の収束時点に、キーマンの発言或いは司会者のまとめの発言がある場合、増加開始時点から収束時点までを抽出する」という条件が設定されているものとする。
【０１０８】
この条件により、図９（Ｂ）の例では、経過時間４１分にてキーマンの発言があり、経過時間４１〜４３分に発言者数が０．２１→０．６３まで上昇し、経過時間４５分においてもキーマンの発言がある。そのため、図９（Ｂ）の例では、経過時間４１〜４５分までをダイジェスト場面として抽出される。
【０１０９】
＜パターン認識部４８における文字認識＞
ここで、上述したパターン認識部４８は、例えば上述した位置情報蓄積部３１において、会議室内にあるホワイトボードや黒板、プロジェクターから光を投射するスクリーンや壁等の文字や図面等を提示する提示領域の位置情報を取得する。そして、パターン認識部４８は、その提示領域が撮影されている映像から得られる提示領域中に記載された文字等を認識する。なお、文字認識手法としては、例えば既存のＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）等を用いることができるが、これに限定されるものではない。
【０１１０】
これにより、実施例２では、例えばホワイトボード上に対応する画像認識から、例えば「Ａ．Ｉ．」、「アクションアイテム」、「まとめ」、「次回予定」等の所定のキーワードの記載を文字認識することで、認識された文字を用いて会議の状況等を高精度に取得する。したがって、実施例２では、上述したような状況パターンからより適切なダイジェストを生成することができる。
【０１１１】
例えば、実施例２における「まとめの時間」と「文字認識のタイミング」については、「結論」、「Ａ．Ｉ．」等の文字認識の精度を向上させるために、常時、所定の対象キーワードについてホワイトボード上の文字認識を行う。キーワードを検出した場合には、そのキーワードの書き始めからまとめが開始されている可能性が高い。そのため、パターン認識部４８は、その時点からの発言に対してキーワードの音声認識による検出を行うことで、議論の「結論」や「Ａ．Ｉ．」等をより高精度に抽出することができる。
【０１１２】
実施例２によれば、会議開始からの所定の時間で単位時間あたりのうなずき度合いが増加していること、またその直前でのキーマンの発言があること、所定の時間でうなずき度合いが低下したこと、その直前での司会者の発言があること等が検出できる。これにより、所定時間における時間帯の映像をダイジェストとして抽出することができる。また、上述の内容を他の要素と組み合わせて、その増加と減少の過度においてキーマンの発言や司会者の発言を組み合わせて適切なダイジェストの抽出が可能となる。
【０１１３】
また、実施例２では、例えば、議論のきっかけとなる増加開始前後のキーマンの発言、又は司会者の発言も抽出対象としたり、その議論の収束となる減少過程での司会者の発言をも抽出対象とすることで、議論の経過を適切に抽出することができる。
【０１１４】
更に、実施例２では、議論の収束となる減少過程での司会者の発言を検出する場合、「まとめ」、「ＡＩ（エーアイ）」、「アクションアイテム」といったキーワードを音声認識により検出することにより、その議論で確認した議論の結論をダイジェストとして確実に抽出することができる。また、上述した実施例では、うなずき度合いや発言者数等の単独の要素での例を示したが、これに限定されるものではなく、複数の要素を結合した点数で実施することも可能である。
【０１１５】
＜実施例３＞
次に、実施例３について説明する。上述した実施例１及び２では、画像・音声取得装置２０が１つの場合について説明したが、実施例３では、画像・音声取得装置２０が複数設けられている例を示す。つまり、実施例３では、複数の画像・音声取得装置２０のそれぞれが、所定の画角で異なる方向を撮影し、異なる人物（被写体）の画像及び音声を取得している。なお、以下の説明では、上述した構成とほぼ同様の処理を行う構成については、同一の符号を付するものとし、ここでの具体的な説明は省略する。
【０１１６】
図１０は、実施例３における会議システムの概要構成例を示す図である。図１０に示す会議システム２は、情報処理装置１０と、複数の画像・音声取得装置２０−１〜２０−３とを有する。なお、図１０の例では、画像・音声取得装置２０を３台設けているが、少なくとも１台を有していれば、台数や設置位置等についてはこれに限定されるものではない。
【０１１７】
画像・音声取得装置２０−１〜２０−３は、予め設定された位置（例えば、図１０に示す会議卓上の所定の位置等）に配置されている。位置的な対応関係は、情報処理装置１０の位置情報蓄積部３１に予め蓄積されている。なお、複数の画像・音声装置２０−１〜２０−３は、会議卓上に設置してもよく、天井や壁に設置してもよい。
【０１１８】
また、画像・音声装置２０−１〜２０−３は、ハブ（ＨＵＢ）１００等により接続され、例えば離れた位置にある情報処理装置１０とのデータの送受信が可能な状態となっている。
【０１１９】
図１０に示す画像・音声装置２０−１は、所定の画角（例えば、θ_１）により参加者Ａ及びその周囲の画像及び音声を取得する。画像・音声装置２０−２は、所定の画角（例えば、θ_２）により参加者Ｂ、Ｃ、Ｄ及びその周囲の画像及び音声を取得する。画像・音声装置２０−３は、所定の画角（例えば、θ_３）により参加者Ｅ，Ｆ及びその周囲の画像及び音声を取得する。
【０１２０】
情報処理装置１０は、図１０に示す画像・音声取得装置２０−１〜２０−３から得られるそれぞれの映像情報（例えば、複数の画像情報）を位置情報及び画像に付加されている時間情報に基づいて、時間に同期させて結合し、１つの映像を生成する。情報処理装置１０は、上述した画像情報蓄積部３２に蓄積される。また、画像・音声取得装置２０−１〜２０−３から得られるそれぞれの音声情報については、時間情報に基づいて、映像情報に対応させて音声情報蓄積部３３に蓄積される。なお、画像・音声取得装置２０−１〜２０−３から得られる各映像情報と各音声情報との対応は、例えば予め設定される識別情報等を付加しておくことにより容易に対応させることができる。
【０１２１】
実施例２では、上述のように取得した映像情報及び音声情報に基づいて、上述した実施例１に示すダイジェスト生成と同様な手法でダイジェストを生成することができる。これにより、実施例２では、例えば広い会議室等の広範囲においても複数の画像・音声取得装置から得られる映像及び音声を用いて、より適切なダイジェストを生成することができる。
【０１２２】
＜複数の映像情報と参加者（被写体）との位置関係＞
ここで、実施例３における複数の画像・音声装置から得られた映像情報（複数の画像情報を含む）と、参加者（被写体）との位置関係の取得例について、図を用いて具体的に説明する。図１１は、実施例３における複数の映像情報と被写体との位置関係の取得例について説明するための図である。
【０１２３】
なお、図１１の例では、上述した図１０と同様に３つの画像・音声取得装置２０−１〜２０−３を用いるものとし、各画像・音声取得装置２０−１〜２０−３の映像情報と、その被写体との関係が画像・音声取得装置毎に把握できているものとする。また、複数の画像・音声取得装置２０−１〜２０−３は、固定位置に設置され、予め位置関係が把握できているものとする。
【０１２４】
図１１（Ａ）の例では、説明を容易にするため、各辺の長さがLの正三角形の各頂点に各画像・音声取得装置２０−１〜２０−３を位置させ、正三角形の中線の延長戦上に画像・音声取得装置２０の画角の中心がくるように設置する。
【０１２５】
ここで、例えば図１１（Ａ）に示すように、画像・音声取得装置２０−１が発言者（被写体）Ａを撮影している場合には、画像・音声取得装置２０−１と発言者の位置関係及び画像・音声取得装置２０−２と被写体Ｂとの位置関係により、画像・音声取得装置２０−２の被写体Ｂから見た発言者の位置関係を算出することができる。
【０１２６】
つまり、図１１（Ｂ）に示すように、γ＝π−（θ_１’＋π／６）＝５π／６−θ_１’、β＝π−（θ_２’＋π／６）＝５π／６−θ_２’と、余弦定理を用いてｃｏｓαを算出し、αを求めることができる。
【０１２７】
＜変形例＞
ここで、上述した情報処理装置１０は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の揮発性の記憶媒体、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等の不揮発性の記憶媒体、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータを表示する表示装置、並びに外部と通信するためのインタフェース装置を備えたコンピュータによって構成することができる。
【０１２８】
したがって、情報処理装置１０が有する上述した各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現可能となる。また、これらのプログラムは、磁気ディスク（フロッピィーディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記録媒体に格納して頒布することもできる。
【０１２９】
つまり、上述した各構成における処理をコンピュータに実行させるための実行プログラム（ダイジェスト生成プログラム）を生成し、例えば汎用のパーソナルコンピュータやサーバ等にそのプログラムをインストールすることにより、ダイジェスト生成処理等を実現することができる。
【０１３０】
ここで、図１２は、ダイジェスト生成機能を搭載したＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）の概観図である。また、図１３は、ダイジェスト生成機能を搭載したＰＣのハードウェア構成例を示す図である。なお、ＰＣ１１０は、ノート型ＰＣの例を示しているが、これに限定されるものではなく、例えば、デスクトップ型ＰＣやサーバ、携帯電話、ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ（ＰＤＡ、携帯情報端末）、ゲーム機器等を用いてもよい。また、図１２に示すＰＣ１１０の例では、画像入力部２１及び音声入力部２２がＰＣ本体１１１内に有しているが、別体に設けられてもよい。また、図１２及び図１３において、同一の構成部分については、同一の符号を付するものとする。
【０１３１】
図１２に示すＰＣ１１０は、ＰＣ本体１１１と、表示部１１２と、キーボード１１３と、タッチパッド１１４と、電源ボタン１１５と、ＵＳＢコネクタ１１６と、ＣＤ／ＤＶＤ装填口１１７と、マイク１１８と、スピーカー１１９と、カメラ１２０とを有する。
【０１３２】
また、図１３に示すハードウェア構成例では、ＰＣ１１０は、システムコントローラ１２１と、ＣＰＵ１２２と、主記憶装置１２３と、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１２４と、キーボードコントローラ１２５と、表示部１１２と、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２６と、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）１２７と、電源監視部１２８とを有する。なお、図１３に示す各構成は、バス１２９によりデータの送受信が可能な状態で接続されている。
【０１３３】
ＰＣ本体１１１は、上述したダイジェスト生成機能を搭載したＰＣである。また、ＰＣ本体１１１は、外部機器（ネットワークドライブ等）と接続することができる。表示部１１２は、ＰＣ本体１１１が有する各構成からの命令により画像等を表示する。また、表示部１１２は、例えば液晶ディスプレイ等である。
【０１３４】
キーボード１１３は、ユーザ等による操作によりＰＣ本体１１１に命令を与える。タッチパッド１１４は、表示画面１１２上にカーソルを移動させ、ユーザ等によるボタン操作等により、そのカーソルが重ねられたアイコンに応じた命令を与える。
【０１３５】
電源ボタン１１５は、ＰＣ１１０への電源投入を行うボタンである。ＵＳＢコネクタ１１６は、ＵＳＢ規格に準拠しており、例えばＵＳＢメモリ等を装着してメモリ内の情報を読み出したり、ＵＳＢメモリに情報を書き込むことができる。また、ＣＤ／ＤＶＤ装填口１１７は、ＣＤやＤＶＤが装填し、ＣＤやＤＶＤに記録された情報を読み出したり、ＣＤやＤＶＤ内に情報を書き込むことができる。
【０１３６】
マイク１１８は、音声入力を可能とする。なお、マイク１１８は、例えば上述した音声入力部２２である。また、スピーカー１１９は、音声出力を可能とする。また、カメラ１２０は、画像入力を可能とする。なお、カメラ１２０は、例えば上述した画像入力部２１である。
【０１３７】
また、図１３に示すシステムコントローラ１２１は、データの入出力管理やダイジェスト生成等、システム全体の制御を行う。ＣＰＵ１２２は、主記憶装置１２３に展開されるＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ）等の各種プログラムや上述したダイジェスト生成プログラム等を実行する。
【０１３８】
主記憶装置１２３は、ＨＤＤ１２４から読み出されたプログラムの実行のための作業エリアとして使用される。また、主記憶装置１２３は、バックアップを行う保存先（外部メディア又は外部機器）の設定等も格納される。つまり、本実施例においては、主記憶装置１２３にＯＳ、ＢＩＯＳ、アプリケーション等が展開される。ＨＤＤ１２４は、ＯＳやアプリケーションプログラムを格納している。なお、ＨＤＤ１２４は、例えば上述したデータ蓄積部１１である。キーボードコントローラ１２５は、キーボード１１３及びタッチパッド１１４等からの入力を検出する。
【０１３９】
表示部１１２は、ＣＰＵ１２２がシステムコントローラ１２１を介して出す命令に基づいた各種データや処理経過、処理結果等を画面に表示する。なお、表示部１１２は、例えば上述した表示部１３である。ＥＥＰＲＯＭ１２６は、ＰＣに電源が投入された後、最初に実行されるＢＩＯＳを格納している。
【０１４０】
ＣＭＯＳ１２７は、ＢＩＯＳメニューの設定を記憶している。電源監視部１２８は、電源ボタン１１５が操作されたか否かを監視している。なお、上述したシステムコントローラ１２１、ＣＰＵ１２２、及び主記憶装置１２３は、例えば上述したダイジェスト生成部１２である。
【０１４１】
本実施例では、上述したハードウェア構成等に、上述した情報処理装置における各処理を実行するための実行プログラム（ダイジェスト生成プログラム）をインストールすることにより、図１２，図１３に示す構成において容易にダイジェスト生成処理を実行させることができる。
【０１４２】
＜ダイジェスト生成処理＞
ここで、上述した実行プログラム（ダイジェスト生成プログラム）にて実行されるダイジェスト生成処理の一例について、フローチャートを用いて説明する。図１４は、ダイジェスト生成処理の一例を示すフローチャートである。
【０１４３】
図１４に示す例では、まず、ＣＰＵ１２２は、所定時間撮影された１又は複数の人物（被写体）の映像情報及び音声情報を、例えばＨＤＤ１２４等のデータ蓄積部等に蓄積する（Ｓ０１）。
【０１４４】
次に、ＣＰＵ１２２は、蓄積された映像情報に含まれる画像情報及び音声情報に対し、予め設定された１又は複数の要素に基づいて、所定の単位時間毎の状況を評価する（Ｓ０２）。なお、予め設定された１又は複数の要素とは、例えば上述した加算要素及び減算要素等を含む。また、評価とは、例えば上述したように各要素に基づく単位時間毎の点数を算出し、算出された結果からダイジェスト必要な部分を抽出する処理等を含む。
【０１４５】
次に、ＣＰＵ１２２は、Ｓ０２の処理により取得した評価結果に基づいて、１又は複数のダイジェスト候補を抽出する（Ｓ０３）。また、ＣＰＵ１２２は、Ｓ０３の処理で得られたダイジェスト候補に対応する映像情報及び音声情報に含まれる被写体の状況又は特徴をパターン認識する（Ｓ０４）。また、ＣＰＵ１２２は、パターン認識結果により得られるダイジェスト候補の前後の時間を含む映像情報及び音声情報を用いてダイジェストを生成する（Ｓ０５）。
【０１４６】
なお、上述したダイジェスト生成処理は、ユーザからの実行指示により実行されてもよく、Ｓ０１の処理により各種情報が蓄積された直後又は蓄積されてから所定のタイミングで実行してもよい。
【０１４７】
また、他の実施例としては、例えばＳ０４の処理における映像情報及び音声情報に含まれる被写体の状況又は特徴のパターン認識を、Ｓ０１の処理で蓄積された全ての映像情報及び音声情報を対象として行ってもよい。その場合には、全ての映像情報及び音声情報から得られたパターン認識結果と、Ｓ０２の処理で得られた評価結果とを組み合わせてダイジェスト候補の前後の時間を含むダイジェストを生成する。
【０１４８】
上述した各実施例によれば、より適切なダイジェストを生成することができる。また、各実施例によれば、例えば映像や音声から会議議事内容のより効率的な閲覧が可能となるダイジェストを生成することができる。これにより、例えば会議後に議事録を生成する場合には、膨大なデータの全てを参照する必要がなくなり、議論の流れ、結論、A．I．等の会議の概要を捉えられることのできるダイジェストを短時間に提供することができる。
【０１４９】
また、上述した実施例では、会議中の音声や画像等から得られる複数要素について、時系列変化を検知し、特定のパターン等を認識し、その認識結果を利用して、より適切なダイジェストを生成することができる。また、上述した実施例では、会議の概要を短時間で捉えることのできるダイジェストを提供でき、またパターン認識によりダイジェストの精度を上げることができる。
【０１５０】
なお、上述した手法は、例えばテレビ会議システムや参加型の議論番組、講義中継、セミナーの評価等、映像（画像を含む）及び音声を有する入力情報であれば、広く適用することができ、それぞれに対応したダイジェストを生成することができる。
【０１５１】
また、上述した手法は、例えばコンバージェンスサービス等にも適用することができる。コンバージェンスサービスとは、例えば様々な業務等で使用されるセンサや端末によって収集されたデータを、その分野専用に活用したり、蓄積したりするサービスをいう。また、コンバージェンスサービスは、上述した内容だけでなく、他の異種分野や業務に対して、その専門家の知識や判断基準等を付加して再利用することで、新たな価値を創造してサービスを提供することができる。したがって、上述した各実施例で得られる予め設定された要素の基づく評価結果やパターン認識結果等をコンバージェンスサービスに適用することで、各分野で個別に新たなシステム構築やデータ収集等をすることなく、既存データの有効利用を行うことができる。
【０１５２】
コンバージェンスサービスに各実施例を適用した例としては、各実施例で得られたダイジェストデータを用いて、まず人事部門、経理部門、出席者の上司等の知識の付加等により出席者の会議やプロジェクトに対する重要度、貢献度、居眠り度合い等を取得する。次に、上記の例では、取得した情報を用いて各個人の業務査定や評価、或いは会議時間や出席者情報による各出席者の仕事や工数管理、又はそれらの積算によるプロジェクトの原価算出の参考情報等として活用することができる。また、本実施例により評価の精度を向上させることで、業務評価や勤怠、業務工数、原価管理機能として商品化又はクラウド化してビジネスに結び付けることができる。
【０１５３】
更に、上述した各実施例を適用して得られたダイジェストを用いて、知財担当者や担当部門或いは当該業務の専門家の知識の付加により、特許候補を短時間で効率よく検索し抽出するツールとして活用することができる。
【０１５４】
以上、各実施例について詳述したが、特定の実施例に限定されるものではなく、特許請求の範囲に記載された範囲内において、上記変形例以外にも種々の変形及び変更が可能である。
【０１５５】
なお、以上の実施例に関し、更に以下の付記を開示する。
（付記１）
所定時間撮影された１又は複数の被写体を含む映像情報及び音声情報を蓄積する蓄積部と、
前記蓄積部に蓄積された映像情報及び音声情報を用いて、予め設定された１又は複数の要素に基づき、前記所定時間の時系列における所定の単位時間毎の変化量を評価し、評価された結果に基づいて１又は複数のダイジェスト候補を抽出するダイジェスト生成部と、を有し、
前記ダイジェスト生成部は、前記ダイジェスト候補に対応する映像情報及び音声情報に含まれる被写体の状況又は特徴をパターン認識し、認識された結果に基づいて前記ダイジェスト候補からダイジェストを生成するパターン認識部を有することを特徴とする情報処理装置。
（付記２）
前記ダイジェスト生成部は、
前記１又は複数の要素として、加算要素と減算要素とを有し、
前記加算要素は、前記映像情報に含まれる前記被写体の注目度合い、うなずき度合い、発言者数、及び盛上りのうち少なくとも１つを有し、前記減算要素は、前記映像情報に含まれる居眠り人数、及び沈黙度合いのうち少なくとも１つを有することを特徴とする付記１に記載の情報処理装置。
（付記３）
前記ダイジェスト生成部は、
前記加算要素と前記減算要素との組み合わせを、前記映像情報の撮影内容に応じて設定することを特徴とする付記２に記載の情報処理装置。
（付記４）
前記ダイジェスト生成部は、
前記評価結果として得られる前記１又は複数の要素による所定の単位時間毎の点数の算出結果の変化量が予め設定された閾値より大きい区間を基準として前記ダイジェストの開始時点と終了時点を決定することを特徴とする付記１乃至３の何れか１項に記載の情報処理装置。
（付記５）
前記ダイジェスト生成部は、
前記ダイジェストの合計時間を、予め設定された時間又は前記映像情報の合計時間に比例させた一定の割合の時間とすることを特徴とする付記１乃至４の何れか１項に記載の情報処理装置。
（付記６）
前記ダイジェスト生成部は、
前記１又は複数の被写体を異なる位置から撮影した映像情報が複数ある場合には、複数の映像情報に含まれる位置情報に基づいて前記複数の映像情報を連結することを特徴とする付記１乃至５の何れか１項に記載の情報処理装置。
（付記７）
所定時間撮影された１又は複数の被写体を含む映像情報及び音声情報を蓄積し、蓄積された映像情報及び音声情報を用いて、予め設定された１又は複数の要素に基づき、前記所定時間の時系列における所定の単位時間毎の変化量を評価し、評価された結果に基づいて１又は複数のダイジェスト候補を抽出し、ダイジェスト候補に対応する映像情報及び音声情報に含まれる被写体の状況又は特徴をパターン認識し、認識された結果に基づいて前記ダイジェスト候補からダイジェストを生成する、処理を有することを特徴とするダイジェスト生成方法。
（付記８）
所定時間撮影された１又は複数の被写体を含む映像情報及び音声情報を蓄積し、蓄積された映像情報及び音声情報を用いて、予め設定された１又は複数の要素に基づき、前記所定時間の時系列における所定の単位時間毎の変化量を評価し、評価された結果に基づいて１又は複数のダイジェスト候補を抽出し、ダイジェスト候補に対応する映像情報及び音声情報に含まれる被写体の状況又は特徴をパターン認識し、認識された結果に基づいて前記ダイジェスト候補からダイジェストを生成する、処理をコンピュータに実行させるためのダイジェスト生成プログラム。
【符号の説明】
【０１５６】
１，２会議システム
１０情報処理装置
１１データ蓄積部
１２ダイジェスト生成部
１３表示部
２０画像・音声取得装置
２１画像入力部
２２音声入力部
３１位置情報蓄積部
３２画像情報蓄積部
３３音声情報蓄積部
３４ダイジェスト情報蓄積部
４１顔検出部
４２視線方向検出部
４３うなずき検出部
４４居眠り検出部
４５発言者検出部
４６盛上り検出部
４７演算処理部
５１，７１目検出部
５２方向判定部
６１，７２顔傾斜検出部
６２うなずき判定部
７３居眠り判定部
８１口検出部
８２発言判定部
９１音量判定部
１００ハブ
１１０ＰＣ
１１１ＰＣ本体
１１２表示部
１１３キーボード
１１４タッチパッド
１１５電源ボタン
１１６ＵＳＢコネクタ
１１７ＣＤ／ＤＶＤ装填口
１１８マイク
１１９スピーカー
１２０カメラ
１２１システムコントローラ
１２２ＣＰＵ
１２３主記憶装置
１２４ＨＤＤ
１２５キーボードコントローラ
１２６ＥＥＰＲＯＭ
１２７ＣＭＯＳ
１２８電源監視部
１２９バス

【特許請求の範囲】
【請求項１】
所定時間撮影された１又は複数の被写体を含む映像情報及び音声情報を蓄積する蓄積部と、
前記蓄積部に蓄積された映像情報及び音声情報を用いて、予め設定された１又は複数の要素に基づき、前記所定時間の時系列における所定の単位時間毎の変化量を評価し、評価された結果に基づいて１又は複数のダイジェスト候補を抽出するダイジェスト生成部と、を有し、
前記ダイジェスト生成部は、前記ダイジェスト候補に対応する映像情報及び音声情報に含まれる被写体の状況又は特徴をパターン認識し、認識された結果に基づいて前記ダイジェスト候補からダイジェストを生成するパターン認識部を有することを特徴とする情報処理装置。
【請求項２】
前記ダイジェスト生成部は、
前記１又は複数の要素として、加算要素と減算要素とを有し、
前記加算要素は、前記映像情報に含まれる前記被写体の注目度合い、うなずき度合い、発言者数、及び盛上りのうち少なくとも１つを有し、前記減算要素は、前記映像情報に含まれる居眠り人数、及び沈黙度合いのうち少なくとも１つを有することを特徴とする請求項１に記載の情報処理装置。
【請求項３】
前記ダイジェスト生成部は、
前記評価結果として得られる前記１又は複数の要素による所定の単位時間毎の点数の算出結果の変化量が予め設定された閾値より大きい区間を基準として前記ダイジェストの開始時点と終了時点を決定することを特徴とする請求項１又は２に記載の情報処理装置。
【請求項４】
前記ダイジェスト生成部は、
前記ダイジェストの合計時間を、予め設定された時間又は前記映像情報の合計時間に比例させた一定の割合の時間とすることを特徴とする請求項１乃至３の何れか１項に記載の情報処理装置。
【請求項５】
前記ダイジェスト生成部は、
前記１又は複数の被写体を異なる位置から撮影した映像情報が複数ある場合には、複数の映像情報に含まれる位置情報に基づいて前記複数の映像情報を連結することを特徴とする請求項１乃至４の何れか１項に記載の情報処理装置。
【請求項６】
所定時間撮影された１又は複数の被写体を含む映像情報及び音声情報を蓄積し、蓄積された映像情報及び音声情報を用いて、予め設定された１又は複数の要素に基づき、前記所定時間の時系列における所定の単位時間毎の変化量を評価し、評価された結果に基づいて１又は複数のダイジェスト候補を抽出し、ダイジェスト候補に対応する映像情報及び音声情報に含まれる被写体の状況又は特徴をパターン認識し、認識された結果に基づいて前記ダイジェスト候補からダイジェストを生成する、処理を有することを特徴とするダイジェスト生成方法。
【請求項７】
所定時間撮影された１又は複数の被写体を含む映像情報及び音声情報を蓄積し、蓄積された映像情報及び音声情報を用いて、予め設定された１又は複数の要素に基づき、前記所定時間の時系列における所定の単位時間毎の変化量を評価し、評価された結果に基づいて１又は複数のダイジェスト候補を抽出し、ダイジェスト候補に対応する映像情報及び音声情報に含まれる被写体の状況又は特徴をパターン認識し、認識された結果に基づいて前記ダイジェスト候補からダイジェストを生成する、処理をコンピュータに実行させるためのダイジェスト生成プログラム。

【図１】