説明

関心領域の動的検知に基づいたシーン状態切換システム及び方法

【課題】関心要素に基づくシーン状態の切換システム及び切換方法を提供する。
【解決手段】関心要素に基づくシーン状態の切換システムは、撮像装置で撮像した現撮像画像を現フレーム画像として入力する入力装置と、前記入力装置から入力される前記現フレーム画像から関心要素の最大可能存在領域を決定する検知装置と、予め定義されたそれぞれのシーン状態及び切換条件に基づいて、前記最大可能存在領域のシーン状態間の切換を行う状態切換装置と、前記状態切換装置により切り換えられた現シーン状態に応じて、前記最大可能存在領域から、前記現シーン状態と一致する関心領域を表示する表示装置と、を含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、関心領域の動的検知に基づいたシーン状態切換システム、及び関心領域の動的検知に基づいたシーン状態切換方法に関する。
【背景技術】
【0002】
映像圧縮と映像強調分野における技術の発展に伴い、遠隔ビデオシステムが益々幅広く利用されつつある。遠隔ビデオシステムの例としては、例えば、遠隔テレビ会議システムや、遠隔医療システム等があり、特徴として、少なくとも2つの端末に映像収集装置と映像表示装置をそれぞれ設置し、有線または無線の通信手段により、各端末を接続することで、各端末のユーザの相手側のリアルタイムやオフラインの映像の取得が可能になる。遠隔ビデオシステムの応用においては、関心領域の動的検知により、可能な関心領域のシーンを相手に強調して表示することで、遠隔ビデオシステムのユーザの利便性が著しく向上している。
【0003】
関心領域の動的検知に基づいた表示シーンの変換については、以下の技術が提案されている。
【0004】
特許文献1(US20100103245A1)には、関心領域を動的検知し、関心領域の最適化表示を行い、非関心領域の表示を無視するという技術が提案されている。該技術においては、それぞれの関心領域の内容によって、表示領域のサイズの比率の自動調整が可能である。しかしながら、特許文献1において、関心領域は、人物の顔に限られており、画像のサイズは、人物の顔のサイズに正比例するのみで、テレビ会議のシーン状態の分類は行われていない。一方、関心領域のサイズが小さい場合、単に同一比率で拡大してしまうと、画質がある程度限定されてしまう。
【0005】
特許文献2(US7580054B2)には、全方位撮像ヘッドにより会議を撮影するとともに、ユーザへのリアルタイムとオフラインの映像表示が可能な技術が提案されている。該技術には、撮像ヘッドの制御を行う自動撮像ヘッド管理システム、及び現場参加者の位置決めを行う分析モジュールが含まれている。しかしながら、該特許文献2においては、全方位撮像ヘッドや複数の通常の撮像ヘッドからなるアレイによる各現場参加者の映像提供が必要となり、ハードウェア装置の面で重い負担になってしまう。さらに、ユーザは、単一人物の映像間の切換しかできないため、他の関心領域の重要な情報が紛失される恐れがある。
【0006】
特許文献3(US20090015658A1)には、映像検知技術を用いて、撮像ヘッドから撮像された映像フレーム内の現場参加者の検知を行うとともに、検知した現場参加者の位置とサイズ情報から、撮像ヘッドの方向及び拡大縮小の自動調整を行うことにより、すべての現場参加者を含む最適の画像の提供が可能になる。しかしながら、特許文献3においては、すべての現場参加者を含む映像しか提供することができず、単一人物の映像提供の面には制限がある。また、特許文献3においては、現場参加者の退席は効率よく検知するものの、新メンバーの参加の検知については、検知領域外で音声情報の位置決めを行うため、一定の制限を受けてしまう。
【0007】
特許文献4(US6611281B2)には、テレビ会議における複数現場参加者の追跡方法が提案されている。該方法においては、テレビ会議のモニターを行い、映像の位置決め情報を生成して出力し、音声の位置決め情報を生成して出力し、映像と音声の位置決め情報から、撮像ヘッドのパラメータ調整を行っている。該特許文献4においては、話者と全現場参加者のシーン映像の切換しかできず、話者の映像及び音声への検知及び位置決めのみで、映像を該話者へ切り換えている。なお、該特許文献4では、関心領域の動的検知及び切換は行わず、シーンの拡張性は提案されていないため、人の会議への参加または退席時の映像の自動調整については何ら提案もない。
【0008】
前述の関連技術としての特許文献に提案されている技術においては、常にテレビ会議に最適の映像を提供することができない。理由としては、ユーザの関心領域は、全体の会議進行において常に変化しているからである。例えば、特許文献4では、2種類の選択可能なシーン映像しか提供することができず、関心領域の動的検知及びそれに応じたシーン状態切換はできない。また、特許文献2では、異なるシーン映像の提供は可能であるが、ハードウェアの急激な増加は代価となり、関心領域の動的検知及びそれに応じたシーン状態の切換はできない。また、特許文献1では、関心領域による映像表示が提案されているが、定義される関心領域が限られているとともに、それの動的検知およびシーン切換ができず、シーン映像の視覚品質が望ましくないことがある。
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明は、従来技術における前記問題に鑑みてなされたものである。本発明の目的は、関心領域の動的検知に基づいたシーン状態の切換システム、及び関心領域の動的検知によるシーン状態の切換方法を提供することにある。
【課題を解決するための手段】
【0010】
本発明の一実施例によれば、関心要素に基づくシーン状態の切換システムが提供される。この切換システムは、撮像装置で撮像した現撮像画像を現フレーム画像として入力する入力装置と、前記入力装置から入力される前記現フレーム画像から関心要素の最大可能存在領域を決定する検知装置と、予め定義されたそれぞれのシーン状態及び切換条件に基づいて、前記最大可能存在領域のシーン状態間の切換を行う状態切換装置と、前記状態切換装置により切り換えられた現シーン状態に応じて、前記最大可能存在領域から、前記現シーン状態と一致する関心領域を表示する表示装置と、を含む。
【0011】
また、本発明の他の実施例によれば、関心要素に基づくシーン状態の切換方法が提供される。この切換方法は、撮像装置で撮像した現撮像画像を現フレーム画像として入力するステップと、前記入力ステップで入力される前記現フレーム画像から関心要素の最大可能存在領域を決定する検知ステップと、予め定義されたそれぞれのシーン状態及び切換条件に基づいて、最大可能存在領域のシーン状態間の切換を行う状態切換ステップと、前記状態切換ステップで切り換えられた現シーン状態に応じて、前記最大可能存在領域から、前記現シーン状態と一致する関心領域を表示する表示ステップと、を含む。
【0012】
本発明の前述の実施例によると、有限状態機械を用いて関心領域を動的に検知し、ユーザに関心領域を表示し、優れた映像を提供するとともに、ユーザの全体のシーンの雰囲気への配慮を可能にしている。場所の配置、例えば、大きさ、形状、参加人数等のパラメータ、及び、全体のイベント(例えば、会議、医療等)進行過程においてシーンが異なることを考慮することにより、本発明の実施例による技術は、関心領域の動的検知を効率よく用いることで、最適映像の提供を円滑に行うことができる。
【0013】
関心要素のみならず、潜在要素も考慮し、関心要素及び潜在要素に基づいた検知により、撮像装置の映像取得範囲を決定し、関心要素の最大可能存在領域を取得することができる。潜在要素の位置とは、新規加入の関心要素が最も出現する可能性のある位置である。また、追跡メカニズムを更に組み合わせることで、関心要素の退席と新規加入を容易に発見することができる。
【0014】
また、超解像度(Super-resolution)と所定の視覚品質に基づいた表示強調技術を用いることで、原映像の質が劣化している場合でも、効率よく映像の視覚品質を向上することができる。
【発明の効果】
【0015】
本発明の実施例によると、関心領域の動的検知に基づいたシーン状態の切換システム、及び関心領域の動的検知によるシーン状態の切換方法を提供することができる。
【図面の簡単な説明】
【0016】
【図1】本発明の一実施例による、関心領域の動的検知に基づいたシーン映像切換システムの全体ブロック図である。
【図2】遠隔会議システムを例として、会議場所を示した図である。
【図3】図2に示した会議場所における撮像装置から得られた映像を示した図である。
【図4】図3に示した現フレーム画像から決定された最大可能存在領域を示した図である。
【図5】撮像装置の調整装置による調整後の撮像装置の結像状況を示す図である。
【図6A】本発明の一実施例によるシーン状態切換を示した図である。
【図6B】図6Aに示したシーン状態の切換に対応付けられているシーン状態切換表である。
【図7A】本発明の他の実施例におけるシーン状態切換を示した図である。
【図7B】図7Aに示したシーン状態の切換に対応付けられているシーン状態切換表である。
【図8】図5に示した最大可能存在領域に対して各シーン状態で抽出された各関心領域及びその拡大表示を示した図である。
【発明を実施するための形態】
【0017】
以下、添付した図面を参照しながら、本発明の好適な実施形態を詳細に説明する。
【0018】
図1は、本発明の一実施例による、関心領域の動的検知に基づいたシーン映像切換システム100の全体ブロック図である。図1に示されたように、関心領域の動的検知に基づいたシーン映像切換システム100は、撮像装置10からの現撮像画像を現フレーム画像として入力する入力装置110と、前記入力装置110から入力される前記現フレーム画像から、全部の関心要素と潜在要素を検知し、前記関心要素の最大可能存在領域を決定する検知装置120と、予め定義される有限状態機械160により、予め定義されたそれぞれのシーン状態及び切換条件に基づいて、最大可能存在領域のシーン状態間の切換を行う状態切換装置130と、前記状態切換装置130により切り換えられた現シーン状態に応じて、前記最大可能存在領域から、該現シーン状態と一致する関心領域をシーン映像として抽出して表示する表示装置140と、を備えている。
【0019】
シーン映像切換システム100は、遠隔会議システムに用いられる場合は、会議室を場所とすることができ、遠隔医療システムに用いられる場合は、診療室、ひいては手術室などを場所とすることができる。以下、遠隔会議システムに用いられることを例として、本発明の実施例におけるシーン映像切換システム100を説明するが、本発明の実施例によるシーン映像切換システム100の実現は、遠隔会議システムに依存するものではなく、他の遠隔ビデオシステムに適用可能なことは、当業者が認識することができる。
【0020】
撮像装置10は、現場の映像を撮像するもので、例えば、撮像ヘッド、ビデオカメラ、カメラ等の映像画像形成装置であり、そのレンズは、通常のもの、全方位のもの、或いは広角のものでよい。
【0021】
ここで、前記関心要素は、現場参加者であり、前記潜在要素は、所定の現場参加者の可能な出現場所であり、例えば、現場における空椅子、プレゼンテーションボード、スライドプロジェクター等である。
【0022】
図2は、遠隔会議システムを例として、会議場所を示した図であり、撮像装置10と、現場参加者21、22、23、24と、空椅子31、32、33、34が示されている。本発明の一実施例におけるシーン映像切換システム100に用いられる遠隔会議システムは、現場参加者4人に限られるものではなく、現場参加者の出現可能な潜在場所も、空椅子に限るものではなく、数も4つに限られるものではないことは言うまでもない。
【0023】
図3は、図2に示した会議場所における撮像装置から得られた映像を示した図である。
【0024】
前記検知装置120は、撮像装置10からの現撮像画像である現フレーム画像に対し、混合ガウスモデル(Gaussian Mixture Model)の動的背景モデル構築に基づいた前景対象検知により、前記現フレーム画像から前景画像を検知し、人物の顔と頭部の検知により、該前景画像からの現場参加者の検知を行い、所定の特徴の検知や、事前のデータ集合による訓練により、前記現フレーム画像から前記所定の現場参加者の可能な出現場所を検知することができる。混合ガウスモデルの動的背景モデル構築に基づいた前景対象検知と、人物の顔と頭部の検知と、空椅子、プレゼンテーションボード、スライドプロジェクター等の所定の特徴の検知は、すべて成熟した従来の技術手段から実現することができる。現場の参加者の検知のみならず、空椅子といった潜在場所の検知も行う理由は、会議中のメンバーの新規参加や現場参加者の退席を考慮し、現場の参加者の最大可能存在領域に漏れが生じることを極力避けるためである。
【0025】
図4は、図3に示された現フレーム画像から決定された最大可能存在領域を示した図である。ここで、(α00)は、撮像装置10から撮像された現フレーム画像の中心点であり、破線フレーム50は、決定した現場参加者の最大可能存在領域であり、(αaa)は、最大可能存在領域50の中心点である。
【0026】
前記最大可能存在領域50は、すべての関心要素と潜在要素を含む矩形であり、該矩形の左辺が、検知した最左側の関心要素と潜在要素の左縁であり、該矩形の上辺が、検知した最上側の関心要素と潜在要素の上縁であり、該矩形の右辺が、検知した最右側の関心要素と潜在要素の右縁であり、該矩形の下辺が、検知した最下側の関心要素と潜在要素の下縁である。矩形の各辺及びその中心点の決定は、コンピュータグラフィックの通常手段により実現することができる。
【0027】
本発明の一実施例のシーン映像切換システム100は、最大可能存在領域に対し、関心領域の抽出及びシーン状態切換といった操作・処理を行うために、システムの改善として、図1に示されたシーン映像切換システム100は、撮像装置10の調整装置150を更に有することが好ましい。該撮像装置10の調整装置150は、前記撮像装置10の結像範囲の中心が前記最大可能存在領域の中心に移動するように、前記現フレーム画像と前記最大可能存在領域との位置関係から、前記撮像装置10の水平方向及び垂直方向における必要な回転角度を計算するようになっている。なお、前記撮像装置の調整装置150は、前記撮像装置10の結像範囲内において、前記最大可能存在領域の幅と高さを調整するようになっている。
【0028】
例えば、撮像装置10の調整装置150は、撮像装置10の結像範囲と、決定した最大可能存在領域と、撮像装置10の固有パラメータとにより、すべての現場参加者及び可能な出現位置を含む注目すべき領域で撮像装置10の結像範囲が充満されるように、撮像装置10のレンズに必要な水平方向上の回転(Pan)角度、垂直方向上の回転(Tilt)角度、及び拡大縮小の比率(Zoom)を計算する。これらの回転角度及び拡大縮小比率は、PTZパラメータと称されており、撮像装置調整装置150は、算出されたPTZパラメータにより、撮像装置10の調整を行っている。
【0029】
コンピュータグラフィック及びコンピュータ画像処理分野における従来技術により、必要なPTZパラメータを算出し、PTZパラメータにて調整された後の撮像装置10からの撮像画像は、例えば、図5に示されたようになる。
【0030】
図5は、撮像装置の調整装置150による調整後の撮像装置10の、図1に示された現場撮影への撮影から得られた画像である。ここで、最大可能存在領域により全結像範囲が極力充填され、矩形フレームの中心点は、現フレーム画像の中心点であり、最大可能存在領域の中心点でもある。
【0031】
次に、本発明の一実施例によるシーン映像切換システム100において、最大可能存在領域に対して、有限状態機械(Finite State Mechanism,FSM)を用いて行うシーン状態切換及びそれに応じた関心領域(Region of Interest,ROI)の表示処理について説明する。
【0032】
前記有限状態機械160は、シーン状態の集合、初期シーン状態、終了シーン状態の集合、シーン状態間の切換条件の集合を含むように予め定義され、各シーン状態は、初期スコア、スコアの経時的変化の速度、及び固有値を有し、各切換条件は、それぞれの切換動作に関連づけられている。
【0033】
状態切換装置130は、所定のイベントの発生を検知し、シーン状態のリアルタイムスコアの計算及び比較を行うことで、シーン状態間の切換条件を満たしているかを判断し、シーン状態間の切換条件を満たしていると、シーン状態を切り換えるとともに、シーン状態のスコアを変更するようになっている。
【0034】
例えば、テレビ会議の場合、各シーン状態によって、関心領域が異なってくる。
【0035】
図6Aは、一実施例によるシーン状態の切換を示した図であり、図6Bは、図6Aに示されたシーン状態の切換に対応付けられているシーン状態切換表である。
【0036】
図6Aに示された例において、テレビ会議のシーン状態は、講演シーン(speaker scene)と、重要人物シーン(key role scene)と、すべての現場参加者のシーンである全体シーン(whole scene)に分けられているが、シーン状態は拡張可能であることは、当業者が認識することができる。ここで、重要人物シーンにおける重要人物は、ユーザにより前記最大可能存在領域から予め選定してよい。
【0037】
有限状態機械160は、下記のように定義される。
A = (Q, σ, q0, F)
ここで、Aは、有限状態機械160を示し、Q = {whole scene, speaker scene, key role scene}は、シーン状態の集合であり、q0 = {whole scene},は、ここでは初期シーン状態となるが、他のシーン状態を初期シーン状態としてよいことは言うまでもない。F = {whole scene, speaker scene, key role scene}は、終了シーン状態の集合であり、σ = {a, b, c, d, e},は、シーン状態間の切換条件a、b、c、d、及びeの集合であり、ある切換条件が満たされると、それに応じた切換動作が行われる。
【0038】
各シーン状態は、リアルタイムスコアを有し、全体シーン状態のリアルタイムスコアは、Swholeで表され、講演シーン状態のリアルタイムスコアは、Sspeakerに表され、重要人物シーン状態のリアルタイムスコアは、Skeyで表され、各シーン状態の初期(時間t=0)のスコアが初期スコアであり、各シーン状態の初期スコアは同一値S0に設定されてもよいが、本発明の実施例のシーン映像切換システム100の詳細設計の要求に応じて、各状態の初期スコアが異なっていてもよいことは言うまでもない。全体シーン状態のスコアの経時変化の速度は、Vで表され、講演シーン状態のスコアの経時変化の速度は、Vで表され、重要人物シーン状態のスコアの経時変化の速度は、Vで表されている。全体シーン状態の固有値は、Sで表され、講演シーン状態の固有値は、Sで表され、重要人物シーン状態の固有値は、Sで表される。各固有値は所定の定数であり、シーン状態の切換条件の調整量とすることができ、設計に応じて変更することもできる。tは、時間0の初期時刻から経過した時間である。ここで、各シーン状態の初期スコアと、tと、スコアの経時変化の速度と、各シーンの固有値は、正の値に設定されている。
【0039】
ここで、時間t=0時の各シーン状態のスコアが同一で、即ち、Swhole=Sspeaker=Skey=S0であると仮定する。当業者は、各状態の初期スコアは、設計要求に応じて異なってもよいことが認識できる。また、ここでは全体シーン状態を初期シーン状態にしたが、設計要求に応じて他のシーン状態を初期シーン状態としてもよいことが認識できる。
【0040】
異なるシーン状態間の切換条件は、イベントを検知し、かつ/またはシーン状態のリアルタイムスコアを計算及び比較し、条件を満たすと、それに応じた切換操作を開始(トリガー)するようにする。
【0041】
シーン状態間の切換条件a、b、c、d、及びeは、図6Aに示されたように、矢印は、それぞれの切換条件を満たす場合のシーン状態の切換方向を示し、図6Bの表における各条件は、最左列における該条件の位置に対応する行の状態から、最上行における該条件の位置に対応する列の状態への切換を表し、“−”は、その行の状態から、その列の状態への切換がないことを表している。
【0042】
a:新たな話者を検知し、Swhole(=Swhole+Vw*t)を計算し、Swhole>S1を満たしているかを判断する。条件aを満たしていると、開始される切換動作は、全体シーン状態から講演シーン状態に切り換え、かつSspeaker=Sspeaker+Sである。
【0043】
b:新たな話者を検知する。条件bに対応する切換動作は、講演シーンから講演シーンに切り換え、かつSspeaker=S+Sである。話者が異なる場合があるため、切換条件bに対応するシーン切換は、シーン状態種別の角度からは、自身から自身への切換と見なすことができるが、講演シーンのシーン状態種別については、後述するが、関心領域の決定は、検知した話者によって変更可能であり、講演シーンのシーン状態は、検知した話者によって異なる関心領域に対応付けられている。関心領域の抽出については、後述する。
【0044】
c:Sspeaker(=Sspeaker-V*t)を計算し、Sspeaker<Skeyを満たしているかを判断する。条件cに対応する切換動作は、講演シーンから重要人物シーンに切り換えることである。
【0045】
d:新たな話者を検知し、Skey(=Skey+V*t)を計算し、Skey>Sを満たしているかを判断する。条件dに対応する切換動作は、重要人物シーンから講演シーンに切り換え、かつSspeaker=Sspeaker+Sである。
【0046】
e:Skey=Skey+V*t、かつSkey>Sである。条件eに対応する切換動作は、全体シーンに切り換え、かつSwhole=Sspeaker=Skey=S0である。
【0047】
図7Aは、他の実施例によるシーン状態の切換を示した図であり、図7Bは、図7Aに示されたシーン状態の切換に対応付けられているシーン状態切換表である。
【0048】
図7Aに示された例において、テレビ会議のシーン状態は、講演シーン(speaker scene)と、重要人物シーン(key role scene)と、単一人物シーン(single scene)と、すべての現場参加者のシーンである全体シーン(whole scene)に分けられているが、シーン状態は拡張可能であることは、当業者が認識することができる。ここで、重要人物シーンにおける重要人物は、ユーザにより前記最大可能存在領域から予め選定してよい。
【0049】
有限状態機械160は、下記のように定義される。
A = (Q, σ, q0, F)
ここで、Aは、有限状態機械160を示し、Q={whole scene, speaker scene, key role scene, single scene}は、シーン状態の集合であり、q0 = {whole scene}は、ここでは初期シーン状態となるが、他のシーン状態を初期シーン状態としてもよいことは言うまでもない。F={whole scene, speaker scene, key role scene, single scene}は、終了シーン状態の集合であり、σ={a, b, c, d, e, f1, f2, f3, g, h}は、シーン状態間の切換条件a、b、c、d、e、f1、f2、f3、g及びhの集合であり、ある切換条件が満たされると、それに応じた切換動作が行われる。
【0050】
各シーン状態は、リアルタイムスコアを有し、全体シーン状態のリアルタイムスコアは、Swholeで表され、講演シーン状態のリアルタイムスコアは、Sspeakerに表され、重要人物シーン状態のリアルタイムスコアは、Skeyで表され、単一事物シーン状態のリアルタイムスコアは、Ssingleで表され、各シーン状態の初期(時間t=0)のスコアは、初期スコアであり、各シーン状態の初期スコアは同一値のS0に設定されてもよいが、本発明の実施例のシーン映像切換システム100の詳細設計の要求に応じて、各状態の初期スコアが異なっていてもよいことは言うまでもない。全体シーン状態のスコアの経時変化の速度は、Vで表され、講演シーン状態のスコアの経時変化の速度は、Vで表され、重要人物シーン状態のスコアの経時変化の速度は、Vで表され、単一人物シーン状態のスコアの経時変化の速度は、Vで表されている。全体シーン状態の固有値は、Sで表され、講演シーン状態の固有値は、Sで表され、重要人物シーン状態の固有値は、Sで表され、単一人物シーン状態の固有値は、Sで表される。各固有値は所定の定数であり、シーン状態の切換条件の調整量とすることができ、設計に応じて変更することもできる。tは、時間0の初期時刻から経過した時間である。ここで、各シーン状態の初期スコアと、tと、スコアの経時変化の速度と、各シーンの固有値は、正の値に設定されている。
【0051】
ここで、時間t=0時の各シーン状態のスコアが同一で、即ち、Swhole=Sspeaker=Skey=Ssingle=S0であると仮定する。当業者は、各状態の初期スコアは、設計要求に応じて異なってもよいことが認識できる。また、ここでは全体シーン状態を初期シーン状態にしたが、設計要求に応じて他のシーン状態を初期シーン状態としてもよいことが認識できる。
【0052】
異なるシーン状態間の切換条件は、イベントを検知し、かつ/またはシーン状態のリアルタイムスコアを計算及び比較し、条件を満たすと、それに応じた切換操作を開始(トリガー)するようにする。
【0053】
シーン状態間の切換条件a、b、c、d、e、f1、f2、f3、g、及びhは、図7Aに示されたように、矢印は、それぞれの切換条件を満たす場合のシーン状態の切換方向を示し、図7Bの表における各条件は、最左列における該条件の位置に対応する行の状態から、最上行における該条件の位置に対応する列の状態への切換を表し、“−”は、その行の状態から、その列の状態への切換がないことを表している。
【0054】
a:新たな話者を検知し、Swhole(=Swhole+Vw*t)を計算し、Swhole>S1を満たしているかを判断する。条件aを満たしていると、開始される切換動作は、全体シーンから講演シーンに切り換え、かつSspeaker=Sspeaker+Sである。
【0055】
b:新たな話者を検知する。条件bに対応する切換動作は、講演シーンから講演シーンに切り換え、かつSspeaker=S+Sである。話者が異なる場合があるため、切換条件bに対応するシーン切換は、シーン状態種別の角度からは、自身から自身への切換と見なすことができるが、講演シーンのシーン状態種別については、後述するが、関心領域の決定は、検知した話者によって変更可能であり、講演シーンのシーン状態は、検知した話者によって異なる関心領域に対応付けられている。関心領域の抽出については、後述する。
【0056】
c:Sspeaker(=Sspeaker-V*t)を計算し、Sspeaker<Skeyを満たしているかを判断する。条件cに対応する切換動作は、講演シーンから重要人物シーンに切り換えることである。
【0057】
d:新たな話者を検知し、Skey(=Skey+V*t)を計算し、Skey>Sを満たしているかを判断する。条件dに対応する切換動作は、重要人物シーンから講演シーンに切り換え、かつSspeaker=Sspeaker+Sである。
【0058】
e:Skey=Skey+V*t、かつSkey>Sである。条件eに対応する切換動作は、全体シーンに切り換え、かつSwhole=Sspeaker=Skey=Ssingle=S0である。
【0059】
f1:新メンバーの参加を検知し、Swhole(=Swhole+Vw*t)を計算し、Swhole>S1を満たしているかを判断する。切換条件f1に対応する切換動作は、単一人物シーンに切り換え、Ssingle=Ssingle+S4である。
【0060】
f2:Sspeaker(=Sspeaker-V*t)を計算し、Sspeaker<Ssingleを満たしているかを判断する。条件f2に対応する切換動作は、単一人物シーンに切り換え、Ssingle=Ssingle+S4である。
【0061】
g:Ssingle(=Ssingle-V*t)を計算し、Ssingle<Skeyを満たしているかを判断する。条件gに対応する切換動作は、重要人物シーンに切り換えることである。
【0062】
h:新メンバーの参加を検知する。条件hに対応する切換動作は、単一人物シーンに切り換え、かつSsingle=S+Sである。講演シーンと同様に、異なる話者に対応する場合があり、単一人物シーンに関しては、異なるメンバーが新たに加入する場合があるため、切換条件hに対応するシーン切換は、シーン状態種別の角度からは、自身から自身への切換と見なすことができるが、単一人物シーンのシーン状態種別については、後述するが、関心領域の決定は、検知した新メンバーによって変更可能であり、単一人物シーンのシーン状態は、検知した新メンバーによって異なる関心領域に対応付けられている。また、新メンバーの加入があるため、全体シーンに対応する関心領域も、あわせて新たに加入するメンバーを含むように調整される。関心領域の抽出については、後述する。
【0063】
話者、新加入者、及び途中退席者の検知は、従来の音声、映像検知手段で実現することができる。
【0064】
本発明における有限状態機械は、前記設計に限らず、前述の記載から、他の有限状態機械も本発明に適用することが可能であることを、当業者は想到することができる。例えば、前述のシーン状態のうち任意の一つは、除去可能である一方、各参加者を順番で表示するなどのシーン状態をさらに増加することができる。また、メンバー退席のイベントを検知してもよく、他の切換条件と切換動作を設定してもよい。
【0065】
異なるシーン状態を設計して、異なる関心領域に対応することができる。あるシーン状態において、前述と同様の最大可能存在領域の決定手段や、他の画像切り取り方法により、関心領域を抽出し、表示すべきシーン映像とすることができる。例えば、全体シーン状態において、関心領域は、すべての参加者を含む矩形であり、講演シーン状態において、関心領域は、話者を含み、かつ該話者を中心とした一定範囲内の矩形であり、重要人物シーン状態において、関心領域は、重要人物を含み、かつ該重要人物を中心とした一定範囲内の矩形である。また、選択的に、通常の画像処理手段により、抽出した関心領域を拡大表示してもよい。
【0066】
図8の(A)、(B)及び(C)は、図5に示された最大可能存在領域に対して各シーン状態で抽出された各関心領域及びその拡大表示を示した図である。
【0067】
図5に示された最大可能存在領域の例において、図8(A)は、全体シーン状態で、関心領域を抽出して拡大表示したシーン映像を示し、メンバー23の発言を検知すると、シーン状態を講演シーン状態に切り換えるとともに、メンバー23を中心とした関心領域を抽出して拡大表示している(図8(B)に図示)。メンバー21、22が重要人物であり、関連条件を満たしていると、メンバー21、22を中心とした関心領域を抽出してもよく、図8(C)に示されたように、拡大表示することができる。前記関心領域の抽出及びシーン映像の表示は、単に例として図示されたもので、各種修正が可能なことはいうまでもない。
【0068】
本発明の実施例の更なる改善として、選択的に、図1に示されたシーン映像切換システム100は、前記状態切換装置130により切り換えられた現シーン状態に基づき、それに応じた関心領域における現場参加者の顔の解像度から、全体シーン映像の視覚品質を決定し、該視覚品質が所定の閾値未満であると、該シーン映像の視覚品質を高める表示強調装置170をさらに有してもよい。
【0069】
例えば、表示したシーン映像において、撮像装置から離れた場所に位置する参加者がいる場合、該参加者の最大可能存在領域における面積が小さくなり、抽出及び拡大後に、ぼんやりしすぎる等の視覚品質が低いという問題が生じてしまう。閾値を予め定義し、表示した参加者の映像の視覚品質が該所定の閾値未満であると、伝送及び表示すべき映像フレームの質を向上することができる。
【0070】
例えば、下記式(1)により、視覚品質を向上すべきか否かの判断を行うことができる。
【数1】

式中、
【数2】

は、現シーン画像である現映像フレームの解像度であり、
【数3】

は、現シーン画像を表し、
【数4】

は、i(iは自然数)番目の参加者Piの顔の解像度であり、Thは、予め定義した閾値であり、該閾値Thは、シーン状態によって異なるように設定してもよい。
【0071】
式(1)を満足すると、現映像フレームの視覚品質が低いと判断し、該シーン映像の視覚品質の向上を選択することができる。
【0072】
視覚品質は、参加者顔の映像フレームにおける解像度の度合いにより算出してもよく、各参加者顔の映像フレームにおけるPSNR値(ピーク信号対ノイズ比)を計算し、該PSNR値が所定の閾値未満であると、視覚品質が好ましくないと判断し、さらに視覚品質の向上を選択してもよい。
【0073】
例えば、撮像装置から離れている参加者に対し、時間領域上のフレーム間情報により、高視覚品質を得ることができる。例えば、複数の隣り合うフレームの時間領域上の関連情報により、各フレームのコンテンツの細部を回復し、具体的に、超解像度方法を用いて、先ず、高品質の補間値を用いて処理すべき映像フレームを元の2倍に拡大し、その後、画素運動補償動作により、該現映像フレームの隣接フレームから、近似領域を検索し、画像情報を融合し、元映像フレームのサイズに還元することができる。なお、線形補間、最近接補間、双線形補間、三次補間などの方法で、映像フレームの視覚品質を向上してもよい。
【0074】
本発明の他の実施例においては、さらに、前述のシーン映像切換システム100で実施される関心領域の動的検知に基づいたシーン映像切換方法が提供される。このシーン映像切換方法は、前述の入力装置110で実行され、撮像装置10からの現撮像画像を現フレーム画像として入力するステップと、前述の検知装置120で実行され、前記入力ステップで入力される現フレーム画像から、全ての関心要素と潜在要素を検知し、前記関心要素の最大可能存在領域を決定する検知ステップと、前述の状態切換装置130で実行され、予め定義される有限状態機械160により、予め定義されたそれぞれのシーン状態及び切換条件に基づいて、最大可能存在領域のシーン状態間の切換を行う状態切換ステップと、前述の表示装置140で実行され、状態切換ステップで切り換えられた現シーン状態に応じて、前記最大可能存在領域から、該現シーン状態を満たす関心領域をシーン映像として抽出して表示する表示ステップと、を有する。
【0075】
また、前記関心要素は、現場の参加者であり、前記潜在要素は、所定の参加者の可能出現場所である。
【0076】
また、前記検知ステップにおいて、混合ガウスモデルの動的背景モデル構築に基づいた前景対象検知により、前記現フレーム画像から前景画像を検知し、人物の顔と頭部検知により、該前景画像からの現場参加者の検知を行い、所定の特徴の検知により、前記現フレーム画像から前記所定の現場参加者の可能出現場所を検知している。
【0077】
また、前記最大可能存在領域が、すべての関心要素と潜在要素を含む矩形であり、該矩形の左辺が、検知した最左側の関心要素と潜在要素の左縁であり、該矩形の上辺が、検知した最上側の関心要素と潜在要素の上縁であり、該矩形の右辺が、検知した最右側の関心要素と潜在要素の右縁であり、該矩形の下辺が、検知した最下側の関心要素と潜在要素の下縁である。
【0078】
また、前記シーン映像切換方法は、撮像装置の調整ステップをさらに有し、前述の撮像装置の調整装置150で実行され、前記撮像装置10の結像範囲の中心点が前記最大可能存在領域の中心点に移動するように、前記現フレーム画像と前記最大可能存在領域との位置関係から、前記撮像装置10の水平方向及び垂直方向における必要な回転角度を計算している。
【0079】
また、前記撮像装置の調整ステップにおいて、前記撮像装置10の結像範囲内において、前記最大可能存在領域の幅と高さを調整している。
【0080】
また、前記有限状態機械160は、シーン状態の集合、初期シーン状態、終了シーン状態の集合、シーン状態間の切換条件の集合を含むように予め定義されるようにした。ここで、各シーン状態は、初期スコア、スコアの経時変化の速度、固有値を有し、各切換条件は、それぞれの切換動作に関連付けられている。
【0081】
前記状態切換ステップにおいて、所定のイベントの発生を検知し、シーン状態のリアルタイムスコアの計算及び比較を行うことで、シーン状態間の切換条件を満たしているかを判断し、シーン状態間の切換条件を満たしていると、シーン状態を切り換えるとともに、シーン状態のスコアを変更するようにした。
【0082】
前記シーン映像切換方法は、さらに表示強調ステップを含むことができ、前記状態切換装置170により実行され、前記状態切換装置により切り換えられた現シーン状態に基づき、それに応じた関心領域における現場参加者の顔の解像度から、全体シーン映像の視覚品質を決定し、該視覚品質が所定の閾値未満であると、該シーン映像の視覚品質を高めている。
【0083】
本発明の実施例は、例えば、テレビ会議システム、遠隔医療システム等の各種ビデオシステムに適用することができる。関心要素のみならず、潜在要素も考慮し、関心要素と潜在要素の検知により、撮像装置の映像収集範囲を決定し、関心要素の最大可能存在領域を取得している。有限状態機械のメカニズムを用いて動的に関心領域を検知し、抽出及び遠隔表示することで、遠隔ビデオシステムのユーザに最適映像をスムーズに提供することができる。選択的には、さらに超解像度と所定の視覚品質に基づいた表示強調技術を用いて、原ビデオ映像の質が劣化している場合にも、効率よくビデオ映像の視覚品質を向上することができる。
【0084】
本明細書における一連の動作は、ハードウェアや、ソフトウェアや、ハードウェアとソフトウェアの組み合わせから実行することができる。ソフトウェアにより該一連の動作を実行時には、コンピュータプログラムを専用ハードウェアのコンピュータに内蔵されたメモリにインストールし、コンピュータにより該コンピュータプログラムを実行させてもよい。或いは、コンピュータプログラムを各種処理が実行可能な汎用コンピュータにインストールし、コンピュータにより該コンピュータプログラムを実行させてもよい。
【0085】
例えば、コンピュータプログラムを記録媒体であるハードディスクやROMに予め保存するか、一時または永久的にコンピュータプログラムをフロッピや、CD−ROMや、MOや、DVDや、磁気ディスクや、半導体メモリ等のような移動記録媒体に保存(記録)することができ、このような移動記録媒体をパッケージとして提供してもよい。
【0086】
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の範囲に属する。

【特許請求の範囲】
【請求項1】
関心要素に基づくシーン状態の切換システムであって、
撮像装置で撮像した現撮像画像を現フレーム画像として入力する入力装置と、
前記入力装置から入力される前記現フレーム画像から関心要素の最大可能存在領域を決定する検知装置と、
予め定義されたそれぞれのシーン状態及び切換条件に基づいて、前記最大可能存在領域のシーン状態間の切換を行う状態切換装置と、
前記状態切換装置により切り換えられた現シーン状態に応じて、前記最大可能存在領域から、前記現シーン状態と一致する関心領域を表示する表示装置と、
を含むことを特徴とする切換システム。
【請求項2】
前記関心要素は現場参加者であり、
前記検知装置は所定の参加者の可能な出現場所を示す潜在要素を検知することを特徴とする請求項1に記載の切換システム。
【請求項3】
前記検知装置は、混合ガウスモデルの動的背景モデル構築に基づいた前景対象検知により、前記現フレーム画像から前景画像を検知し、人物の顔と頭部検知により、前記前景画像からの現場参加者の検知を行い、所定の特徴の検知により、前記現フレーム画像から前記所定の現場参加者の可能な出現場所を検知することを特徴とする請求項2に記載の切換システム。
【請求項4】
前記最大可能存在領域は、全ての関心要素と潜在要素を含む矩形であり、前記矩形の左辺は、検知した最左側の関心要素と潜在要素の左縁であり、前記矩形の上辺は、検知した最上側の関心要素と潜在要素の上縁であり、前記矩形の右辺は、検知した最右側の関心要素と潜在要素の右縁であり、前記矩形の下辺は、検知した最下側の関心要素と潜在要素の下縁であることを特徴とする請求項1に記載の切換システム。
【請求項5】
前記撮像装置の調整装置を更に有し、
前記調整装置は、前記撮像装置の結像範囲の中心点が前記最大可能存在領域の中心点に移動するように、前記現フレーム画像と前記最大可能存在領域との位置関係に基づいて、前記撮像装置の水平方向及び垂直方向における必要な回転角度を計算することを特徴とする請求項1に記載の切換システム。
【請求項6】
前記撮像装置の前記調整装置は、前記撮像装置の結像範囲内において、前記最大可能存在領域の幅と高さを調整することを特徴とする請求項5に記載の切換システム。
【請求項7】
シーン状態の集合、初期シーン状態、終了シーン状態の集合、シーン状態間の切換条件の集合を含むように前記それぞれのシーン状態及び切換条件を予め定義することを特徴とする請求項1に記載の切換システム。
【請求項8】
前記状態切換装置は、所定のイベントの発生を検知し、シーン状態のリアルタイムスコアの計算及び比較を行うことで、シーン状態間の切換条件を満たしているかを判断し、シーン状態間の切換条件を満たしていると、シーン状態を切り換えるとともに、シーン状態のスコアを変更することを特徴とする請求項7に記載の切換システム。
【請求項9】
前記状態切換装置により切り換えられた前記現シーン状態に一致する前記関心領域における前記現場参加者の顔の解像度に基づいて、前記シーン映像全体の視覚品質を決定し、前記視覚品質が所定の閾値未満であると、前記シーン映像の視覚品質を高める表示強調装置を更に有することを特徴とする請求項2に記載の切換システム。
【請求項10】
関心要素に基づくシーン状態の切換方法であって、
撮像装置で撮像した現撮像画像を現フレーム画像として入力するステップと、
前記入力ステップで入力される前記現フレーム画像から関心要素の最大可能存在領域を決定する検知ステップと、
予め定義されたそれぞれのシーン状態及び切換条件に基づいて、最大可能存在領域のシーン状態間の切換を行う状態切換ステップと、
前記状態切換ステップで切り換えられた現シーン状態に応じて、前記最大可能存在領域から、前記現シーン状態と一致する関心領域を表示する表示ステップと、
を含むことを特徴とする切換方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6A】
image rotate

【図6B】
image rotate

【図7A】
image rotate

【図7B】
image rotate

【図8】
image rotate


【公開番号】特開2012−151848(P2012−151848A)
【公開日】平成24年8月9日(2012.8.9)
【国際特許分類】
【出願番号】特願2012−8317(P2012−8317)
【出願日】平成24年1月18日(2012.1.18)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】