説明

Fターム[5L096BA16]の内容

イメージ分析 (61,341) | 入力画像・用途の種類 (5,501) | 特定画像 (1,491) | 音声 (62)

Fターム[5L096BA16]に分類される特許

21 - 40 / 62


【課題】ユーザの困惑度を精度良く推定する。
【解決手段】ユーザがカーナビゲーション装置を操作した際の入力情報及びこの入力情報に応じた機器内部の状態変化に関し、かつユーザの困惑状況を示す操作時の機器内部の特徴量、及びこの操作時の機器内部の特徴量が示すユーザの困惑状況の継続時間、並びにユーザがカーナビゲーション装置を操作する前及び操作中のユーザの動作及び表情に関し、かつユーザの困惑状況を示す操作時のユーザの特徴量、及びこの操作時のユーザの特徴量が示すユーザの困惑状況の継続時間を検出し(102)、検出された特徴量及び継続時間の組、並びに困惑度推定データベースの内容に基づいて、検出された特徴量及び継続時間の組のパターンに対する困惑度をユーザの困惑度として推定する(104〜112)。 (もっと読む)


【課題】音声認識処理の負荷を増大させることなく、ノイズ環境下における音声認識率を向上させること。
【解決手段】音声認識装置11は画像処理部13及び音声処理部12を備える。画像処理部13は、画像情報に基づいて音節区切り時刻を抽出する。音声処理部12は、音声の特徴量のうち、音節区切り時刻と同期して減少する特徴量及びその時刻の前後において一定値をとる特徴量について、その時刻の直後における特徴量の値を減少させる。 (もっと読む)


【課題】確実なシーン認識を可能にすると共に、視聴者が不快なシーンを視聴することを防止する。
【解決手段】 音声認識処理を行う音声認識部16と、動画認識処理を行う動画認識部17と、音声認識部の認識結果による音声と登録シーンデータベース中の音声とを比較して、入力コンテンツのシーン中の音声が登録シーンとして指定されたシーンに含まれる音声に一致する度合いの数値を求める音声判定処理部18と、動画認識部の認識結果による映像部品と登録シーンデータベース中の映像部品とを比較して、入力コンテンツのシーン中の映像部品が登録シーンとして指定されたシーンに含まれる映像部品に一致する度合いの数値を求める映像判定処理部19と、音声判定処理部及び映像判定処理部により得られた数値に基づいて入力コンテンツのシーンが登録シーンであるか否かを判定する登録シーン判定部20と、を具備したことを特徴とする。 (もっと読む)


【課題】互いに大きく変形し、信号値の絶対値や変動範囲が変化し、ノイズが付加された2つの信号間の対応付けを、頑健、かつ、高精度で行うことの可能な信号処理装置を提供する。
【解決手段】信号処理装置1は、信号入力部2、ボケ変換部3、最適経路計算部4、探索範囲設定部5、照合窓設定部6、終了判定部7から構成され、両信号をボケ変換し、ボケの大きさを小さくしながら複数回のDPマッチングを行い、DPマッチングの各回の処理においては、前回DPマッチングで得られた最適経路の近傍に探索範囲を設定し、前回DPマッチングで得られた最適経路に基づいて照合窓の形状、標本点数、拡大率等のパラメータを信号上の各点毎に設定する。 (もっと読む)


本発明は、少なくとも2人の人の間の会話を電子的に評価するための方法に関し、オーディオデータを受けるステップと、会話の進行において少なくとも2人の人の発言の再区分を決定するためにオーディオデータを解析するステップと、解析するステップの結果を予め定められたコミュニケーションパターンと比較するステップとを備える。
(もっと読む)


【課題】口唇動作から発話内容を識別する際の識別誤差を小さくすることができる発話内容識別装置及び口唇動作の特徴から個人を識別することができる個人識別装置を提供する。
【解決手段】発話内容識別装置1は、撮影手段2で撮影された、発話者が発話している際の口唇部分の映像から当該発話者の口唇動作を得て、この口唇動作から発話内容を識別するものであって、口唇部分の特徴点の位置を抽出する画像処理手段3と、動作履歴グラフを測定する動作測定手段5と、動作スペクトルグラフに変換するデータ変換手段7と、母音行列を生成する母音行列生成手段9aと、発話内容を識別する発話内容識別手段9と、を備えた。 (もっと読む)


【課題】ジャンルに依存しない映像のシーン境界の検出方法を提供する。
【解決手段】コンピュータにより実施される方法は、まず種々のジャンルの映像から特徴ベクトルを抽出することによって、映像のシーン境界を検出する。特徴ベクトルは次に、サポートベクターマシンを用いてシーン境界として分類される。サポートベクターマシンは、映像の種々のジャンルに依存しないように訓練される。 (もっと読む)


【課題】画像の属性にも同期性を持たせ、出力動画のクオリティを大幅に向上させる。
【解決手段】S2で求めた楽曲構成に関する特徴量(楽曲における構成部分の出現順序や、Aメロ、Bメロ、サビなど)と、S3で求めた画像群の特徴量(特定の画像群に属する画像に共通するイベント情報や撮影日など)とを照合し、その照合結果に基づいて、両者を関連づける。 (もっと読む)


【課題】生体情報が変動する場合でも認証の精度を高水準に維持する。
【解決手段】記憶装置20は、生体情報D0を含む辞書DIC_iを記憶する。情報取得部10は、被認証者の生体情報DINを取得する。認証部32は、記憶装置20が記憶する辞書DIC_iの生体情報D0と情報取得部10が取得した生体情報DINとの距離DST_iに基づいて被認証者の正当性を認証する。辞書管理部34は、距離DST_iが閾値VTHR1を下回る場合に、生体情報DINに基づいて記憶装置20の辞書DIC_iを更新し、距離DST_iが、閾値VTHR1とそれよりも大きい閾値VTHR2との間にある場合に、情報取得部10が取得した生体情報DINに応じた新規な辞書DICを生成して記憶装置20に格納する。 (もっと読む)


【課題】人物の撮影画像のデータから各部の特徴を表す表現を設定するためのルール(関数)を所望の種類だけ用意する。
【解決手段】撮影された人物の画像から顔などの各部の特徴を数値化したデータ(特徴データ)を容姿特徴データベース8に蓄えておく。また、人物の容姿(丸顔、色黒等)の特徴を表す容姿言葉を、特徴データと対応する容姿言葉を判定するための基準値とともに容姿判定データベース12に格納しておく。容姿言葉生成エンジン4は、特徴データがどの容姿言葉に結びつくか、特徴データと基準値との比較により判定し、当該特徴データと結びつく容姿言葉を統合データベース13に記録する。統合データベース13は、容姿言葉を当該人物の画像データとともに保存する。言葉登録エンジン5は、容姿判定データベース12に格納されている容姿言葉の変更、削除または追加する。 (もっと読む)


【課題】発語対象となる語をランダムにすることで、事前に予測不可能とすることができ、成りすましの可能性を低くする個人情報認証システム、個人情報認証方法、この方法を記載している情報記録媒体及びコンピュータプログラムを提供する。
【解決手段】情報処理装置1から送信され且つ認証方法の指示手段2を経由して認証方法の指示を受信する受信手段3と、受信した指示を表示画面に表示する表示手段4と、表示された指示に基づいて身体特徴を読み取る身体特徴読み取り手段5と、この身体特徴読み取り手段5から出力した認証情報を前記情報処理装置1へ送信する送信手段6とを含んでいる個人情報認証システムにおいて、前記指示手段2による前記認証方法の指示はランダムである。 (もっと読む)


【課題】話者名が分からない場合においても、映像を視聴することなく話者を特定する。
【解決手段】本発明は、教師なし話者認識技術により入力された映像の音声を認識し、当該映像の開始・終了時刻からなる話者区間及び該話者区間に対応する話者毎に話者IDを付与し、話者認識結果として話者認識結果記憶手段に格納し、入力された映像から顔の位置を検出する手法により話者IDに対応する話者区間に含まれる顔画像を検出し、話者IDと共に話者ID毎顔画像記憶手段に格納し、話者ID毎画像記憶手段に記憶されている各話者IDの各顔画像に対する個人特徴を抽出し、顔画像に対する個人特徴から話者ID毎に最も相応しい個人特徴を決定し、話者個人特徴決定結果記憶手段に格納する。 (もっと読む)


【課題】テレビ電話の通話で送られてくる画像情報と音声情報から、パーソナルCGエージェントを自動生成・自動更新する。
【解決手段】他端末とテレビ電話用パケットデータを通信するための通信処理部210と、前記テレビ電話用パケットデータから通話相手の画像情報と音声情報を生成するテレビ電話処理部220と、前記画像情報と前記音声情報から通話相手のエージェントデータを生成するエージェントデータ作成部230と、通話相手の個人情報と対応させて前記エージェントデータを記憶するためのアドレス帳データ記憶部250と、前記アドレス帳データに対してデータ検索などのデータ管理を行うアドレス帳データ管理部240と、前記エージェントデータからCGキャラクタエージェントを作成するエージェント出力部270を備える。 (もっと読む)


【課題】 少ない計算負荷で、マイクロホンの感度特性のばらつきの影響を受けずに、対話者の音声を鮮明に抽出して、正確な音声認識を行う技術を提供する。
【解決手段】 対話者が話しかける音声から言語の内容を認識する音声認識装置であって、音を入力して音信号に変換する複数の音入力手段と、音信号を原周波数スペクトルに変換する周波数変換手段と、原周波数スペクトルから対話者の音声成分を含む1の基本周波数スペクトルを取得する音声成分検出手段と、複数の原周波数スペクトルからフィルタ行列を用いる独立成分分析によって1の雑音周波数スペクトルを取得する雑音成分推定手段と、基本周波数スペクトルから雑音周波数スペクトルを減算して音声周波数スペクトルを取得するスペクトル減算手段と、音声周波数スペクトルに基いて対話者が話しかけた言語の内容を認識する言語内容認識手段を備える。 (もっと読む)


【課題】ユーザが顔の運動を行なうことを支援する顔運動療法支援装置を提供する。
【解決手段】映像モジュールプログラム1200は、ハードディスク1110に格納された動画像から顔領域を抽出する顔検出部1208と、オプティカルフローに基づいて、検出され抽出された顔の内部の画像上の動きを特定するための情報の計算を行なうオプティカルフロー算出部1206と、オプティカルフローから得られる動きベクトルに対応してMIDI信号を生成するMIDIマッピング部1214とを含む。一方、音楽モジュールプログラム1400は、MIDI信号に応じて、音楽を生成し出力する。 (もっと読む)


【課題】ユーザが発した音声の認識処理を良好にする。
【解決手段】S31で、音声が入力されるまで待機し、音声が入力されたとき、S32に進み、ユーザの映像からの所定の部分の動きパターンの検出結果が供給されたか否かが判定され、供給されたと判定された場合、S33に進み、供給された動きパターンが、発話時の動きのパターンであるか否かが判定される。S33で、発話時の動きのパターンであると判定された場合、S34に進み、発話があった旨が、音声認識部に通知される。音声認識部は、その通知を受けると、供給される音声の音声認識を開始する。 (もっと読む)


【課題】ユーザー以外の者であっても、所望の内容や構成の撮影画像を検索する際に有用な情報を得ることができるようにする。
【解決手段】特徴抽出手段106は、画像から各々異なる特徴を抽出する複数の特徴抽出部A、B、・・・を有している。撮影指示により撮像手段109により取り込まれて画像データメモリー111に一時的に記憶された画像データは、特徴抽出手段106と圧縮/符号化手段112とに転送される。そして、特徴抽出手段106において画像の送信先に応じて予め選択されている特徴抽出部A、B、・・・のいずれかにより、特徴が抽出され、この抽出された特徴は特徴データ符号化手段107で符号化される。また、画像データ自体は圧縮/符号化手段113で圧縮および符号化され、この圧縮および符号化された画像データと、前記符号化された特徴データとは、多重化されて画像データメモリー115に記録される。 (もっと読む)


【課題】 手書きされた図形や文字の認識する処理において、音声入力と組み合わせることによって、認識精度を高める。
【解決手段】 与えられた対象を図形認識することで図形の候補を取得し、入力された音声情報を音声認識し図形の候補を取得し、図形認識手段で取得した図形の候補及び前記音声認識手段で取得した図形の候補に基づいて、図形を選択する。 (もっと読む)


【課題】吹き出しや字幕スーパーの作成、編集を容易化する。
【解決手段】動画データは顔検出手段103に入力されて顔特徴量と顔位置が検出され、音声識別手段104に入力されて音声特徴量が検出される。検出された各特徴量は話者特定手段107に送られ、音声・顔対応データ記憶手段106に登録されている話者の特徴量と比較されて特定話者の位置が特定される。特定された話者の音声は、音声認識手段105によりテキスト化される。話者の位置とテキストデータにより吹き出し作成手段112により吹き出しが作成され、動画像作成手段114により動画データと音声データと吹き出しデータとをまとめて新たな動画データが作成される。 (もっと読む)


【課題】 システムが求める演技に対するユーザの演技を評価し、その評価結果によってストーリの進行を決定することを実現する演技評価装置を提供する。
【解決手段】 入力器がユーザの演技の画像及び音声を入力し、これらを各モーダルについての認識器に供給すると、各認識器は認識結果のデータを演技評価器18に供給する。続いて、演技評価器18が、認識結果のデータとシナリオコントローラ19から供給されたユーザ演技教師データとを用いてユーザの演技評価値及び総合評価値を算出し、演技評価結果データをシナリオコントローラ19に供給する。その後、シナリオコントローラ19は、ユーザ演技教師データを演技評価器18に、また、エージェント動作データをエージェントコントローラ20に供給する。エージェントコントローラ20の制御を受けて、エージェント21は、ユーザに演技の指示を出す。 (もっと読む)


21 - 40 / 62