説明

Fターム[5D015LL07]の内容

音声認識 (5,191) | 音声認識装置の制御 (1,048) | 他の情報入力装置の援用 (113)

Fターム[5D015LL07]の下位に属するFターム

Fターム[5D015LL07]に分類される特許

41 - 60 / 87


【課題】 発話者が実際に話す前に発話者を予測できる発話予測装置を提供する。
【解決手段】 複数の人物の中から発話者を予測する発話者予測装置110であって、前記人物を撮像した画像の特徴から発話に先立って生起する画像の特徴を学習する学習部1123と、学習部1123による学習結果を用いて前記人物を撮像した画像の特徴から前記人物のうち発話を開始する発話者を予測する予測部1124とを有する。学習部1123は、前記人物を撮像した画像の特徴から該画像の特徴が発生したときに前記撮像した人物が発話をする確率を求め、該確率を用いて前記発話に先立って生起する画像の特徴を学習する。本発明によれば、発話に先立って生起する画像の特徴を学習することにより、学習した先例に基づいて発話者が実際に発話を開始する前に発話者を予測できる。 (もっと読む)


【課題】 装置に軽負荷でありながらも、コマンドを正確に認識できると共に、コマンドを対話相手と共有もでき、自然な対話を行える遠隔対話方法及び装置を提供すること。
【解決手段】 少なくとも、音声及び画像の入出力手段及び認識手段、通信手段、コンピュータを有する端末と、その複数の端末間でデータ授受を介するネットワークとを備え、各端末間で音声及び映像を送受信して遠隔対話を行うシステムにおいて、画像入力手段によって撮像された被写体に関して、予め定められた被写体の特定動作が、画像認識手段により認識されたら、その特定動作認識をトリガとして、音声認識手段におけるコマンド音声認識手段を起動し、音声入力手段によって収音される音声から、コマンド音声認識手段によりコマンドを認識する。 (もっと読む)


【課題】 一般に電子機械装置などの対応・対処機能は,コンピュータ上のアプリケーションとして個別の専用製品として開発されていて固定的である.また,人とのインタフェースは表示画面とキーボードまたはタッチパネルなどが使われ,特にテキスト入力は煩わしい.
【解決手段】 本考案は,状況に応じた「振る舞いを決めるシナリオ」を導入し,人が電子機械装置を使う際に,主として音声対話で情報伝達する機能と,シナリオを解釈する機能を汎用モジュールとしてアプリケーションから分離した.シナリオは,ユーザが作成してデータとして与えることができ,複数の中から動的に選べ,変更もコンパイルなどの手間が要らないようにした.その結果,本装置単独で,または他の装置と共に用いて,状況に対応する知能を持ち音声で対話する情報伝達装置をいろいろな応用分野で使えるようになる. (もっと読む)


【課題】音声の誤認識とタッチパネルの誤操作とに起因する誤入力を低減することができる音声入力装置を提供する。
【解決手段】音声入力装置における信号処理装置14は、音声入力とタッチパネルディスプレイ5による操作入力とを双方行った場合に、音声を音声認識した音声認識候補と、タッチパネルディスプレイ5による操作入力を認識した入力候補との共通性が高い候補を入力候補として決定する。 (もっと読む)


【課題】個人の発話器官の形状を反映し個人の同定を短時間に行なう装置を提供する。
【解決手段】 装置は、ある音素を発話中の発話者の声道形状を表すMRIデータ30及び音声データ32と、発話中の話者の音声データとに基づいて話者を同定する装置であり、複数の発話者について声道形状の主成分分析を行なうPCA分析部60と、発話者の各々につき音声データからケプストラム係数を算出するケプストラム算出部64と、複数の発話者の各々の声道形状を主成分ベクトルの線形和で近似するための主成分係数を算出する主成分係数算出部67と、複数の発話者の各々に対しケプストラム係数の線形和で主成分係数を推定するための回帰係数36を決定する重回帰分析処理部68と、同定時に、発話者の音声データより得たケプストラム係数と回帰係数36から主成分係数を推定し、複数の発話者から得ておいた係数と比較して同定を行なう同定処理装置とを含む。 (もっと読む)


【課題】複数の機器を制御する際でも音声認識の認識率が悪化することがなく、しかも、機器の誤動作を防止できる音声操作装置を提供することにある。
【解決手段】音声操作装置1は、部屋に設置される音声操作用の機器8を、音声認識によって遠隔制御するために用いられるものであり、音声検出部2と、音声検出部2により検出した音声内容の認識を行う音声認識部3と、使用者の手の動作を検出する動作検出部4と、動作検出部4の検出結果に基づいて機器8の中から制御する機器を選定する機器選定部5と、音声認識部3からの音声内容にしたがって機器選定部5により選定された機器を遠隔制御する音声操作部6と、使用者に機器の操作が行われたことを知らせる報知部7とを備える。 (もっと読む)


【課題】 機能や電話帳の発信先等の誤認識を低減可能な電話機を提供する。
【解決手段】 操作者Aが電話機1を操作する時、撮影部12で操作者A自身を撮影する。撮影部12で撮影した画像が画像認識部13で、画像特徴記憶部14に記憶されている画像との比較を行い、操作者Aが画像特徴記憶部14のデータテーブルに登録されているデータの中から“操作者A”であることを識別し、制御部11に通知する。制御部11はその認識結果にしたがって、音声特徴記憶部17に記憶されている認識辞書から音声認識部16が使用する認識辞書を“操作者A”の辞書である認識辞書Aに切替える。音声認識部16は音声入力部15から入力された音声に対して認識辞書Aに登録されている単語との比較を行う。制御部11は音声認識部16からの認識結果の処理を起動するように制御する。 (もっと読む)


音声認識に基づくテキスト入力システムおよび方法が提供される。システムは、テキストの一部、つまり部分的なテキストを受信するための入力ユニットと、音声による部分的なテキストのテキスト全体を受信するための音声入力ユニットと、音声入力ユニットを介して入力された音声を分析し、音声分析情報と共に、音声入力ユニットを介して入力された部分的なテキストを送信するための音声認識前処理ユニットと、音声認識前処理ユニットから送信された部分的なテキストを用いて認識候補のリストを生成し、音声認識を実行し、認識候補の中から1つのテキストを選択するための音声認識ユニットと、最終的に音声認識されたテキストを出力するための出力ユニットとを含む。
(もっと読む)


【課題】 この発明は、HMM等の認識モデルを利用した認識システムにおいて、利用者の意図を反映した認識結果が得られる認識システムを提供することを目的とする。
【解決手段】 所定の情報から抽出された特徴量に基づいて構築された認識モデルを利用した認識システムにおいて、上記所定の情報から抽出された特徴量と生体情報から抽出された特徴量とに基づいて認識モデルを構築するモデル構築手段、ならびにモデル構築手段によって得られた認識モデルを利用して認識を行なう認識手段を備えている。 (もっと読む)


【課題】 本発明の目的は、第1言語による音声認識結果と、これとは別途入力される第
2言語の文字データとを効果的に利用することにより、誤りのない第2言語への翻訳結果
を出力可能にする音声翻訳装置を提供することである。
【解決手段】 第1言語の音声信号を認識する音声認識部(200)と、第2言語の文字
列を入力する文字入力部(300)と、前記音声認識部の認識結果と前記文字入力部の入
力結果を利用して、第2言語への翻訳結果を出力する翻訳部(400)と、を備えた音声
翻訳装置。 (もっと読む)


【課題】
地上波放送や衛星放送などのテレビ番組のシーンの中からユーザーが興味を持ったシーンを特定する場合、視線、瞳孔、瞬目等の表情に関わる感性情報だけでは、ユーザーが興味を持ったシーンを抽出するには不十分であるという課題がある。
【解決手段】
本発明のメディア処理装置では、画像取得部で取得した画像情報をもとに、ユーザー検出を行い、ユーザーの顔位置を推定する。またマイクロホンアレイで収録した音データより、音声区間の検出を行う。検出した音声区間の音源方向と顔位置とが一致した場合に、発話対象物がメディア処理装置であるとみなす。そしてその音声区間の発話をユーザーがメディア処理装置に表示される映像に対し、興味を持ったために発した発話であると判断し、音声区間と同じ時間の映像区間をユーザーが興味を持った映像区間であると判断する。 (もっと読む)


【課題】ごく簡易な操作で実行させたい処理を特定できるとともに,その特定のための処理の負荷(演算負荷)を極力小さく抑えることができること。
【解決手段】身体の所定部位(手首近傍に装着された変位パッド6)の変位を検出する変位センサ2及び音声を入力するマイクロホン3を備え,予め定められた複数の所定の分類情報と予め定められた複数の特定音声を識別する特定音声識別情報との組合せ,及びその組合せに応じて実行する処理に関する情報を予め記憶しておき,モバイルPC5により,変位センサ2の検出結果に基づいて前記分類情報のいずれかを選択する(分類情報選択処理)とともに,マイクロホン3を通じて得られる入力音声から前記特定音声を認識し(音声認識処理),選択された前記分類情報と認識された前記特定音声との組合せに応じた処理を,前述の予め記憶した情報を参照することによって特定し,これにより特定された処理を実行する。 (もっと読む)


【課題】 ノイズなどの突発的な要因に影響されることなく、高精度に話者の発話を検出する。
【解決手段】 話者の画像から口唇パターンを切り出し(ステップ108)、口唇パターンf(t)と口唇包含パターンF(t−i)(i=1,2,・・・,N)との相関値を算出する(ステップ109)。そして、f(t)とF(t−i)とで最大となる相関値s_max(t,t−i)を算出し、iが1からNまでの相関値s_maxの和を口唇変動量E(t)として算出する(ステップ110)。口唇変動量E(t)が閾値以上(ステップ111の肯定判定)のときに発話区間と判定し(ステップ112)、口唇変動量E(t)が閾値未満(ステップ111の否定判定)のときに発話区間ではない(ステップ113)と判定する。 (もっと読む)


【課題】手書き入力作業を阻害することなく、音声認識の結果を、手書き文字表示の支援に利用することができる手書き文字入力表示支援装置を提供する。
【解決手段】選択候補決定手段19が、認識結果記憶手段14に記憶されている認識結果から、手書き文字判別手段18が判別した手書き文字に対応する文字を先頭に含む1以上の文字列を予測する。予測した1以上の文字列から手書き文字に対応する文字を除いた1以上の文字からなる1以上の文字列構成部分を選択候補として画面5A上に表示する。文字列構成部分から選択した文字を、手書き文字判別手段18が判別した手書き文字に対応する文字と一緒に、作業者の手書き文字に近似したフォントで画面5A上に表示する。画面表示制御手段15は、確定文字表示指令が入力されないときには、確定文字と一緒に手書き文字をそのまま画面5A上に表示し続ける。 (もっと読む)


【課題】 ユーザに提示されたコンテンツ情報中の認識対象語彙を容易に判別できる、操作性に優れたコンテンツ情報提供装置を提供する。
【解決手段】 音声入力手段16から受け取った音声データに基づいて発話された語彙を認識する音声認識手段17と、外部からコンテンツ情報を取得するコンテンツ情報取得手段11と、取得されたコンテンツ情報から音声認識対象語彙を抽出する音声認識語彙抽出手段13と、取得されたコンテンツ情報のうちの、抽出された音声認識対象語彙に対応する音声認識対象語彙の表示形態を変更する語彙表示形態変更手段14と、表示形態が変更された音声認識対象語彙を含むコンテンツ情報に基づきコンテンツを表示するコンテンツ情報表示手段15とを備え、コンテンツ情報取得手段11は、さらに、音声認識手段で認識された語彙に一致するコンテンツ情報中の音声認識対象語彙に基づき新たなコンテンツ情報を取得する。 (もっと読む)


【課題】
本発明は、ユーザとの音声対話によってユーザに情報を取得する情報端末を提供する。
【解決手段】
ユーザの音声をコマンドとして認識し、認識したコマンドに基づいた情報を提供する情報端末において、ユーザの指示によってトーク信号を出力するトーク信号部と、ユーザの発声した音声をコマンドとして認識する音声認識部と、情報端末の周囲の環境に関する環境情報を取得する環境情報取得部と、認識したコマンド及び取得した環境情報からユーザが意図する情報を推定する推定部と、情報端末の処理を制御する制御部と、を備え、制御部は、トーク信号の受信を契機として、音声認識部が認識したユーザのコマンドが得られたか否かを判定し、当該コマンドが得られない場合に、環境情報取得部が取得した環境情報を用いて推定部が推定した情報をユーザに提供する。 (もっと読む)


【課題】音響信号の質を向上させる超音波ドップラ技法を使用する。
【解決手段】方法及びシステムは、同時に音響源の可動部分から超音波ドップラ信号を取得しながら、音響源からマイクロフォンによって取得された音響信号の質を向上させる。そして、モデルに従って音響信号とドップラ信号とを分析することにより、質の向上した音響信号を生成する。 (もっと読む)


【課題】 本発明は、ユーザとの間の対話をより円滑に実現することが可能な音声対話装置の提供を目的とする。
【解決手段】 本発明による音声対話装置は、ユーザとの情報のやりとりを音声によって行う音声対話装置において、ユーザの発話する言葉に含まれるユーザの意図を、該発話に対する音声認識処理により得られる言語情報と、ユーザの感情又は生理状態を表すことが可能な非言語情報との双方に基づいて推定する意図推定機能を有することを特徴とする。 (もっと読む)


【課題】様々な操作者がそれぞれに抱いているメンタルモデルに沿ったユーザインタフェース装置を得ること。
【解決手段】操作者からの音声による指示を所定のコマンドに解釈し、操作者に対しては表示を行って所定の情報を伝えるユーザインタフェース装置において、操作者の音声による指示を受け付ける音声入力部11と、表示部14と、ユーザインタフェース装置10から操作者までの操作者距離を測定する操作者位置検出部13と、操作者位置検出部13によって測定された操作者距離に基づいて操作者のユーザインタフェース装置10に対して抱くメンタルモデルを判定し、この判定結果に応じて表示部14に表示させる内容を変化させる全体制御部15と、を備える。 (もっと読む)


【課題】 発話者の無声音声と発声時の口唇の動画情報を利用して、通常の有声音を含む発話時に想定される音声を合成する音声通話装置および音声通話システムを提供することを目的とする。
【解決手段】 音声通話装置は固定電話や携帯電話等であり、マイクロフォン100と音声信号分析器101、カメラ102、映像信号分析器103、音声信号合成器104、辞書情報データベース105から構成されている。マイクロフォン100は、音声を入力するためのものであり、マイクロフォン100から入力された音声(ここでは、無声音)が音声信号分析器101へ送信される。音声信号分析器101は、マイクロフォン100から入力された無声音で主に子音に関する情報が抽出される。 (もっと読む)


41 - 60 / 87