説明

Fターム[5D015AA03]の内容

音声認識 (5,191) | 目的、機能 (1,020) | 話者の識別、照合 (293)

Fターム[5D015AA03]に分類される特許

61 - 80 / 293


【課題】 音声対話装置において音声認識率の低下を抑える。
【解決手段】 音声対話装置100に、外部に音を出力音として出力する音出力部3と外部からの音を入力音として入力するための音入力部4とを設け、音入力部3に入力された入力音に対して話者認識を行うことで、音入力部4に入力された入力音が音出力部3から出力された出力音であるか否かを判別し、入力音が出力音でないと判別した場合だけ、その入力音に対して音声認識を行うようにした。これにより、音出力部3から出力音として出力されて音入力部4に入力された入力音に対して音声認識は実行されず、誤認識の発生が防止されるため、音声認識率の低下を抑えることができる。さらに、適応フィルタを使用しないことで、適応フィルタによる推定誤差も生じないため、音声認識率の低下を抑えることができる。 (もっと読む)


【課題】適切な生体情報を照合元として個人の認証を行うことが可能な個人認証装置、個人認証方法、および個人認証プログラムを提供する。
【解決手段】インターホンシステム1の子機10のマイク111から入力された来訪者の音声の情報が親機20に送信される。親機20では、受信した音声の情報から来訪者の声紋データが生成され、フラッシュROM220に登録されている複数の人物の声紋データと照合されることにより、来訪者が登録者であるか否を決定する認証処理が行われる。認証結果が表示モニタ213に表示され、屋内対応者に通知される。さらに、子機10の降雨センサ121により測定された降雨強度と、風速センサ122により測定された風速が、それぞれ、登録可否の判断基準として予め定められた第1の閾値および第2の閾値以下である場合には、取得された来訪者の声紋データが、フラッシュROM220に登録される。 (もっと読む)


【課題】予め限定されない任意の方向又は場所に位置する対象に指向性を向けて音波を出力すること。
【解決手段】一実施形態において、所定の信号源から送信される無線信号を受信する受信部と、前記受信部により受信された前記無線信号から、前記信号源の位置に依存するパラメータ値を決定する決定部と、前記パラメータ値に基づいて、前記信号源の方向へ指向性を有する音波を出力する音波出力部と、を備える音波出力装置が提供される。 (もっと読む)


【課題】音声検索に有用なキーワードを言語モデルに登録し、音声検索における音声認識精度の低下を抑制する。
【解決手段】ユーザ端末から語彙の表記を含む予測語の入力を受け付ける予測語受付手段と、前記受け付けた予測語に、その評価値と入力したユーザの識別情報とを対応付けて予測語データベースに記憶する予測語登録手段と、前記評価値に基づいて前記予測語データベースに記憶されている予測語を選択し、当該予測語により言語モデルを更新する言語モデル更新手段と、前記言語モデルを用いた音声入力の音声認識の結果によりインターネット検索を行い、検索結果に応じて予測語の評価値を計上する予測語検索手段と、前記評価値と前記識別情報に基づいて、前記予測語を入力したユーザにインセンティブを付与するインセンティブ付与手段と、を備えることを特徴とする音声検索装置。 (もっと読む)


【課題】
画像には顔が現れずに声だけが聞こえる人物を視覚的に確認できるようにする。
【解決手段】
データベース(16)には、複数人について、顔画像データとその特徴量、声データとその特徴量が登録されている。人声認識部(32)及び人声照合部(34)により、再生音声信号に含まれる人声の特徴量をデータベースに照合して、発声者を探索する。顔画像認識部(20)及びは顔画像照合部(22)により、再生画像信号に含まれる顔画像の特徴量をデータベース(16)に照合して、画面内の人物を探索する。付加画像表示判定部(40)は、探索された発生者から、探索された人物を除外し、画面外の話者を特定する。付加画像生成部(24)は、特定された話者の付加画像をデータベース(16)から読み出し、表示画像生成部(26)に供給する。表示画像生成部(26)は、付加画像を再生画像信号に合成する。 (もっと読む)


【課題】発話者の追跡の精度を向上させる。
【解決手段】この発明の複数信号区間推定装置は、センサ部と、音声信号区間推定部と、発話者方向推定部と、顔位置検出部と、情報統合部とを具備する。音声信号区間推定部はマイクロホンからの音響信号を周波数分析した周波数スペクトルを入力として、センサ部を中心とする平面の全領域に対する音声の存在確率を推定する。発話者方向推定部は音響信号の周波数スペクトルを用いて各領域における発話者の存在確率を推定する。顔位置検出部はカメラからの映像信号を入力として、談話参加者の顔の重心の方向に基づき各領域における談話参加者の存在確率を推定する。情報統合部は音声の存在確率と発話者の存在確率と談話参加者の存在確率を入力として各領域内の特定領域において談話参加者が発話した確率を算出する。 (もっと読む)


【課題】人と人との直接的なコミュニケーションを従来よりも一段と活性化させ得る対話活性化システム及び対話活性化ロボットを提案する。
【解決手段】ゲーム活性化システム15では、参加者A、B及びCの状態を総和活性度を基に常時観察し、当該総和活性度が所定の閾値以下のときに、参加者が難読ゲームに参加してない虞があると推定し、自発的にその場に最適な発話内容をスピーカ24から発することで、司会者MCと参加者A、B及びCとの直接的な対話の切っ掛けを与えることができ、かくして司会者MCと参加者A、B及びCとの直接的なコミュニケーションを従来よりも一段と活性化させ得る。 (もっと読む)


【課題】 通話中の話者が予め登録された全有害顧客のそれぞれに該当するか否かを実時間内で検知し、電話応対者に警告する。
【解決手段】 声紋データベースを参照して、発信元話者の声紋情報と、声紋データベースに登録された各グループの基準者の声紋情報との間でのみ、相対距離を算出し、該相対距離が最も小さい声紋情報を有する基準者が属するグループを選択するグループ選択部と、発信元話者の声紋情報と、選択されたグループに属する、基準者以外の被登録話者の声紋情報との間の相対距離を算出し、この相対距離の算出を基準者以外の全被登録話者について繰り返し、選択されたグループ内で相対距離が最も小さい声紋情報を有し、かつ該相対距離が、前記第1の閾値より小さい第2の閾値内にある被登録話者を選択する被登録話者選択部とを備える。 (もっと読む)


【課題】電話音声により本人性を確認するための認証技術において、種々の認証方式を柔軟に組み合わせて、本人性確認の精度を向上させる
【解決手段】電話網に接続された電話端末を利用して通話を行う話者の本人性確認を行うための認証装置において、前記話者の音声を前記電話網から受信する手段と、受信した音声の声紋情報と、所定の声紋情報とを照合することにより声紋認証を行う手段と、第1のキーワードを用いた音声認識認証処理を行う手段と、前記声紋認証による認証結果と、前記第1のキーワードを用いた前記音声認識認証による認証結果とが異なる場合に、第2のキーワードを用いた音声認識認証処理を行わせる認証制御手段と、を備え、前記認証制御手段が、前記第2のキーワードを用いた音声認識認証結果に基づき前記話者の本人性の判定を行う。 (もっと読む)


【課題】直接対面することなく音声によって他者に対する対応を行う場合において、利用者の精神的負荷を軽減することのできる技術を提供する。
【解決手段】音声変換装置1の通話相手情報データベース16には、音声の特徴と音声の変換パターンとが対応付けて記憶されている。ユーザ端末2と通話相手端末3との間で音声通信が開始されると、音声変換装置1は、通話相手端末3から送信されてくる音声データを解析して音声の特徴を抽出し、抽出した特徴を通話相手情報データベース16の記憶内容と照合して、音声変換を行うか否かを判定する。音声変換装置1は、判定結果が肯定的である場合に、抽出された特徴に対応する変換態様で、通話相手端末3から受信される音声データ及びユーザ端末2から受信される音声データの少なくともいずれか一方を変換する。 (もっと読む)


【課題】本発明の目的は、ユーザに余計な作業を強いることなく、実際の話者認識にかかる処理時間を短く抑えて、話者認識の精度を向上する。
【解決手段】IVR40で、音声応答部41が回線ごとの会話データを取得し、音声認識部42が会話データを音声認識してある特定のデータを作成し、声紋認証装置60で、音声解析部66が特定のデータより音声の特徴を抽出し、言語解析部67が特定のデータからキーワードを抽出する。そして、DB管理部65が、会話の相手の内線番号からメッセージが送られたことのあるメッセージボックスを履歴情報記憶部62を参照して特定し、言語解析部67が抽出したキーワードを会話で話す可能性のあるユーザのメッセージボックスをキーワード情報記憶部63を参照して特定し、テンプレート情報記憶部61のこれらのメッセージボックスを検索範囲として話者テンプレートを検索し更新する。 (もっと読む)


【課題】短時間で音声認識時に必要な待ち受け単語を絞り込むことが可能な自動来客応対装置を提供する。
【解決手段】自動来客応対装置では、音声認識処理において必要な単語辞書はサーバより取得され、テンプレート記憶領域に記憶される。来訪者が来訪した場合、テンプレート記憶領域に単語辞書が記憶されているか否かが判断され(S17)、記憶されていない場合(S17:NO)、取得されたサーバアドレスに基づいてサーバにアクセスし、単語辞書が取得される(S19)。一方、単語辞書が記憶されている場合には、サーバにアクセスすることなく記憶されている単語辞書を取得する(S21)。そして、取得した単語辞書が参照され、来訪者の発声した音声が音声認識処理されて、音声に含まれる単語が特定され、来訪者の身元に関する情報が特定される(S25)。 (もっと読む)


【課題】 音声入力した文字列を画像に重畳する際の表示位置の適正化を図った撮像装置、撮像制御方法及びプログラムを提供する。
【解決手段】 撮像装置(1)は、画像を撮像する撮像手段(2)と、入力音声を文字列に変換する変換手段(11)と、前記文字列を前記画像に重畳表示する際の表示位置を決定する決定手段(11)とを備え、好ましくは、前記決定手段(11)は、前記画像内の主要被写体に重ならない位置を、前記文字列の表示位置として決定し、または、前記画像内の主要被写体が人物である場合に、その人物の顔に重ならない位置を、前記文字列の表示位置として決定し、または、前記画像内の主要被写体に重なる位置を、前記文字列の表示位置として決定する。 (もっと読む)


【課題】生体情報を用いることにより第三者による録音や再生を制限した、録音装置ならびに録音再生システムを提供する。
【解決手段】音声録音機能を有する録音装置1を、発話者の入力音声を取り込む音声入力部101と、取り込まれた入力音声データに、録音もしくは再生に関する承諾語が含まれているか否かを判定する承諾語判定手段102と、入力音声データに承諾語が含まれていた場合、録音処理機能の実行と並行して、取得された入力音声データの特徴抽出を行い、発話者の生体情報を生成する特徴抽出部103と、生成された発話者の生体情報に基づき暗号鍵を生成する暗号鍵生成部104と、取り込まれた入力音声データを生成された暗号化鍵により暗号化して暗号化済み音声ファイルを生成する暗号化部105と、で構成し、音声録音と承諾語を用いた暗号鍵の生成とを同時並行処理することとした。 (もっと読む)


【課題】歌唱者の声を歌唱者が希望する声質に変更して出力することができるカラオケアンプを提供する。
【解決手段】歌唱者の声の特徴である声質データを記憶した音声データベース16、歌唱音声信号を所望の声質に加工するためのルールを記憶した声質加工ルールデータベース17、声質加工ルールに基づいて歌唱音声信号を加工する声質加工部24を備える。声質加工部24は、歌唱者の声質データおよび歌唱者が希望する声質の声質加工ルールに基づいて、入力された歌唱音声信号の声質を加工して出力する。 (もっと読む)


【課題】 話者識別の手間や誤りを簡易なプロセスによって解消し、正確で円滑な議事録の作成及び編集を可能とする。
【解決手段】 話者の音声を入力する音声入力手段11と、入力された音声を文字情報に変換する音声認識手段21と、前記音声から特徴情報を抽出する話者特徴抽出手段22と、抽出した前記特徴情報にもとづき前記文字情報を分類する話者グルーピング手段31と、所定のルールにもとづき、分類された前記文字情報に任意の話者識別情報を割り当てて出力する話者特定手段33と、からなる議事録作成支援装置1及び議事録作成支援システムSys1を構成する。 (もっと読む)


【課題】音声の収録中に話者位置の移動が生じても、同一話者には同一インデックスを付与することを可能とする。
【解決手段】周波数領域変換部110が観測信号を所定長のフレームに順次切り出して当該フレームごとに周波数領域に変換し、音声区間推定部120が周波数領域の観測信号に基づき、各フレームが音声区間に該当するか否かを推定し、到来方向推定部130が周波数領域の観測信号に基づき、当該周波数領域の観測信号の到来方向を各フレームごとに推定し、到来方向分類部140が音声区間に該当すると推定された各フレームを、到来方向の類似性に基づき話者ごとのクラスタに分類する。そして、話者同定部250が所定の時刻までに同一クラスタに分類された各フレームの周波数領域の観測信号に基づき、当該クラスタに係る話者のモデルをクラスタごとに作成し、当該所定の時刻以降の観測信号の話者を各話者のモデルに基づき推定する。 (もっと読む)


【課題】同一人物の発話中にシーンチェンジが発生しても、違和感が生じない音声定位技術を提供する。
【解決手段】映像音声出力装置1は、映像を解析して、話者の位置を特定するとともに、シーンチェンジの有無を検出し、特定された話者がシーンチェンジの前後で同一人物であるか否かを判定する映像解析部11と、特定した話者の位置に音声を定位させるように話者音声定位パラメータの値を設定する話者音声定位パラメータ設定部12と、特定された話者がシーンチェンジの前後で同一人物であると判定された場合には、話者音声定位パラメータ設定部12で設定された話者音声定位パラメータの値に対して、定位位置の変更を小さくするように話者音声定位パラメータの値を調整する話者音声定位パラメータ調整部14と、調整された話者音声定位パラメータの値に従って音声の定位変更処理を行う定位処理部15と、定位変更された音声を出力する音声出力部17と、を備える。 (もっと読む)


【課題】事前の話者登録を無くす。
【解決手段】この発明の発話区間話者分類装置は、音量音声区間分割部と、特徴量分析部と、代表特徴量抽出部と、セグメント分類部と、セグメント統合部と、を具備する。音量音声区間分割部は、離散値化された音声信号の音声区間検出を行い音声区間セグメントを出力する。特徴量分析部は、音声区間セグメントの音響特徴量分析を行い音響特徴量を出力する。代表特徴量抽出部は、音響特徴量から音声区間セグメントの代表特徴量を抽出する。セグメント分類部は、代表特徴量のそれぞれの間の距離を計算して距離に基づいて音声区間セグメントをクラスタに分類する。セグメント統合部は、隣接する上記音声区間セグメントが同一クラスタに属する場合に、隣接する音声区間セグメントを1個のセグメントとして統合する。 (もっと読む)


【課題】不確実で非同期な入力情報に基づく情報解析により、精度の高いユーザ識別処理を実行する構成を実現する。
【解決手段】カメラやマイクの取得する画像や音声情報に基づいてユーザ識別データを含む観測値を入力し、複数のユーザ確信度を設定したターゲットデータを更新してユーザ識別を行う。各ターゲットと各ユーザとを対応づけた候補データの同時生起確率(Joint Probability)を、観測値に含まれるユーザ識別情報により更新し、更新された同時生起確率値を適用してターゲット対応のユーザ確信度を算出する。本構成により、異なるターゲットが同一ユーザであるとするような誤った推定を排除した精度の高いユーザ識別処理か実現される。 (もっと読む)


61 - 80 / 293