説明

Fターム[5D015GG00]の内容

音声認識 (5,191) | 標準パターンの学習 (485)

Fターム[5D015GG00]の下位に属するFターム

Fターム[5D015GG00]に分類される特許

121 - 140 / 166


【目的】本発明は、音声認識用のグラマデータを生成するグラマデータ生成方法およびグラマデータ生成プログラムに関し、専門的な知識が無くても、簡易かつ任意かつ迅速に音声認識用のグラマデータを自動することを目的とする。
【構成】 音声認識用のグラマデータを生成するための、数値範囲および刻みを入力させるステップと、入力された数値範囲および刻みをもとに、数値範囲内で当該刻みで表現される全数値データを生成するステップと、生成された全数値データについてそれぞれの読みを生成するステップと、生成したそれぞれの数値データの読みを設定したグラマデータを生成するステップとを有する。 (もっと読む)


多様な環境で使用されても、高精度の音声認識を行う音声認識システムを提供する。外部マイクロホン1が収集した音声信号から音声特徴量を算出し、複数の音響モデルを記憶し、前記複数の音響モデルから外部マイクロホン1が集音する環境に適した音響モデルを選択し、前記音響モデルの標準パターンと前記音声特徴量とのパターンマッチングを行って認識結果を出力する音声認識処理を、ネットワークに接続された音声認識端末2と音声認識サーバ6とにより分担して実行するクライアントサーバ型音声認識システムにおいて、外部マイクロホン1の集音環境を検知するために、音声認識端末2にセンサ12を設け、センサ12の出力を音声認識サーバ6に送信する送信部13を設けた。
(もっと読む)


【課題】変分ベイズ学習を用いた音声認識におけるBaum-Welchアルゴリズム及びViterbiアルゴリズムでは、繰り返し処理により音響パラメータを求めるため、計算量が膨大となる。
【解決手段】本発明では、変分ベイズ学習を用いたBaum-Welchアルゴリズム及びViterbiアルゴリズムでのフレームごとの音響モデル学習の計算および音声認識でのスコア計算において、フレームごとの計算に共通する共通項をあらかじめ計算して記録しておき、フレームごとの計算に利用する。また、音響スコア計算で、共通項のフォーマットおよび音響スコア計算の関数形が同一となる汎用的なスコア計算関数を用いる。 (もっと読む)


【課題】 音素や音節といった構成要素の継続時間長の確率分布を、発話速度の影響を軽減して精度よく推定すること、及び発話速度の分布を精度よく推定すること。
【解決手段】 パラメータ初期化手段106と、パラメータ更新手段107と、収束判定手段108と、発話速度パラメータ記憶手段109と、継続時間長パラメータ記憶手段110とを備えている。そして、与えられた継続時間長データを最も良く説明するよう、発話速度の分布を規定する発話速度パラメータと、継続時間長の分布を規定する継続時間長パラメータとを、収束するまで反復的に更新するよう動作し、発話速度パラメータと継続時間長パラメータとを同時に推定する。 (もっと読む)


【課題】 音質・声の個人性に関連する狭帯域包絡線の特徴を抽出し、発話内容に依存しない、発声機構の個人差に基づく声質の相違を識別する。
【解決手段】 本発明に係る音声情報識別方法は、複数の話者により個々に入力された音声の包絡線を所定の帯域毎に抽出し、相関行列を算出し、相関行列辞書を作成する過程と、特定の話者により入力された音声の包絡線を所定の帯域毎に抽出し、相関行列を算出する過程と、該算出された相関行列と前記相関行列辞書の各相関行列とを識別する過程と、該識別結果に基づき、最も類似する相関行列を有する話者を前記相関行列辞書から選定し、話者を識別する過程とを含むことを特徴とする。 (もっと読む)


【課題】 分散型話者照合方式においてサービス要求ごとのステート管理を行うことなく、円滑に話者照合サービスを実現する。
【解決手段】 ユーザ端末1は、話者照合サーバ2への認証要求時に、マイク入力された音声の音声特徴量と共にユーザ情報を送信し、話者照合サーバ2は、ユーザ端末1から受信した音声特徴量およびユーザ情報、並びに記憶部25に記憶された登録ユーザの音声特徴量を使用して本人認証処理を行い、前記認証結果をユーザ端末1に返送する。 (もっと読む)


【課題】 クライアントが音声認識を利用する目的に応じた音声認識要求条件を取得し、この音声認識要求条件に応じてサーバの音声認識実行条件を動的に変更することを可能とする。
【解決手段】 ユーザ端末1は音声認識要求条件を取得する音声認識要求条件取得部14を備えて音声認識要求条件を音声認識サーバ2に送信し、音声認識サーバ2はユーザ端末1から受信した音声認識要求条件に基づき、音声認識処理の実行条件を設定する音声認識実行条件設定部24を備える。 (もっと読む)


【課題】
従来の話者特定装置は、装置に記録されている音声特徴情報と、通話相手の音声情報とを比較することで話者特定を行っていた。しかしこの方法では処理に長い時間を要し、また音声特徴情報を記録するために大きな容量を必要とした。そのため音声特徴情報を通話相手から取得するのが好ましいが、この場合音声特徴情報が改ざんされているおそれがある。
【解決手段】
信頼性のある認証局により作成された署名に基づいて、音声特徴情報が改ざんされたものでないかどうか判断する。改ざんされていなければ、音声特徴情報と音声情報とを比較して、同一人物のものであるかどうかを判断する。さらに人物を特定する情報を話者特定装置に出力することで、通話相手が誰であるかを特定する。話者同定装置のユーザーは、これらの情報に基づいて、通話相手が信頼できる人物であるかどうかを判断する。 (もっと読む)


【課題】 新商品や新システムの説明のようななんらかの説明を聴取者の前で行った後に、音声認識や声紋認証を応用して、説明者側が聴取者に関心を持ってほしい事項についての実際の聴取者の関心の度合いを容易に調査できるようにする。
【解決手段】 入力されたキーワードを登録する。聴取者の発言を録音した音声データから、音声認識により、この登録したキーワードを抽出する。この音声データの録音開始時からの相対時間位置を表現した図形41と、この音声データのうちキーワードを抽出した部分をキーワード別に図形41上で時系列に識別するマーク42〜44とが設けられるGUI画面を、表示手段に表示させる。このGUI画面上での再生位置の指定操作に基づいて、この音声データを再生する。 (もっと読む)


【課題】ロボットなどが、自己の行動を、他から与えられる刺激に適応させるようにする。
【解決手段】認識部5が、ユーザの発話を、記憶部4に記憶された聴覚SOMによって認識し、その発話を真似た合成音を出力するために、生成部6が、記憶部4に記憶された調音SOMから得られる調音パラメータを変更し、駆動部8が、その変更後の調音パラメータにしたがって音声合成を行うことにより、実際に、合成音を出力する。さらに、認識部5が、その合成音を、聴覚SOMによって認識し、その合成音がユーザの発話に近いかどうかを判定する。合成音がユーザの発話に近い場合に、学習部7は、ユーザの発話に近い合成音を生成することができる調音SOMのノードと、その合成音、またはユーザの発話の認識結果としての聴覚SOMのノードとの結合を強める。本発明は、例えば、ロボットなどに適用できる。 (もっと読む)


【課題】 シンボル間の識別能力を向上させる。
【解決手段】 一つの特徴量情報系列に対し、複数の正解シンボル系列候補を含む正解シンボル系列集合を用意して正解シンボル系列識別関数値の計算を行い、誤識別尺度の計算に用いる不正解シンボル系列を認識シンボル系列集合の中から正解シンボルと系列と、正解シンボル系列集合に含まれる正解シンボル系列に類似したシンボル系列とを除いた上で選択し、それぞれについて正解シンボル系列識別関数値と不正解シンボル系列識別関数値の計算を行う。 (もっと読む)


【課題】 音声アノテーションの内容を表すアイコン画像を容易に作成できるようにする。また、作成したアイコンを付与することにより、どのような音声アノテーションが付与されているかを視覚で識別できるようにする。
【解決手段】 画像データを取得し、画像データに関連付ける音声情報を受信し、前記画像データに基づいてアイコンを生成し、前記アイコンと前記音声情報を対応付けて記憶する。 (もっと読む)


【課題】 ノード情報の記憶に要するデータ量が削減された木構造のデータベースを生成するデータベース作成装置および方法を提供する。
【解決手段】 ノード番号付与部(103)は、木構造の上位層から下位層に向けて、階層ごとに、親ノードのノード番号順に各ノードに連番のノード番号を付与する。その後、子ノード相対番号付与部(104)は、各ノードに、当該ノード番号とその子ノードのノード番号との相対値を示す子ノード相対番号を付与する。 (もっと読む)


【課題】HMMの状態遷移部分でもなめらかなトラジェクトリの生成を確保しながら、混合ガウス分布にも対応できる手法を実現する。
【解決手段】本発明では、1つの状態がn個のガウス分布から成る混合ガウス分布を持っている場合には、1つずつの分布に対して状態方程式、観測方程式に変換し、これらの方程式を逐次実行することで、各時刻のトラジェクトリの分布を計算する。また、このトラジェクトリの分布から1つのトラジェクトリを求める場合には、各混合分布のトラジェクトリの重要度を反映した重みを付与して複数のトラジェクトリを統合する。 (もっと読む)


【課題】混合ガウス分布の個々のガウス分布に適切な次元数を設定し、混合ガウス分布のパラメータを推定する簡単な方法はなかった。
【解決手段】全共分散型の混合ガウス分布のパラメータを推定し、その個々のガウス分布の全共分散行列に対する固有値を求め、その固有値の中で上位q個の固有値以外の固有値の総和の全固有値の総和に対する割合があらかじめ定めた閾値以下になる最小のqを選び、制約付き共分散行列を求め、これをそのガウス分布のパラメータとする手順を、すべてのガウス分布について繰り返す。 (もっと読む)


【課題】 簡単な構成によって高い認識率で目的とする語彙を認識させることができる音声認識装置を提供する。
【解決手段】 音声を認識するための複数の認識辞書#1〜#4と、音声認識を開始させる認識開始ボタン15と、認識開始ボタンが操作された回数に応じて複数の認識辞書の1つを有効に設定する制御手段4と、制御手段により有効に設定された認識辞書を用いて音声認識を行う音声認識手段3とを備えている。 (もっと読む)


【課題】少数のデータでも十分な適応を行う話者適応法を簡便な処理で実現する音声認識方法を提供すること。
【解決手段】本発明の音声認識方法は、入力音声より特徴パラメータ系列を抽出する過程S12と、適応を行うときには第1の音響モデルのパラメータを読込む過程S14と、第1の学習パラメータセットを作成する過程S15と、第2の学習パラメータセットを作成する過程S16と、第1の学習パラメータセットおよび第2の学習パラメータセットから適応パラメータを算出する過程S17と、適応パラメータを用い第1の音響モデルのパラメータから第2の音響モデルのパラメータを作成する過程S18と、認識を行うときには第1の音響モデルまたは第2の音響モデルのいずれかを選択する過程S110と、選択された音響モデルを用いて特徴パラメータの系列と照合する過程S111とを有することとした。 (もっと読む)


【課題】 認識率の向上をはかり、暗号化の有無に影響されることなく、単語検索を行う際の利便性の向上をはかる。
【解決手段】 本発明の音声認識機能付きロギングシステムは、端末装置(IP電話機11、12)のそれぞれが持つ、特定話者を対象に音声認識を行う特定話者音声認識エンジン(特定話者音声認識部13、14)を用いて作成された認識テキスト、もしくは前記特定話者音声認識エンジンの学習データを所定のタイミングでそれぞれ相手先端末装置へ送信し、当該相手先端末装置において送受信される音声データの音声認識を行い、その結果を保存する(情報保存領域15、16)。 (もっと読む)


【課題】 複数の単語の組み合わせである複合語を認識する。
【解決手段】 音声データから音声認識に有効な特徴量を取り出して特徴量の音響尤度を計算し、認識辞書から音響尤度が高い単語を候補単語として任意の数だけ選択する。次に、候補単語が複合語であるか否かを判定し、候補単語が複合語である場合、韻律自動生成部37において候補単語の各韻律パターンの変化を推定して複合語の韻律パターンを推定する。生成された候補単語の韻律パターンに基づき、認識辞書35に格納されている韻律クラスタHMMを並べて、候補単語の韻律クラスタHMM列を生成し、韻律クラスタHMM列として表された候補単語の韻律尤度を計算する。この後、候補単語の音響尤度および韻律尤度の積を計算することにより、すべての候補単語の結合尤度を求め、もっとも高い結合尤度をもつ候補単語を認識結果とする。 (もっと読む)


【課題】自動スピーチ認識(ASR)エンジンをホストとするシステムから離れた場所にいるユーザがASRを利用できるようにする。
【解決手段】クライアント−サーバアーキテクチャを使用して、主ASRエンジンの場所から離れたクライアントの場所でASRサービスをアクセス可能にする。すなわち、 パケットネットワーク120、たとえばインターネットまたは無線ネットワークを介してクライアントPC140とサーバノード110が接続される。ASR サーバ100がASRクライアント130から文法を受け、または複数の文法からの選択を行い、クライアントからのスピーチを表す情報を受け、スピーチ認識 を実行し、認識したスピーチに基づくスピーチ応答を提供する。このようにして、パケットネットワークを介して、人間であるユーザとASRサーバとの対話が行われる。 (もっと読む)


121 - 140 / 166