説明

Fターム[5D015HH23]の内容

音声認識 (5,191) | パターン照合による認識 (426) | パターン照合によらない認識技術との組合せ (106)

Fターム[5D015HH23]に分類される特許

1 - 20 / 106


【課題】パターン認識におけるモデルのサイズを縮減するモデル縮減装置を提供する。
【解決手段】素性値加算部は、サンプル集合Sとクラス集合Cを入力として、サンプルsとクラスcの全ての組み合わせについて、素性変換ルールに基づいて素性ベクトルを生成し、素性ベクトルに対応する重要度qを、当該重要度qに上記素性ベクトルの二乗値を加えた値として算出する。モデルパラメータ乗算部は、重要度qと外部から入力されるモデルパラメータAの要素aを入力として、当該重要度qに、対応するモデルパラメータAの要素の二乗値a2を乗じた値をモデルパラメータの要素の重要度とし、その重要度の大きさの順番にモデルパラメータを並べ替えたソート済みモデルパラメータAを出力する。モデル縮減部は、ソート済みモデルパラメータAを入力として、その上位m個のモデルパラメータを出力する。 (もっと読む)


【課題】要約装置構築のコストを低減し、要約の精度を向上する。
【解決手段】本発明の対話学習装置は、各対話に含まれる発話にトピックラベルが付与されたN個の対話と各対話がK種類のドメインのいずれに該当するのかを示したドメインラベルを用いて、ドメインごとに、話者の発話を出力する状態を持つ隠れマルコフモデルを学習し、隠れマルコフモデルのすべての状態をエルゴディックに接続して、隠れマルコフモデルを作成する。本発明の要約装置は、特徴量抽出部、トピックラベル付与部、ドメイン推定部、選択部を備える。トピックラベル付与部は、発話ごとに、当該発話に含まれる単語から尤もらしいトピックを推定して、トピックラベルとして当該発話に付与する。ドメイン推定部は、各発話のドメインを推定する。選択部は、対話とドメインが一致する発話を、当該対話の中から選択する。 (もっと読む)


【課題】トピックに対する発話出現確率分布の適応度を判定する音声認識装置を提供する。
【解決手段】音声認識装置は、音声認識処理の起動時に設定される初期状態の発話出現確率分布と、初期状態以降の発話出現確率分布との距離が所定距離より大きいか(S512:Yes)、少なくとも1回は発話出現確率分布がトピックに適応した状態になったことを示すトピック確定フラグがオンの場合(S514:Yes)、使用中の発話出現確率分布の偏りを算出する(S522)。発話出現確率分布の偏りが所定値以上であるか(S524:Yes)、発話出現確率分布の偏りが所定値より小さい場合に(S524:No)、使用中の発話出現確率分布を他の適切な発話出現確率分布に切り替えると(S528)、音声認識装置は、音声認識結果をコマンドとして採用可能であるとナビゲーション側に通知する。 (もっと読む)


【課題】単語挿入ペナルティを挿入単語に応じて異ならせることにより最適化する。
【解決手段】ペナルティ適用部15は、挿入単語識別部151およびペナルティ決定部152を含み、単語系列に単語が挿入されるごとに、単語挿入ペナルティを決定して累積尤度に課する。挿入単語識別部151は、単語系列に新たに挿入された単語を識別する。ペナルティ決定部152は、挿入された単語の識別結果に基づいて、当該単語の挿入に際して課する単語挿入ペナルティを決定する。挿入された単語の単語長を代表する指標として、音素数や音節数を用いることができる。ペナルティ決定部152は、単語長が短くなるほど大きなペナルティが課されるように単語挿入ペナルティを決定する。 (もっと読む)


【課題】長い特徴量系列を学習データとして音響モデルを精度良く作成する。
【解決手段】複数の音声データ各々の不正解状態系列ごとの重み係数を識別子と対応付けて記録する重み係数記録部と、その識別子を一つ特定する訓練例選択部と、識別子に対応した正解のViterbi状態系列である正解状態系列を記録した正解状態系列記録部と、識別子とその識別子と対応する重み係数と音声特徴量系列とを入力として正解の状態系列以外で最も尤度の高いViterbi状態系列である不正解状態系列を推定する不正解状態系列推定部と、不正解状態系列を最適化対象集合として記録する最適化対象記録部と、正解状態系列と不正解状態系列とを用いて、識別子に対応付けられた不正解状態系列ごとの重み係数に相当するラグランジュ未定乗数を、目的関数を最大化するように更新する重み係数更新部と、を具備する。 (もっと読む)


【課題】入力音声に対応する単語列の検索において行われる音声認識の精度を向上させる。
【解決手段】音声認識部51では、入力音声に対応する単語列の検索結果の対象となる単語列である複数の検索結果対象単語列を用いて、言語モデルが生成され、入力音声が、言語モデルを用いて音声認識される。マッチング部56は、複数の検索結果対象単語列それぞれについて、検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列と、入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とのマッチングをとり、出力部57は、そのマッチング結果に基づいて、複数の検索結果対象単語列からの、入力音声に対応する単語列の検索の結果である検索結果単語列を出力する。本発明は、例えば、音声検索を行う場合に適用できる。 (もっと読む)


【課題】 発音の近い或いは同じ単語を区別して認識することができる音声認識装置、言語モデル生成装置および音声認識方法を提供することを目的とする。
【解決手段】 記憶部404の言語モデル406が単語間の接続確率を示す使用頻度の高い高頻度言語モデルであるサブクラス1の言語モデル、および単語間の接続確率を示す使用頻度の低い低頻度言語モデルであるサブクラス2の言語モデルを記憶しており、また音響モデル405が音声を認識するための音響モデルを記憶している。そして、音声認識部403は、これら言語モデル406および音響モデル405を用いて単語の認識を行う。これにより、使用頻度の高い単語について、その認識率を向上させることができる。 (もっと読む)


【課題】テキストにおける語の出現頻度及び語の属性に影響されることなく、弊害語を特定し得る、情報分析装置、情報分析方法、及びプログラムを提供する。
【解決手段】情報分析装置30は、分析対象テキスト11と共通のトピックを含む補助テキスト12を用いて、分析対象テキスト11を構成する各ユニットの頻度を算出し、算出した頻度が設定された閾値以上となるユニットを高頻度ユニットとして特定する、高頻度ユニット特定部31と、分析対象テキスト11を構成する各ユニットのうち、トピックの変化が発生しているユニットを、トピック変化ユニットとして特定する、トピック変化ユニット特定部35と、高頻度ユニットのうち、トピック変化ユニットに該当するユニットを除き、残った高頻度ユニットの中から、弊害となる語又は語集合を含む弊害ユニットを特定する、弊害ユニット特定部36とを備えている。 (もっと読む)


【課題】学習結果としてのn−gram言語モデルのデータ量を抑制し、効率的にアクセス可能な技術を提供する。
【解決手段】言語モデルの圧縮装置1は、言語モデル記憶部5にn−gram言語モデルを記憶する。データ構造変換部3は、言語モデル記憶部5に記憶されたn−gram言語モデルのデータ配列中、(n+1)−gramの最初の位置を示すポインタを固定バイト表現に変換し、変換データ記憶部6に記憶させる。ポインタ表現の圧縮部4は、変換データ記憶部6に記憶されたn−gram言語モデルの木構造に仮想的なルートノードを設けることでトライ(trie)と擬制し、前記ポインタをLOUDS表現に圧縮変換する。ここで圧縮変換されたデータを圧縮データ記憶部7に記憶させる。この記憶部7は、主に計算機の記憶装置(RAM)を用いる。 (もっと読む)


【課題】発話内容から着目しているタスクに関する意図を正確に推定できる音声認識装置を提供する。
【解決手段】まず、着目しているタスク内に含まれる意図をあらかじめ決めると、意図を伝えるために必要なフレーズを抽象化して文法モデルを作成する。文法モデルを用いて各々の意図に沿った文章を自動生成することで、発話者が発話しそうな内容のコーパスを意図毎に収集すると、各意図に対応した複数の統計的言語モデルを構築する。また、着目しているタスクには沿わない発話内容に対応した統計的言語モデルを備え、タスクに沿わない発話内容の意図推定を無視する。 (もっと読む)


【課題】音声認識を利用した帳票入力作業の精度と効率を向上させること。
【解決手段】入力された音声データに、認識キーワードデータベース204に記憶したキーワードが認識された場合、認識イベント判定手段103は、キーワードに対応するイベント(動作)を選択する。帳票画面変更手段104はそのイベントに従って帳票画面の変更あるいは入力欄選択の変更を指示し、帳票表示手段105は、オペレータ端末の画面を更新表示させる。言語モデル選択手段303は、帳票メタ情報言語モデル対応データベース302を参照して変更した帳票画面の入力に必要な言語モデル301を選択する。選択された言語モデル301を用いて帳票に入力されたデータは、帳票データベース202に記憶される。 (もっと読む)


【課題】操作に対する負荷を軽減し、さらに、音声認識処理の精度を向上させることができる音声認識装置を提供する。
【解決手段】音声認識装置は、語句を発声することによって生じる音声を入力して音声情報を出力する音声入力部と、前記音声情報に基づいて音声認識処理を行い、音声認識情報を出力する音声認識部と、前記語句の音節に基づいて行われた操作を入力して操作情報を出力する操作入力部と、複数の語句が格納された辞書を記憶する記憶部と、前記操作情報に基づいて前記辞書から候補語句を取得し、前記音声認識情報に基づいて前記候補語句から発声された前記語句を選択する選択部と、を備える。 (もっと読む)


【課題】認識精度の低下を抑制しつつ処理時間の短縮を図ることが可能な音声認識装置を提供すること。
【解決手段】複数の状態間の遷移確率が設定された隠れマルコフモデル(HMM)を用いて音声認識を行なう音声認識装置であって、複数のパスについて並行して総体確率演算を行なうと共に、状態遷移の上限回数の半分以上を経過した段階で、総体確率が最大のモデルに対して10分の1未満のモデルについては、以降の総体確率演算を停止することを特徴とする、音声認識装置。 (もっと読む)


【課題】テキストデータにおいて、対応する実データが存在しないものが含まれる場合においても、言語モデルを高精度に識別学習できるようにすること。
【解決手段】言語モデル更新装置は、テキストデータから合成したデータである擬似データを用いて言語モデルを更新する言語モデル更新部を備える。 (もっと読む)


【課題】
本発明の目的は、音声認識に用いる言語モデルを決定するための情報処理の負担が少なく、且つ、精度良い音声認識を行うことが可能な音声認識装置を提供することである。
【解決手段】
最高確率言語モデルプログラム7013により、マイク4により入力された音声信号と、言語モデル情報6012としてRAM6に記憶される言語モデルとを比較することで、最高確率言語モデルが決定される。関連言語モデル選択プログラム7014により、最高確率言語モデルを用いて、次回音声認識を行うための言語モデルを決定するための関連言語モデルが選択される。 (もっと読む)


【課題】ツリー構造の音声認識用辞書を作成し始めてから音声認識を開始できるまでの時間の短くできる音声認識用辞書作成装置の提供。
【解決手段】指示が初期登録だと(S110で初期登録)、楽曲データ群の入力を受け(S120)、ソート優先度に従ってデータをソートすると共に、複数の集合に分割し(S130)、ソート順位が高い楽曲データを含む集合から順に、音声認識用辞書を作成する(S140)。指示が楽曲データの追加であると判断すると(S110で追加)、楽曲データの入力を受け(S145)、追加データのみの辞書を作成する(S150)。指示が楽曲データの削除であると判断すると(S110で削除)、楽曲名の入力を受け(S155)、削除対象の楽曲名に対応させて、認識対象外フラグを立てる(S160)。指示が楽曲データの変更であると判断すると(S110で変更)、追加と削除とを組み合わせた処理をする(S165〜S180)。 (もっと読む)


【課題】 本発明の目的は、音声認識システムの語彙に登録されていない専門用語等の音声入力を支援する音声認識装置を提供することである。
【解決手段】 発話をする際に参照する参照用語を含む文書を入力する文書入力部101と、語彙の表記情報および読み情報を記憶する語彙記憶部104と、用語間の概念上の上位下位関係ツリーを記憶する上位下位関係記憶部105と、参照用語を下位語として、対応する上位語を検索し、取得する上位語取得部103と、下位語と上位語とを対応付けて記憶する上位語下位語対応記憶部108と、上位語を表示する表示部110と、上位語を含む発話情報を入力する音声入力部111と、発話情報を音声認識する音声認識部112と、テキスト情報から上位語を検出する検出部113と、上位語を下位語に置換する置換部114と、置換後のテキスト情報を出力する出力部115と、を備える音声認識装置。 (もっと読む)


【課題】より有効な未知語の言語モデルを作成することができる言語モデル作成装置および言語モデル作成方法を提供する。
【解決手段】言語モデル作成装置は、対象単語の前に隣接する単語と対象単語の後ろに隣接する単語の両方または片方を含む隣接単語と、対象単語とを含む単語列の単語情報を抽出する単語列抽出手段と、単語列抽出手段により抽出された単語列の単語情報に基づいて、言語モデル保持部から、単語列の単語情報を含むモデルを抽出するモデル抽出手段と、モデル抽出手段により抽出されたモデルから、対象単語に対応するモデルを作成するモデル作成手段と、を具備する。 (もっと読む)


【課題】本発明は、複数の統合グラフを扱うことができ、演算量が少なく、簡易な構成のグラフ統合装置を提供することを目的とする。
【解決手段】グラフ統合装置1は、入力要素を示すノードとノード間において分岐及び合流が可能な示すエッジとで構成された入力グラフGが複数入力され、入力グラフGを統合するものであって、グラフ入力手段11と、入力グラフ記憶手段12と、DPマッチング法によって、入力グラフGの類似度を算出する類似度算出手段13と、類似度に基づいて、入力グラフGが類似するか否かを判定する類似判定手段14と、入力グラフGが類似する場合、入力グラフGを統合するグラフ統合手段15と、入力グラフGが類似しない場合、入力グラフGを新たな統合グラフとして追加するグラフ追加手段16と、統合グラフ記憶手段17と、を備える。 (もっと読む)


【課題】POMDPを適用したグラウンディング処理を実行する装置および方法を実現する。
【解決手段】ユーザ発話を入力して言語解析を実行する言語解析部の解析情報と、タスクを実行するタスク管理部からのタスク実現性情報とを含む実体的情報などの観測情報を設定した部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)を適用して、ユーザ発話によるユーザ要求の理解処理としてのグラウンディング処理を実行する構成としたので、効率的な理解が可能となり、迅速かつ正確なユーザ要求の把握およびユーザ要求に基づくタスク実行が可能となる。 (もっと読む)


1 - 20 / 106