説明

Fターム[5D015GG01]の内容

音声認識 (5,191) | 標準パターンの学習 (485) | 標準パターンの置換、更新 (134)

Fターム[5D015GG01]に分類される特許

101 - 120 / 134


【課題】音声認識に際し、ユーザ毎の事前の声紋登録が不要で、且つ膨大な辞書データを必要とせず、音声認識率を向上させることが可能な、音声認識技術を用いた機器操作システムを提供する。
【解決手段】ユーザが行った所定操作に応じて所定処理を実行する電子機器(画像形成装置10で例示)を備える。画像形成装置10又はそれに接続された情報処理装置は、音声入力手段14と、画像形成装置10において現在実行可能な操作内容に関する単語のみに限定した限定辞書データ15aを用いて、音声入力手段14で入力した音声を認識して、認識した結果である認識データを生成する音声認識手段15と、その認識データが示す操作内容を実行するためのコマンドを生成するコマンド生成手段12aとを備える。画像形成装置10は、コマンド生成手段12aで生成されたコマンドにより所定処理を実行する。 (もっと読む)


【課題】シナリオに基づいて対話処理を行う音声対話型端末装置で、利用者の状況に応じて頻繁に利用されるコマンドをシナリオから抽出することで簡単に起動できるようにする音声対話型端末装置を提供することである。
【解決手段】シナリオデータから抽出されたコマンド候補語彙、および、そのコマンドが起動された状況を履歴情報として保存しておき、その履歴情報をもとに、現在の状況に適合したコマンドの集合を動的に決定する。 (もっと読む)


【課題】 時系列データの教師なし学習を、容易に行うことができるようにする。
【解決手段】 ノード学習部4−6−1乃至4−N−1は、時系列データのパターンである時系列パターンを表現する複数の時系列パターンモデルの更新に関する処理を行い、ネットワーク学習部4−4は、ノード学習部4−6−1乃至4−N−1を並列的に用いて、時系列パターンモデルを有する複数のノードから構成されるネットワークである時系列パターン記憶ネットワーク4−5の更新を行う。本発明は、例えば、時系列データの時系列パターンを学習する装置に適用できる。 (もっと読む)


【課題】時系列データの教師なし学習を、容易に行う。
【解決手段】 時系列データのパターンである時系列パターンを表現するHMMを有する複数のノードNiから構成されるネットワークである時系列パターン記憶ネットワークの更新にあたり、新たな時系列データの観測値が、ノードNiが有するHMMの学習に用いる学習データとして、その新たな時系列データの観測値に最も適合する勝者ノードに基づいてノードNiに対して決定された更新重みと対応付けて記憶される。そして、学習処理部32は、学習データを、その学習データに対応付けられた更新重みで用いて、ノードNiが有するHMMの学習を行うことにより、そのHMMを更新する。本発明は、例えば、ロボットなどに適用できる。 (もっと読む)


【課題】 あらゆる雑音環境下において人の発話音声の認識率と認識精度を向上させる。
【解決手段】 現在の雑音パターンが予め設定した種々の雑音パターンの中に存在しない新しい雑音パターンであると判別された場合には、非接触型マイクと接触型マイクで発話音声を集音し直し、接触型マイクで集音した音声を認識するとともに、その認識結果に基づいて非接触型マイクで集音した音声のラベリングを行い、新しい雑音パターンに対応する非接触型マイク用音響モデルを生成して記憶する。 (もっと読む)


【課題】使い勝手のよい音声認識方法、音声認識システム、ユーザモデル発行装置およびプログラムを提供する。
【解決手段】ユーザモデル発行装置20は、ユーザ端末装置30のユーザの音声に基づいて音響モデル(ユーザモデル)を作成し、RFIDタグなどの携帯可能な記録媒体にユーザモデルを記憶する。音声認識装置10は、記憶媒体からユーザモデルを読み出し、このユーザモデルを用いて、ユーザ端末装置30のユーザの音声に対して音声認識を行う。 (もっと読む)


【課題】シナリオの追加・削除が容易で、複数のイベントが同時入力された場合でも適切に処理内容を実行できる対話情報処理装置を提供する。
【解決手段】各ネットのネットステータスを記憶するネット状態テーブル10、{処理項目,当該処理項目の入力ネット,及び当該処理項目の出力ネット}の組を記憶する処理項目テーブル12、各処理項目に対応して設けられ当該処理項目の処理内容を実行しその結果に応じて出力ネットのネットステータスの更新を行う処理項目実行モジュール4−i、処理項目テーブル12内の全ての処理項目を順次選択し、選択した処理項目に対応する処理項目実行モジュール4−iを実行する選択実行手段13、並びにネット状態テーブル12の何れかのネットステータスが変化した場合に選択実行手段13により各処理項目実行モジュール4−iを実行させる状態変化判定手段14を備えた。 (もっと読む)


【課題】曲名やアルバム名の正式名称の読み仮名を完全に発音することなく、曲名やアルバム名を音声認識で認識させることのできるデータ処理装置、その制御方法、制御プログラム及び記録媒体を提供する。
【解決手段】音声取得部から取得した音声データに基づいて音声認識を行い、記憶部に記憶されたデータ名を検索するデータ処理装置において、音声認識用データベースに、データ名に対応する音声認識データを登録するに先立って、データ名に所定の文字列が含まれているか否かを判定する文字列判定部と、データ名の、所定の文字列以降の付記的文字列を削除した文字列を取得する文字列削除部と、付記的文字列を削除した文字列に対応する音声認識データを作成し、音声認識用データベースにデータ名に対応付けて登録する音声認識データ登録部と、を備えた。 (もっと読む)


【課題】 ユーザーが発話した音声に含まれるコマンドのみを確実に識別することが可能な音声認識装置を提供すること。
【解決手段】パラメータ算出器B4は、接続機器B1が受信した特徴量データと、コマンドデータベースB2に記憶されている音声データとから、音声認識エンジンB5に設定する識別パラメータを算出する。音声認識エンジンB5は、パラメータ算出器B4が算出した識別パラメータと、コマンドデータベースB2に記憶された音声データとから、マイクB3から取得した音声信号と対応する音声データを認識するとともに、認識された音声データと対応するコマンドの識別を行う。 (もっと読む)


【課題】 英語の強調発話に対し頑健な言語モデル及び音響モデルを作成できるようにする。
【解決手段】 言語モデル変換装置は、単語辞書の見出しの各々について音節境界を推定する音節境界推定部92と、音節境界推定部により推定された音節境界の各々に対し、当該音節境界と隣接する音素の記述を、短時間ポーズの挿入を許容するように{|sil}という記述を追加した形式に書換える音素記述書換部94とを含む。音響モデルについては、同様に音素モデルの各々について末尾にポーズの存在を許容する形式に変換する。 (もっと読む)


【課題】 背景騒音や話者による違いを吸収しうる音声認識ネットワークを用いて音声認識を行う。
【解決手段】 認識対象となる語彙に含まれる音素間の接続関係を表現する第1の認識ネットワークを取得する認識ネットワーク取得ステップと、
前記第1の認識ネットワークが表現する語彙に含まれる音素であって背景騒音の重畳によって変形を受ける音素、の前後の接続関係を変更して第2の認識ネットワークを生成する認識ネットワーク生成ステップと、を有する。 (もっと読む)


【課題】プレゼンテーション用アプリケーションの種類毎に音声コマンドの体系を独立して設定して、音声によるプレゼンテーション用アプリケーションの操作を行う。
【解決手段】音声コマンドを示す情報がプレゼンテーション用アプリケーションの操作内容と対応付けて入力された(S2〜S5)ことに基づき、そのプレゼンテーション用アプリケーションを音声によって操作するためのコマンドとしてその音声コマンドを設定する(S6)処理を、プレゼンテーション用アプリケーション毎に行う。プレゼンテーション用アプリケーションによってプレゼンテーションファイルが開かれた状態において、供給される音声データを音声認識し、この音声認識結果が、そのアプリケーションについて設定したいずれかの音声コマンドに一致する場合に、その音声コマンドに対応付けられた操作内容の処理を、そのアプリケーションでそのファイルに対して実行させる。 (もっと読む)


音声認識装置の性能を改善する方法。本方法は、音声認識装置用の用語集を提供すること、ネットワークを用いたユーザの対話を監視すること、監視された対話に関連する複数の語にアクセスすること、それら複数の語を用語集に含ませることを含む。
(もっと読む)


【課題】 ユーザの音声入力に対するレスポンスの向上と誤認識の割合の低減とを両立し、操作性を向上した音声入力装置を提供すること。
【解決手段】 音声入力装置に、音声認識処理のための第1および第2の辞書データと、ユーザの発話開始タイミングを検出する始端検出部と、始端検出部が発話開始タイミングを検出した後、一定周期で発生する第1の音声認識タイミングを検出する第1タイミング検出部と、ユーザの発話終了タイミングを第2の音声認識タイミングとして検出する第2タイミング検出部と、第1タイミング検出部が第1の音声認識タイミングを検出したときには第1の辞書データを用いて音声認識処理を行い、第2タイミング検出部が第2の音声認識タイミングを検出したときには第2の辞書データを用いて音声認識処理を行う音声認識部とを設ける。 (もっと読む)


【課題】 特定の話し手の音声を選択的に記録できるとともに、話し手ごとに音声をテキスト化してレイアウトすることができる撮像装置及び画像出力装置を提供する。
【解決手段】 声紋データベース110は、話し手の声紋を登録する。声紋判定部112は、マイクM1、M2及びM3から入力された音声が予め声紋データベース110に登録された声紋と合致するか判定する。音声フィルタリング部114は、マイクM1、M2及びM3から入力された音声から声紋データベース110に登録された声紋と合致する音声を抽出する。音声/テキスト変換部116は、音声フィルタリング部114によって抽出された音声をテキストデータに変換する。データ編集部118は、音声/テキスト変換部116によって生成されたテキストデータを編集する。話し手方向算出部120は、マイクM1、M2及びM3から取り込まれた同一の音声の音量の差に基づいて話し手がいる方向を算出する。 (もっと読む)


【課題】方法は、マルチメディアコンテンツのラベリングされた訓練データの聴覚分類を改良する。
【解決手段】第1の組のオーディオ分類器が、1組の聴覚特徴に対応するラベルを有する訓練データセットのラベリングされたオーディオフレームを使用して訓練される。ラベリングされた訓練データセットの各オーディオフレームは、第1の組のオーディオ分類器を使用して分類され、改良された訓練データセットを生成する。第2の組のオーディオ分類器が、改良された訓練データセットのオーディオフレームを使用して得られ、ハイライトが、第2の組のオーディオ分類器を使用してラベリングされていないオーディオフレームから抽出される。
(もっと読む)


【課題】 複数のカテゴリごとに分類した待ち受け単語と入力音声とを照合処理して、最適な音声認識結果を決定すること。
【解決手段】 制御装置106は、マイク101を介して入力された発話音声と、音声認識用辞書103に格納した待ち受け単語とを照合処理して、各待ち受け単語ごとに発話者の発話語彙との確からしさを算出する。そして、各カテゴリごとに、確からしさが最大の待ち受け単語を抽出し、複数のカテゴリから待ち受け単語が抽出された場合には、発話者に対してカテゴリを特定するための発話を促す。その結果、発話された発話内容を音声認識して、発話者の発話語彙を特定する。 (もっと読む)


【課題】 プレゼンテーションの音声認識とプレゼンテーション文書の情報とを有効に連携させる。
【解決手段】 プレゼンテーション文書からテキストを抽出するテキスト抽出部11と、テキストを形態素解析して単語に分解する形態素解析部12と、単語に重み付けを行うことにより共通キーワードを生成する共通キーワード生成部13と、共通キーワードを音声認識辞書に登録する辞書登録部14と、プレゼンテーションの音声の認識を行う音声認識部15と、ページ切替イベントを検出してページと時間との対応を記録するページ時間記録部16と、ページと時間との対応をも参照して共通キーワードを再生成する共通キーワード再生成部17と、字幕、共通キーワード、テキスト、マスタ字幕の表示を制御する表示制御部18と、字幕からスピーカノートを生成するスピーカノート生成部19とを備えた。
(もっと読む)


【課題】 認識精度を向上させる。
【解決手段】 音声変化度計算手段111は登録音声11を入力して音声変化度を計算し、音声登録判定手段112は、計算された音声変化度に基づき、入力した登録音声11を登録するか否かを判定する。登録音声変更要求手段113は判定結果が登録不可の場合に登録音声変更要求12を出力し、音声標準パタン生成手段115は、判定結果が登録可能の場合に、入力した登録音声11により音声標準パタンを生成する。 (もっと読む)


【課題】音響情報から意味的な意図を識別するためのシステムおよび方法を提供する。
【解決手段】本発明の一実施形態によれば、オーディオデータ中で、予期されない意味的な意図が、教師なし方式で発見される。例えば、オーディオ音響は意味的な意図に基づいてクラスタリングされ、クラスタごとに代表的な音響が選択される。この場合、人間は、予見されない意味的な意図を識別するのに、クラスタごとに少数の(おそらくは1クラスタにつき1つだけの)代表的な音響を聞くだけで済む。 (もっと読む)


101 - 120 / 134