説明

国際特許分類[G10L15/04]の内容

物理学 (1,541,580) | 楽器;音響 (32,226) | 音声の分析または合成;音声認識;音響分析または処理 (17,022) | 音声認識 (6,879) | セグメンテーション,または語区切れ検出 (272)

国際特許分類[G10L15/04]に分類される特許

1 - 10 / 272



Notice: Undefined index: from_cache in /mnt/www/gzt_ipc_list.php on line 285

【課題】非定常な雑音環境下でも精度良く発話区間を検出できるようにする。
【解決手段】発話区間検出装置270は、音声信号のシーケンス中で発話開始位置である可能性の高いフレームを検出するクラスタリング開始位置判定部456と、クラスタリング開始位置が検出された後、その位置のフレームよりプレロール時間だけ前のフレームから最新に受信したフレームまでを音声パワーの値に基づき10ミリ秒ごとにクラスタリングする処理を開始して各フレームのクラスタレベルを算出するクラスタリング処理部490と、各フレームについて算出されたクラスタレベルのシーケンスに基づいて、50ミリ秒ごとに発話開始位置及び発話終了位置を検出する処理を繰返し行なう発話状態判定部492及び発話開始・終了判定部494とを含む。 (もっと読む)


【課題】音声認識処理を並列に行うことで音声認識処理を高速にした音声認識装置を提供する。
【解決手段】この発明の音声認識装置は、音声分割部と、音声記憶部と、分割音声分配部と、音声認識処理群と、音声認識結果統合部と、を具備する。音声分割部は、音声信号を入力として、当該音声信号の音声・非音声判別を行い非音声区間の区間長が非音声分割区間長閾値Tp以上の場合に音声区間を分割し、上記音声信号を発話区間単位に分割した分割済み音声を出力する。そして、分割音声分配部は、分割済み音声記憶部に記憶された発話区間を、複数の音声認識部で構成された音声認識処理群に分配する。音声認識結果統合部は、音声認識処理群が出力する複数の音声認識結果を時間順に結合して、音声信号に対する音声認識結果を出力する。 (もっと読む)


【課題】入力された音声信号の時間長が非常に短い場合であっても、音声信号の話者の性別を正確に識別することができるようにする。
【解決手段】入力された音声信号から音声特徴量を抽出し、その音声特徴量を男声音響モデル及び女声音響モデルと照合した尤度に基づいて音声信号の話者の性別を識別する男女声識別方法において、音声信号の時間長が所定の時間長L未満の場合、音声信号を時間長L以上となるまで繰り返して伸長させ、その伸長させた音声信号を用いて音声特徴量の抽出を行い、前記繰り返しに対応した認識文法を用いて前記照合及び識別を行う。 (もっと読む)


【目的】
本発明は、音声認識装置において、電源制御機構にリセット信号処理を追加することにより、無駄な電源投入を避け、簡単に、かつ大幅に電源の消費電力の低減を図ることを目的とする。
【構成】
本発明は、音声認識装置において、マイコンにリセット信号出力機構を設け、リセット信号が入力されると一定時間内であっても信号の保持を停止するリセット入力機構を延長回路に設け、
音声認識装置の動作、行動、制御完了後にマイコンからリセット信号を出力し、
リセット信号を入力された延長回路が一定時間待つことなくすぐに音声信号制御回路の電源を遮断することで、無駄な電源投入を避け、簡単に、かつ大幅に電源の消費電力の低減を図る電源制御機構を特長とする。 (もっと読む)


【課題】音声情報に基づいて音声認識部を自動的に切り替えることができる音声認識方法および音声認識装置を提供する。
【解決手段】ユーザによりマイクから入力される音声の音声区間を検出して当該区間のパワーを計算する音声パワー検出部と、前記区間のパワーをユーザとマイク間の距離に変換するユーザ-マイク間距離算出部と、この距離に基づいて前記音声による音声信号の出力先として複数の音声認識部を選択する音声認識辞書切替部とを備えた音声認識装置。 (もっと読む)


【課題】識別対象となるデータに含まれる非音声区間に影響を受けずに男女識別を行うことができる音響モデル生成装置を提供する。
【解決手段】男性音声データと、女性音声データと、非音声データとを音響モデルの生成に用いる音響モデル生成装置100であって、音響モデルの生成に用いられるデータから特徴量を抽出する特徴量抽出部930と、男性音声データから抽出された特徴量から男性音声区間モデルを、女性音声データから抽出された特徴量から女性音声区間モデルを、非音声データから抽出された特徴量から非音声区間モデルを学習するモデル学習部940と、男性音声区間モデルと非音声区間モデルを統合して男声音響モデルを生成し、女性音声区間モデルと非音声区間モデルを統合して女声音響モデルを生成するモデル統合部150とを備える。 (もっと読む)


【課題】受信した放送コンテンツ等の音声信号を元に、異相成分と同相成分の混合ゲインを適切に調整する音響処理装置およびそのプログラムを提供する。
【解決手段】背景音分離部は、入力音声信号に基づき、スピーチ音声信号と背景音信号とを推定し、入力音声信号を推定スピーチ音声信号と推定背景音信号とに分離する。音声区間判断部は、入力音声信号に基づき、または入力音声信号に関連する信号に基づき、音声区間であるか非音声区間であるかを判断し判断結果を出力する。混合比調整部は、音声区間判断部による判断結果が音声区間であるか非音声区間であるかに応じた方法で、信号の混合比を決定する。混合部は、入力音声信号と推定スピーチ音声信号と推定背景音信号との少なくともいずれかを、混合比調整部によって決定された混合比に基づいて混合し、出力音声信号として出力する。 (もっと読む)


【課題】音声データのうち書き起こしが完了した位置を特定可能な書き起こし支援システムを提供する。
【解決手段】実施形態の書き起こし支援システムは、音声データをテキスト化する書き起こし作業を支援する書き起こし支援システムであって、第1記憶部と、再生部と、第2記憶部と、テキスト作成部と、推定部とを備える。第1記憶部は、音声データを記憶する。再生部は、音声データを再生する。第2記憶部は、音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、音声データの位置を示す音声位置情報とを対応付けた音声インデックスを記憶する。テキスト作成部は、ユーザーの操作入力に応じてテキストを作成する。推定部は、音声インデックスに基づいて、前記音声データのうち、前記テキストの作成が完了した位置を示す作成済み音声位置情報を推定する。 (もっと読む)


【課題】 リストの手動操作と音声操作とを融合し、ユーザにとって利便性の高い音声認識装置を提供する。
【解決手段】 入力される音声の信号レベルに基づき音声区間であることを判断し(S120〜S140)、当該音声区間に対応する音声データが記憶して(S150)音声を認識する(S170)。そして、認識結果と共に当該認識結果に対応するリスト表示を行う(S180)。このとき、確定操作が行われないうちは(S190:NO)、音声の抽出を繰り返すようにすると共に、リスト表示される対応項目の手動操作を可能にする(S110)。 (もっと読む)


1 - 10 / 272