説明

国際特許分類[G10L17/00]の内容

物理学 (1,541,580) | 楽器;音響 (32,226) | 音声の分析または合成;音声認識;音響分析または処理 (17,022) | 話者の同定または識別 (337)

国際特許分類[G10L17/00]に分類される特許

11 - 20 / 337


【課題】発話に含まれる言語的な特徴を利用して、音響的な特徴による誤分類を検出する話者分類装置を提供することである。
【解決手段】実施形態の話者分類装置は、音響分類手段と、言語特徴抽出手段と、誤分類検出手段とを備える。音響分類手段は、入力された音響信号に含まれる発話を、前記音響信号から抽出した音響的な特徴を利用して話者毎に分類し分類結果を取得する。言語特徴抽出手段は、前記発話の内容を表す文字列を取得し、この文字列を利用して前記分類結果に含まれる話者の言語的な特徴を抽出する。誤分類検出手段は、前記発話の内容を表す文字列が、前記分類結果においてこの発話が分類された話者の前記言語的な特徴に適合するか否かを判別し、適合しない場合は、この発話は前記音響分類手段によって誤分類された発話であると判別する。 (もっと読む)


【課題】 複数の人物に対してそれぞれが所望する画像を容易に分配することができる画像処理装置を提供する。
【解決手段】 集音された音声を入力する音声入力部22と、前記音声入力部から入力された音声の人物特定要素を抽出する音声処理部24と、特定の人物の声が有する固有のパターンを記録する音声記録部26と、前記人物特定要素と前記パターンとの特徴を比較することにより話者を特定する話者特定部4と、画像データを取得する画像取得部4と、前記画像データに基づく画像を出力する画像出力部20と、前記画像出力部により前記画像を出力している間に前記話者特定部により特定された前記話者を示す情報と前記画像データとを関連付けた分類データを作成する画像分類部4とを備える。 (もっと読む)


【課題】MP3などの音声圧縮方法等により予め作成した種々の会話のデータを、好きな音声に置換し、センサにより簡便に会話モードを適選設定して、当該モードでの対話型の会話を行うことができる音声発生及び認識装置を提供する。
【解決手段】
音声発生及び認識装置に、書き換え可能な記憶手段と、音声入力手段と、MP3などの音声圧縮方法等により予め作成した種々の会話データの入力手段と、音声認識手段と、声紋分析置換手段と、筐体の状態を検出する少なくとも1つのセンサとを設けた構成とした (もっと読む)


【課題】会議等における会議等における議事録を作成するための議事録作成システム、議事録作成方法及び議事録作成プログラムを提供する。
【解決手段】議事録作成処理において、会議支援サーバ20の制御部21は、各タブレット端末10から録音ファイルを取得する。そして、各録音ファイルの録音開始時刻を同期させる。次に、制御部21は、各録音ファイルの各時間帯での音量を比較し、最大音量の音声を特定する。そして、制御部21は、最大音量の音声を用いて、録音ファイル毎にフィルタリング処理を実行する。次に、フィルタリングされた音声を用いて音声認識処理を実行し、利用者ID、録音された時間帯に関連付けて、音声認識結果の記録処理を実行する。そして、すべての録音ファイルの処理を終了した場合、制御部21は、音声認識結果を時系列に並べた議事録ファイルを作成する。 (もっと読む)


【課題】撮影者が意図する対象に合焦された撮影画像を、容易に取得することができる撮像装置を提供する。
【解決手段】
光学系による画像を取得する画像取得部(13)と、前記画像に含まれる顔画像である第1顔画像(68)を認識する顔画像認識部(56)と、周囲環境の音声の特徴に関する第1音声情報(80)を取得する音声取得部(28)と、特定の顔画像の特徴に関する第2顔情報(72〜78)と、特定の音声の特徴に関する第2音声情報(82〜88)とを、予め互いに関連付けて記憶する記憶部(32)と、前記音声取得部で取得された前記第1音声情報と、前記記憶部に記憶された前記第2音声情報との類似性に基づき、前記第1音声情報と前記第2音声情報とを関連付ける音声判定部(54)と、前記音声判定部による関連付けの結果と、前記顔画像認識部による認識の結果とを用いて、前記光学系の合焦位置を制御する合焦位置制御部(52)と、を有する撮像装置。 (もっと読む)


【課題】複数の人物のうち声を発した人物の識別の精度をより高める。
【解決手段】複数の端末10と、当該複数の端末10から送信された画像データ及び音声データを受信するサーバー110とを備える情報処理システム1であって、端末10は、被写体の顔を撮像して画像データを取得する撮像部11と、被写体の声を含む音声を取得して前記音声データを生成する音声取得部12と、画像データ及び音声データを送信する通信部15と、を備え、サーバー110は、複数の端末10の夫々から送信された画像データ及び音声データを受信する通信部111と、複数の画像データ及び複数の音声データに基づいて声を発した被写体を識別する制御部112と、を備える。 (もっと読む)


【課題】サーバーの処理負荷をより軽減させた情報処理システムを提供する。
【解決手段】被写体を撮像して画像データを取得する撮像部11を備えた端末10と、撮像部11による撮像により取得された画像データに基づいて被写体を識別するサーバー110とを備える情報処理システム1であって、端末10は、画像データに対して所定のフィルター処理を施すフィルター処理部14と、所定のフィルター処理が施された画像データをサーバー110に送信する通信部15と、を備え、サーバー110は、送信された画像データを受信する通信部111と、受信された画像データと被写体の識別のための照合用データとの照合の結果に基づいて被写体を識別する制御部112と、を備える。 (もっと読む)


【課題】話者の判別を簡易かつ正確に行うことを課題とする。
【解決手段】話者判別装置50は、各々の話者に配置される複数のマイクから各々の音声データを取得する。さらに、話者判別装置50は、取得された音声データを所定の区間のフレームにフレーム化する。さらに、話者判別装置50は、第1の確率モデルに基づいて、フレームが有声音領域または無声音領域のいずれであるかを識別する。さらに、話者判別装置50は、各音声データにおける同一区間のフレームで有声音領域が重複して識別された場合に、当該同一区間で有声音領域と識別されたフレームのうち最大のエネルギーを持つフレームの識別結果を有効化する。さらに、話者判別装置50は、第2の確率モデルに基づいて、有効化された後のフレームの識別結果から各々の音声データにおける発話領域および沈黙領域を識別する。 (もっと読む)


【課題】精度よく話者分類を行うことができる。
【解決手段】再抽出手段は、統合済みの音声区間セグメントを再分割し、再分割された音声区間サブセグメントの音響特徴量からサブセグメント代表特徴を抽出する。仮分類手段は、音声区間サブセグメントをサブクラスタに仮分類する。スコアリング手段は、クラスタ毎の各サブクラスタに属する音響特徴量から第1サブクラスタ代表特徴を抽出し、当該第1サブクラスタ代表特徴と同一のサブクラスタに属する音響特徴量との照合スコア平均を仮分類後スコアとし、サブクラスタ数を1としてクラスタ毎にサブクラスタに属する音響特徴量から第2サブクラスタ代表特徴を抽出し、当該第2サブクラスタ代表特徴と同一のサブクラスタに属する音響特徴量との照合スコアの平均を仮分類前スコアとする。再分類判定手段は、仮分類前後のスコア差分が再分類閾値を超える場合にサブクラスタへの仮分類結果に基づいて再分類判定する。 (もっと読む)


【課題】特定の話者の音声データが存在する区間における音データを記憶する。
【解決手段】本発明の録音装置は、周囲の音を集音し、音データとして出力する取得部と、前記取得部から出力された音データに音声データが含まれているか否かを判定し、前記音声データが含まれている場合には、声紋に応じて音声データを分類するとともに、分類した各音声データを示す分類情報を出力する話者解析部と、前記分類情報をユーザに通知する通知部と、前記分類情報の通知に基づく音声データの指定を受け取る入力部と、前記取得した音データから、前記指定された音声データが存在する区間における音データを抽出する録音制御部と、を有する。 (もっと読む)


11 - 20 / 337