説明

Fターム[5D015AA03]の内容

音声認識 (5,191) | 目的、機能 (1,020) | 話者の識別、照合 (293)

Fターム[5D015AA03]に分類される特許

161 - 180 / 293


【課題】音声会議の進行中であっても、並行して会議内容を参照することが可能で、利用者が必要とする発話箇所を効率的に特定でき、使い勝手の良い音声検索装置および音声配信システムの提供を図る。
【解決手段】 音声検索装置101は、音声会議装置102で取得している音声から発話の有無を検知する。また、発話取得位置から話者名を検知する。また音声波形から発話された単語を検知する。発話の有無が変化するたび、音声を区分して音声ファイルを生成し、各音声ファイルをネットワーク記憶装置103に分散させて記憶させる。音声検索装置101は各音声ファイルの索引として話者名と発話された単語を記録する。この索引に基づいて検索された音声ファイルを時系列に並べたリストをクライアント104に表示させ、リストから選択された音声ファイルをネットワーク記憶装置103から並行してネットワーク配信する。 (もっと読む)


【課題】話者交替箇所を迅速に検出する発話区間識別装置を提供する。
【解決手段】音声データ取得部10、処理区間決定部20、処理区間格納部30、特徴量抽出部40、話者交替判定部50、話者交替判定結果格納部60、結果出力部70、発話時間ルール80から構成され、前回検出された話者交替箇所から単一話者によって最低限発声されている最小発話時間の2倍の時刻に対応する時刻にリターンポイントを設定し、前記リターンポイントから時間の逆方向に沿って今回の話者交替箇所を調査するための処理時刻を決定し、前記リターンポイントから時間と同じ方向に沿って次回の話者交替箇所を調査するための処理時刻を決定する。 (もっと読む)


【目的】本発明は、発言者の音声データをもとに氏名を表示する発言者表示システム、発言者表示方法および発言者表示プログラムに関し、発言者の音声データを音声認識して音声テキストデータに変換すると共に声紋テンプレートと照合していずれの氏名、権限の発言者かを判別して表示したり、音声テキストデータを検索して該当する発言を行った発言者の音声を発声すると共に併せて当該発言者の氏名、権限を表示することを目的とする。
【構成】音声データを音声テキストデータに変換すると共に声紋テンプレートと照合して発言者の氏名を判定する手段と、判定した発言者の氏名を表示する手段とを備える。 (もっと読む)


【課題】 バイオメトリクス認証を声紋、特に密閉した外耳道内で発生する外耳道内音声を利用することにより、確実な個人認証の実現を可能にした携帯個人認証方法及び電子商取引方法を提供すること。
【解決手段】 密閉した外耳道内で発生する外耳道内音声の音質と口から発生する口音の音質とを音響分析により確認した外耳道内音声をバイオメトリクス認証の声紋として用いる。音響分析により確認した外耳道内音声から得た電子データと予めコンピュータシステムの記憶手段に保存している電子データとの類似度を照合する声紋確認を行い、両データの類似度が一致あるいは誤差が小さければ本人と判定する。 (もっと読む)


【課題】人物の撮影画像のデータから各部の特徴を表す表現を設定するためのルール(関数)を所望の種類だけ用意する。
【解決手段】撮影された人物の画像から顔などの各部の特徴を数値化したデータ(特徴データ)を容姿特徴データベース8に蓄えておく。また、人物の容姿(丸顔、色黒等)の特徴を表す容姿言葉を、特徴データと対応する容姿言葉を判定するための基準値とともに容姿判定データベース12に格納しておく。容姿言葉生成エンジン4は、特徴データがどの容姿言葉に結びつくか、特徴データと基準値との比較により判定し、当該特徴データと結びつく容姿言葉を統合データベース13に記録する。統合データベース13は、容姿言葉を当該人物の画像データとともに保存する。言葉登録エンジン5は、容姿判定データベース12に格納されている容姿言葉の変更、削除または追加する。 (もっと読む)


【課題】利用者が音楽鑑賞をしている場合に、周囲の状況変化を的確に把握することが可能な音声切換装置を提供することを目的とする。
【解決手段】外部音声を録音音声として記憶する記憶装置101と、外部音声が判定条件に一致するか否かを判定する解析装置103と、記憶装置101に記憶した録音音声を再生する再生装置102と、検出器104の指示に応じて、音楽再生装置10から入力される音楽、外部音声、および再生装置102で再生される録音音声を択一的に切り換えてスピーカー31に出力する切換器105と、を備え、解析装置103により外部音声が判定条件に一致すると判断された場合、条件一致を検出した時点よりも所定時間前からの録音音声を再生してスピーカー31から出力する。 (もっと読む)


方法が、装置においてメディアを取得し、画像/ビデオ認識及びオーディオ認識を介してメディア内のオブジェクトを識別し、このメディアの識別されたオブジェクトに基づいて識別情報を装置上に表示する。
(もっと読む)


【課題】簡易な構成でありながら、確実な発言の切れ目を用いて区間分割し、所望の発言を検索し易くする音声録音装置を提供する。
【解決手段】制御部14は、操作部18から入力される操作データを分析し、プレゼン資料のページ切り換えイベント情報、および資料切り換えイベント情報を抽出する。また、制御部14は、入力される音声データを分析し、特定の話者の音声区間を抽出する。制御部14は、プレゼン資料のページ情報、発表者識別情報、および記録時刻、を備えた音声状況データを生成する。制御部14は、ページ切り換えイベント情報を抽出したときに、プレゼン資料のページ情報を切り換え、話者の変更、かつ資料切り換えイベント情報を抽出したときに、発表者識別情報を切り替えて音声状況データを生成する。 (もっと読む)


【課題】話者名が分からない場合においても、映像を視聴することなく話者を特定する。
【解決手段】本発明は、教師なし話者認識技術により入力された映像の音声を認識し、当該映像の開始・終了時刻からなる話者区間及び該話者区間に対応する話者毎に話者IDを付与し、話者認識結果として話者認識結果記憶手段に格納し、入力された映像から顔の位置を検出する手法により話者IDに対応する話者区間に含まれる顔画像を検出し、話者IDと共に話者ID毎顔画像記憶手段に格納し、話者ID毎画像記憶手段に記憶されている各話者IDの各顔画像に対する個人特徴を抽出し、顔画像に対する個人特徴から話者ID毎に最も相応しい個人特徴を決定し、話者個人特徴決定結果記憶手段に格納する。 (もっと読む)


【課題】3人以上が参加する会話で、対話の流れに応じて言語変換方向を決定する音声翻訳装置を提供する。
【解決手段】音声入力部10、話者同定部20、言語判定部30、言語制御部40、話者言語記録部50、音声認識部60及び機械翻訳部70から構成され、発話者と発話言語の対応関係を保持しておき、発話者と発話言語の対応関係を記録して、現在対話を進める話者対を動的に切り替えながら、対話の流れに応じて言語変換方向を自動的に決定できる。 (もっと読む)


複数の声の間の区別のための方法であって、1)声の知覚的に有意な信号属性、たとえば平均ピッチおよびピッチ分散を解析する段階と、2)それぞれの声の信号属性を表すパラメータの組を決定する段階と、最後に、3)声のうちの少なくとも一部の修正された信号属性を表す声修正パラメータを抽出する段階とを有する、方法。これにより、声が前記声修正パラメータに従って修正されたときに、複数の声の間の相互パラメータ距離を、それにより声の間の知覚的な相違を増すことが可能である。好ましくは、一つのパラメータの修正量を限定するため、ほとんどまたは全部の声が修正される。好ましい信号属性尺度は:ピッチ、ピッチの時間的変動、声門波形、フォルマント周波数、信号振幅、有声および無声の発話セグメントの間のエネルギー差、発話の全体的なスペクトル輪郭に関係する特性、長い発話セグメントにおける一つまたは複数の尺度の動的変動に関係する特性である。本方法は、それぞれの声について判別された信号属性の修正に基づいているので、自然な音をもった自動声区別を許容する。
(もっと読む)


【課題】より簡易に複数の入力形式によるパスワードの入力が可能な電子機器を提供することである。
【解決手段】ディジタルテレビ受像機100において、パスワード情報記憶手段(記憶部123)によって、パスワード情報における音声情報とキー入力情報の配列順を記憶することができ、判別手段(CPU121、判別プログラム123e)によって、パスワード情報の入力の際、音声情報の入力とキー入力による入力順と、パスワード情報記憶手段に記憶されたパスワード情報における音声情報とキー入力情報の配列順を比較し、入力順と配列順が一致しているか否かに基づいて、パスワード情報記憶手段に記憶されたパスワード情報と一致するか否かを判別する。 (もっと読む)


【課題】従来の生体認証が抱える問題点を生じることなく、プライバシーを容易に、かつ堅固に保護することができる個人認証装置を実現する。
【解決手段】個人認証装置10は、利用者の顎関節運動による顎関節振動を検出する検出部1と、利用者の生体情報として、上記顎関節振動から上記利用者の頭蓋骨の共振周波数および該共振周波数の振動振幅を解析する解析部2と、解析部2から与えられた上記共振周波数および上記振動振幅を、登録装置4に予め登録されている上記利用者の生体情報と比較照合し、認証を行う認証部3とを備えている (もっと読む)


【課題】複数の話者の会話が録音されている音声データから、特定の話者の発言を効率良く聴くことができ、その発言に至るまでの他者の発言内容も把握することができる装置を提供する。
【解決手段】録音サーバ101のネットワークI/F4は、ネットワーク100で通信される多地点音声会議の音声データを取得し、記録部3は音声データを議事録として記録する。記録部3は、各会議参加者の音声特徴量を記録している。特徴データ抽出部2は、パソコン102から再生リクエストを受信すると、記録部3に記録されている議事録の音声データから、音声特徴量を抽出し、各会議参加者の音声特徴量と比較する。その結果、特定の話者の記録音声データを抽出し、この話者の音声データ以外を話速変換(高速再生)し、ダイジェストデータを生成し、ストリーミング配信する。パソコン102は、ストリーミングデータを受信し、ダイジェスト再生をする。 (もっと読む)


【課題】本発明は、発話者に対して意識的な入力作業を強いることなく、複数の発話者の音声データを収集可能な音声合成出力装置の提供を目的とする。
【解決手段】音声入力部10を介して入力された発話者の音声が音声認識部14によって文字列の音声データに分解され、音声合成部15によってその文字列の音声データを用いて音声合成処理された合成音を出力する音声合成出力装置であって、発話者を自動的に特定するユーザ認証部11を備え、ユーザ認証部11によって自動的に特定された発話者毎にその文字列の音声データが音声データベース13に格納されることを特徴とする、音声合成出力装置。 (もっと読む)


【課題】所望の音声及び画像を効率的に検索できる会議システム及び会議方法を提供する。
【解決手段】
会議における音声を取得する音声取得手段と、会議において投影される画像を取得する画像取得手段と、音声取得手段で取得された音声である取得音声と取得音声について分類をする基準である取得音声分類基準と、画像取得手段で取得された画像である取得画像と取得画像について分類をする基準である取得画像分類基準と、を関連付けて蓄積するよう制御する制御手段と、を備え、取得音声分類基準は、取得音声を発した者を識別する情報である発言者識別情報を含む。
この構成によれば、会議において取得された音声及び画像を発言者識別情報に基づいて分類して蓄積できる。よって、特定の発言者に関連した音声及び画像を知ることができるだけでなく、特定の音声及び画像に関連した発言者を知ることもできる。 (もっと読む)


【課題】話者認証登録及び確認方法並びに装置を提供する。
【解決手段】話者の登録発声から音響的特徴ベクトルシーケンスを抽出することと、音響的特徴ベクトルシーケンスを使って話者テンプレートを生成することとを備え、音響的特徴ベクトルシーケンスを抽出する上記ステップは、登録発声に基づいて、登録発声のスペクトルにおけるフォルマントの位置とエネルギーをフィルタリングする、話者の登録発声のためのフィルタバンクを生成することと、生成されたフィルタバンクによって登録発声のスペクトルをフィルタリングすることと、フィルタリングされた登録発声から音響的特徴ベクトルシーケンスを生成することとを備える話者認証登録方法。 (もっと読む)


【課題】話者登録認証方法を提供する。
【解決手段】話者によって発話されるパスワードを含む音声を入力し、入力音声から音響特徴ベクトルシーケンスを抽出し、抽出音響特徴ベクトルシーケンスと登録話者によって登録された話者テンプレートとをDTW整合し、DTM整合の音響特徴ベクトルシーケンスと話者テンプレートとの複数の局部距離の各々を計算し、小さい局部距離に多くの重みを与えるために算出された前記各局部距離を非線形変換し、複数の非線形変換局部距離に基づいてDTW整合点数を算出し、入力音声が前記登録話者によって発話されたパスワードであるかを決定するため前記整合点数を所定の識別閾値と比較する。 (もっと読む)


【課題】再生機で再生される声を用いて認証を得ようとする不正者を容易に検知する。
【解決手段】
パーソナルコンピュータ1に、音声認証技術によるユーザ認証の対象者が声を発する前の時間帯にその対象者の周囲の音である周囲音を集音する音声データ取得部132と、その時間帯を複数に区切った区間ごとの、集音された周囲音の所定時間当たりの強さを表わす強さレベルを算出し、算出した2つの強さレベルのうち後の区間に係る強さレベルが前の区間に係る強さレベルと所定の値との和よりも大きい場合に、その対象者を再生音で認証を得ようとする不正なユーザであると判別する、偽装判別部134と、を設ける。 (もっと読む)


【課題】音源物体の検出成功率を向上させるとともに安定させること。
【解決手段】ロボット装置100において、画像入力部112によって入力された画像と、音源情報の適用視覚情報とに基づいて画像処理手順を実行して音源物体102の視覚特徴を検出し、音源物体102の少なくとも方位を示す視覚定位情報を出力する視覚特徴検出定位部114と、音声入力部113によって入力された音声と、音源情報の適用聴覚情報とに基づいて音声処理手順を実行して音源物体102の聴覚特徴を検出し、音源物体102の少なくとも方位を示す聴覚定位情報を出力する聴覚特徴検出定位部115と、検出戦略情報に基づいて、視覚特徴検出定位部114または聴覚特徴検出定位部115を制御し視覚定位情報または聴覚定位情報から音源物体102の存在する位置を検出する音源物体検出部116とを備えた。 (もっと読む)


161 - 180 / 293