説明

動画検索方法および動画検索システム

【課題】 インターネットなどの動画サイト上に登録された大量の動画に対するキーワード検索について、時間の経過等による検索キーワードの陳腐化を防ぎ、時代に即したキーワードを用いて動画を検索することを可能にする。
【解決手段】 インターネットなどの動画サイト上に登録された大量の動画の検索について、読み仮名を入力する動画登録インタフェースと、該読み仮名から生成された音素列を基に動画データベース上の動画ファイルについて音声認識を行う音声認識部と、音声認識結果から得られた新たな語彙を追加するインデックスデータベースと各データベースへSQL文を発行することなどによりシステム全体を制御するデータ処理部とを有する構成である。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、サイト上に登録された動画の検索方法および検索システムに関する。
【背景技術】
【0002】
音声認識技術の進歩により、無雑音の環境下では単語音声認識については90%以上、連続音声認識については70%以上の認識精度が得られるようになった。こうした音声認識技術を利用し、映像信号に付随する音声信号に対し音声認識を行い、語彙を検出し、映像信号と関連付ける技術が可能になっている。これに伴い、動画サイト上の動画について、音声認識を行うことでキーワードを抽出し、インデックス化し検索する方法が可能となった。
【0003】
特許文献1には、受信した映像信号に含まれる音声信号を音声認識によって文字情報へ変換し、該文字列をキーワードとして映像信号又は音声信号と対応付ける。検索ユーザはキーワードを用いることで、該キーワードに対応付けられた映像信号を抽出できる。しかしながら、キーワードの候補になりうる語彙はあらかじめ静的な語彙データベースの範囲内にとどまり、日々変化する新語、造語、固有名詞をキーワードとすることは現実的に困難であるという問題があった。
【0004】
【特許文献1】 特開2006−54517
【発明の開示】
【発明が解決しようとする課題】
【0005】
音声認識技術の進歩により、無雑音の環境下では単語音声認識については90%以上、連続音声認識については70%以上の認識精度が得られるようになった。こうした音声認識技術を利用し、映像信号に付随する音声信号に対し音声認識を行い、語彙を検出し、映像信号と関連付ける技術が可能になっている。しかしながら、音声認識可能な語彙数は大語彙データベース内の語彙数に依存し、語彙数が少なければ認識精度は向上するもののほとんどの認識語彙が未知語として認識される結果となり、逆に語彙数が多ければ、未知語として認識される語彙は少なくなるものの、音韻的な距離の近い語彙については誤認識されるおそれがある。このため、大語彙データベース内の語彙数を一定の範囲に保ちつつ、質の向上、つまり常に時代に即した内容の語彙を収容することが望ましい。静的な語彙データベースでは、日々変化する新語、造語、固有名詞などについての音声認識は行うことができず、全て未知語として処理されてしまう。例えば、急に知名度の向上した政治家やタレントの名前などは、通常は語彙データベースに収容されていないが、急に知名度が向上するくらいであるから、これらをキーワードして検索したいユーザは多いはずである。しかしながら、語彙データベースの内容を時代に即して日々更新していくことは現実的には困難であるため、キーワードとして最も使用したい語彙が使用できないという問題があった。
【課題を解決するための手段】
【0006】
本発明は、登録ユーザが動画を新規に登録する際に、該動画にとって適切なキーワードとその読み仮名を入力することを促し、入力されたキーワードを大語彙データベースに追加し、該語彙の読み仮名から得られる音素列を用いて既に登録されている動画に対し音声認識を行い、該音素列が検出された場合はインデックスデータベースに該語彙を追加することを特徴とし、本発明はインターネット上の動画サイトなど、ユーザが多くインタラクティブな媒体上で効果的であることを特徴とする。
【0007】
また本発明は、前記のインデックスデータベース上において出現頻度の高い語彙について、該語彙をカテゴリ化し、検索ユーザのカテゴリ検索のニーズにも対応することを特徴とする。
【0008】
また本発明は、前記の新規語彙の追加による大語彙データベースの肥大化を防ぐために、検索ユーザの検索キーワードの統計情報から時間の経過などにより陳腐化したキーワードを大語彙データベースから削除することにより、大語彙データベースを常に一定範囲の語彙数に保ちつつその内容を最適化することを特徴とする。
【発明の効果】
【0009】
発明によれば、検索ユーザは常に適切な動画の検索結果を得ることができる。
【発明を実施するための最良の形態】
【0010】
以下、本発明の実施の形態について図面を参照しながら説明する。図1は、本発明の動画検索システムの実施形態例を実現する基本構成図である。
【0011】
動画登録インタフェース2上に、動画ファイルのアップローダとキーワード入力フィールドが設置され、キーワード入力フィールドは、文字列入力フィールドと読み仮名入力フィールドより構成される。
【0012】
登録された動画ファイルのURIは動画データベース3に挿入される。
【0013】
登録された動画ファイルに対し、データ処理部4は音声認識部7に対し、大語彙データベース6の語彙に基づくキーワードスポッティングを行うよう指示し、動画データベース3における該動画ファイルの動画IDと共に、キーワードスポッティングによって検出された語彙に対する大語彙データベース6上の語彙IDがインデックスデータベース5に挿入される。この際、助詞などの機能語や検索キーワードとして適切でないものについては、大語彙データベース6上の重要度フィールドの値をFalseに設定しておくことで、インデックスデータベース5に挿入されることを回避する。
【0014】
音声認識において、キーワードスポッティングよりも大語彙連続音声認識を行う方が得られる語彙情報量は多く効果的だが、現実的には不特定話者の連続音声認識の認識精度は低く、特に話し言葉についてはその文法も明確ではないため、本発明ではキーワードスポッティングを採用している。将来的には大語彙連続音声認識が用いられるのが望ましい。
【0015】
動画データベース3における該動画ファイルの動画IDと共に、文字列入力フィールドに入力された文字列について大語彙データベース6を参照した結果返される語彙IDがインデックスデータベース5に挿入される。
【0016】
文字列入力フィールドに入力された文字列が大語彙データベース6に存在しない場合、データ処理部4により読み仮名入力フィールドに入力された文字列が音声認識部7にとって利用可能な音素列の形態に変換され、文字列入力フィールドに入力された文字列と共に大語彙データベース6に挿入される。
【0017】
さらにデータ処理部4は、該音素列について動画データベース3に挿入された既存の動画ファイルに対するキーワードスポッティングを行うよう音声認識部7に指示を行う。
【0018】
動画データベース3に挿入された既存の動画ファイルに対するキーワードスポッティングの結果、該音素列が検出された場合、動画データベース3上の該動画IDおよび大語彙データベース6上の該音素列に対する語彙IDをインデックスデータベース5に挿入する。ここで、データ処理部4はキーワードスポッティングが未処理の語彙IDを保持しているため、同音異字語を誤ってインデックスデータベース5に挿入することはない。
【0019】
大語彙データベース6は検索ユーザ9の各語彙に対する検索回数という統計情報を保持しており、新たな語彙の追加により大語彙データベース6のレコード数が一定値を超えた場合、統計情報に基づき検索回数の少ない語彙を削除する。こうした語彙の最適化を行うことにより、検索キーワード群の陳腐化の防止、音声認識処理の高速化、音声認識の誤認識の防止等の効果が得られる。
【0020】
データ処理部4は、インデックスデータベース5上での出現頻度が高い語彙について、動画検索インタフェース8上で該語彙をカテゴリ化することにより、検索ユーザ9のキーワード検索だけでなく。カテゴリ検索のニーズにも対応する。
【0021】
音声認識対象の動画ファイル数が大規模で、音声認識処理の負荷が高い場合、一定数の新規語彙に達した時点や週に一度などの期間を区切っての複数新規語彙に対するキーワードスポッティングにより、音声認識処理の負荷を緩和することができる。
【0022】
動画登録インタフェース2および動画検索インタフェース8はユーザの利便性のために存在し、本発明の登録ユーザまたは検索ユーザを人間として想定しない場合、これらインタフェースはシステム実現のために必ずしも必要とはならない。例えば、WEB上を巡回するような検索ロボットにとって、これらインタフェースは必ずしも必要とはならない。
【産業上の利用可能性】
【0023】
本発明は、動画サイト等で動画検索サービスを提供する産業分野などに適用できる。
【図面の簡単な説明】
【0024】
【図1】 本発明の動画検索システムの実施形態例を実現する基本構成図である。
【図2】 本発明における各データベースのテーブルの基本構成図である。
【符号の説明】
【0025】
1 登録ユーザ
2 動画登録インタフェース
3 動画データベース
4 データ処理部
5 インデックスデータベース
6 大語彙データベース
7 音声認識部
8 動画検索インタフェース
9 検索ユーザ

【特許請求の範囲】
【請求項1】
動画サイトへの動画の登録ユーザが入力したキーワードを大語彙データベースに追加し、該語彙の読み仮名から得られる音素列を用いて既に登録されている動画に対しても音声認識を行い、該音素列が検出された場合はインデックスデータベースに該語彙を追加することで検索の際に使用可能なキーワード群を常に時代や目的に即した内容に保ち、動画の検索ユーザが検索を行う際、新語、造語、固有名詞等が未知語となるために適切な検索結果を得られない事態をできるだけ回避することを特徴とする動的な大語彙データベースを装備した動画検索方法および動画検索システム。
【請求項2】
請求項1のインデックスデータベース上において、出現頻度の高い語彙については該語彙をカテゴリ化し、請求項1に示されたキーワード検索のみならず、カテゴリ検索のニーズにも対応することを特徴とする動画検索方法および動画検索システム。
【請求項3】
請求項1において、新規語彙の追加による大語彙データベースの肥大化を防ぐために、検索ユーザの検索キーワードの統計情報から時間の経過などにより陳腐化したキーワードを大語彙データベースから削除することにより、大語彙データベースを常に一定範囲の語彙数に保ちつつその内容を最適化することを特徴とする動画検索方法および動画検索システム。

【図1】
image rotate

【図2】
image rotate