説明

重要語を抽出するサーバ、システム、方法、およびプログラム

【課題】会話の中の重要語を抽出してテキストデータとして提示することのできる装置を提供すること。
【解決手段】サーバ10は、会話の音声データを受信し、受信した音声データを、発言者毎に分離し、分離された音声データのそれぞれを、テキストデータに変換し、変換されたテキストデータのうち、発言時刻が新しいものから所定数のテキストデータを選択し、選択されたテキストデータに含まれる各語の出現頻度に関する指標に基づいて重要語を抽出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、会話の中の重要語を抽出するサーバ、システム、方法、およびプログラムに関する。
【背景技術】
【0002】
従来、会議や会話等の音声データは、録音しなければ記録としては残らず、また、録音された音声データも、連続して再生しなければ、その内容を知ることができないため、内容の理解や情報の検索に時間がかかっていた。そこで、音声認識の技術を用いて、音声データをテキストデータに変換することが行われてきた。
【0003】
このとき、音声データに複数の発言者が存在すると、テキストデータに変換された場合に、発言者の区別がつかなくなる。そこで、音声データを発言者毎に分離する方法が提案されている(例えば、特許文献1参照)。これらの技術により、音声データを発言者毎にテキストデータとして記録、提示することが可能となる。
【0004】
一方、会議や会話等の音声データをテキストデータに変換して、このテキストデータからキーワードを抽出し、キーワードに応じた広告を配信することが提案されている。例えば、特許文献2では、テレビ電話システムにおいて、テキストデータからキーワードを抽出して、キーワードに応じた広告を表示画面に表示させることが提案されている。また、特許文献3では、車内の音を集音して音声認識処理を行い、認識された語彙と一致するキーワードに応じた広告を車載器に配信することが提案されている。
【特許文献1】特許第3364487号公報
【特許文献2】特開2002−165193号公報
【特許文献3】特開2004−226070号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1の技術により、音声データをテキストデータに変換した場合、全ての発言がデータ化されるため、重要な発言も、話題から外れた重要度の低い発言についても、平等にデータ化されていた。その結果、会議や会話の内容を的確に判断することが困難であり、特許文献2および3にも、重要なキーワードを抽出するための明確な記載はない。また、特許文献2および3の技術では、音声を収集した現場に対して広告を配信するため、大衆に対して広告が配信されているとはいえなかった。更に、テキストデータから抽出されたキーワードに応じたサービスであり、キーワードの重要度にかかわらずサービス情報が表示される。よって、効果的に広告が配信されているとはいえなかった。
【0006】
そこで本発明は、会話の中の重要語を抽出してテキストデータとして提示し、効果的に広告を配信することのできる装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明では、以下のような解決手段を提供する。
【0008】
(1) 会話の中の重要語を抽出するサーバであって、
前記会話の音声データを受信する受信手段と、
前記受信手段により受信した音声データを、発言者毎に分離する分離手段と、
前記分離手段により分離された音声データのそれぞれを、テキストデータに変換する変換手段と、
前記変換手段により変換されたテキストデータのうち、発言時刻が新しいものから所定数のテキストデータを選択する選択手段と、
前記選択手段により選択されたテキストデータに含まれる各語の出現頻度に関する指標に基づいて重要語を抽出する抽出手段と、を備えるサーバ。
【0009】
このような構成によれば、当該サーバは、会話の音声データを受信し、受信した音声データを、発言者毎に分離し、分離された音声データのそれぞれを、テキストデータに変換し、変換されたテキストデータのうち、発言時刻が新しいものから所定数のテキストデータを選択し、選択されたテキストデータに含まれる各語の出現頻度に関する指標に基づいて重要語を抽出する。
【0010】
このことにより、当該サーバは、受信した音声データのうち、直近の所定数の発言内容から重要語を抽出する。その結果、刻々と内容が変化する会話の中から、現在話題となっている内容を表す重要語をタイムリーにユーザに対して提示することができる。
【0011】
その結果、ユーザは、現在の話題を確認することができるため、この話題に沿った発言がし易くなる。また、会議等で、議題から外れた重要語が提示されるのを監視することにより、議論の内容が発散することを抑制できる。
【0012】
(2) ネットワークを介して接続された端末装置からの処理開始要求に応じて、当該端末装置を特定する特定手段と、
前記特定手段により特定された前記端末装置とのデータ通信接続を確立する接続手段と、
前記抽出手段により抽出された重要語を、前記接続手段によりデータ通信接続が確立された前記端末装置に送信する送信手段と、を更に備える(1)に記載のサーバ。
【0013】
このような構成によれば、当該サーバは、ネットワークを介して接続された端末装置からの処理開始要求に応じて、当該端末装置を特定し、特定された端末装置とのデータ通信接続を確立し、抽出された重要語を、データ通信接続が確立された端末装置に送信する。
【0014】
このことにより、当該サーバは、ネットワークを介して接続された端末装置により集音された音声データに基づいて、当該端末装置に対して、刻々と変化する重要語をタイムリーに報知することができる。
【0015】
(3) 端末装置に対して前記会話の映像及び音声をリアルタイム配信するリアルタイム配信手段と、
前記抽出手段により抽出された重要語に応じた広告情報を取得する広告取得手段と、
前記広告取得手段により取得された広告情報を、前記リアルタイム配信に連動させて前記端末装置に配信する広告配信手段と、を更に備える(1)に記載のサーバ。
【0016】
このような構成によれば、当該サーバは、端末装置に会話の映像及び音声をリアルタイム配信し、抽出された重要語に応じた広告情報を取得し、取得された広告情報を、リアルタイム配信に連動させて端末装置に配信する。
【0017】
このことにより、当該サーバは、会話の映像及び音声に応じた広告を、会話の映像及び音声のリアルタイム配信に連動させて端末装置に配信することができるので、公衆に対して効果的に広告を配信することができる。また、配信される広告に会話の映像及び音声が調和するので違和感がない広告表示を実現できると共に、ユーザの印象に残り易いものとなるので、高い広告効果が期待できる。また、端末装置のユーザが配信される映像に登場する出演者のファンである場合には、この広告表示に対してクリックする確率が高い状況を見込むことができる。
【0018】
(4) 前記抽出手段は、前記指標として、前記テキストデータの中に各語が出現する頻度を示すTF値と、前記所定数のテキストデータのうち各語が出現する頻度に関するDF値の逆数であるIDF値と、の積を算出することを特徴とする(1)から(3)のいずれかに記載のサーバ。
【0019】
このような構成によれば、当該サーバは、時間の経過を考慮し、所定数の発言を選択することにより、その所定数の範囲において、TF(Term Frequency)とIDF(Inverse Document Frequency)の積に基づくTF・IDF値を算出する。
【0020】
このことにより、当該サーバは、語句の新鮮度を考慮したTF・IDF技術を用いて、出現頻度に基づく重要語を抽出することができる。
【0021】
(5) 前記選択手段は、前記テキストデータが所定の種類の語を含むことを検出した場合に、当該所定の種類の語が発言された以降のテキストデータを選択することを特徴とする(1)から(4)のいずれかに記載のサーバ。
【0022】
このような構成によれば、当該サーバは、所定の種類の語句、例えば、「ところで」、「さて」等の話題転換語を検出した場合に、この検出した語句以降の発言を対象として、重要語を抽出する。
【0023】
このことにより、当該サーバは、同一の話題で話されている期間を対象として、重要語を抽出するので、異なる話題が混在することにより現在の重要語が見過ごされる可能性を低減できる。
【0024】
(6) 前記テキストデータに含まれる各語の類義語を判別するための類義語データベースを更に備え、
前記抽出手段は、前記類義語データベースに記憶された類義語を含めて、各語の出現頻度に関する前記指標を算出することを特徴とする(1)から(5)のいずれかに記載のサーバ。
【0025】
このような構成によれば、当該サーバは、テキストデータに含まれる各語の類義語を判別するための類義語データベースを更に備え、類義語データベースに記憶された類義語を含めて、各語の出現頻度に関する指標を算出する。
【0026】
このことにより、当該サーバは、類義語データベースを備えるので、類義語を同一の語句と見なして、重要語を抽出することができる。その結果、発言者が異なることによる表現の揺れを吸収することができる。
【0027】
(7) 前記抽出手段は、前記選択手段により選択されたテキストデータの中で、前記発言者が同一であるテキストデータの数に基づいて、当該発言者のテキストデータに含まれる各語の前記指標に重み付けを行うことを特徴とする(1)から(6)のいずれかに記載のサーバ。
【0028】
このような構成によれば、当該サーバは、発言者が同一である発言が複数ある場合に、その発言数に応じて、その発言者の発言に含まれる各語について重み付けを行う。このことにより、当該サーバは、発言数が多い発言者の発言内容に含まれる語句の重要度を高くすることができる。
【0029】
(8) 前記変換手段は、前記音声データの音量を示す音量データを、前記テキストデータに関連付け、
前記抽出手段は、前記変換手段により前記テキストデータに関連付けられた音量データに基づいて、当該テキストデータに含まれる各語の前記指標に重み付けを行うことを特徴とする(1)から(7)のいずれかに記載のサーバ。
【0030】
このような構成によれば、当該サーバは、音声データの音量を示す音量データを、テキストデータに関連付け、この音量データに基づいて、当該テキストデータに含まれる各語の指標に重み付けを行う。
【0031】
このことにより、当該サーバは、音量の大きい語句について重要度を高くすることができるので、発言者が強調する語句を重要語として抽出する可能性を高めることができる。
【0032】
(9) 会話の音声を受信する端末装置と、ネットワークを介してデータ通信可能なサーバにより、当該会話の中の重要語を抽出するシステムであって、
前記サーバは、
前記端末装置からの処理開始要求に応じて、当該端末装置を特定する特定手段と、
前記特定手段により特定された前記端末装置とのデータ通信接続を確立する接続手段と、
前記会話の音声データを受信する受信手段と、
前記受信手段により受信した音声データを、発言者毎に分離する分離手段と、
前記分離手段により分離された音声データのそれぞれを、テキストデータに変換する変換手段と、
前記変換手段により変換されたテキストデータのうち、発言時刻が新しいものから所定数のテキストデータを選択する選択手段と、
前記選択手段により選択されたテキストデータに含まれる各語の出現頻度に関する指標に基づいて重要語を抽出する抽出手段と、
前記抽出手段により抽出された重要語を、前記接続手段によりデータ通信接続が確立された前記端末装置に送信する送信手段と、を備え、
前記端末装置は、
前記送信手段により送信された前記重要語を表示する表示手段を備えるシステム。
【0033】
このような構成によれば、当該システムは、会話の音声を受信する端末装置が当該サーバと通信することにより、当該サーバにより送信された重要語を表示する。このことにより、当該システムを運用することで、(1)および(2)と同様の効果が期待できる。
【0034】
(10) 前記端末装置は、前記送信手段により送信された前記重要語を、時系列に記憶する記憶手段を更に備える(9)に記載のシステム。
【0035】
このような構成によれば、当該システムの端末装置は、抽出された重要語を時系列に記憶するので、利用者は、会話が終わった後からでも、例えば議事録の作成等の際に、この会話の流れを参照することができる。
【0036】
(11) 会話の中の重要語を抽出する方法であって、
前記会話の音声データを受信する受信ステップと、
前記受信ステップにより受信した音声データを、発言者毎に分離する分離ステップと、
前記分離ステップにより分離された音声データのそれぞれを、テキストデータに変換する変換ステップと、
前記変換ステップにより変換されたテキストデータのうち、発言時刻が新しいものから所定数のテキストデータを選択する選択ステップと、
前記選択ステップにより選択されたテキストデータに含まれる各語の出現頻度に関する指標に基づいて重要語を抽出する抽出ステップと、を含む方法。
【0037】
このような構成によれば、当該方法を実行することにより、(1)と同様の効果が期待できる。
【0038】
(12) 会話の中の重要語をサーバに抽出させるプログラムであって、
前記会話の音声データを受信する受信ステップと、
前記受信ステップにより受信した音声データを、発言者毎に分離する分離ステップと、
前記分離ステップにより分離された音声データのそれぞれを、テキストデータに変換する変換ステップと、
前記変換ステップにより変換されたテキストデータのうち、発言時刻が新しいものから所定数のテキストデータを選択する選択ステップと、
前記選択ステップにより選択されたテキストデータに含まれる各語の出現頻度に関する指標に基づいて重要語を抽出する抽出ステップと、を実行させるプログラム。
【0039】
このような構成によれば、当該プログラムを実行することにより、(1)と同様の効果が期待できる。
【発明の効果】
【0040】
本発明によれば、会話の中の重要語を抽出してテキストデータとして提示することができる。また、公衆に対して効果的に広告を配信することができる。
【発明を実施するための最良の形態】
【0041】
(第1実施形態)
以下、第1実施形態について図を参照しながら説明する。
【0042】
[システム概要]
図1は、第1実施形態に係るシステムの概要を示す図である。会議等の会話の場において音声を受信する端末装置20と、この会話の中の重要語を抽出するサーバ10とが、ネットワークを介して接続されている。第1実施形態では、端末装置20は携帯電話機であるとして説明するが、通信機能を備えた端末装置であれば、これには限られない。また、利用場所を限定させないために、携帯可能な小型の端末装置であることが好ましい。
【0043】
端末装置20は、会話の音声データをサーバ10に送信し、サーバ10により抽出された重要語を受信して表示する。これにより、端末装置20のユーザは、会話の中で刻々と変化する重要語をリアルタイムに知ることができる。
【0044】
サーバ10は、端末装置20から受信した音声データに対して、音声認識技術を用い、音声のテキストデータを生成する。続いて、サーバ10は、生成したテキストデータに対して、語の新鮮度を考慮したTF・IDF技術(詳細は後述する)を用い、会話の中の重要語を抽出する。
【0045】
[ハードウェア構成]
図2は、第1実施形態に係るサーバ10のハードウェア構成の一例を示す図である。サーバ10は、制御装置101を構成するCPU(Central Processing Unit)1(1010)(マルチプロセッサ構成ではCPU2(1012)等複数のCPUが追加されてもよい)、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、USBポート1090、I/Oコントローラ1070、ならびにキーボードおよびマウス等の入力装置1100や表示装置1022を備える。
【0046】
BIOS1060は、サーバ10の起動時に制御装置101が実行するブートプログラムや、サーバ10のハードウェアに依存するプログラム等を格納する。
【0047】
I/Oコントローラ1070には、テープドライブ1072、ハードディスク1074、光ディスクドライブ1076、半導体メモリ1078等の記憶装置107を接続することができる。
【0048】
記憶装置107を構成するハードディスク1074は、サーバ10がサーバとして機能するための各種プログラムおよび本発明の機能を実行するプログラムを記憶しており、更に必要に応じて各種データベースを構成可能である。
【0049】
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブ等を使用することができる。この場合は各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラムまたはデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050またはハードディスク1074に提供することもできる。また、同様にテープドライブ1072に対応したテープメディア1071を主としてバックアップのために使用することもできる。
【0050】
サーバ10に提供されるプログラムは、ハードディスク1074、光ディスク1077、またはメモリーカード等の記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ1070を介して、記録媒体から読み出され、または通信I/F1040を介してダウンロードされることによって、サーバ10にインストールされ実行されてもよい。
【0051】
前述のプログラムは、内部または外部の記憶媒体に格納されてもよい。ここで、記憶装置107を構成する記憶媒体としては、ハードディスク1074、光ディスク1077、またはメモリーカードの他に、MD等の光磁気記録媒体、テープ媒体を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク1074または光ディスクライブラリー等の記憶装置を記録媒体として使用し、通信回線を介してプログラムをサーバ10に提供してもよい。
【0052】
ここで、表示装置1022は、ユーザにデータの入力を受け付ける画面を表示したり、サーバ10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
【0053】
ここで、入力装置1100は、ユーザによる入力の受け付けを行うものであり、キーボードおよびマウス等により構成してよい。
【0054】
また、通信I/F1040は、サーバ10を専用ネットワークまたは公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデムおよびイーサネット(登録商標)・アダプタを含んでよい。
【0055】
以上の例は、サーバ10について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバ装置として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明したサーバにより実現される機能は、上述の方法を当該コンピュータで実行することにより、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。
【0056】
[機能構成]
図3は、第1実施形態に係るサーバ10における、制御装置101の主な機能の構成を示す図である。なお、以下に説明する各機能は、サーバ10単体において実現されることとしたが、これには限られず、適宜、複数のサーバに機能を分散させてもよい。
【0057】
サーバ10は、電話番号特定部110と、音声受信部120と、人物特定部130と、音声認識部140と、重み付け設定部150と、重要語抽出部160と、重要語送信部170と、を備える。
【0058】
電話番号特定部110は、端末装置20からの処理開始要求を受信したことに応じて、端末装置20の電話番号を特定する。具体的には、図4に示す登録ユーザテーブルを記憶装置107に記憶しており、電話番号特定部110は、ユーザIDに対応する端末装置20の電話番号、すなわち重要語を配信する対象を特定する。
【0059】
音声受信部120は、端末装置20により集音され、電子データとして変換された音声データを受信する。
【0060】
人物特定部130は、音声受信部120により受信した音声データについて、発言者の特定を行う。すなわち、会話の中の音声を、発言者毎に分離し、時系列に、発言者と紐付けられた複数の音声データとする。例えば、図5に示す会話から生成されるテキストデータの模式図によれば、「Aさん」の音声データ、次に発言した「Bさん」の音声データ、その次に発言した「Cさん」の音声データ、最後に発言した「Dさん」の音声データが、互いに分離される。
【0061】
ここで、人物特定部130は、上述の特許文献1等、既存の技術を利用することにより実現可能である。
【0062】
音声認識部140は、音声受信部120により受信し、人物特定部130により発言者毎に分離された音声データを解析し、それぞれをテキストデータに変換する。更に、音声認識部140は、変換したテキストデータについて、形態素解析を行い、語句を抽出する。図5の模式図によれば、例えば、「Aさん」の発言からは、「AAA」、「BBX」、「CCC」が抽出される。
【0063】
ここで、音声認識部140は、図6に示す類義語テーブルを参照し、「BBX」を類義語である「BBB」に変換する。これにより、「Bさん」の発言から抽出される「BBB」と同一であると認識できる。
【0064】
ここでは、既存の技術に基づいて、認識できた音声が語句の組合せとしてテキストデータ(図5の符号51、52、53、54)で記憶される。このとき、人物特定部130により特定した発言者と関連付けて記憶される。更に、音声データの音量を示す音量データを関連付けて記憶してよい。
【0065】
重み付け設定部150は、音声認識部140により変換されたテキストデータのうち、重要語を抽出する対象であるテキストデータを選択し、更に、各テキストデータに対して重要度の重み付けを行う。
【0066】
具体的には、重み付け設定部150は、まず、発言時刻が新しいものから所定数のテキストデータを選択する。この所定数は、予め設定されるものであって、例えば、所定数を4と設定すれば、図5の模式図ではテキストデータ51、52、53、および54が選択される。
【0067】
ここで、テキストデータの中に、「ところで」、「さて」、「話は違うが」等の話題転換語が現れた場合には、この話題転換語以降のテキストデータを選択することとする。例えば、所定数が4であっても、テキストデータ54に話題転換語が現れた場合には、テキストデータ51、52、および53は除外される。このことにより、現在話されている話題に関するテキストデータが選択される。
【0068】
続いて、重み付け設定部150は、各テキストデータに関して、発言者の発言数や音量等に基づいて、重要度の重み付けを行う。例えば、発言数が他より多い発言者のテキストデータに対しては重要度を高くする。また、音声認識部140によりテキストデータに関連付けられた音量データが大きいほど、重要度を高くする。あるいは、同一の発言者のテキストデータの中で音量データが相対的に大きいものについて、重要度を高くしてもよい。
【0069】
また、音声認識部140により、音量データは、テキストデータに含まれる語句それぞれに対して関連付けてもよい。この場合、重み付け設定部150は、テキストデータに含まれる語句に対して重要度の重み付けができる。
【0070】
重要語抽出部160は、重み付け設定部150により選択されたテキストデータ51、52、53、および54を参照し、それぞれに含まれる語句について、出現頻度に関する指標として、TF(Term Frequency)とIDF(Inverse Document Frequency)の積であるTF・IDF(t)値を算出する。
【0071】
語句tについてのTF・IDF(t)値は、
【数1】

により算出される。
TF(t)は、語句tがテキストデータに含まれる数を示す。
DF(t)は、語句tが含まれるテキストデータの数を示す。
Nは、選択されたテキストデータの数を示す。
【0072】
例えば、図5の模式図によれば、所定数「N=4」としたとき、テキストデータ54に含まれる「AAA」については、「TF(t)=1」、「DF(t)=4」となる。また、「EEE」については、「TF(t)=2」、「DF(t)=2」となる。
【0073】
すなわち、TF・IDF(t)値は、「AAA」に比べて「EEE」が大きくなる。重要語抽出部160は、このTF・IDF(t)値が最大の語句を重要語として抽出する。なお、TF・IDF(t)値が最大の語句のみではなく、複数の語句を抽出してもよく、また、一定値以上の語句を抽出することとしてもよい。
【0074】
ここで、重要語抽出部160は、重み付け設定部150により設定された重要度の重み付けに基づいて、TF(t)、DF(t)、あるいはTF・IDF(t)値を調節することが好ましい。これにより、重要語抽出部160は、発言数や音量に基づく重要語を抽出することができる。
【0075】
なお、第1実施形態のTF・IDF(t)値の計算式は、重要度の指標としての一例であって、これには限られない。例えば、対数(log)を用いなくてもよく、また、対数の底として、「10」、「2」、あるいは自然対数「e」等、適宜設定することができる。
【0076】
また、TF(t)は語句tの数としたが、これには限られず、テキストデータに含まれる割合等、出現頻度を示す値としてよい。また、DF(t)についても同様に、Nに対して、語句tが含まれるテキストデータの割合等、出現頻度を示す値としてよい。
【0077】
重要語送信部170は、重要語抽出部160により抽出された重要語を、電話番号特定部110により特定された端末装置20に対して送信する。この処理は、端末装置20に対する文字データの片方向の通信でよいため、いわゆるプッシュ配信の手法を利用することができる。重要語送信部170は、電話番号特定部110により特定された端末装置20とのデータ通信接続を確立した後、重要語抽出部160により重要語が抽出される度に、端末装置20に対して配信を継続する。
【0078】
ここで、端末装置20は、サーバ10の重要語送信部170から受信した重要語を表示することにより、利用者に報知する。これにより、端末装置20の利用者は、会話の中で刻々と変化する重要語を、リアルタイムで把握することができる。
【0079】
また、端末装置20は、受信した重要語を、発言の時刻と対応付けて時系列に記憶する。これにより、利用者は、後から会話の流れを把握することができる。
【0080】
[処理フロー]
図7は、第1実施形態に係るサーバ10における制御装置101の処理を示すフローチャートである。
【0081】
ステップS1では、制御装置101は、端末装置20から、ユーザIDと共に、処理の開始要求を受信する。
【0082】
ステップS2では、制御装置101は、ステップS1で受信したユーザIDにより、端末装置20の電話番号を特定する。
【0083】
ステップS3では、制御装置101は、端末装置20から会話の音声データを受信する。
【0084】
ステップS4では、制御装置101は、ステップS3にて受信した音声データの発言者を特定する。
【0085】
ステップS5では、制御装置101は、ステップS4にて特定した発言者が変わったか否かを判定する。この判定がYESの場合は、同一発言者による一連の発言が終了したと判断できるので、ステップS6に移る。一方、判定がNOの場合は、同一発言者による発言が継続していると判断できるので、ステップS3に戻り音声データの受信を継続する。
【0086】
ステップS6では、制御装置101は、ステップS3にて受信した音声データをテキストデータに変換する。
【0087】
ステップS7では、制御装置101は、ステップS6にて変換されたテキストデータを形態素解析し、テキストデータに含まれる語句を抽出する。
【0088】
ステップS8では、制御装置101は、ステップS7にて抽出された語句に対して、重み付けを行う。具体的には、上述のように、テキストデータの新しさ、発言者の発言回数や音量等により、重要度を調整する。
【0089】
ステップS9では、制御装置101は、ステップS8にて重み付けされた語句について、TF・IDF(t)値を算出し、この値に基づいて重要語を抽出する。
【0090】
ステップS10では、制御装置101は、ステップS9にて抽出された重要語を端末装置20に送信する。
【0091】
ステップS11では、制御装置101は、処理を終了するか否かを判定する。具体的には、端末装置20から終了要求を受信したことにより処理を終了すると判定する。この判定がYESの場合は処理を終了し、判定がNOの場合はステップS3に戻り、音声データの受信を継続する。
【0092】
(第2実施形態)
次に、第2実施形態について説明する。第2実施形態では、ライブ中継送信装置からライブ広告配信サーバに映像・音声を送信し、ライブ広告配信サーバにおいて、端末装置に映像・音声をリアルタイム配信すると共に、重要語の抽出を行い、この抽出した重要語に応じた広告を、端末装置に配信するものである。
【0093】
なお、以下の説明において、上述した第1実施形態と同様の機能を果たす部分には、同一の符号または末尾に同一の符号を付して、重複する説明を適宜省略する。
【0094】
[システム概要]
図8は、第2実施形態に係るシステムの概要を示す図である。ライブ中継の映像・音声をライブ広告配信サーバ200に送信するライブ中継送信装置30と、端末装置20と、ライブにおける映像・音声を端末装置20にリアルタイム配信すると共に、ライブの音声の重要語を抽出し、この重要語に応じた広告をリアルタイム配信と連動させて端末装置20に配信するライブ広告配信サーバ200とが、ネットワークを介して接続されている。第2実施形態では、端末装置20はリアルタイム配信されるライブ中継の映像・音声を受信して再生できるブラウザを備えているものとして説明する。
【0095】
ライブ中継送信装置30は、ライブを中継し、ライブ広告配信サーバ200に映像・音声を送信する。
【0096】
ライブ広告配信サーバ200は、ライブ中継送信装置30から映像・音声を受信すると、この映像・音声を端末装置20にリアルタイム配信すると共に、音声認識技術を用いて音声のテキストデータを生成する。続いてライブ広告配信サーバ200は、生成したテキストデータに対して、語の新鮮度を考慮したTF・IDF技術を用い、会話の中の重要語を抽出する。そして、抽出した重要語に応じた広告を取得し、リアルタイム配信と連動させて端末装置20に配信する。
【0097】
端末装置20は、ライブ広告配信サーバ200から映像・音声を受信し再生すると共に、広告を受信して映像・音声と連動させて表示する。
【0098】
[機能構成]
図9は、第2実施形態に係るライブ広告配信サーバ200における、制御装置101によって実行される主な機能の構成を示す図である。なお、以下に説明する各機能は、ライブ広告配信サーバ200単体において実現されることとしたが、これには限られず、適宜、複数のサーバに機能を分散させてもよい。
【0099】
ライブ広告配信サーバ200は、映像音声受信部121と、人物特定部130と、音声認識部140と、重み付け設定部150と、重要語抽出部160と、広告抽出部210と、配信広告決定部220と、広告配信部230と、リアルタイム配信部240と、を備える。
【0100】
映像音声受信部121は、ライブ中継送信装置30により収録され、電子データとして変換された映像・音声データを受信する。
【0101】
人物特定部130は、映像音声受信部121により受信した映像・音声データのうち、音声データを抽出して、この音声データについて、第1実施形態の人物特定部130と同様に発言者の特定を行う。
【0102】
音声認識部140と、重み付け設定部150と、重要語抽出部160と、については、第1実施形態と同様の機能を有する。
【0103】
広告抽出部210は、後述で説明する図10に示す広告テーブルを参照して、重要語抽出部160により抽出された重要語に応じた広告を抽出する。具体的には、重要語と、広告テーブルに記憶されるキーワードとのマッチングを行う。そして、マッチングにおいて、重要語と一致するキーワードを含む広告を抽出する。
【0104】
図10は、第2実施形態に係る広告テーブルを示す図である。広告テーブルには、広告IDと、キーワードと、広告内容と、URL等が記憶されている。広告IDは、記憶されている広告を特定するキーである。キーワードは、重要語抽出部160により抽出される重要語とのマッチングを行うものである。広告内容およびURLは、端末装置20に広告として配信される情報であり、ライブの映像と共に表示される。
【0105】
図9に戻り、配信広告決定部220は、広告抽出部210により抽出された広告の数が予め定められた表示広告数より少ない場合には、抽出された広告を配信する広告として決定し、抽出された広告の数が表示広告数以上である場合には、抽出された広告の中から配信する広告を表示広告数だけランダムに選択したり、広告入札金額の高額なものの順に選択したりと、予め定められた規則に基づいて調整を行う。なお、ここで表示広告数は、ライブの映像・音声のリアルタイム配信と共に配信する広告の数であり、適宜決定できる数である。
【0106】
広告配信部230は、配信広告決定部220により配信することが決定された広告を端末装置20に配信する。
【0107】
リアルタイム配信部240は、映像音声受信部121により受信した映像・音声データを端末装置20にリアルタイム配信する。
【0108】
[広告配信処理のフローチャート]
図11は、第2実施形態に係るライブ広告配信サーバ200における、制御装置101によって実行される広告配信処理を示すフローチャートである。なお、ライブ広告配信サーバ200では、広告配信処理とは別に、制御装置101により映像・音声のリアルタイム配信処理が行われる。
【0109】
ステップS101では、制御装置101は、ライブ中継送信装置30から、会話の映像・音声データを受信する。
【0110】
ステップS102では、制御装置101は、ステップS101にて受信した映像・音声データより音声データを抽出し、この音声データについて発言者を特定する。
【0111】
ステップS103では、制御装置101は、ステップS102にて特定した発言者が変わったか否かを判定する。この判定がYESの場合は、同一発言者による一連の発言が終了したと判断できるので、ステップS104に移る。一方、判定がNOの場合は、同一発言者による発言が継続していると判断できるので、ステップS101に戻り音声データの受信を継続する。
【0112】
ステップS104では、制御装置101は、ステップS101にて受信した音声データをテキストデータに変換する。
【0113】
ステップS105では、制御装置101は、ステップS104にて変換されたテキストデータを形態素解析し、テキストデータに含まれる語句を抽出する。
【0114】
ステップS106では、制御装置101は、ステップS105にて抽出された語句に対して重み付けを行う。具体的には、上述のように、テキストデータの新しさ、発言者の発言回数や音量等により、重要度を調整する。
【0115】
ステップS107では、制御装置101は、ステップS106にて重み付けされた語句について、TF・IDF(t)値を算出し、この値に基づいて重要語を抽出する。
【0116】
ステップS108では、制御装置101は、ステップS107により抽出された重要語に応じた広告を記憶装置107より抽出する。
【0117】
ステップS109では、制御装置101は、ステップS108により抽出された広告を端末装置に配信する。
【0118】
ステップS110では、制御装置101は、処理を終了するか否かを判定する。具体的には、ライブ中継送信装置30から終了要求を受信したことにより処理を終了すると判定する。この判定がYESの場合は処理を終了し、判定がNOの場合はステップS101に戻り、映像・音声データの受信を継続する。
【0119】
[広告配信の表示例]
図12および図13は、第2実施形態に係る端末装置20における広告配信の表示例を示す図である。なお、図12および図13の説明において、配信広告決定部220における表示広告数を「3」とする。
【0120】
図12は、ライブ中継の様子を示す図である。図12では、EさんとFさんとが会話をする様子がライブ中継されており、ライブ中継送信装置30により、このライブ中継の映像・音声データがライブ広告配信サーバ200に送信される。ここでは、EさんとFさんの会話の内容をふきだし55〜58で示しており、ふきだし55および57がEさんの発言であり、ふきだし56および58がFさんの発言である。
【0121】
ライブ広告配信サーバ200は、映像音声受信部121により、ライブ中継の映像・音声データを受信する。そして、人物特定部130により、音声データを抽出し、この音声データについて発言者の特定を行う。図12では、「Eさん」と「Fさん」との音声データに分離される。そして、音声認識部140により、発言者毎に分離された音声データを解析し、それぞれをテキストデータに変換する。そして、変換したテキストデータについて、形態素解析を行い、語句を抽出する。図12のふきだし55〜58によれば、「趣味」、「ドライブ」、「休日」が抽出される。そして、音声認識部140により類義語についてテキストデータの変換を行い、重み付け設定部150により、テキストデータに対して重み付けを行う。ここでは、ふきだし55〜58に示される音声から変換された4つのテキストデータが選択される。
【0122】
重要語抽出部160は、重み付け設定部150により選択された4つのテキストデータを参照し、TF・IDF(t)値を算出する。ここでは、第1実施形態の重要語抽出部160における例と同様に、所定数「N=4」としたとき、ふきだし58に応じたテキストデータに含まれる語句「ドライブ」については、「TF(t)=3」、「DF(t)=3」となり、TF・IDF(t)値が最大の語句、すなわち重要語として抽出される。
【0123】
広告抽出部210は、広告テーブル(図10)を参照し、重要語として抽出された「ドライブ」がキーワードに含まれている広告を抽出する。ここでは、広告ID「101」、「102」の広告が抽出される。配信広告決定部220は、抽出された広告の数が「2」で、表示広告数、すなわち「3」より小さいので、広告ID「101」、「102」の広告が配信される広告として決定される。そして、広告配信部230により、広告ID「101」、「102」の広告が端末装置20に配信される。
【0124】
図13は、第2実施形態に係る端末装置20に対して、重要語に応じた広告が配信されたときの表示例を示す図である。
【0125】
図13では、端末装置20に設けられた表示部にブラウザ301が表示されている。そして、ブラウザ301にライブ映像302が表示されているのを確認できる。また、ライブ映像302の右部にスポンサー広告として、広告303および広告304が表示されているのを確認できる。この広告303および広告304は、広告配信部230により、ライブ広告配信サーバ200から配信された広告であり、広告テーブル(図10)の広告ID「101」、「102」に係る広告内容およびURLがそれぞれ表示されているのを確認できる。
【0126】
このように、ライブ中継の会話における重要語を抽出して、この重要語に応じた広告をライブ中継と共に配信するので、広告がライブ中継に調和し、違和感がない広告表示を実現できる。また、端末装置20のユーザがライブ中継の出演者のファンである場合には、この広告表示に対してクリックする確率が高い状況、すなわち、高いコンバージョン率を見込むことができる。更に、表示される広告は、ライブ中継の映像・音声と調和した広告であるため、ユーザの印象に残り易いものとなり、高い広告効果が期待できる。
【0127】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
【図面の簡単な説明】
【0128】
【図1】第1実施形態に係るシステムの概要を示す図である。
【図2】第1実施形態に係るサーバ10のハードウェア構成の一例を示す図である。
【図3】第1実施形態に係るサーバ10における、制御装置101の主な機能の構成を示す図である。
【図4】第1実施形態に係る登録ユーザテーブルを示す図である。
【図5】第1実施形態に係る会話から生成されるテキストデータの模式図である。
【図6】第1実施形態に係る類義語テーブルを示す図である。
【図7】第1実施形態に係るサーバ10における制御装置101の処理を示すフローチャートである。
【図8】第2実施形態に係るシステムの概要を示す図である。
【図9】第2実施形態に係るライブ広告配信サーバ200における、制御装置101によって実行される主な機能の構成を示す図である。
【図10】第2実施形態に係る広告テーブルを示す図である。
【図11】第2実施形態に係るライブ広告配信サーバ200における、制御装置101によって実行される広告配信処理を示すフローチャートである。
【図12】第2実施形態に係るライブ中継の様子を示す図である。
【図13】第2実施形態に係る端末装置20に対して、重要語に応じた広告が配信されたときの表示例を示す図である。
【符号の説明】
【0129】
10 サーバ
20 端末装置
30 ライブ中継送信装置
101 制御装置
107 記憶装置
110 電話番号特定部
120 音声受信部
121 映像音声受信部
130 人物特定部
140 音声認識部
150 重み付け設定部
160 重要語抽出部
170 重要語送信部
200 ライブ広告配信サーバ
210 広告抽出部
220 配信広告決定部
230 広告配信部
240 リアルタイム配信部

【特許請求の範囲】
【請求項1】
会話の中の重要語を抽出するサーバであって、
前記会話の音声データを受信する受信手段と、
前記受信手段により受信した音声データを、発言者毎に分離する分離手段と、
前記分離手段により分離された音声データのそれぞれを、テキストデータに変換する変換手段と、
前記変換手段により変換されたテキストデータのうち、発言時刻が新しいものから所定数のテキストデータを選択する選択手段と、
前記選択手段により選択されたテキストデータに含まれる各語の出現頻度に関する指標に基づいて重要語を抽出する抽出手段と、を備えるサーバ。
【請求項2】
ネットワークを介して接続された端末装置からの処理開始要求に応じて、当該端末装置を特定する特定手段と、
前記特定手段により特定された前記端末装置とのデータ通信接続を確立する接続手段と、
前記抽出手段により抽出された重要語を、前記接続手段によりデータ通信接続が確立された前記端末装置に送信する送信手段と、を更に備える請求項1に記載のサーバ。
【請求項3】
端末装置に対して前記会話の映像及び音声をリアルタイム配信するリアルタイム配信手段と、
前記抽出手段により抽出された重要語に応じた広告情報を取得する広告取得手段と、
前記広告取得手段により取得された広告情報を、前記リアルタイム配信に連動させて前記端末装置に配信する広告配信手段と、を更に備える請求項1に記載のサーバ。
【請求項4】
前記抽出手段は、前記指標として、前記テキストデータの中に各語が出現する頻度を示すTF値と、前記所定数のテキストデータのうち各語が出現する頻度に関するDF値の逆数であるIDF値と、の積を算出することを特徴とする請求項1から請求項3のいずれかに記載のサーバ。
【請求項5】
前記選択手段は、前記テキストデータが所定の種類の語を含むことを検出した場合に、当該所定の種類の語が発言された以降のテキストデータを選択することを特徴とする請求項1から請求項4のいずれかに記載のサーバ。
【請求項6】
前記テキストデータに含まれる各語の類義語を判別するための類義語データベースを更に備え、
前記抽出手段は、前記類義語データベースに記憶された類義語を含めて、各語の出現頻度に関する前記指標を算出することを特徴とする請求項1から請求項5のいずれかに記載のサーバ。
【請求項7】
前記抽出手段は、前記選択手段により選択されたテキストデータの中で、前記発言者が同一であるテキストデータの数に基づいて、当該発言者のテキストデータに含まれる各語の前記指標に重み付けを行うことを特徴とする請求項1から請求項6のいずれかに記載のサーバ。
【請求項8】
前記変換手段は、前記音声データの音量を示す音量データを、前記テキストデータに関連付け、
前記抽出手段は、前記変換手段により前記テキストデータに関連付けられた音量データに基づいて、当該テキストデータに含まれる各語の前記指標に重み付けを行うことを特徴とする請求項1から請求項7のいずれかに記載のサーバ。
【請求項9】
会話の音声を受信する端末装置と、ネットワークを介してデータ通信可能なサーバにより、当該会話の中の重要語を抽出するシステムであって、
前記サーバは、
前記端末装置からの処理開始要求に応じて、当該端末装置を特定する特定手段と、
前記特定手段により特定された前記端末装置とのデータ通信接続を確立する接続手段と、
前記会話の音声データを受信する受信手段と、
前記受信手段により受信した音声データを、発言者毎に分離する分離手段と、
前記分離手段により分離された音声データのそれぞれを、テキストデータに変換する変換手段と、
前記変換手段により変換されたテキストデータのうち、発言時刻が新しいものから所定数のテキストデータを選択する選択手段と、
前記選択手段により選択されたテキストデータに含まれる各語の出現頻度に関する指標に基づいて重要語を抽出する抽出手段と、
前記抽出手段により抽出された重要語を、前記接続手段によりデータ通信接続が確立された前記端末装置に送信する送信手段と、を備え、
前記端末装置は、
前記送信手段により送信された前記重要語を表示する表示手段を備えるシステム。
【請求項10】
前記端末装置は、前記送信手段により送信された前記重要語を、時系列に記憶する記憶手段を更に備える請求項9に記載のシステム。
【請求項11】
会話の中の重要語を抽出する方法であって、
前記会話の音声データを受信する受信ステップと、
前記受信ステップにより受信した音声データを、発言者毎に分離する分離ステップと、
前記分離ステップにより分離された音声データのそれぞれを、テキストデータに変換する変換ステップと、
前記変換ステップにより変換されたテキストデータのうち、発言時刻が新しいものから所定数のテキストデータを選択する選択ステップと、
前記選択ステップにより選択されたテキストデータに含まれる各語の出現頻度に関する指標に基づいて重要語を抽出する抽出ステップと、を含む方法。
【請求項12】
会話の中の重要語をサーバに抽出させるプログラムであって、
前記会話の音声データを受信する受信ステップと、
前記受信ステップにより受信した音声データを、発言者毎に分離する分離ステップと、
前記分離ステップにより分離された音声データのそれぞれを、テキストデータに変換する変換ステップと、
前記変換ステップにより変換されたテキストデータのうち、発言時刻が新しいものから所定数のテキストデータを選択する選択ステップと、
前記選択ステップにより選択されたテキストデータに含まれる各語の出現頻度に関する指標に基づいて重要語を抽出する抽出ステップと、を実行させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2009−238199(P2009−238199A)
【公開日】平成21年10月15日(2009.10.15)
【国際特許分類】
【出願番号】特願2008−237926(P2008−237926)
【出願日】平成20年9月17日(2008.9.17)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】