重要語を抽出するサーバ、システム、方法、およびプログラム

【課題】会話の中の重要語を抽出してテキストデータとして提示することのできる装置を提供すること。
【解決手段】サーバ１０は、会話の音声データを受信し、受信した音声データを、発言者毎に分離し、分離された音声データのそれぞれを、テキストデータに変換し、変換されたテキストデータのうち、発言時刻が新しいものから所定数のテキストデータを選択し、選択されたテキストデータに含まれる各語の出現頻度に関する指標に基づいて重要語を抽出する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、会話の中の重要語を抽出するサーバ、システム、方法、およびプログラムに関する。
【背景技術】
【０００２】
従来、会議や会話等の音声データは、録音しなければ記録としては残らず、また、録音された音声データも、連続して再生しなければ、その内容を知ることができないため、内容の理解や情報の検索に時間がかかっていた。そこで、音声認識の技術を用いて、音声データをテキストデータに変換することが行われてきた。
【０００３】
このとき、音声データに複数の発言者が存在すると、テキストデータに変換された場合に、発言者の区別がつかなくなる。そこで、音声データを発言者毎に分離する方法が提案されている（例えば、特許文献１参照）。これらの技術により、音声データを発言者毎にテキストデータとして記録、提示することが可能となる。
【０００４】
一方、会議や会話等の音声データをテキストデータに変換して、このテキストデータからキーワードを抽出し、キーワードに応じた広告を配信することが提案されている。例えば、特許文献２では、テレビ電話システムにおいて、テキストデータからキーワードを抽出して、キーワードに応じた広告を表示画面に表示させることが提案されている。また、特許文献３では、車内の音を集音して音声認識処理を行い、認識された語彙と一致するキーワードに応じた広告を車載器に配信することが提案されている。
【特許文献１】特許第３３６４４８７号公報
【特許文献２】特開２００２−１６５１９３号公報
【特許文献３】特開２００４−２２６０７０号公報
【発明の開示】
【発明が解決しようとする課題】
【０００５】
しかしながら、特許文献１の技術により、音声データをテキストデータに変換した場合、全ての発言がデータ化されるため、重要な発言も、話題から外れた重要度の低い発言についても、平等にデータ化されていた。その結果、会議や会話の内容を的確に判断することが困難であり、特許文献２および３にも、重要なキーワードを抽出するための明確な記載はない。また、特許文献２および３の技術では、音声を収集した現場に対して広告を配信するため、大衆に対して広告が配信されているとはいえなかった。更に、テキストデータから抽出されたキーワードに応じたサービスであり、キーワードの重要度にかかわらずサービス情報が表示される。よって、効果的に広告が配信されているとはいえなかった。
【０００６】
そこで本発明は、会話の中の重要語を抽出してテキストデータとして提示し、効果的に広告を配信することのできる装置を提供することを目的とする。
【課題を解決するための手段】
【０００７】
本発明では、以下のような解決手段を提供する。
【０００８】
（１）会話の中の重要語を抽出するサーバであって、
前記会話の音声データを受信する受信手段と、
前記受信手段により受信した音声データを、発言者毎に分離する分離手段と、
前記分離手段により分離された音声データのそれぞれを、テキストデータに変換する変換手段と、
前記変換手段により変換されたテキストデータのうち、発言時刻が新しいものから所定数のテキストデータを選択する選択手段と、
前記選択手段により選択されたテキストデータに含まれる各語の出現頻度に関する指標に基づいて重要語を抽出する抽出手段と、を備えるサーバ。
【０００９】
このような構成によれば、当該サーバは、会話の音声データを受信し、受信した音声データを、発言者毎に分離し、分離された音声データのそれぞれを、テキストデータに変換し、変換されたテキストデータのうち、発言時刻が新しいものから所定数のテキストデータを選択し、選択されたテキストデータに含まれる各語の出現頻度に関する指標に基づいて重要語を抽出する。
【００１０】
このことにより、当該サーバは、受信した音声データのうち、直近の所定数の発言内容から重要語を抽出する。その結果、刻々と内容が変化する会話の中から、現在話題となっている内容を表す重要語をタイムリーにユーザに対して提示することができる。
【００１１】
その結果、ユーザは、現在の話題を確認することができるため、この話題に沿った発言がし易くなる。また、会議等で、議題から外れた重要語が提示されるのを監視することにより、議論の内容が発散することを抑制できる。
【００１２】
（２）ネットワークを介して接続された端末装置からの処理開始要求に応じて、当該端末装置を特定する特定手段と、
前記特定手段により特定された前記端末装置とのデータ通信接続を確立する接続手段と、
前記抽出手段により抽出された重要語を、前記接続手段によりデータ通信接続が確立された前記端末装置に送信する送信手段と、を更に備える（１）に記載のサーバ。
【００１３】
このような構成によれば、当該サーバは、ネットワークを介して接続された端末装置からの処理開始要求に応じて、当該端末装置を特定し、特定された端末装置とのデータ通信接続を確立し、抽出された重要語を、データ通信接続が確立された端末装置に送信する。
【００１４】
このことにより、当該サーバは、ネットワークを介して接続された端末装置により集音された音声データに基づいて、当該端末装置に対して、刻々と変化する重要語をタイムリーに報知することができる。
【００１５】
（３）端末装置に対して前記会話の映像及び音声をリアルタイム配信するリアルタイム配信手段と、
前記抽出手段により抽出された重要語に応じた広告情報を取得する広告取得手段と、
前記広告取得手段により取得された広告情報を、前記リアルタイム配信に連動させて前記端末装置に配信する広告配信手段と、を更に備える（１）に記載のサーバ。
【００１６】
このような構成によれば、当該サーバは、端末装置に会話の映像及び音声をリアルタイム配信し、抽出された重要語に応じた広告情報を取得し、取得された広告情報を、リアルタイム配信に連動させて端末装置に配信する。
【００１７】
このことにより、当該サーバは、会話の映像及び音声に応じた広告を、会話の映像及び音声のリアルタイム配信に連動させて端末装置に配信することができるので、公衆に対して効果的に広告を配信することができる。また、配信される広告に会話の映像及び音声が調和するので違和感がない広告表示を実現できると共に、ユーザの印象に残り易いものとなるので、高い広告効果が期待できる。また、端末装置のユーザが配信される映像に登場する出演者のファンである場合には、この広告表示に対してクリックする確率が高い状況を見込むことができる。
【００１８】
（４）前記抽出手段は、前記指標として、前記テキストデータの中に各語が出現する頻度を示すＴＦ値と、前記所定数のテキストデータのうち各語が出現する頻度に関するＤＦ値の逆数であるＩＤＦ値と、の積を算出することを特徴とする（１）から（３）のいずれかに記載のサーバ。
【００１９】
このような構成によれば、当該サーバは、時間の経過を考慮し、所定数の発言を選択することにより、その所定数の範囲において、ＴＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ）とＩＤＦ（ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）の積に基づくＴＦ・ＩＤＦ値を算出する。
【００２０】
このことにより、当該サーバは、語句の新鮮度を考慮したＴＦ・ＩＤＦ技術を用いて、出現頻度に基づく重要語を抽出することができる。
【００２１】
（５）前記選択手段は、前記テキストデータが所定の種類の語を含むことを検出した場合に、当該所定の種類の語が発言された以降のテキストデータを選択することを特徴とする（１）から（４）のいずれかに記載のサーバ。
【００２２】
このような構成によれば、当該サーバは、所定の種類の語句、例えば、「ところで」、「さて」等の話題転換語を検出した場合に、この検出した語句以降の発言を対象として、重要語を抽出する。
【００２３】
このことにより、当該サーバは、同一の話題で話されている期間を対象として、重要語を抽出するので、異なる話題が混在することにより現在の重要語が見過ごされる可能性を低減できる。
【００２４】
（６）前記テキストデータに含まれる各語の類義語を判別するための類義語データベースを更に備え、
前記抽出手段は、前記類義語データベースに記憶された類義語を含めて、各語の出現頻度に関する前記指標を算出することを特徴とする（１）から（５）のいずれかに記載のサーバ。
【００２５】
このような構成によれば、当該サーバは、テキストデータに含まれる各語の類義語を判別するための類義語データベースを更に備え、類義語データベースに記憶された類義語を含めて、各語の出現頻度に関する指標を算出する。
【００２６】
このことにより、当該サーバは、類義語データベースを備えるので、類義語を同一の語句と見なして、重要語を抽出することができる。その結果、発言者が異なることによる表現の揺れを吸収することができる。
【００２７】
（７）前記抽出手段は、前記選択手段により選択されたテキストデータの中で、前記発言者が同一であるテキストデータの数に基づいて、当該発言者のテキストデータに含まれる各語の前記指標に重み付けを行うことを特徴とする（１）から（６）のいずれかに記載のサーバ。
【００２８】
このような構成によれば、当該サーバは、発言者が同一である発言が複数ある場合に、その発言数に応じて、その発言者の発言に含まれる各語について重み付けを行う。このことにより、当該サーバは、発言数が多い発言者の発言内容に含まれる語句の重要度を高くすることができる。
【００２９】
（８）前記変換手段は、前記音声データの音量を示す音量データを、前記テキストデータに関連付け、
前記抽出手段は、前記変換手段により前記テキストデータに関連付けられた音量データに基づいて、当該テキストデータに含まれる各語の前記指標に重み付けを行うことを特徴とする（１）から（７）のいずれかに記載のサーバ。
【００３０】
このような構成によれば、当該サーバは、音声データの音量を示す音量データを、テキストデータに関連付け、この音量データに基づいて、当該テキストデータに含まれる各語の指標に重み付けを行う。
【００３１】
このことにより、当該サーバは、音量の大きい語句について重要度を高くすることができるので、発言者が強調する語句を重要語として抽出する可能性を高めることができる。
【００３２】
（９）会話の音声を受信する端末装置と、ネットワークを介してデータ通信可能なサーバにより、当該会話の中の重要語を抽出するシステムであって、
前記サーバは、
前記端末装置からの処理開始要求に応じて、当該端末装置を特定する特定手段と、
前記特定手段により特定された前記端末装置とのデータ通信接続を確立する接続手段と、
前記会話の音声データを受信する受信手段と、
前記受信手段により受信した音声データを、発言者毎に分離する分離手段と、
前記分離手段により分離された音声データのそれぞれを、テキストデータに変換する変換手段と、
前記変換手段により変換されたテキストデータのうち、発言時刻が新しいものから所定数のテキストデータを選択する選択手段と、
前記選択手段により選択されたテキストデータに含まれる各語の出現頻度に関する指標に基づいて重要語を抽出する抽出手段と、
前記抽出手段により抽出された重要語を、前記接続手段によりデータ通信接続が確立された前記端末装置に送信する送信手段と、を備え、
前記端末装置は、
前記送信手段により送信された前記重要語を表示する表示手段を備えるシステム。
【００３３】
このような構成によれば、当該システムは、会話の音声を受信する端末装置が当該サーバと通信することにより、当該サーバにより送信された重要語を表示する。このことにより、当該システムを運用することで、（１）および（２）と同様の効果が期待できる。
【００３４】
（１０）前記端末装置は、前記送信手段により送信された前記重要語を、時系列に記憶する記憶手段を更に備える（９）に記載のシステム。
【００３５】
このような構成によれば、当該システムの端末装置は、抽出された重要語を時系列に記憶するので、利用者は、会話が終わった後からでも、例えば議事録の作成等の際に、この会話の流れを参照することができる。
【００３６】
（１１）会話の中の重要語を抽出する方法であって、
前記会話の音声データを受信する受信ステップと、
前記受信ステップにより受信した音声データを、発言者毎に分離する分離ステップと、
前記分離ステップにより分離された音声データのそれぞれを、テキストデータに変換する変換ステップと、
前記変換ステップにより変換されたテキストデータのうち、発言時刻が新しいものから所定数のテキストデータを選択する選択ステップと、
前記選択ステップにより選択されたテキストデータに含まれる各語の出現頻度に関する指標に基づいて重要語を抽出する抽出ステップと、を含む方法。
【００３７】
このような構成によれば、当該方法を実行することにより、（１）と同様の効果が期待できる。
【００３８】
（１２）会話の中の重要語をサーバに抽出させるプログラムであって、
前記会話の音声データを受信する受信ステップと、
前記受信ステップにより受信した音声データを、発言者毎に分離する分離ステップと、
前記分離ステップにより分離された音声データのそれぞれを、テキストデータに変換する変換ステップと、
前記変換ステップにより変換されたテキストデータのうち、発言時刻が新しいものから所定数のテキストデータを選択する選択ステップと、
前記選択ステップにより選択されたテキストデータに含まれる各語の出現頻度に関する指標に基づいて重要語を抽出する抽出ステップと、を実行させるプログラム。
【００３９】
このような構成によれば、当該プログラムを実行することにより、（１）と同様の効果が期待できる。
【発明の効果】
【００４０】
本発明によれば、会話の中の重要語を抽出してテキストデータとして提示することができる。また、公衆に対して効果的に広告を配信することができる。
【発明を実施するための最良の形態】
【００４１】
（第１実施形態）
以下、第１実施形態について図を参照しながら説明する。
【００４２】
［システム概要］
図１は、第１実施形態に係るシステムの概要を示す図である。会議等の会話の場において音声を受信する端末装置２０と、この会話の中の重要語を抽出するサーバ１０とが、ネットワークを介して接続されている。第１実施形態では、端末装置２０は携帯電話機であるとして説明するが、通信機能を備えた端末装置であれば、これには限られない。また、利用場所を限定させないために、携帯可能な小型の端末装置であることが好ましい。
【００４３】
端末装置２０は、会話の音声データをサーバ１０に送信し、サーバ１０により抽出された重要語を受信して表示する。これにより、端末装置２０のユーザは、会話の中で刻々と変化する重要語をリアルタイムに知ることができる。
【００４４】
サーバ１０は、端末装置２０から受信した音声データに対して、音声認識技術を用い、音声のテキストデータを生成する。続いて、サーバ１０は、生成したテキストデータに対して、語の新鮮度を考慮したＴＦ・ＩＤＦ技術（詳細は後述する）を用い、会話の中の重要語を抽出する。
【００４５】
［ハードウェア構成］
図２は、第１実施形態に係るサーバ１０のハードウェア構成の一例を示す図である。サーバ１０は、制御装置１０１を構成するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１（１０１０）（マルチプロセッサ構成ではＣＰＵ２（１０１２）等複数のＣＰＵが追加されてもよい）、バスライン１００５、通信Ｉ／Ｆ１０４０、メインメモリ１０５０、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）１０６０、ＵＳＢポート１０９０、Ｉ／Ｏコントローラ１０７０、ならびにキーボードおよびマウス等の入力装置１１００や表示装置１０２２を備える。
【００４６】
ＢＩＯＳ１０６０は、サーバ１０の起動時に制御装置１０１が実行するブートプログラムや、サーバ１０のハードウェアに依存するプログラム等を格納する。
【００４７】
Ｉ／Ｏコントローラ１０７０には、テープドライブ１０７２、ハードディスク１０７４、光ディスクドライブ１０７６、半導体メモリ１０７８等の記憶装置１０７を接続することができる。
【００４８】
記憶装置１０７を構成するハードディスク１０７４は、サーバ１０がサーバとして機能するための各種プログラムおよび本発明の機能を実行するプログラムを記憶しており、更に必要に応じて各種データベースを構成可能である。
【００４９】
光ディスクドライブ１０７６としては、例えば、ＤＶＤ−ＲＯＭドライブ、ＣＤ−ＲＯＭドライブ、ＤＶＤ−ＲＡＭドライブ、ＣＤ−ＲＡＭドライブ等を使用することができる。この場合は各ドライブに対応した光ディスク１０７７を使用する。光ディスク１０７７から光ディスクドライブ１０７６によりプログラムまたはデータを読み取り、Ｉ／Ｏコントローラ１０７０を介してメインメモリ１０５０またはハードディスク１０７４に提供することもできる。また、同様にテープドライブ１０７２に対応したテープメディア１０７１を主としてバックアップのために使用することもできる。
【００５０】
サーバ１０に提供されるプログラムは、ハードディスク１０７４、光ディスク１０７７、またはメモリーカード等の記録媒体に格納されて提供される。このプログラムは、Ｉ／Ｏコントローラ１０７０を介して、記録媒体から読み出され、または通信Ｉ／Ｆ１０４０を介してダウンロードされることによって、サーバ１０にインストールされ実行されてもよい。
【００５１】
前述のプログラムは、内部または外部の記憶媒体に格納されてもよい。ここで、記憶装置１０７を構成する記憶媒体としては、ハードディスク１０７４、光ディスク１０７７、またはメモリーカードの他に、ＭＤ等の光磁気記録媒体、テープ媒体を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク１０７４または光ディスクライブラリー等の記憶装置を記録媒体として使用し、通信回線を介してプログラムをサーバ１０に提供してもよい。
【００５２】
ここで、表示装置１０２２は、ユーザにデータの入力を受け付ける画面を表示したり、サーバ１０による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置（ＣＲＴ）、液晶表示装置（ＬＣＤ）等のディスプレイ装置を含む。
【００５３】
ここで、入力装置１１００は、ユーザによる入力の受け付けを行うものであり、キーボードおよびマウス等により構成してよい。
【００５４】
また、通信Ｉ／Ｆ１０４０は、サーバ１０を専用ネットワークまたは公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信Ｉ／Ｆ１０４０は、モデム、ケーブル・モデムおよびイーサネット（登録商標）・アダプタを含んでよい。
【００５５】
以上の例は、サーバ１０について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバ装置として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明したサーバにより実現される機能は、上述の方法を当該コンピュータで実行することにより、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。
【００５６】
［機能構成］
図３は、第１実施形態に係るサーバ１０における、制御装置１０１の主な機能の構成を示す図である。なお、以下に説明する各機能は、サーバ１０単体において実現されることとしたが、これには限られず、適宜、複数のサーバに機能を分散させてもよい。
【００５７】
サーバ１０は、電話番号特定部１１０と、音声受信部１２０と、人物特定部１３０と、音声認識部１４０と、重み付け設定部１５０と、重要語抽出部１６０と、重要語送信部１７０と、を備える。
【００５８】
電話番号特定部１１０は、端末装置２０からの処理開始要求を受信したことに応じて、端末装置２０の電話番号を特定する。具体的には、図４に示す登録ユーザテーブルを記憶装置１０７に記憶しており、電話番号特定部１１０は、ユーザＩＤに対応する端末装置２０の電話番号、すなわち重要語を配信する対象を特定する。
【００５９】
音声受信部１２０は、端末装置２０により集音され、電子データとして変換された音声データを受信する。
【００６０】
人物特定部１３０は、音声受信部１２０により受信した音声データについて、発言者の特定を行う。すなわち、会話の中の音声を、発言者毎に分離し、時系列に、発言者と紐付けられた複数の音声データとする。例えば、図５に示す会話から生成されるテキストデータの模式図によれば、「Ａさん」の音声データ、次に発言した「Ｂさん」の音声データ、その次に発言した「Ｃさん」の音声データ、最後に発言した「Ｄさん」の音声データが、互いに分離される。
【００６１】
ここで、人物特定部１３０は、上述の特許文献１等、既存の技術を利用することにより実現可能である。
【００６２】
音声認識部１４０は、音声受信部１２０により受信し、人物特定部１３０により発言者毎に分離された音声データを解析し、それぞれをテキストデータに変換する。更に、音声認識部１４０は、変換したテキストデータについて、形態素解析を行い、語句を抽出する。図５の模式図によれば、例えば、「Ａさん」の発言からは、「ＡＡＡ」、「ＢＢＸ」、「ＣＣＣ」が抽出される。
【００６３】
ここで、音声認識部１４０は、図６に示す類義語テーブルを参照し、「ＢＢＸ」を類義語である「ＢＢＢ」に変換する。これにより、「Ｂさん」の発言から抽出される「ＢＢＢ」と同一であると認識できる。
【００６４】
ここでは、既存の技術に基づいて、認識できた音声が語句の組合せとしてテキストデータ（図５の符号５１、５２、５３、５４）で記憶される。このとき、人物特定部１３０により特定した発言者と関連付けて記憶される。更に、音声データの音量を示す音量データを関連付けて記憶してよい。
【００６５】
重み付け設定部１５０は、音声認識部１４０により変換されたテキストデータのうち、重要語を抽出する対象であるテキストデータを選択し、更に、各テキストデータに対して重要度の重み付けを行う。
【００６６】
具体的には、重み付け設定部１５０は、まず、発言時刻が新しいものから所定数のテキストデータを選択する。この所定数は、予め設定されるものであって、例えば、所定数を４と設定すれば、図５の模式図ではテキストデータ５１、５２、５３、および５４が選択される。
【００６７】
ここで、テキストデータの中に、「ところで」、「さて」、「話は違うが」等の話題転換語が現れた場合には、この話題転換語以降のテキストデータを選択することとする。例えば、所定数が４であっても、テキストデータ５４に話題転換語が現れた場合には、テキストデータ５１、５２、および５３は除外される。このことにより、現在話されている話題に関するテキストデータが選択される。
【００６８】
続いて、重み付け設定部１５０は、各テキストデータに関して、発言者の発言数や音量等に基づいて、重要度の重み付けを行う。例えば、発言数が他より多い発言者のテキストデータに対しては重要度を高くする。また、音声認識部１４０によりテキストデータに関連付けられた音量データが大きいほど、重要度を高くする。あるいは、同一の発言者のテキストデータの中で音量データが相対的に大きいものについて、重要度を高くしてもよい。
【００６９】
また、音声認識部１４０により、音量データは、テキストデータに含まれる語句それぞれに対して関連付けてもよい。この場合、重み付け設定部１５０は、テキストデータに含まれる語句に対して重要度の重み付けができる。
【００７０】
重要語抽出部１６０は、重み付け設定部１５０により選択されたテキストデータ５１、５２、５３、および５４を参照し、それぞれに含まれる語句について、出現頻度に関する指標として、ＴＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ）とＩＤＦ（ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）の積であるＴＦ・ＩＤＦ（ｔ）値を算出する。
【００７１】
語句ｔについてのＴＦ・ＩＤＦ（ｔ）値は、
【数１】

により算出される。
ＴＦ（ｔ）は、語句ｔがテキストデータに含まれる数を示す。
ＤＦ（ｔ）は、語句ｔが含まれるテキストデータの数を示す。
Ｎは、選択されたテキストデータの数を示す。
【００７２】
例えば、図５の模式図によれば、所定数「Ｎ＝４」としたとき、テキストデータ５４に含まれる「ＡＡＡ」については、「ＴＦ（ｔ）＝１」、「ＤＦ（ｔ）＝４」となる。また、「ＥＥＥ」については、「ＴＦ（ｔ）＝２」、「ＤＦ（ｔ）＝２」となる。
【００７３】
すなわち、ＴＦ・ＩＤＦ（ｔ）値は、「ＡＡＡ」に比べて「ＥＥＥ」が大きくなる。重要語抽出部１６０は、このＴＦ・ＩＤＦ（ｔ）値が最大の語句を重要語として抽出する。なお、ＴＦ・ＩＤＦ（ｔ）値が最大の語句のみではなく、複数の語句を抽出してもよく、また、一定値以上の語句を抽出することとしてもよい。
【００７４】
ここで、重要語抽出部１６０は、重み付け設定部１５０により設定された重要度の重み付けに基づいて、ＴＦ（ｔ）、ＤＦ（ｔ）、あるいはＴＦ・ＩＤＦ（ｔ）値を調節することが好ましい。これにより、重要語抽出部１６０は、発言数や音量に基づく重要語を抽出することができる。
【００７５】
なお、第１実施形態のＴＦ・ＩＤＦ（ｔ）値の計算式は、重要度の指標としての一例であって、これには限られない。例えば、対数（ｌｏｇ）を用いなくてもよく、また、対数の底として、「１０」、「２」、あるいは自然対数「ｅ」等、適宜設定することができる。
【００７６】
また、ＴＦ（ｔ）は語句ｔの数としたが、これには限られず、テキストデータに含まれる割合等、出現頻度を示す値としてよい。また、ＤＦ（ｔ）についても同様に、Ｎに対して、語句ｔが含まれるテキストデータの割合等、出現頻度を示す値としてよい。
【００７７】
重要語送信部１７０は、重要語抽出部１６０により抽出された重要語を、電話番号特定部１１０により特定された端末装置２０に対して送信する。この処理は、端末装置２０に対する文字データの片方向の通信でよいため、いわゆるプッシュ配信の手法を利用することができる。重要語送信部１７０は、電話番号特定部１１０により特定された端末装置２０とのデータ通信接続を確立した後、重要語抽出部１６０により重要語が抽出される度に、端末装置２０に対して配信を継続する。
【００７８】
ここで、端末装置２０は、サーバ１０の重要語送信部１７０から受信した重要語を表示することにより、利用者に報知する。これにより、端末装置２０の利用者は、会話の中で刻々と変化する重要語を、リアルタイムで把握することができる。
【００７９】
また、端末装置２０は、受信した重要語を、発言の時刻と対応付けて時系列に記憶する。これにより、利用者は、後から会話の流れを把握することができる。
【００８０】
［処理フロー］
図７は、第１実施形態に係るサーバ１０における制御装置１０１の処理を示すフローチャートである。
【００８１】
ステップＳ１では、制御装置１０１は、端末装置２０から、ユーザＩＤと共に、処理の開始要求を受信する。
【００８２】
ステップＳ２では、制御装置１０１は、ステップＳ１で受信したユーザＩＤにより、端末装置２０の電話番号を特定する。
【００８３】
ステップＳ３では、制御装置１０１は、端末装置２０から会話の音声データを受信する。
【００８４】
ステップＳ４では、制御装置１０１は、ステップＳ３にて受信した音声データの発言者を特定する。
【００８５】
ステップＳ５では、制御装置１０１は、ステップＳ４にて特定した発言者が変わったか否かを判定する。この判定がＹＥＳの場合は、同一発言者による一連の発言が終了したと判断できるので、ステップＳ６に移る。一方、判定がＮＯの場合は、同一発言者による発言が継続していると判断できるので、ステップＳ３に戻り音声データの受信を継続する。
【００８６】
ステップＳ６では、制御装置１０１は、ステップＳ３にて受信した音声データをテキストデータに変換する。
【００８７】
ステップＳ７では、制御装置１０１は、ステップＳ６にて変換されたテキストデータを形態素解析し、テキストデータに含まれる語句を抽出する。
【００８８】
ステップＳ８では、制御装置１０１は、ステップＳ７にて抽出された語句に対して、重み付けを行う。具体的には、上述のように、テキストデータの新しさ、発言者の発言回数や音量等により、重要度を調整する。
【００８９】
ステップＳ９では、制御装置１０１は、ステップＳ８にて重み付けされた語句について、ＴＦ・ＩＤＦ（ｔ）値を算出し、この値に基づいて重要語を抽出する。
【００９０】
ステップＳ１０では、制御装置１０１は、ステップＳ９にて抽出された重要語を端末装置２０に送信する。
【００９１】
ステップＳ１１では、制御装置１０１は、処理を終了するか否かを判定する。具体的には、端末装置２０から終了要求を受信したことにより処理を終了すると判定する。この判定がＹＥＳの場合は処理を終了し、判定がＮＯの場合はステップＳ３に戻り、音声データの受信を継続する。
【００９２】
（第２実施形態）
次に、第２実施形態について説明する。第２実施形態では、ライブ中継送信装置からライブ広告配信サーバに映像・音声を送信し、ライブ広告配信サーバにおいて、端末装置に映像・音声をリアルタイム配信すると共に、重要語の抽出を行い、この抽出した重要語に応じた広告を、端末装置に配信するものである。
【００９３】
なお、以下の説明において、上述した第１実施形態と同様の機能を果たす部分には、同一の符号または末尾に同一の符号を付して、重複する説明を適宜省略する。
【００９４】
［システム概要］
図８は、第２実施形態に係るシステムの概要を示す図である。ライブ中継の映像・音声をライブ広告配信サーバ２００に送信するライブ中継送信装置３０と、端末装置２０と、ライブにおける映像・音声を端末装置２０にリアルタイム配信すると共に、ライブの音声の重要語を抽出し、この重要語に応じた広告をリアルタイム配信と連動させて端末装置２０に配信するライブ広告配信サーバ２００とが、ネットワークを介して接続されている。第２実施形態では、端末装置２０はリアルタイム配信されるライブ中継の映像・音声を受信して再生できるブラウザを備えているものとして説明する。
【００９５】
ライブ中継送信装置３０は、ライブを中継し、ライブ広告配信サーバ２００に映像・音声を送信する。
【００９６】
ライブ広告配信サーバ２００は、ライブ中継送信装置３０から映像・音声を受信すると、この映像・音声を端末装置２０にリアルタイム配信すると共に、音声認識技術を用いて音声のテキストデータを生成する。続いてライブ広告配信サーバ２００は、生成したテキストデータに対して、語の新鮮度を考慮したＴＦ・ＩＤＦ技術を用い、会話の中の重要語を抽出する。そして、抽出した重要語に応じた広告を取得し、リアルタイム配信と連動させて端末装置２０に配信する。
【００９７】
端末装置２０は、ライブ広告配信サーバ２００から映像・音声を受信し再生すると共に、広告を受信して映像・音声と連動させて表示する。
【００９８】
［機能構成］
図９は、第２実施形態に係るライブ広告配信サーバ２００における、制御装置１０１によって実行される主な機能の構成を示す図である。なお、以下に説明する各機能は、ライブ広告配信サーバ２００単体において実現されることとしたが、これには限られず、適宜、複数のサーバに機能を分散させてもよい。
【００９９】
ライブ広告配信サーバ２００は、映像音声受信部１２１と、人物特定部１３０と、音声認識部１４０と、重み付け設定部１５０と、重要語抽出部１６０と、広告抽出部２１０と、配信広告決定部２２０と、広告配信部２３０と、リアルタイム配信部２４０と、を備える。
【０１００】
映像音声受信部１２１は、ライブ中継送信装置３０により収録され、電子データとして変換された映像・音声データを受信する。
【０１０１】
人物特定部１３０は、映像音声受信部１２１により受信した映像・音声データのうち、音声データを抽出して、この音声データについて、第１実施形態の人物特定部１３０と同様に発言者の特定を行う。
【０１０２】
音声認識部１４０と、重み付け設定部１５０と、重要語抽出部１６０と、については、第１実施形態と同様の機能を有する。
【０１０３】
広告抽出部２１０は、後述で説明する図１０に示す広告テーブルを参照して、重要語抽出部１６０により抽出された重要語に応じた広告を抽出する。具体的には、重要語と、広告テーブルに記憶されるキーワードとのマッチングを行う。そして、マッチングにおいて、重要語と一致するキーワードを含む広告を抽出する。
【０１０４】
図１０は、第２実施形態に係る広告テーブルを示す図である。広告テーブルには、広告ＩＤと、キーワードと、広告内容と、ＵＲＬ等が記憶されている。広告ＩＤは、記憶されている広告を特定するキーである。キーワードは、重要語抽出部１６０により抽出される重要語とのマッチングを行うものである。広告内容およびＵＲＬは、端末装置２０に広告として配信される情報であり、ライブの映像と共に表示される。
【０１０５】
図９に戻り、配信広告決定部２２０は、広告抽出部２１０により抽出された広告の数が予め定められた表示広告数より少ない場合には、抽出された広告を配信する広告として決定し、抽出された広告の数が表示広告数以上である場合には、抽出された広告の中から配信する広告を表示広告数だけランダムに選択したり、広告入札金額の高額なものの順に選択したりと、予め定められた規則に基づいて調整を行う。なお、ここで表示広告数は、ライブの映像・音声のリアルタイム配信と共に配信する広告の数であり、適宜決定できる数である。
【０１０６】
広告配信部２３０は、配信広告決定部２２０により配信することが決定された広告を端末装置２０に配信する。
【０１０７】
リアルタイム配信部２４０は、映像音声受信部１２１により受信した映像・音声データを端末装置２０にリアルタイム配信する。
【０１０８】
［広告配信処理のフローチャート］
図１１は、第２実施形態に係るライブ広告配信サーバ２００における、制御装置１０１によって実行される広告配信処理を示すフローチャートである。なお、ライブ広告配信サーバ２００では、広告配信処理とは別に、制御装置１０１により映像・音声のリアルタイム配信処理が行われる。
【０１０９】
ステップＳ１０１では、制御装置１０１は、ライブ中継送信装置３０から、会話の映像・音声データを受信する。
【０１１０】
ステップＳ１０２では、制御装置１０１は、ステップＳ１０１にて受信した映像・音声データより音声データを抽出し、この音声データについて発言者を特定する。
【０１１１】
ステップＳ１０３では、制御装置１０１は、ステップＳ１０２にて特定した発言者が変わったか否かを判定する。この判定がＹＥＳの場合は、同一発言者による一連の発言が終了したと判断できるので、ステップＳ１０４に移る。一方、判定がＮＯの場合は、同一発言者による発言が継続していると判断できるので、ステップＳ１０１に戻り音声データの受信を継続する。
【０１１２】
ステップＳ１０４では、制御装置１０１は、ステップＳ１０１にて受信した音声データをテキストデータに変換する。
【０１１３】
ステップＳ１０５では、制御装置１０１は、ステップＳ１０４にて変換されたテキストデータを形態素解析し、テキストデータに含まれる語句を抽出する。
【０１１４】
ステップＳ１０６では、制御装置１０１は、ステップＳ１０５にて抽出された語句に対して重み付けを行う。具体的には、上述のように、テキストデータの新しさ、発言者の発言回数や音量等により、重要度を調整する。
【０１１５】
ステップＳ１０７では、制御装置１０１は、ステップＳ１０６にて重み付けされた語句について、ＴＦ・ＩＤＦ（ｔ）値を算出し、この値に基づいて重要語を抽出する。
【０１１６】
ステップＳ１０８では、制御装置１０１は、ステップＳ１０７により抽出された重要語に応じた広告を記憶装置１０７より抽出する。
【０１１７】
ステップＳ１０９では、制御装置１０１は、ステップＳ１０８により抽出された広告を端末装置に配信する。
【０１１８】
ステップＳ１１０では、制御装置１０１は、処理を終了するか否かを判定する。具体的には、ライブ中継送信装置３０から終了要求を受信したことにより処理を終了すると判定する。この判定がＹＥＳの場合は処理を終了し、判定がＮＯの場合はステップＳ１０１に戻り、映像・音声データの受信を継続する。
【０１１９】
［広告配信の表示例］
図１２および図１３は、第２実施形態に係る端末装置２０における広告配信の表示例を示す図である。なお、図１２および図１３の説明において、配信広告決定部２２０における表示広告数を「３」とする。
【０１２０】
図１２は、ライブ中継の様子を示す図である。図１２では、ＥさんとＦさんとが会話をする様子がライブ中継されており、ライブ中継送信装置３０により、このライブ中継の映像・音声データがライブ広告配信サーバ２００に送信される。ここでは、ＥさんとＦさんの会話の内容をふきだし５５〜５８で示しており、ふきだし５５および５７がＥさんの発言であり、ふきだし５６および５８がＦさんの発言である。
【０１２１】
ライブ広告配信サーバ２００は、映像音声受信部１２１により、ライブ中継の映像・音声データを受信する。そして、人物特定部１３０により、音声データを抽出し、この音声データについて発言者の特定を行う。図１２では、「Ｅさん」と「Ｆさん」との音声データに分離される。そして、音声認識部１４０により、発言者毎に分離された音声データを解析し、それぞれをテキストデータに変換する。そして、変換したテキストデータについて、形態素解析を行い、語句を抽出する。図１２のふきだし５５〜５８によれば、「趣味」、「ドライブ」、「休日」が抽出される。そして、音声認識部１４０により類義語についてテキストデータの変換を行い、重み付け設定部１５０により、テキストデータに対して重み付けを行う。ここでは、ふきだし５５〜５８に示される音声から変換された４つのテキストデータが選択される。
【０１２２】
重要語抽出部１６０は、重み付け設定部１５０により選択された４つのテキストデータを参照し、ＴＦ・ＩＤＦ（ｔ）値を算出する。ここでは、第１実施形態の重要語抽出部１６０における例と同様に、所定数「Ｎ＝４」としたとき、ふきだし５８に応じたテキストデータに含まれる語句「ドライブ」については、「ＴＦ（ｔ）＝３」、「ＤＦ（ｔ）＝３」となり、ＴＦ・ＩＤＦ（ｔ）値が最大の語句、すなわち重要語として抽出される。
【０１２３】
広告抽出部２１０は、広告テーブル（図１０）を参照し、重要語として抽出された「ドライブ」がキーワードに含まれている広告を抽出する。ここでは、広告ＩＤ「１０１」、「１０２」の広告が抽出される。配信広告決定部２２０は、抽出された広告の数が「２」で、表示広告数、すなわち「３」より小さいので、広告ＩＤ「１０１」、「１０２」の広告が配信される広告として決定される。そして、広告配信部２３０により、広告ＩＤ「１０１」、「１０２」の広告が端末装置２０に配信される。
【０１２４】
図１３は、第２実施形態に係る端末装置２０に対して、重要語に応じた広告が配信されたときの表示例を示す図である。
【０１２５】
図１３では、端末装置２０に設けられた表示部にブラウザ３０１が表示されている。そして、ブラウザ３０１にライブ映像３０２が表示されているのを確認できる。また、ライブ映像３０２の右部にスポンサー広告として、広告３０３および広告３０４が表示されているのを確認できる。この広告３０３および広告３０４は、広告配信部２３０により、ライブ広告配信サーバ２００から配信された広告であり、広告テーブル（図１０）の広告ＩＤ「１０１」、「１０２」に係る広告内容およびＵＲＬがそれぞれ表示されているのを確認できる。
【０１２６】
このように、ライブ中継の会話における重要語を抽出して、この重要語に応じた広告をライブ中継と共に配信するので、広告がライブ中継に調和し、違和感がない広告表示を実現できる。また、端末装置２０のユーザがライブ中継の出演者のファンである場合には、この広告表示に対してクリックする確率が高い状況、すなわち、高いコンバージョン率を見込むことができる。更に、表示される広告は、ライブ中継の映像・音声と調和した広告であるため、ユーザの印象に残り易いものとなり、高い広告効果が期待できる。
【０１２７】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
【図面の簡単な説明】
【０１２８】
【図１】第１実施形態に係るシステムの概要を示す図である。
【図２】第１実施形態に係るサーバ１０のハードウェア構成の一例を示す図である。
【図３】第１実施形態に係るサーバ１０における、制御装置１０１の主な機能の構成を示す図である。
【図４】第１実施形態に係る登録ユーザテーブルを示す図である。
【図５】第１実施形態に係る会話から生成されるテキストデータの模式図である。
【図６】第１実施形態に係る類義語テーブルを示す図である。
【図７】第１実施形態に係るサーバ１０における制御装置１０１の処理を示すフローチャートである。
【図８】第２実施形態に係るシステムの概要を示す図である。
【図９】第２実施形態に係るライブ広告配信サーバ２００における、制御装置１０１によって実行される主な機能の構成を示す図である。
【図１０】第２実施形態に係る広告テーブルを示す図である。
【図１１】第２実施形態に係るライブ広告配信サーバ２００における、制御装置１０１によって実行される広告配信処理を示すフローチャートである。
【図１２】第２実施形態に係るライブ中継の様子を示す図である。
【図１３】第２実施形態に係る端末装置２０に対して、重要語に応じた広告が配信されたときの表示例を示す図である。
【符号の説明】
【０１２９】
１０サーバ
２０端末装置
３０ライブ中継送信装置
１０１制御装置
１０７記憶装置
１１０電話番号特定部
１２０音声受信部
１２１映像音声受信部
１３０人物特定部
１４０音声認識部
１５０重み付け設定部
１６０重要語抽出部
１７０重要語送信部
２００ライブ広告配信サーバ
２１０広告抽出部
２２０配信広告決定部
２３０広告配信部
２４０リアルタイム配信部

【特許請求の範囲】
【請求項１】
会話の中の重要語を抽出するサーバであって、
前記会話の音声データを受信する受信手段と、
前記受信手段により受信した音声データを、発言者毎に分離する分離手段と、
前記分離手段により分離された音声データのそれぞれを、テキストデータに変換する変換手段と、
前記変換手段により変換されたテキストデータのうち、発言時刻が新しいものから所定数のテキストデータを選択する選択手段と、
前記選択手段により選択されたテキストデータに含まれる各語の出現頻度に関する指標に基づいて重要語を抽出する抽出手段と、を備えるサーバ。
【請求項２】
ネットワークを介して接続された端末装置からの処理開始要求に応じて、当該端末装置を特定する特定手段と、
前記特定手段により特定された前記端末装置とのデータ通信接続を確立する接続手段と、
前記抽出手段により抽出された重要語を、前記接続手段によりデータ通信接続が確立された前記端末装置に送信する送信手段と、を更に備える請求項１に記載のサーバ。
【請求項３】
端末装置に対して前記会話の映像及び音声をリアルタイム配信するリアルタイム配信手段と、
前記抽出手段により抽出された重要語に応じた広告情報を取得する広告取得手段と、
前記広告取得手段により取得された広告情報を、前記リアルタイム配信に連動させて前記端末装置に配信する広告配信手段と、を更に備える請求項１に記載のサーバ。
【請求項４】
前記抽出手段は、前記指標として、前記テキストデータの中に各語が出現する頻度を示すＴＦ値と、前記所定数のテキストデータのうち各語が出現する頻度に関するＤＦ値の逆数であるＩＤＦ値と、の積を算出することを特徴とする請求項１から請求項３のいずれかに記載のサーバ。
【請求項５】
前記選択手段は、前記テキストデータが所定の種類の語を含むことを検出した場合に、当該所定の種類の語が発言された以降のテキストデータを選択することを特徴とする請求項１から請求項４のいずれかに記載のサーバ。
【請求項６】
前記テキストデータに含まれる各語の類義語を判別するための類義語データベースを更に備え、
前記抽出手段は、前記類義語データベースに記憶された類義語を含めて、各語の出現頻度に関する前記指標を算出することを特徴とする請求項１から請求項５のいずれかに記載のサーバ。
【請求項７】
前記抽出手段は、前記選択手段により選択されたテキストデータの中で、前記発言者が同一であるテキストデータの数に基づいて、当該発言者のテキストデータに含まれる各語の前記指標に重み付けを行うことを特徴とする請求項１から請求項６のいずれかに記載のサーバ。
【請求項８】
前記変換手段は、前記音声データの音量を示す音量データを、前記テキストデータに関連付け、
前記抽出手段は、前記変換手段により前記テキストデータに関連付けられた音量データに基づいて、当該テキストデータに含まれる各語の前記指標に重み付けを行うことを特徴とする請求項１から請求項７のいずれかに記載のサーバ。
【請求項９】
会話の音声を受信する端末装置と、ネットワークを介してデータ通信可能なサーバにより、当該会話の中の重要語を抽出するシステムであって、
前記サーバは、
前記端末装置からの処理開始要求に応じて、当該端末装置を特定する特定手段と、
前記特定手段により特定された前記端末装置とのデータ通信接続を確立する接続手段と、
前記会話の音声データを受信する受信手段と、
前記受信手段により受信した音声データを、発言者毎に分離する分離手段と、
前記分離手段により分離された音声データのそれぞれを、テキストデータに変換する変換手段と、
前記変換手段により変換されたテキストデータのうち、発言時刻が新しいものから所定数のテキストデータを選択する選択手段と、
前記選択手段により選択されたテキストデータに含まれる各語の出現頻度に関する指標に基づいて重要語を抽出する抽出手段と、
前記抽出手段により抽出された重要語を、前記接続手段によりデータ通信接続が確立された前記端末装置に送信する送信手段と、を備え、
前記端末装置は、
前記送信手段により送信された前記重要語を表示する表示手段を備えるシステム。
【請求項１０】
前記端末装置は、前記送信手段により送信された前記重要語を、時系列に記憶する記憶手段を更に備える請求項９に記載のシステム。
【請求項１１】
会話の中の重要語を抽出する方法であって、
前記会話の音声データを受信する受信ステップと、
前記受信ステップにより受信した音声データを、発言者毎に分離する分離ステップと、
前記分離ステップにより分離された音声データのそれぞれを、テキストデータに変換する変換ステップと、
前記変換ステップにより変換されたテキストデータのうち、発言時刻が新しいものから所定数のテキストデータを選択する選択ステップと、
前記選択ステップにより選択されたテキストデータに含まれる各語の出現頻度に関する指標に基づいて重要語を抽出する抽出ステップと、を含む方法。
【請求項１２】
会話の中の重要語をサーバに抽出させるプログラムであって、
前記会話の音声データを受信する受信ステップと、
前記受信ステップにより受信した音声データを、発言者毎に分離する分離ステップと、
前記分離ステップにより分離された音声データのそれぞれを、テキストデータに変換する変換ステップと、
前記変換ステップにより変換されたテキストデータのうち、発言時刻が新しいものから所定数のテキストデータを選択する選択ステップと、
前記選択ステップにより選択されたテキストデータに含まれる各語の出現頻度に関する指標に基づいて重要語を抽出する抽出ステップと、を実行させるプログラム。

【図１】