説明

情報端末及び会話補助プログラム

【課題】利用者の操作を伴わずに、会話をスムーズに進めるためのデータを提供することができる携帯通信端末を提供することを課題とする。
【解決手段】携帯通信端末100は、マイク107から音声を取得し、会話に含まれる単語を抽出して記憶部114に記憶しておく。並行して取得される音声の音量が、音量閾値を下回る時間(無音時間)を計測し、計測した無音時間が時間閾値以上である場合、記憶している語句を基に、インターネットを介して会話に関連する情報を取得し、利用者に提示する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、携帯通信端末に関するものであって、特に、複数の利用者による会話を補助する技術に関する。
【背景技術】
【0002】
会議などの場で音声を録音し、録音した音声を、話者の交代時、話題の変化点などで区切って、音声ファイルを生成し、各ファイルの音声信号を基に、音声認識技術を用いて索引を生成する技術が開示されている(特許文献1)。
この技術によると、会議の進行中であっても、利用者は、パソコンなどの端末からキーワードを入力して、会議中に話題に上った内容に関する音声ファイルを参照したり、他の利用者に提示したりすることができる。
【特許文献1】特開 2008−59077 号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、上記の技術では、会議中に、何らかの情報が必要となった場合、必要な情報を得るために、端末などへキーワードの入力を行わなければならないため、入力者が、入力中、会議に集中できなかったり、情報の検索のために、会議自体が中断してしまったりする。また、誰かが話をしている最中に情報の提示が為されると、会議進行の妨げになる恐れがある。ここで、本明細書において、「会議」とは、複数の人が集まり討論、決議などを行うことであって、「会話」とは、複数の人が、相互に発話したり聞いたりすることにより共通の話題についてやり取りをすることである。会話は、会議を進めるための重要な手段である。
【0004】
上記の問題を解決するため、本発明は、会話参加者による意図的な入力を伴わずに、会話を円滑に進めるための情報を提供することができる情報端末、会話補助プログラムを提供することを目的とする。
【課題を解決するための手段】
【0005】
上記の問題を解決するために、本発明は、音声を集音する集音手段と、集音された音声から、キーワードを抽出する抽出手段と、集音される音声の音量が音量閾値以下となる時間を計測し、計測した時間が時間閾値以上であるか否かを判断する判断手段と、抽出されたキーワードに関連する関連情報を取得し、判断結果を基に、取得した関連情報を出力する出力手段とを備えることを特徴とする情報端末である。
【発明の効果】
【0006】
この構成によると、抽出手段は、集音した音声からキーワードを抽出し、出力手段は、音量が音量閾値以下である時間が、時間閾値以上であるか否かの判断結果に応じて、キーワードに関連する関連情報の取得及び表示を行う。そのため、音量が音量閾値以下の時間、つまり会話が停滞している時間の長さに応じて、利用者(会話参加者)は、それまでの会話に関連する関連情報を、自動的に得ることができるという優れた効果を奏する。
【発明を実施するための最良の形態】
【0007】
1.実施の形態1
以下に、本発明の1つの実施の形態について、図面を用いて説明する。
1.2 概要
図1は、本実施の形態1における携帯通信端末100の使用例を示している。携帯通信端末100は具体的には、携帯電話、電子手帳、携帯型音楽プレーヤー、携帯型ゲーム機などが考えられる。
【0008】
ここでは、一例として、利用者H201〜H207が携帯通信端末100の周りに集まり、旅行に関する会議を行っている。各利用者は、それぞれ、時刻T1、T2、T3・・・(T1<T2<T3・・・)に、各自の意見などを発言している。なお、時刻T7及び時刻T8において、利用者H202及び利用者H204は、特に何も発言しておらず、図1の吹き出し中の「・・・。」は、無言であることを表している。
【0009】
つまり、時刻T6における利用者H207の発言を最後に、発話する利用者が途絶え、会話が停滞している。
携帯通信端末100は、マイク及び音声認識機能を備えており、逐次、音声を集音し、集音した音声から語句を抽出し、逐次、記憶する。また、一定期間、集音される音声の音量が所定の閾値を下回った場合、つまり、会話が停滞し、誰も発言しない状態が続くと、それまでに記憶していた語句から、会議の話題に適合すると予測されるキーワードを抽出する。そして、基地局15及びインターネット20を介して、抽出したキーワードを、検索サイトサーバ装置25へ送信し、検索を依頼する。
【0010】
続いて、携帯通信端末100は、検索サイトサーバ装置25による検索結果(本実施の形態では、○×旅行会社の所有する○×旅行会社サーバ26のURL(Uniform Resource Locator)を含む)を受信し、受信した検索結果を基に○×旅行会社サーバ26へアクセスして、旅行会社の広告サイトの画像データを取得し、取得した画像データに基づく画面101を、時刻T9に、壁やスクリーンに表示する。
【0011】
このように、本発明の携帯通信端末100は、会話が停滞した場合に、会話の補助となるような情報を取得し、利用者に提示することができる。
以下、本明細書において、携帯通信端末100によるこの一連の処理を会話補助と呼ぶ。
1.3 携帯通信端末100の構成
図2は、携帯通信端末100の物理的構成を示すブロック図である。図2に示すように、携帯通信端末100は、アンテナ102、信号処理部103、時計104、スピーカー106、マイク107、エンコーダ/デコーダ108、LCD(Liquid Crystal Display)109、無音判断部111、音声認識部112、制御部113、記憶部114、プロジェクタ部116、入力部117から構成される。
【0012】
また、図3は、制御部113内の機能的構成及びデータフローを示す機能ブロック図である。
以下に、各構成要素について説明する。
(1)アンテナ102及び信号処理部103
信号処理部103は、制御部113と接続されており、制御部113の制御の下、アンテナ102を介して、基地局15との間で電波の送受信を行う回路である。
【0013】
信号処理部103は、変復調機、増幅器などを含んでおり、通話時には、音声を電波に変換して送受信する。また、制御部113の指示により各種のデータを電波に変換して、送受信する。
(2)時計104
時計104は、現在時刻を計時する回路である。
【0014】
(3)スピーカー106、マイク107及びLCD109
スピーカー106は、エンコーダ/デコーダ108によるデコード処理により生成された音声を再生する機構である。
マイク107は、周囲の音声を集音し、集音した音声をエンコーダ/デコーダ108へ出力する。
【0015】
LCD109は、バックライトユニット、液晶パネルなどを含んで構成され、エンコーダ/デコーダ108によるデコード処理により生成された画像及び制御部113から出力された画像を表示する。
(4)エンコーダ/デコーダ108
エンコーダ/デコーダ108は、所定の規格に従った方式で音声データ及び画像データをエンコード及びデコードする回路である。所定の規格とは、一例としてMPEG4などが考えられる。
【0016】
また、エンコーダ/デコーダ108は、マイク107により集音された音声を音声認識部112及び無音判断部111へ出力する。
(5)プロジェクタ部116
プロジェクタ部116は、表示機構、レンズ、光源などを含んで構成され、制御部113から出力される表示画面を、拡大してスクリーンなどに投影表示する。
【0017】
この構成を備えているので、壁などに大きく画面を表示できるため、会話参加者各々、つまり複数の利用者が、同時に画面を見ることができる。
(6)入力部117
入力部117は、筺体表面に備えられたテンキー、決定キーなど複数のキーと、キーの押下を検出する回路から構成される。複数のキーには、会話補助のスタートキー及びストップキーが含まれる。入力部117は、スタートキーが押下されると、会話の開始を示す会話開始通知を、ストップキーが押下されると会話終了通知を制御部113へ出力する。
【0018】
(7)無音判断部111
無音判断部111は、制御部113による制御の下、エンコーダ/デコーダ108から音声を取得し、取得した音声の音量が継続して音量閾値(後述)以下となる無音時間を計測する回路である。
無音判断部111は、内部のメモリに音量閾値「−70db」121と時間閾値「30秒」122とを記憶している。また、図3に示すように、無音判断部111は、比較器130及びタイマ131を備えている。
【0019】
音量閾値121は、一般的に、人が会話をする際の最低音量であって、ここでは、一例として「−70db」としている。時間閾値122は、会話が滞っていると推定される時間長であって、ここでは、一例として「30秒」としている。
音量閾値121及び時間閾値122は、携帯通信端末100の製造時に設定されるとしても良いし、出荷後、利用者の操作により設定されるとしてもよい。
【0020】
無音判断部111は、取得した音声をデジタル信号に変換し、音量(単位db)を計測する機能を備える。最大0dbまで計測することができる。無音判断部111は、比較器130により計測された音量と音量閾値121とを比較し、タイマ131により、計測された音量が音量閾値121以下である無音時間を計測する。計測した無音時間が、時間閾値122を超えると、制御部113へ、会話が滞っていることを示す無音通知を出力する。なお、無音通知は、計測した無音時間が、時間閾値122を超えた時刻を含んでいるとしても良い。
【0021】
なお、無音判断部111は、集音された音声の音量を計測できればよいので、エンコーダ/デコーダ108を介さず、マイク107と直接接続されていてもよい。
(8)音声認識部112
音声認識部112は、制御部113による制御の下、エンコーダ/デコーダ108から音声を取得し、取得した音声を解析して語句を抽出する回路である。
【0022】
音声認識部112は、多数の語句について、その語句を発音した際の音の波形を含む辞書123を内部に記憶しており、これを参照して語句の抽出を行う。
音声認識部112は、抽出した語句とその語句を含む音声を取得した時刻の組(以下、語句データと呼ぶ)を制御部113へ出力する。なお、音声を取得した時刻は、利用者が、発話した時刻と略同一とする。
【0023】
(9)記憶部114
記憶部114は、例えばRAM、フラッシュメモリなどにより構成され、制御部113から出力されるデータを記憶する機能を有する。一例として、図3に示すように、複数の語句データ126、127・・・を記憶している。これらは、音声認識部112により生成されたデータであり、音声認識部112により抽出された語句と、その語句を含む音声を取得した時刻とから構成される。
【0024】
例えば、語句データ126は、時刻T1「13:30:30」及び語句「旅行」から構成される。なお、上記の「13:30:30」は、13時30分30秒を示しており、以下の説明において、具体的に時刻を記載する場合は、同様に「時:分:秒」と記載する。
(10)制御部113
制御部113は、携帯通信端末100を構成する各構成要素を制御する回路であって、具体的にはプロセッサ及びRAM、ROMを含んで構成される。RAM、ROMには、コンピュータプログラムが記憶されており、プロセッサがコンピュータプログラムに従って動作することで、制御部113はその機能を達成する。
【0025】
図3に示すように、制御部113は、会話補助制御部124、キーワード抽出部125及び画像出力部129から構成される。これらの機能部も、プロセッサが会話補助処理を記述したアプリケーションプログラムに従って動作することで実現される。
以下、各機能部について説明する。
(10−1)キーワード抽出部125
キーワード抽出部125は、会話が停滞したと推定される場合に、直近の会話に含まれるキーワードを抽出し、抽出したキーワードに関する情報の検索を依頼する機能を担う。
【0026】
キーワード抽出部125は、対象期間「5分間」128を記憶している。また、所定の検索サイトのURLを記憶している。
会話補助制御部124から無音通知を取得する。無音通知を取得すると、記憶部114に記憶されている語句データの中から、現在時刻(若しくは、取得した無音通知に含まれる時刻)を終期とする対象期間「5分間」に含まれる時刻に生成された語句データを特定し、特定した語句データに含まれる語句を読み出し、読み出した語句のうち、出現回数の最も多い語句をキーワードとして抽出する。次に、キーワード抽出部125は、記憶しているURLの示す検索サイトサーバ装置25へ、抽出したキーワードを送信して、検索を依頼する機能を有する。
【0027】
ここで、キーワード抽出部125は、無音時刻を取得した時刻(若しくは無音通知に含まれる時刻、つまり、無音時間が時間閾値を超えた時刻)を終期とする対象期間「5分間」に発話及び記録された語句の中からキーワードに決定するので、対象期間より前に記憶された語句は、キーワードの決定に用いない。そのため、キーワード抽出部125は、会話の進行に伴って、話題が変化していったとしても、現在話題となっている内容に即したキーワードを抽出することができるという優れた効果を奏する。
【0028】
(10−2)画像出力部129
画像出力部129は、会話補助制御部124から表示用データを取得し、取得した表示用データからプロジェクタ用の表示画面を生成する機能を有する。
ここで、表示用データは、一例としてwebページを構成するHTML形式のファイル、画像データ、テキストデータなどである。画像出力部129は、ブラウザ機能を備えており、表示用データを解析して表示画面を生成し、生成した表示画面をプロジェクタ部116へ出力する。
【0029】
(10−3)会話補助制御部124
会話補助制御部124は、入力部117から会話開始通知及び会話終了通知を受け取る。会話開始通知を取得してから、会話終了通知を取得するまでの間、無音判断部111、音声認識部112、キーワード抽出部125及び画像出力部129を制御して、会話補助を実現する機能を有する。
【0030】
また、会話補助制御部124は、信号処理部103を介して、検索サイトサーバ装置25から、検索結果を取得する。この検索結果は、キーワード抽出部125による検索依頼に応じて、検索サイトサーバ装置25が検索を行った結果であり、少なくとも1つのwebサイトを示すURLを含んでいる。例えば、○×旅行会社の所有する○×旅行会社サーバ26のURLを含む。詳細は、後の検索サイトサーバ装置の章において記載する。
【0031】
また、会話補助制御部124は、取得した検索結果の示すwebサイトから、表示用データを取得し、取得した表示用データを画像出力部129へ出力する。本実施の形態では、検索結果に複数のURLが含まれている場合、1番目に順位付けされているURLの示すwebサイトから前述の表示用データを取得する。
2.検索サイトサーバ装置25
検索サイトサーバ装置25は、従来からインターネットで検索サービスを提供している検索サイトのサーバと同様のものであり、携帯通信端末100からキーワードと検索依頼とを受信する。これらを受信すると、所定の検索アルゴリズムに従って、キーワードに適したwebサイトを、適合度合いの高い順に検出する。
【0032】
続いて、検索サイトサーバ装置25は、検出したwebサイトを適合度合いの高い順に順位付けし、順位及び各webサイト示すURLを含む検索結果を生成し、生成した検索結果を携帯通信端末100へ送信する。
3. 動作
以下に、本発明の携帯通信端末100の動作について、図面を参照しながら説明する。
【0033】
なお、携帯通信端末100は、以下に説明する動作以外にも、各種の動作、例えば、通話、音楽再生、写真撮影、LCDへの画像表示などを行うとしてもよいが、ここでは、本発明に関連する会話補助に関する動作についてのみ説明する。
3.1 会話補助の動作
図4は、携帯通信端末100による会話補助動作を示すフローチャートである。
【0034】
以下に、図4を用いて、会話補助動作について説明する。
入力部117は、利用者によるスタートキーの押下を検出し(ステップS101)、会話開始通知を制御部113へ出力する。
制御部113内の会話補助制御部124は、会話開始通知を受け取り、各構成要素に対する制御を開始する。
【0035】
会話補助制御部124の指示により、マイク107及びエンコーダ/デコーダ108は音声の集音を開始する(ステップS102)。
音声認識部112は、集音された音声から、辞書123に含まれる語句と一致する語句を抽出する(ステップS104)。続いて、音声認識部112は、時計104から時刻を取得し、抽出した語句と時刻とからなる語句データを制御部113へ出力する(ステップS106)。
【0036】
制御部113の会話補助制御部124は、音声認識部112から取得した語句データを記憶部114へ書き込む(ステップS107)。ここで、ストップキーの押下が検出されると(ステップS108のYES)、会話補助制御部124は、会話補助に係る処理を終了する。
ストップキーの押下が検出されなければ(ステップS108のNO)、ステップS104へ戻り、ステップS104〜ステップS107の処理を繰り返す。
【0037】
一方、会話補助制御部124の指示の下、無音判断部111は、タイマ131をリセットする(ステップS111)。無音判断部111は、比較器130により、集音された音声の音量と、音量閾値「−70db」121とを比較する(ステップS112)。比較の結果、音量>音量閾値であれば(ステップS112のNO)、無音判断部111は、ステップS111へ処理を移す。
【0038】
比較の結果、音量≦音量閾値であれば(ステップS112のYES)、無音判断部111は、続いて、タイマ131の計測した時間と時間閾値「30秒」122とを比較する(ステップS113)。
比較の結果、計測した時間<時間閾値であれば(ステップS113のNO)、無音判断部111は、ステップS112へ戻り時間の計測を継続する。
【0039】
比較の結果、計測した時間≧時間閾値であれば(ステップS113のYES)、無音判断部111は、無音状態が発生したことを示す無音通知を制御部113へ出力する(ステップS114)。
制御部113は、無音通知を取得すると、会話の補助となる情報を取得し、提示する(ステップS116)。この処理については、後に詳細に説明する。
【0040】
情報を提示した後、ストップキーの押下が検出されなければ(ステップS117のNO)、制御部113はステップS111へ処理を移す。
ストップキーの押下が検出されると(ステップS117のYES)、制御部113は、会話補助に係る処理を終了する。
3.2 情報提示に係る動作
図5は、無音状態が検出された場合に、会話の補助となるような情報を利用者に提示する処理における携帯通信端末100の動作を示すフローチャートである。
【0041】
以下に、図5を用いて、情報提示に係る携帯通信端末100の動作について説明する。なお、これは、図4のステップS116の詳細である。
キーワード抽出部125は、会話補助制御部124を介して無音通知を取得する(ステップS121)。キーワード抽出部125は、現在時刻を終端とする対象期間「5分間」に発話された語句を記憶部114から読み出す(ステップS122)。続いて、キーワード抽出部125は、読み出した語句について、出現回数を計数し、出現回数の最も多い語句をキーワードとして抽出する(ステップS123)。
【0042】
次に、キーワード抽出部125は、信号処理部103及びインターネット20を介して、抽出したキーワードを検索サイトサーバ装置25へ送信し、検索を依頼する(ステップS124)。
信号処理部103は、インターネット20を介して検索サイトサーバ装置25から、検索結果を受信し、受信した検索結果を会話補助制御部124へ出力する(ステップS126)。
【0043】
会話補助制御部124は、検索結果を取得し、取得した検索結果に含まれる第1のURLの示すリンク先(例えば、○×旅行会社サーバ26)から、表示用データを受信する(ステップS127)。
次に、会話補助制御部124は、受信した表示用データを画像出力部129へ出力する(ステップS129)。
【0044】
画像出力部129は、会話補助制御部124から、表示用データを取得し、取得した表示用データを基に、プロジェクタ用の表示画面を生成する。生成した表示画面をプロジェクタ部116へ出力する(ステップS131)。
プロジェクタ部116は、画像出力部129により生成された表示画面を取得し、取得した画面をスクリーン、壁などに表示する(ステップS132)。
4. 具体例
ここで、図1に示す会議を例にして、携帯通信端末100の動作を具体的に説明する。
【0045】
時刻T1〜時刻T8において、各利用者が夫々の意見を発言する。例えば、時刻T1「13:30:15」において、利用者H201は「旅行に行こう!日帰りならOKだよね?」と発言している。このとき、携帯通信端末100のマイク107はこの発言による音声を集音し、音声認識部112は、集音された音声から語句「旅行」、「日帰り」を抽出する。続いて、音声認識部112は、時刻と語句からなる語句データ「T1(13:30:15):旅行」、「T1(13:30:15):日帰り」を制御部113へ出力する。
【0046】
制御部113は、記憶部114へ、語句データ「T1(13:30:15):旅行」、「T1(13:30:15):日帰り」を書き込む。
同様に、携帯通信端末100は、各時刻における各人の発言から語句を抽出し、記憶部114に書き込んでいく。その結果、時刻T6「13:30:15」において、記憶部114には、語句データ「T1(13:30:15):旅行」、「T1(13:30:15):日帰り」、「T2(13:30:18):カニ」、「T3(13:30:21):ツアー」、「T4(13:30:24):日帰り」、「T4(13:30:24):カニ」、「T5(13:30:26):カニ」、「T5(13:30:26):ツアー」、「T5(13:30:26):場所」が記憶されている。
【0047】
時刻T6「13:30:29」以降、誰も発言せず、静かな状態(音量が−70db以下の状態)が継続している。このように、静かな状態が30秒以上継続していると判断すると、無音判断部111は、無音通知を制御部113へ出力する。
制御部113内のキーワード抽出部125は、会話補助制御部124を介して、無音通知を受け取る。無音通知を受け取ると、現在時刻「Te」を取得し、記憶部114に記憶されている語句データのうち、時刻「Te−5分」を始期、時刻「Te」を終期とする期間に含まれる時刻を有する語句データを特定する。
【0048】
続いて、キーワード抽出部125は、特定した語句データに含まれる語句「旅行」、「日帰り」、「カニ」、「ツアー」、「日帰り」、「カニ」、「カニ」、「ツアー」、「場所」を、記憶部114から読み出し、各語句の出現回数を計数する。キーワード抽出部125は、計数の結果、出現回数の最も多い「カニ」をキーワードとする。
次に、キーワード抽出部125は、キーワード「カニ」を送信して、検索サイトサーバ装置25へ、検索依頼する。
【0049】
会話補助制御部124は、検索依頼に対する検索結果を受信する。会話補助制御部124は、1番目に順位付けされている○×旅行会社のサイトを示すURLを出力して、○×旅行会社サーバ26へアクセスし、表示用データを受信する。
画像出力部129は、ここで取得された表示用データを基に、画面を生成し、生成した画面をプロジェクタ部116へ出力する。
【0050】
プロジェクタ部116は、画像出力部129から画面を取得し、時刻T9に取得した画面を壁に表示する。画面101は、ここで表示される画面の一例であって、「カニツアー」の宣伝広告についての情報を示している。
5. まとめ
以上説明したように、携帯通信端末100は、会話の停滞を検出すると、利用者によって何ら入力操作がなされなくても、つまり利用者が特に意識しなくても、それまでの会話を基に、会話の内容に関連する情報を取得・表示し、会話の停滞解消を促す。
【0051】
さらに、無音判断部111は、集音される音声の音量が音量閾値以下となる時間が時間閾値以上であると判断した場合に限り、無音通知を出力し、キーワード抽出部は、無音通知を受け取ると、キーワードの抽出及び検索依頼を行う。そのため、そのため、集音される音声の音量が音量閾値より大きい間や短い無音時間しか生じていない間、つまり、会話が活発にやり取りされている間は、画面表示により、会話を遮ることがない。
6. その他の変形例
なお、本発明を上記の実施の形態1に基づいて説明してきたが、本発明は、上記の実施の形態に限定されないのはもちろんである。以下のような場合も本発明に含まれる。
(1)上記の実施の形態1では、携帯通信端末100は、利用者によるスタートキー及びストップキーの押下により、会話補助の動作を開始及び終了しているが、開始及び終了のトリガは、これに限らない。
【0052】
例えば、携帯通信端末100は、スケジュール帳の機能を備えており、利用者は、事前に会議の開始及び終了日時を入力しておく。開始日時になると、スケジュール帳が、会話補助のアプリケーションプログラムを起動し、終了日時になると前記アプリケーションプログラムを終了させるとしてもよい。
(2)上記の実施の形態1では、携帯通信端末100の周囲に利用者が集まり会議をしている例について、説明してきたが、通話機能を利用して、遠隔地にいる利用者も参加する会議であってもよい。
【0053】
この場合、遠隔地にいる利用者は、通話機能を備えた通信機器を用いて、会議に参加する。本発明の携帯通信端末100の音声認識部112及び無音判断部111は、マイク107を介して集音された音声に加えて、信号処理部103を介して受信される通話音声も音声認識、無音検出の対象とする。
また、会話が停滞した場合、会話補助制御部124は、プロジェクタにより画面を表示すると共に、外部のサイトから受信した表示用データ若しくは表示用データの取得先のサイトを示すURLを、遠隔地にいる利用者の所持する通信機器へ送信する。
【0054】
この構成によると、携帯通信端末100は、当該携帯通信端末100の周囲にいる利用者に加えて、遠隔地にいる利用者を交えた会話にも利用することができる。
(3)上記の実施の形態1では、携帯通信端末100は、無音時間が、時間閾値以上継続すると、情報提示に係る動作を開始しているが、この動作のトリガは、これに限るものではない。
【0055】
その一例として、例えば、無音判断部111は、所定の単位期間(例えば3分)毎に、無音時間が時間閾値(例えば「15秒」)以上になった回数(以下、頻度と呼ぶ)を計数し、計数した頻度が、頻度閾値を超える場合、会話が停滞していることを示す無音信号を出力してもよい。
または、上記の単位期間「3分」のうち、無音時間の累積値の割合が、所定の閾値を越える場合、無音判断部111は、会話が停滞していることを示す無音信号を出力するとしてもよい。
【0056】
ここで、上記の「頻度」とは、時間閾値よりも長い単位期間に、無音時間≧時間閾値となった回数により定まる値である。
このようにすることで、音量が音量閾値以下となる時間が時間閾値以上継続する状態が、頻繁に発生する場合、つまり、会話が完全に止まっているわけではないが、発話が途切れがちで、活発に会話がなされているとは言い難い場合にも、利用者は、何の操作も入力もすることなく、会話に関連する情報を得ることができるという優れた効果を奏する。
(4)上記の実施の形態1では、キーワード抽出部125は、読み出した語句のうち、出現回数の最も多い1個の語句をキーワードとして抽出したが、複数の語句をキーワードとしてもよい。例えば、出現回数が所定の閾値を超える語句を、全てキーワードとする。
【0057】
また、上記の変形例(1)のように、携帯通信端末100がスケジュール帳の機能を備えている場合、会議の題目、出席者、司会者、資料を記録しておき、音声認識やキーワードの抽出に用いても良い。
例えば、音声認識部112が語句を抽出する際、辞書123のうち、会議の題目や資料の内容に関連する部分のみを用いて語句の抽出を行う。
【0058】
また、別の例としては、司会者の音声を予め記憶しておき、司会者の発言した語句と、他の利用者が発言した語句とを区別して記憶しておき、キーワードを決定する際に、各語句に対して、発言者による重み付けを行っても良い。
また、スケジュール帳に記録していない場合であっても、「私が司会者です」のような発言した人物の音声を司会者の音声として記憶し、同様の重み付けを行っても良い。
【0059】
また、語句及び時刻と共に、その語句が発声されたときの音量を記録しておき、音量による重み付け(つまり、音量が大きいほど、重みを大きくする)を行って、キーワードの選択を行うとしても良い。
(5)上記の実施の形態1では、キーワード抽出部125は、現在時刻を終端とする対象期間「5分」の間に抽出された語句の中から、キーワードを選択している。しかし、適当なキーワードが見つからない場合、例えば、いずれの語句も出現回数が非常に少なく、所定の閾値に満たない場合には、対象期間を延長し、再度キーワードの抽出を行うとしても良い。
(6)上記の実施の形態1では、携帯通信端末100は、インターネットに接続されている検出サイトサーバ装置25に検索を依頼しているが、検索の方法はこれに限らない。
【0060】
一例としては、携帯通信端末100の内部又は外部のデータベースから携帯通信端末100自身が、キーワードに関連する情報を検索、取得しても良い。
また、別の例としては、記憶部114に記憶されている語句を集計し、頻出語句を、現在までの議事録として表示してもよいし、語句のみならず、音声も録音しておき、頻出語句の多く含まれる部分を特定し、その部分を再生しても良い。
(7)上記の実施の形態1では、検索結果に含まれる複数のURLのうち、1番目のリンク先から取得した表示用データを基に画面を生成し、表示しているが、検索結果に含まれる複数のサイトから得た表示用データを1番目から順に所定時間置きに切り替えて表示してもよい。
【0061】
利用者は、画面を見ながら、注意を引く情報が表示されると、入力部117を操作する。利用者による操作が為されると、携帯通信端末100は、画面の自動切換えを停止し、以後、利用者の操作に従って動作する(例えば、画面のスクロール、画面中に表示されているリンク先へのアクセスなど)。
図6は、この変形例における携帯通信端末100の動作を示している。以下、検索結果を順次表示する場合の携帯通信端末100の動作について、図6を用いて説明する。図6に示す動作は、図5に示すステップS127〜ステップS132に代替し得る。
【0062】
会話補助制御部124は、複数のリンク先のURLを含む検索結果を取得する。検索結果を取得するとn=1、2、3・・・の順に以下の処理を繰り返す。
会話補助制御部124は、n番目のリンク先から表示用データを受信する(ステップS141)。会話補助制御部124は、受信した表示用データを画像出力部129へ出力する(ステップS142)。
【0063】
画像出力部129は、表示用データを基に画面を生成しプロジェクタ部116へ出力する(ステップS143)。
プロジェクタ部116は、受け取った画面を表示する(ステップS144)。
ここで、利用者による操作が為されず(ステップS146のNO)、ステップS114から所定時間経過していなければ(ステップS149のNO)、ステップS146へ戻る。
【0064】
利用者による操作が為されず(ステップS146のNO)、ステップS144から所定時間経過していれば(ステップS149のYES)、会話補助制御部124は、n←n+1として(ステップS151)、ステップS141へ戻り、次のリンク先からの情報表示を繰り返す。
ステップS146において、利用者により操作が為されると(ステップS146のYES)、制御部113は、上記の繰返しを中止し、利用者の操作に従った処理を行う(ステップS147)。
【0065】
携帯通信端末100が、このような機能を備えることで、利用者は、検索結果に含まれる複数のサイトから得た情報を、何の操作も行うことなく、順次、閲覧することができるという優れた効果を奏する。
(8)上記の携帯通信端末100は、内部にプロジェクタ部116を備えているが、これは必須ではない。
【0066】
プロジェクタ部を備えていない構成の場合、携帯通信端末とプロジェクタ装置とを接続し、画像出力部129は、プロジェクタ装置へ、生成した表示画面を出力するとしてもよい。
また、画像出力部129は、LCD109に画面を表示させるとしてもよい。
(9)また、携帯通信端末100は、検索結果により示されるサイトから取得したデータに基づく画像を、会話の補助となる情報として出力する構成であるが、これに限るものではない。
【0067】
例えば、検索結果に含まれる複数のwebサイトの名称やURLを一覧表示してもよい。
また、検索結果に示されるwebサイトから取得した音声データを基に生成した音声を出力する構成であっても良い。
また、プロジェクタによる表示に代えて、各利用者が手元に所持する端末機器、例えば、携帯電話、ノートパソコン、電子手帳などへ、表示用画像データ、若しくは、表示用画像データの取得先であるwebサイトを示すURLを送信するとしてもよい。この場合、各利用者の端末機器は、受信した表示用画像データ若しくはURLを利用するためのアプリケーションを起動している。
(10)上記の実施の形態1では、携帯通信端末100は、無音時間が時間閾値を越えて継続すると、必ず、キーワードの抽出及び検索結果を基に得られる画面の表示を行う。
【0068】
しかし、無音状態の継続を検出してから、画面が表示されるまでには、ある程度時間を要する。この間に、会話が再開した場合、以下のような処理を行っても良い。
この場合、無音判断部111は、無音時間が時間閾値を超えた時点から、音量閾値以上の音量を検出するまで、無音通知を出力し続ける。
画面が表示される前に会話が再開されても(つまり、無音通知が途絶えても)、制御部113は、キーワードの抽出、検索サイトへの検索依頼及び検索結果の受信までは行う。
【0069】
この処理と並行して、制御部113は、会話の継続時間を計測する。具体的には、無音判断部111からの無音通知が途絶えてから、再度、無音通知を取得するまでの時間を計測する。
再度、無音通知を取得すると、制御部113は、計測した会話の継続時間と所定の閾値とを比較する。継続時間が閾値未満であれば、取得しておいた検索結果を基に、表示用データの受信、及び、画面表示の制御を行う。
【0070】
継続時間が閾値以上であれば、制御部113は、取得しておいた検索結果を破棄し、新たにキーワードを抽出し、抽出したキーワードに基づく検索結果を取得する。続いて、制御部113は、新たに取得した検索結果を基に、表示用データの受信、及び、画面表示の制御を行う。
(11)上記の実施の形態1とは異なり、全ての会議参加者が、それぞれ別の場所におり、通信機器を用いた音声会議を行っているとしてもよい。
【0071】
この場合、各参加者の通信機器のうち何れか一つが、実施の形態1のような会話補助の機能を備えた携帯通信端末である。携帯通信端末は、自身の利用者の音声を、マイクを介して取得し、他の会議参加者の発する音声を通信機能により取得する。
また、本変形例の携帯通信端末は、プロジェクタにより画面を表示する代わりに、表示用データ、若しくは、表示用データの取得先であるサイトのURLを、他の通信機器へ送信する。
(12)上記の実施の形態では、キーワード抽出部125は、無音通知を取得してから、キーワードの抽出を開始している。しかし、無音通知の有無とは関係なく定期的にキーワードの抽出を行っても良い。
【0072】
この場合、例えば5分おきに、現在時刻を周期とする対象期間に集音された語句の中からキーワードを抽出し、検索依頼を送信する。
会話補助制御部124は、この検索依頼に対する検索結果を受信し、1番目のwebサイトから表示用データを取得し、一時的に記憶する。
続いて、会話補助制御部124は、無音判断部111から無音通知を受け取る。無音通知を受け取ると、記憶している表示用データを画像出力部129へ出力する。
【0073】
無音通知を受け取る前に、次の検索結果を受信した場合、会話補助制御部124は、記憶している表示用データを削除し、新たに受信した検索結果の示すwebサイトから新たに表示用データを取得する。
このように、予め表示用データを取得しておくことで、携帯通信端末100は、無音期間が時間閾値を超えると、すぐに、画面を表示し、利用者に情報提供することができる。
(13)また、上記の実施の形態1及び変形例では、本発明の一つの実施形態として携帯通信端末について、説明してきたが、必ずしも携帯型機器に限るものではない。
【0074】
例えば、パソコン、テレビ、据え置き型のプロジェクタ、会話補助機能のみを備えた専用機器などであってもよい。さらに、その他の電気機器であってもよい。
(14)ここで、課題を解決するための手段の項目において述べた「関連情報」は、上記の実施の形態及び変形例における、検索サイトサーバ装置25により生成される1以上のURLを含む「検索結果」、携帯通信端末100が前記URLを基にインターネット上の各サイトから取得する「表示用データ」や「音声データ」、表示用データから生成される「画面」及び音声データから生成される「音声」を含む。さらに、携帯通信端末100の内部又は外部のデータベースから取得する情報も含む。
(15)上記の各装置を構成する構成要素の一部又は全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
【0075】
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)やLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
更には、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応などが可能性として有り得る。
(16)本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
【0076】
また、本発明は、前記コンピュータプログラム又は前記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD―ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc)、半導体メモリなど、に記録したものとしてもよい。また、これらの記録媒体に記録されている前記コンピュータプログラム又は前記デジタル信号であるとしてもよい。
【0077】
また、本発明は、前記コンピュータプログラム又は前記デジタル信号を、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
また、本発明は、マイクロプロセッサとメモリとを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムに従って動作するとしてもよい。
【0078】
また、前記プログラム又は前記デジタル信号を前記記録媒体に記録して移送することにより、又は前記プログラム又は前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
(17)上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。
【産業上の利用可能性】
【0079】
本発明は、会話の補助となる情報を提供する電気機器を製造及び販売する産業、会話の補助となる情報を提供する手順を含むプログラムを製作及び販売する産業において、経営的、反復、継続的に利用することができる。
【図面の簡単な説明】
【0080】
【図1】本発明の携帯通信端末100の使用例を示す図である。
【図2】携帯通信端末100の物理的構成を示すブロック図である。
【図3】制御部113の機能的構成を示す機能ブロック図である。
【図4】携帯通信端末100による会話補助の動作を示すフローチャートである。
【図5】携帯通信端末100による情報提示に係る動作を示すフローチャートである。
【図6】携帯通信端末100による情報提示の変形例を示すフローチャートである。
【符号の説明】
【0081】
15 基地局
20 インターネット
25 検索サイトサーバ装置
26 旅行会社サーバ
100 携帯通信端末
102 アンテナ
103 信号処理部
104 時計
106 スピーカー
107 マイク
108 エンコーダ/デコーダ
109 LCD
111 無音判断部
112 音声認識部
113 制御部
114 記憶部
116 プロジェクタ部
117 入力部
124 会話補助制御部
125 キーワード抽出部
129 画像出力部

【特許請求の範囲】
【請求項1】
音声を集音する集音手段と、
集音された音声から、キーワードを抽出する抽出手段と、
集音される音声の音量が音量閾値以下となる時間を計測し、計測した時間が時間閾値以上であるか否かを判断する判断手段と、
抽出されたキーワードに関連する関連情報を取得し、判断結果を基に、取得した関連情報を出力する出力手段
とを備えることを特徴とする情報端末。
【請求項2】
前記判断手段によって肯定的な判断がなされた場合、前記出力手段は、前記出力を行う
ことを特徴とする請求項1記載の情報端末。
【請求項3】
抽出手段は、
音声から、所定語句群の何れかと一致する語句を特定する音声認識部と、
特定された語句を記憶する記憶部と、
前記判断手段によって肯定的な判断がなされた場合、前記判断以前の所定期間に、前記記憶部に記憶された語句のうち、1以上の語句を前記キーワードに決定する決定部とを含む
ことを特徴とする請求項2に記載の情報端末。
【請求項4】
前記集音手段は、
周囲の音声を検知するマイクと、
通信回線を介して音声を受信する通信部とを含み、
前記抽出手段は、マイクにより検知された音声及び通信部の受信した音声からキーワードを抽出する
ことを特徴とする請求項2に記載の情報端末。
【請求項5】
前記出力手段は、投影機能を有するプロジェクタ部を含んで構成され、前記関連情報を前記プロジェクタ部により表示することで、前記出力を行う
ことを特徴とする請求項2記載の情報端末。
【請求項6】
当該情報端末は、投影機能を備える外部機器と接続可能であって、
前記出力手段は、前記関連情報を前記外部機器へ出力する
ことを特徴とする請求項2記載の情報端末。
【請求項7】
前記出力手段は、前記関連情報として、所定の順に並べられた複数の情報を、取得し、前記複数の情報を前記所定の順に出力する
ことを特徴とする請求項2記載の情報端末。
【請求項8】
前記判断手段は、音量が前記音量閾値以下となる度に、前記計測及び前記判断を繰返し、
前記出力手段は、前記判断手段により肯定的な判断のなされる頻度を算出し、算出した頻度と頻度閾値を比較し、前記頻度が前記頻度閾値以上である場合に限り、前記出力を行う
ことを特徴とする請求項1記載の情報端末。
【請求項9】
情報端末において用いられる会話補助プログラムであって、
音声を逐次、集音する集音ステップと、
集音された音声から、キーワードを抽出する抽出ステップと、
集音される音声の音量が音量閾値以下となる時間を計測し、計測した時間が時間閾値以上であるか否かを判断する判断ステップと、
抽出されたキーワードに関連する関連情報を取得し、判断結果を基に、取得した関連情報を出力する出力ステップ
とを含むことを特徴とする会話補助プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2010−128665(P2010−128665A)
【公開日】平成22年6月10日(2010.6.10)
【国際特許分類】
【出願番号】特願2008−300914(P2008−300914)
【出願日】平成20年11月26日(2008.11.26)
【出願人】(000006633)京セラ株式会社 (13,660)
【Fターム(参考)】