説明

端末装置、情報配信装置、情報配信システムおよびプログラム

【課題】市街情報を代表とする各種情報のデータベースへの登録およびデータベースからの検索を、誰でも簡単にかつ精度良く行うことのできる、新しい端末装置、情報配信装置、情報配信システムおよびプログラムを提供する。
【解決手段】端末装置と情報配信装置を接続可能に構成された情報配信システムにおいて、端末装置は、得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換し、位置情報と前記記号抽出部で抽出ないし変換された記号情報を情報配信装置に配信し、情報配信装置は、端末装置により送信された記号情報と位置情報とを受信し、記号情報によって構成された記号列情報と位置情報とを検索キーとして用い、位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し端末装置に検索結果を送信する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、端末装置、情報配信装置、情報配信システムおよびプログラムに関するものである。さらに詳しくは、本発明は、市街情報などの各種データベースへの登録及びデータベースからの検索を簡単に行うことのできる、新しい端末装置、情報配信装置、情報配信システムおよびプログラムに関するものである。
【背景技術】
【0002】
一般的に、市街情報などの各種情報のデータベースへの登録やデータベースからの検索を行うシステムにおいて、その情報は、カーナビゲーションの地図やインターネット上の地図などのように、電子化された図面データや文字記号データにより構成されている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
しかしながら、一般的に情報の電子化作業は、キーボードやマウスなどの入力用装置、画像取込み装置、専用の地図読込プログラムなどの電子化用の各種装置の操作に慣れた熟練者が正確に行う必要があり、誰にでも簡単に電子化してデータベースへ入力し登録できるというわけではない。このことは市街情報であっても同様である。
【0004】
また、データベースからの検索も、たとえばコンピュータのキーボード入力などが必要であり、それらの操作に不慣れな人にとってはやはり不便である。
【0005】
また、昨今、携帯電話などの携帯端末で市街情報を検索し取得できるようにもなってきているが、操作に不慣れな人にとってはもちろんのこと、操作に慣れている人にとっても小さな入力キーでは時間がかかり、簡単な作業とは言えない。
【0006】
そこで、音声入力を利用して登録や検索を行う方法も考えられるが、従来の音声認識技術では固有名詞や造語、短縮された表現や俗語のような辞書に登録されていない単語の認識に関しては単語データへの変換精度が低く、特に固有名詞が頻繁に用いられる市街情報については認識精度が非常に低いという問題がある。
【0007】
本発明は、以上のとおりの事情に鑑みてなされたものであり、市街情報を代表とする各種情報のデータベースへの登録およびデータベースからの検索を、誰でも簡単にかつ精度良く行うことのできる、新しい端末装置、情報配信装置、情報配信システムおよびプログラムを提供することを課題としている。
【課題を解決するための手段】
【0008】
本発明は、上記の課題を解決するものとして、第1には、位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報とを送信する通信制御部を備えた端末装置であって、前記通信制御部によって送信された前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索することを特徴とする端末装置を提供する。
【0009】
第2には、位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、画像を入力する画像入力部と、前記画像入力部から得られた画像から、画像特徴情報を抽出する画像特徴抽出部と、前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報と前記画像特徴抽出部で抽出した前記画像特徴情報とを送信する通信制御部を備えた端末装置であって、前記より送信された前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索することを特徴とする端末装置を提供する。
【0010】
第3には、位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、前記位置情報取得部で取得した前記位置情報と、前記記号抽出部で抽出ないし変換された前記記号情報とを送信する通信制御部とを備えた端末装置により送信された前記記号情報と前記位置情報とを受信する受信部と、前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する送信部を備えることを特徴とする情報配信装置を提供する。
【0011】
第4には、位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、画像を入力する画像入力部と、前記画像入力部から得られた画像から、画像特徴情報を抽出する画像特徴抽出部と、前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報と前記画像特徴抽出部で抽出した前記画像特徴情報とを送信する通信制御部とを備えた端末装置により送信された前記記号情報と前記位置情報と前記画像特徴情報とを受信する受信部と、前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する送信部を備えることを特徴とする情報配信装置を提供する。
【0012】
第5には、端末装置と情報配信装置を接続可能に構成された情報配信システムであって、前記端末装置が、位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報とを送信する通信制御部を備え、前記情報配信装置が、前記端末装置により送信された前記記号情報と前記位置情報とを受信する受信部と、前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する送信部を備えることを特徴とする情報配信システムを提供する。
【0013】
第6には、端末装置と情報配信装置を接続可能に構成された情報配信システムであって、前記端末装置が、位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、画像を入力する画像入力部と、前記画像入力部から得られた画像から、画像特徴情報を抽出する画像特徴抽出部と、前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報と、前記画像特徴抽出部で抽出した前記画像特徴情報とを送信し、また前記情報配信装置からの情報を受信する通信制御部とを備え、前記情報配信装置が、前記端末装置により送信された前記記号情報と前記位置情報と前記画像特徴情報とを受信する受信部と、前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する送信部を備えることを特徴とする情報配信システムを提供する。
【0014】
第7には、コンピュータに、取得した位置情報を受け付ける手順1、音声の入力を受け付ける手順2、手順2で受け付けた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する手順3、手順1で受け付けた前記位置情報と、手順3で抽出ないし変換された前記記号情報とを送信する手順4、手順4で送信された前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索する手順5を実行させるためのプログラムを提供する。
【0015】
第8には、コンピュータに、取得した位置情報を受け付ける手順1、音声の入力を受け付ける手順2、画像の入力を受け付ける手順3、手順2で受け付けた音声から、音韻、音素音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する手順4、手順3で受け付けた画像から画像特徴情報を抽出する手順5、手順1で受け付けた前記位置情報と手順4で抽出ないし変換された前記記号情報と手順5で抽出した前記画像特徴情報とを送信する手順6、手順6で送信された前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索する手順7を実行させるためのプログラムを提供する。
【0016】
第9には、コンピュータに、位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、前記位置情報取得部で取得した前記位置情報と、前記記号抽出部で抽出ないし変換された前記記号情報とを送信する通信制御部とを備えた端末装置により送信された前記記号情報と前記位置情報とを受信する手順1、前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する手順2を実行させるためのプログラムを提供する。
【0017】
第10には、コンピュータに、位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、画像を入力する画像入力部と、前記画像入力部から得られた画像から、画像特徴情報を抽出する画像特徴抽出部と、前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報と前記画像特徴抽出部で抽出した前記画像特徴情報とを送信する通信制御部とを備えた端末装置により送信された前記記号情報と前記位置情報と前記画像特徴情報とを受信する手順1、前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する手順2を実行させるためのプログラムを提供する。
【0018】
第11には、端末装置と情報配信装置を接続可能に構成された情報配信システムのためのプログラムであって、コンピュータに、取得した位置情報を受け付ける手順1、音声の入力を受け付ける手順2、手順2で受け付けた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する手順3、手順1で受け付けた前記位置情報と、手順3で抽出ないし変換された前記記号情報とを前記情報配信装置に送信する手順4を実行させるとともに、前記端末装置により送信された前記記号情報と前記位置情報とを受信する手順5、前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する手順6を実行させるためのプログラムを提供する。
【0019】
第12には、端末装置と情報配信装置を接続可能に構成された情報配信システムのためのプログラムであって、コンピュータに、取得した位置情報を受け付ける手順1、音声の入力を受け付ける手順2、画像の入力を受け付ける手順3、手順2で受け付けた音声から音韻、音素音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する手順4、手順3で受け付けた画像から画像特徴情報を抽出する手順5、手順1で受け付けた前記位置情報と手順4で抽出ないし変換された前記記号情報と手順5で抽出した前記画像特徴情報とを送信する手順6、前記位端末装置より送信された前記位置情報と前記記号情報と前記画像情報を受信する手順7、前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する手順8を実行させるためのプログラムを提供する。
【発明の効果】
【0020】
以上詳しく説明したとおり、本発明によって、市街情報を代表とする各種情報のデータベースへの登録およびデータベースからの検索を、誰でも簡単にかつ精度良く行うことのできる新しい情報配信システム、ならびにそれに用いられる端末装置および情報配信装置が提供される。これにより、手間を要するラベリング作業を、音声と位置に関する情報に基づいて関連付けすることにより、都市データベースを構築することが可能となり、生活者に対する情報支援を実現することにより、生活利便性の向上を図ることも可能である。
【図面の簡単な説明】
【0021】
【図1】本発明におけるデータベースへの登録の流れを示す図である。
【図2】本発明におけるデータベースからの検索の流れを示す図である。
【図3】本発明における携帯情報端末(端末局)の一実施形態を示す機能ブロック図である。
【図4】図4(A)は、本発明における情報処理装置(基地局)の一実施形態を示す機能ブロック図であり、図4(B)は、本発明における情報提供システムの一実施形態を示すシステム構成図である。
【図5】本発明におけるデータベースへの登録処理のより具体的なフローチャート図である。
【図6】本発明におけるデータベースのデータ構成例を示す図である。
【図7】本発明におけるデータベースからの検索処理のより具体的なフローチャート図である。
【発明を実施するための形態】
【0022】
本発明の実施の形態について説明する前に、まず、本発明の発明者の行った考察について説明する。
【0023】
発明者は、特に地名などには特有の固有名詞が多く用いられており、声を入力しこれを単語に変換する際の変換効率・変換精度が良くないという状況と、携帯情報端末においてはキーによる文字入力が困難であるという状況に鑑み、誤認識の発生しやすい単語レベルの音声認識を行うのではなく、より音声波形に近い音声特徴や音素特徴などの記号列、つまり「音素列」を音声情報として用いて市街情報の入力を行うことで、効率的な情報の入力を実現できると考えた。
【0024】
「音素」とは、音声を構成する要素である母音や子音を指し、ここではこの音素として「音素片」や「連続音素片」を考慮してもよい。「音素片」とは、1つの音素をより細かく分割した要素である。「連続音素片」とは、音素片の連続状態を示した情報、たとえば「あ」の始端、「あ」の中盤、「あ」の終端と分割した音素片の変化を踏まえて、どのようにこれらの要素が繋がるかを示した情報である。そして「音素列」とは、これら音素が並んだ列を指す。
【0025】
このような「音素列」を音声情報として用い、これと音声が発話された際の携帯情報端末の位置や方向などの位置情報とを関連付けして、さらには携帯情報端末に付属する撮像装置や携帯情報端末にデータ提供可能な別体の撮像装置などにより撮影された近隣の画像情報とを関連付けして情報のデータベースへの登録やデータベースからの検索などの管理を行う情報処理装置に提供するようにすれば、情報登録および情報検索を簡単にかつ高精度で実現できるのである。なお、この際、登録・検索対象としての市街情報を統計的に収束させることにより、市街情報の効率的な登録と、該登録内容の閲覧に伴うサービスを提供することもできる。
【0026】
ここで、上記情報処理装置は、たとえば、主記憶部、補助記憶部、演算処理部、通信部などを有する情報登録および情報検索が可能な装置により構成されるものとし、パーソナルコンピュータや大型コンピュータなどを考慮できる。また、データベースに記録されている情報の統計的分析を行うプログラムを用いて情報分析が可能な装置とするこがより好ましい。
【0027】
上記携帯情報端末は、たとえば、携帯電話やPDA(Personal Digital Assistant)、ノート型コンピュータ、ウェアラブルコンピュータ、腕時計型コンピュータ、車載型コンピュータなどのいわゆる可搬型の情報端末を考慮でき、移動・装着・保持等の方法や形態、形状などは限定されるものではない。
【0028】
これら情報処理装置と携帯情報端末との間は、無線LANや携帯電話などを経由してインターネット、イントラネットなどの通信網により情報の交換や相互検索を行うことができるように構成されていてもよい。
【0029】
データベースは、情報処理装置に内蔵されていても、情報処理装置とは別体のものとされていても良く、別体のものである場合には情報処理装置に無線有線を問わず何らかの手段により双方向通信可能に構築する。
【0030】
上記考察に基づき、以下に本発明の一実施の形態による情報提供技術について、図面を参照して説明する。
【0031】
<<登録・検索処理の原理説明>>
まず、図1および図2に基づき、本実施の形態による情報提供技術のうち、データをデータベースに登録するための処理とデータベースを用いたデータの検索処理の原理を簡単に説明する。
【0032】
<登録処理の原理フロー>
図1に示すように、まずステップS1において、音声波形と位置情報とを入力する。ステップS2において、音声特徴を抽出する。ステップS3において、評価関数により音素列判定を行う。次いで、ステップS4において、音素列と位置情報とを関連付けてデータベースに登録する。
【0033】
<検索処理の原理フロー>
図2に示すように、まずステップS11において、音声波形と位置情報とを入力する。ステップS12において、音声特徴を抽出する。ステップS13において、評価関数により音素列判定を行う。次いで、ステップS14において、音素列と位置情報とに基づいてデータベース中のデータの検索を行う。ステップS15において、検索された結果を出力する。
【0034】
<<携帯情報端末(端末装置)、情報処理装置(情報配信装置)、データベース、システムの説明>>
以下に、登録処理および検索処理に用いられる携帯情報端末、情報処理装置、およびデータベースならびにそれらで構成されるシステムのより具体的な例について、図面を参照して説明する。図3は、携帯情報端末(端末局)の構成例を示す機能ブロック図である。図4(A)は、情報処理装置(基地局)の構成例を示す機能ブロック図であり、図4(B)は、システム全体の構成例を示す概略図である。
【0035】
<携帯情報端末>
図3に示すように、ユーザ側の携帯情報端末Aは、アンテナ10と、端末A全体の制御を行う制御部11と、データ入力を行う入力部15と、データ等の表示を行う例えばLCDなどを用いた表示部17と、種々の演算を行う演算部21と、他の機器との間の通信を制御する通信制御部23と、画像データなどを取得するための撮像部25と、GPSなどを含む位置(方向を含む)確認部27と、各種情報を合成する情報合成部31と、データの記憶を行う記憶部33とを備えている。
【0036】
入力部15は、文字入力部15aと音声入力部15bとを備えている。演算部21は、音声特徴抽出部21aと音素列生成部21bと画像特徴抽出部21cとを備えている。
【0037】
音声特徴抽出部21aは、音声入力部15aから入力された音声の音声波形から抽出される特徴を例えば数値で表して、音声特徴を構成する。音素列生成部21bは、音声入力部15aから入力された音声に基づいて、音素の列である音素列を生成する。画像特徴抽出部21cは、撮像部25により撮像された画像に基づいて、画像の特徴(ある画像から得られる傾向など)を構成する。
【0038】
<情報処理装置>
図4(A)に示すように、サービス提供者側のサーバなどの情報処理装置Bは、アンテナ40と、通信制御部41と、情報処理部47と、記憶部51とを含んで構成される。
【0039】
記憶部は、音声に関する情報を記憶するための音声情報記憶領域53と、位置・方向に関する情報を記憶するための位置情報記憶領域55と、撮影された画像に関する情報を記憶するための画像情報記憶領域57と、これらの情報と関連する付加的な情報を記憶する付加情報記憶領域61とを有している。
【0040】
なお、図4(A)は、情報処理装置B中において、通信制御部41と情報処理装置45とが一体化されている構成を例示しているが、これらが記号L1で表されるように別体となっていてもよい。
【0041】
<データベース>
これらの携帯情報端末Aおよび情報処理装置Bを介してデータの登録・蓄積および検索が行われるデータベースについては、たとえば、図3に示す携帯情報端末A内の記憶部33に作成してもよいが、多数のユーザから情報が提供されたり要求されたりするという観点から、図4(A)に示す情報処理装置B内の記憶部51に設けるようにしてもよい。
【0042】
<システム>
図4(B)は、データベースDB,DB’が端末局としての携帯情報端末A,A’および基地局としての情報処理装置B,B’とは別になっているシステム構成例を示している。これにおいて、携帯情報端末(端末局)A−情報処理装置(基地局)Bの対と携帯情報端末(端末局)A’−情報処理装置(基地局)B’の対とが、それぞれネットワークCに関連付けされており、さらにデータベースDB,DB’がネットワークCを介して情報処理装置(基地局)B,B’と関連付けされている。もちろん、この他の様々な接続形態を有していてもよい。
【0043】
<<登録・検索処理の具体的説明>>
次に、図5から図7までを参照して、本発明の一実施の形態による情報提供システムにおける処理の流れとデータベースのデータ構成例とを説明する。適宜、図3および図4をも参照する。
【0044】
<登録処理の具体的フロー>
図5は、データベースへ情報を登録する処理の流れを示す具体的なフローチャート図である。なお、この登録処理はデータベース作成処理とも呼ぶことができる。
【0045】
まず、ステップS21において、データベース登録処理を開始する。ステップS22において、携帯情報端末Aにおける入力部15の音声入力部15bにより、携帯情報端末Aのユーザからの音声を入力する。ステップS23において、演算部21の音声特徴抽出部21aにより、入力された音声の分析を行って音声特徴や音素特徴を抽出する。ステップS24において、演算部21の音素列生成部21bにより、抽出された音声特徴や音素特徴から音素列を生成する。
【0046】
さらに、ステップS25において、音声入力に応じて、位置確認部27により、GPS等を用いて携帯情報端末Aの位置を確認する(位置・方向検出ステップ)。位置情報中には、緯度・経度を用いて特定される位置、住所番地などにより特定される固有の位置、ある特定の建物などの位置基準に対してどの方向に対象物が存在するか否かなどの相対的な位置などの情報が含まれる。ステップS26において、これらの情報中から必要な位置情報を選択・特定する。
【0047】
さらに、ステップS27において、音声入力に応じて、撮像部25により撮像を行う。ステップS28において、演算部21の画像特徴抽出部21cにより、撮像された画像から画像特徴を抽出する。
【0048】
そして、ステップS29において、情報合成部31により、上記音素列と選択された上記位置情報と上記画像特徴とを関連付けする。併せて、ステップS30に示すように、上記音素列と選択された上記位置情報と上記画像特徴とに関連する関連付加情報を作成する。ステップS31において、上記音素列と選択された上記位置情報と上記画像特徴と、そして関連付加情報とを関連付けした状態で、データベースに登録する。ステップS32において、データベースへの登録処理が終了する。
【0049】
データベース内に登録されているデータの構成例を図6に示す。音声情報と位置情報と画像情報と付加情報とが対応付けされて配置されている。なお、図6に示す例では、説明の便宜上、音声情報をカタカナの読みで示しているが、実際には音素列としてアルファベットや発音記号等を用いて格納されている。
【0050】
1行目のデータ構成は、音声情報がシブヤデパート(実際には実在する名称が用いられる)であり、位置情報が渋谷区…であり、画像情報(特徴)がそのシブヤデパートの画像である場合を示している。付加情報としては、たとえばシブヤデパート内における新装開店セールの情報が載せられている。
【0051】
2行面のデータ構成は、音声情報がハチであり、位置情報が渋谷区…であり、画像情報(特徴)が忠犬ハチ公の画像である場合を示している。付加情報としては、たとえば渋谷駅ハチ公口の地図情報が載せられている。
【0052】
5行目のデータ構成は、音声情報がカイラクエンであり、位置情報が水戸市…であり、画像情報(特徴)が梅林の画像である場合を示している。付加情報としては、たとえば水戸偕楽園、弘道館の梅祭り開催時期の情報が載せられている。
【0053】
以上のように、音声情報、位置情報および画像情報に基づいて、お互いに関連するデータを対応付けしたデータベースに構築することができる。
なお、3行目と4行目のデータに関しては後述する。
【0054】
以上の処理について、以下により具体的に説明する。
たとえば、渋谷において、複数のカメラ(撮像部)やGPS(位置確認部)等が付属したウェアラブルコンピュータを所持する人を散歩させたり、複数のカメラやGPU等が付属したウェアラブルコンピュータを車椅子、自転車などに装着して動かしたり、あるいは、ラジコンなどを操作したり、ロボットを巡回させつつ周囲の状況をモニターしたりする動作などにより、カメラに写る事物、視線上にある画像、風景の名称などを発音させる。
【0055】
たとえば、ハチ公の銅像にあわせ「ハチ」又は「ハチ公」と発音させ、デパートの前で「シブヤデパート」と発音させ、これらの音声に基づいて、時系列的な音声特徴パラメータ、音素記号、音韻記号、音素片記号などと、携帯情報端末Aの位置情報とを対応させてデータベースに登録する。この際、撮像部25により撮像した画像に基づき画像特徴抽出部21cにより得られた画像特徴なども対応させてデータベースに記憶させてもよい。
【0056】
次に、これらの情報を、位置に基づいて分析し記号列を統計的に収束させる。これらの収束における演算方法は、公知の統計学的な手法によって容易に構成できる。たとえば、平均と分散に基づいてユークリッド距離を求める方法や、ベイズ式による類似度評価、kミーンズクラスタリングによるVQ(Vector Quantity:ベクトル量子化)コード化後のVQコードの距離評価等があげられる。この結果、ある位置から見える事象に関する音声から変換される記号列が統計的に評価され、ある位置において、頻繁に発話された音声から変換された記号列を位置や方向に基づいて分類し記録することが可能となり、細部にわたりデータベース化することができる。
【0057】
データベースを作成する際に、画像処理技術等により画像特徴を直接関連付けて記録してもよいし、看板などの文字を認識してラベリングの情報に用い、認識した文字列を音素列に展開して、本発明の情報提供システムにより利用できるようにしてもよい。また、収録の際に音素展開しデータベースに登録するときの日本語表記が「シブヤ百貨店」に対して「shibuyahyakkaten」と[shibuyadepa−to]などのような複数通りの読み方(発音)が入力される可能性があることをも考慮し、複数の利用者の発話をデータベースに記録することもできる。また、話者の年齢や性別、出身地などの付随的な情報を加味して処理を行うこともできる。発音する音素系列において、出現頻度の高い方を統計的に割り出してデータベースに登録する処理を行うことにより、間違った呼び方や方言による変化、喋り方の癖、言語の違いなどを吸収するように統計的処理によりデータを収束させてもよい。これらの分析において、イントネーションやアクセントの情報を付加させるとより効率的な分析や検索が可能となる。さらに、携帯情報端末A、情報処理装置Bに学習機能を付加することにより、一層効率的な分析や検索が可能となる。
【0058】
上述のような処理によりデータベースを作成することは、地図情報と周囲の画像特徴とに対して音声ラベルを与えながら地域情報を収録することにも対応する。収録された情報を位置に基づき前述の統計的手法により分析することで、ある地域を歩いた時に視界内に入る建物等の名称や関連用語のデータベースを構築することができる。この際、音素列だけではなく、単語文字列、音声波形特徴または音声VQコードなどに基づいて種々の情報との関連付けを行うことも可能である。あるいは、上記各要素を適宜組み合わせることにより、関連情報との対応の精度を向上させてラベリングを行うことも可能である。
【0059】
また、画像を見ながらキーボードや入力キーなどにより単語を入力して位置に関する内容をラベリングしたい場合には、その単語を、音素や音素片等の記号により形成される時系列データに展開し、これを検索ラベルとして用いてもよい。
【0060】
このように構成されたデータベースによれば、音声認識により単語や漢字を含むテキストラベルに変換する処理を行わなくてもよい。すなわち、音素列が連続して出力されるため、音素列同士をDPマッチングやHMM(Hidden Markov Model:隠れマルコフモデル)などの手法により評価し、検索することが可能となり、正確な単語を同定せずに現在位置における適切な情報の検索が可能となる。
【0061】
もちろん、音素同士の類似性を距離評価のためのテーブルとしてまとめておき、DP(Dynamic Programming:動的計画法)マッチングにおける一致度評価の効率を向上させる方法も考えられる。また、1つの音素列に対し複数の意味タグや画像特徴を付加することにより、1つの呼称に対して幾つかの意味や形状情報を与えたり、1つの意味タグや形状情報に対して複数の音素列を関連させて構成させたりすることにより、同じ音素列タグに関連している事象を、同音異義語や同一形状に対する別の呼称として収束させたり、逆に同じ形状の呼称や意味タグに関連する音素列を異音同義語としたり、意味タグ自体を音素列で構成するといった方法を用いて意味検索を実現することも可能である。
【0062】
また、類似性の高い画像特徴に対し、異なる音素列を有するものは異音同義語として取り扱う場合に、言語の違いによる音素の出現率や遷移確率などを考慮して、異言語間での意味を共有できるように構成してもよい。さらに、異なる画像特徴に対する類似した音素ラベル系列から、視線方向に基づく形状の違いとして評価する方法も可能である。
【0063】
上記データベースを用いる際に、店舗などの商業を目的とした検索であれば、店舗の種類や店舗の開店時間、店舗のジャンル、大型店舗内の出店一覧といった、より細かい項目によって分類しておくことで、より効率的な検索が可能となる。また、インターネット上の情報を併せて用いたり、インターネット経由で情報を共有したりしてもよい。また、携帯電話やウェアラブルコンピュータ、カーナビゲーションシステムなどの携行・装着型の端末だけではなく、ペットロボットやエージェントロボットなどの情報処理機能を有する装置、ロボットを用いることも可能である。
【0064】
<検索処理の具体的フロー>
次に、図7を参照して、音声に基づいて情報をキーにしてデータベースから関連する情報を検索する処理を説明する。
【0065】
まず、ステップS51において、検索処理を開始する。ステップS52において、携帯情報端末Aにおける入力部15の音声入力部15bにより、情報提供要求者である携帯情報端末Aのユーザが要求する情報に関連する音声を入力する。ステップS53において、演算部21の音声特徴抽出部21aにより、入力された音声の音声分析を行って音声特徴や音素特徴を抽出する。ステップS54において、演算部21の音素列生成部21bにより、抽出された音声特徴や音素特徴に基づいて音素列を生成する。
【0066】
音声に関する上記処理とともに、ステップS55において、音声入力に応じて、位置確認部27により、携帯情報端末Aの位置を検出する。ステップS26において、必要な位置情報を選択・特定する。加えて、ステップS57において、音声入力に応じて、撮像部25により周辺環境に関する撮像を行い、ステップS28において、演算部21の画像特徴抽出部21cにより、撮像された画像から画像特徴を抽出する。
【0067】
上記各ステップにおいて得られた各情報であって、同じ音声入力に応じて得られた情報に基づき、ステップS59において、情報処理装置Bにより、データベースから関連する情報を検索し、併せて付加情報をも付加して、携帯情報端末Aに送られる。
【0068】
これらの関連する情報が、たとえば携帯情報端末Aの表示部17に表示される。ユーザは表示部17に表示された情報を参考にして行動することができる。
【0069】
上記検索結果を利用者に提示するサービスは、たとえば、グラフィカルな地図や経路動画像を表示し、指定の店舗までの経路を提示したり、音声を用いて要所要所において方向を指示したりしてもよい。また、店舗に勤務する者やその店舗の利用者が、宣伝や評価などの情報を付加すること、利用時間帯に応じて昼は食事、夜は居酒屋の情報に切り替えるなどの工夫をすることで、有効かつ効率的な情報支援を行うことができる。
【0070】
さらに、上記サービスに関する統合的な応用例として、GPSなどの様々な技術で渋谷駅の「ハチ公像」の前であることを位置情報により特定した後、「ハチ」「ビデオ」などのキーワードを用いた多重条件検索を行うと「忠犬ハチ公」の映画を見ることができるようにすることも可能である。また、映画の中の会話で「ハチ」と言う単語が出てきている場面や「ハチ公」の出ている画面のみを検索することも可能である。
【0071】
なお、再び図6を参照して説明すると、「ハチ」という音声情報が入力された場合であっても、確認された位置が、例えば水戸市内である場合や、江戸下町界隈に特定された場合における検索結果は、異なるものとなる場合がある。
【0072】
たとえば、位置情報が水戸市と特定された場合には、「ハチ」に関連した登場人物を有し、且つ「水戸市」に関連した人気テレビ番組の情報が優先的に付加されるようにしてもよい。また、位置情報が東京下町である場合には、「ハチ」に関連した「東京下町」の貧乏長屋の人物についての話しである古典落語に関連する情報が提示される。
【0073】
このように、同音である場合には紛らわしいため、位置情報をも加味することにより、認識の精度を向上させることができる。
【0074】
上述の水戸偕楽園の例に示すように、各地の名所案内とその名所に関連する情報の提示も可能であり、旅行ガイドとして用いることもできる。また、障害者の誘導などに応用することも可能であろう。
【0075】
この際、従来の音声認識技術を用いて、複数の単語の関係に対し文法的規制を入れたり、構文解析を施したりすることにより、より効率的な検索条件の設定を行ってもよい。
【0076】
なお、位置や方向を検出する方法としては、GPS、速度センサー、地磁気センサーなどを組み合わせ、カーナビゲーションシステムのように位置を検出したり、それぞれの場所に位置を示すIDを発信するタグなどを設け、受信したIDに基づいて位置を検出してもよい。
【0077】
もちろん、これらのラベリングを施す情報は店舗や看板、時刻表、案内図、記念碑などの地域に根ざした市街情報に限らず、生えている木や草花、動物や昆虫などの郊外の自然情報などであってもよい。たとえば、音声情報が「オゼ」であり、位置情報が尾瀬の方向に向かっている場合には、尾瀬の水芭蕉の花の見所などの関連情報が提供されるようにしてもよい。そして、これらの検索に自然情報を用いる場合、次のような手法が考えられる。
【0078】
まず、入力された周囲の風景を季節、天候、時間帯といった自然状況に応じて変化する形状や輪郭の周波数分布、色彩や輝度、彩度の変化をはじめとした画像情報や騒音や環境音などの音響情報、風力、気温、雨量、地磁気の変化などの自然における具体的な状況の変化に基づいて条件を構成しデータ分類する。次に、画像や地域に関わる特徴情報を用いて統計的な特徴の偏りを分析する。
【0079】
そして、この評価結果を登録された情報の自然情報に関するラベリングに用いたり、検索における天候などの状況変化を踏まえた利用者への送信内容の修正や補正に用いたりするといった方法や、利用者自身が検索キーに用いたり、システムが自動的に挿入する検索キーとして利用することも可能である。もちろん、これらの情報を表現する音声を元にIDや音素列による意味タグを構成してもよいし、その音声特徴を調査、研究するための音素データベースを構築に用いてもよい。
【0080】
このようなデータベース構成するために、そのラベル入力者はインデクサーもしくはラベラーという職業として確立されるようにしてもよい。また、この作業を職業として行う上で、嘘や間違い、偽りの情報を入力するラベラーが賃金支払いに関し課題となると予想できる。しかし、他のラベラーとの、たとえば、同一地域における特定の名称や天候といった客観的情報の類似度、データ利用者のラベリング情報に対する評価といった情報、データベース構築側からの信頼できるスタッフの派遣、既に登録されている地図方法に基づいた客観的な情報の登録状況といった手法を用いて、個々のラベラーにおける発言登録内容の信憑性を統計的に評価し課題の解決を図ることが可能である。
【0081】
また、これらの情報入力作業は、移動することができ、周囲の物体の名称や状況を発話できれば、従来の地図などの書類や現地の看板を見ながらキーボードにより入力するよりも効率的な地域関連情報の入力が可能となる。このため、年齢や教育、経験といった能力差の影響を受けない労働環境の提供も可能となり、長期失業者や定年退職者といった労働力によるデータベース構築が実現可能である。そして、これらの賃金体系は先の信憑性や他のラベラーが気付かない情報を入力してくれるラベラー、利用者の多い情報を入力するラベラーといった情報の利用者評価に基づいて勤務評価をするといったオークション的方法を取ることもできる。また、ラベラーはデータベース側に登録されていなかったり、データベース内での類似度や尤度の評価において的確な対象特徴情報群が特定できない場合に、データベース側からの依頼に応じて、新しくラベリングを施すための情報を提供してもよい。もちろん、画像、音声または位置などの情報を得るために、光学や画像、音像、形状、色彩、音響などの各種特徴を相互に組み合わせたり、統計的関連性による重み付けを行い検索することも可能である。
【0082】
もちろん、本発明は以上の実施形態に限定されるものではなく、細部については様々な態様が可能である。
【符号の説明】
【0083】
A,A’ 携帯情報端末(端末局)
10 アンテナ
11 制御部
15 入力部
15a 文字入力部
15b 音声入力部
17 表示部
21 演算部
21a 音声特徴抽出部
21b 音声列生成部
21c 画像特徴抽出部
23 通信制御部
25 撮像部
27 位置確認部
31 情報合成部
33 記憶部
B,B’ 情報処理装置(基地局)
40 アンテナ
41 通信制御部
45 情報処理装置
47 情報処理部
51 記憶部
53 音声情報記憶領域
55 位置情報記憶領域
57 画像情報記憶領域
61 付加情報記憶領域
C ネットワーク
DB,DB’ データベース

【特許請求の範囲】
【請求項1】
位置情報を取得する位置情報取得部と、
音声を入力する音声入力部と、
前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、
前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報とを送信する通信制御部を備えた端末装置であって、
前記通信制御部によって送信された前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索することを特徴とする端末装置。
【請求項2】
位置情報を取得する位置情報取得部と、
音声を入力する音声入力部と、
前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、
画像を入力する画像入力部と、
前記画像入力部から得られた画像から、画像特徴情報を抽出する画像特徴抽出部と、
前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報と前記画像特徴抽出部で抽出した前記画像特徴情報とを送信する通信制御部を備えた端末装置であって、
前記より送信された前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索することを特徴とする端末装置。
【請求項3】
位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、前記位置情報取得部で取得した前記位置情報と、前記記号抽出部で抽出ないし変換された前記記号情報とを送信する通信制御部とを備えた端末装置により送信された前記記号情報と前記位置情報とを受信する受信部と、
前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する送信部を備えることを特徴とする情報配信装置。
【請求項4】
位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、画像を入力する画像入力部と、前記画像入力部から得られた画像から、画像特徴情報を抽出する画像特徴抽出部と、前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報と前記画像特徴抽出部で抽出した前記画像特徴情報とを送信する通信制御部とを備えた端末装置により送信された前記記号情報と前記位置情報と前記画像特徴情報とを受信する受信部と、
前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する送信部を備えることを特徴とする情報配信装置。
【請求項5】
端末装置と情報配信装置を接続可能に構成された情報配信システムであって、
前記端末装置が、
位置情報を取得する位置情報取得部と、
音声を入力する音声入力部と、
前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、
前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報とを送信する通信制御部を備え、
前記情報配信装置が、
前記端末装置により送信された前記記号情報と前記位置情報とを受信する受信部と、
前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する送信部を備えることを特徴とする情報配信システム。
【請求項6】
端末装置と情報配信装置を接続可能に構成された情報配信システムであって、
前記端末装置が、
位置情報を取得する位置情報取得部と、
音声を入力する音声入力部と、
前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、
画像を入力する画像入力部と、
前記画像入力部から得られた画像から、画像特徴情報を抽出する画像特徴抽出部と、
前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報と、前記画像特徴抽出部で抽出した前記画像特徴情報とを送信し、また前記情報配信装置からの情報を受信する通信制御部とを備え、
前記情報配信装置が、
前記端末装置により送信された前記記号情報と前記位置情報と前記画像特徴情報とを受信する受信部と、
前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する送信部を備えることを特徴とする情報配信システム。
【請求項7】
コンピュータに、
取得した位置情報を受け付ける手順1、
音声の入力を受け付ける手順2、
手順2で受け付けた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する手順3、
手順1で受け付けた前記位置情報と、手順3で抽出ないし変換された前記記号情報とを送信する手順4、
手順4で送信された前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索する手順5
を実行させるためのプログラム。
【請求項8】
コンピュータに、
取得した位置情報を受け付ける手順1、
音声の入力を受け付ける手順2、
画像の入力を受け付ける手順3、
手順2で受け付けた音声から、音韻、音素音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する手順4、
手順3で受け付けた画像から画像特徴情報を抽出する手順5、
手順1で受け付けた前記位置情報と手順4で抽出ないし変換された前記記号情報と手順5で抽出した前記画像特徴情報とを送信する手順6、
手順6で送信された前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索する手順7
を実行させるためのプログラム。
【請求項9】
コンピュータに、
位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、前記位置情報取得部で取得した前記位置情報と、前記記号抽出部で抽出ないし変換された前記記号情報とを送信する通信制御部とを備えた端末装置により送信された前記記号情報と前記位置情報とを受信する手順1、
前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する手順2
を実行させるためのプログラム。
【請求項10】
コンピュータに、
位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、画像を入力する画像入力部と、前記画像入力部から得られた画像から、画像特徴情報を抽出する画像特徴抽出部と、前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報と前記画像特徴抽出部で抽出した前記画像特徴情報とを送信する通信制御部とを備えた端末装置により送信された前記記号情報と前記位置情報と前記画像特徴情報とを受信する手順1、
前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する手順2
を実行させるためのプログラム。
【請求項11】
端末装置と情報配信装置を接続可能に構成された情報配信システムのためのプログラムであって、
コンピュータに、
取得した位置情報を受け付ける手順1、
音声の入力を受け付ける手順2、
手順2で受け付けた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する手順3、
手順1で受け付けた前記位置情報と、手順3で抽出ないし変換された前記記号情報とを前記情報配信装置に送信する手順4
を実行させるとともに、
前記端末装置により送信された前記記号情報と前記位置情報とを受信する手順5、
前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する手順6
を実行させるためのプログラム。
【請求項12】
端末装置と情報配信装置を接続可能に構成された情報配信システムのためのプログラムであって、
コンピュータに、
取得した位置情報を受け付ける手順1、
音声の入力を受け付ける手順2、
画像の入力を受け付ける手順3、
手順2で受け付けた音声から音韻、音素音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する手順4、
手順3で受け付けた画像から画像特徴情報を抽出する手順5、
手順1で受け付けた前記位置情報と手順4で抽出ないし変換された前記記号情報と手順5で抽出した前記画像特徴情報とを送信する手順6、
前記位端末装置より送信された前記位置情報と前記記号情報と前記画像情報を受信する手順7、
前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する手順8
を実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2009−134774(P2009−134774A)
【公開日】平成21年6月18日(2009.6.18)
【国際特許分類】
【出願番号】特願2009−74660(P2009−74660)
【出願日】平成21年3月25日(2009.3.25)
【分割の表示】特願2003−153421(P2003−153421)の分割
【原出願日】平成15年5月29日(2003.5.29)
【出願人】(301021533)独立行政法人産業技術総合研究所 (6,529)
【出願人】(000005049)シャープ株式会社 (33,933)
【Fターム(参考)】