説明

情報処理装置

【課題】本発明は、閲覧中のWebページがユーザの理解できない外国語で記述されていた場合であっても、その閲覧中のWebページに関連するデータを容易に収集することができる情報処理装置を提供する。
【解決手段】閲覧中のWebページの記述言語が情報処理装置のシステムに対応しているか否かを判断する判断し、対応していないと判断された場合、Webページのコンテンツをシステムに対応している言語に翻訳し、翻訳されたWebページのコンテンツからキーワードを抽出する抽出し、抽出されたキーワードの関連するWebページを検索エンジンを用いて検索することにより収集する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、Webページの閲覧中にそのWebページの関連データの取得が指示された際に、そのWebページからキーワードを抽出してユーザに提示して、ユーザにより指定されたキーワードを用いて関連データを収集することができる情報処理装置に関する。
【背景技術】
【0002】
世界のグローバル化が進む中で、様々な国でWebページが作成されて公開されるようになったことにより、近年の通信ネットワークにおいて様々な言語で記述されたWebページが混在している。また、多くの情報処理装置がブラウジング機能、Web検索機能を備えていて、ユーザによりキーワードが指定されることにより、その指定されたキーワードに関連するデータを言語を問わず容易に取得できるようになってきている。
【0003】
例えば特許文献1によると、検索対象データベースの記述言語と入力キーワードの記述言語とが異なる場合においても、入力キーワードに忠実な検索結果を出力させることが可能な情報検索装置が提案されている。この情報検索装置は、第1のデータ形式の検索要求に基づいて、第2のデータ形式の検索情報を生成する生成手段と、前記検索情報に基づいて、第2のデータ形式のデータを検索する検索手段と、前記第2のデータ形式の検索結果を前記第1のデータ形式に変換する変換手段と、前記第1のデータ形式の検索要求に基づいて、前記第1のデータ形式に変換された検索結果を評価する評価手段とを備えたものである。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特許第3181548号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
Webページの閲覧中に、そのWebページに含まれている複数のキーワードを抽出して、それらのキーワードの関連データについて検索エンジンを用いて容易に収集できる情報処理装置において、閲覧中のWebページの記述言語がシステムに対応していなかった場合には、キーワードの抽出を行えないという問題があった。また、閲覧中のWebページの記述言語がシステムに対応していても、その言語がユーザの母国語でなかった場合は、例えキーワードを抽出できてもユーザが各々のキーワードの意味を理解できない可能性があるという問題もあった。
【0006】
本発明は、上記課題を鑑みてなされてものであり、閲覧中のWebページの言語に関わらず、その閲覧中のWebページに関連するデータを容易に収集することができる情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明に係る情報処理装置は、閲覧中のWebページの記述言語が所定の原語か否かを判断し、所定の原語ではない場合、前記Webページコンテンツを前記所定の原語に翻訳した翻訳コンテンツを取得する原語処理手段と、前記所定の原語のWebページ中の文または所定の原語に翻訳した翻訳文キーワードを抽出する抽出手段と、前記抽出手段により抽出されたキーワードを用いた検索クエリを生成し、前記キーワードに関連するWebページを収集する収集手段とを備えることを特徴とする。
【発明の効果】
【0008】
本発明に係る情報処理装置によると、閲覧中のWebページの言語に関わらず、その閲覧中のWebページに関連するデータを容易に収集することが可能となる。
【図面の簡単な説明】
【0009】
【図1】本発明の一実施形態に係る情報処理装置(携帯電話機)の斜視図。
【図2】本発明の一実施形態に係る情報処理装置(携帯電話機)の全体構成を示すブロック図。
【図3】本発明の一実施形態に係る情報処理装置(携帯電話機)において関連データ収集機能を実現するためのソフトウェア構成を示すブロック図。
【図4】本発明の一実施形態に係る情報処理装置(携帯電話機)における設定情報の一例を示すデータ構成図。
【図5】本発明の一実施形態に係る情報処理装置(携帯電話機)における関連データ収集処理の手順を示すフローチャート。
【発明を実施するための形態】
【0010】
本発明に係る情報処理装置の実施形態について、添付図面を参照しながら説明する。本発明に係る情報処理装置として、ブラウジング機能、Web検索機能を備えた携帯電話機1を例に挙げて説明する。
【0011】
図1は、携帯電話機1の斜視図である。携帯電話機1は、図1に示すように、矩形の板状の筐体10を備えている。筐体10の一方の面には、データを表示するとともに入力媒体の接触を検出することによりデータを入力するタッチスクリーン11、音声を出力するスピーカ12、音声を入力するマイクロフォン13及びデータを入力する操作キー14が設けられている。
【0012】
タッチスクリーン11は、画面にデータを表示する表示機能、及び、ユーザが指や専用ペンなどの入力媒体を画面に接触させた際にその接触位置を検出することによりその接触位置に対応するデータを入力する入力機能の双方の機能を備えている。接触を検知する方法は、静電気により検知する方法でも感圧により検知する方法でも良く、または赤外線を用いた方法でも良く、その他の方法でも良い。
【0013】
操作キー14は、ユーザによる物理的な押下によりデータを入力するキーであっても、静電気または感圧により入力媒体の接触を検知してデータを入力するキーであっても良い。操作キー14は、例えば電源のON/OFFを切り替えたり待機状態から復帰したりするための電源キーや、発呼を開始するための発呼キーなどである。
【0014】
図2は、携帯電話機1の全体構成を示すブロック図である。図2に示すように、携帯電話機1は、主制御部20、電源回路部21、操作入力制御部22、表示制御部23、音声制御部24、通信制御部25及び記憶部26が相互に通信可能に接続されて構成されている。
【0015】
主制御部20は、CPU(Central Processing Unit)を具備し、携帯電話機1の総括的な制御を行うとともに、後述する関連データ収集処理や、その他の様々な演算処理や制御処理等を行う。電源回路部21は、電源供給源(バッテリ等)を備え、所定の操作キー14(例えば電源キー)を介した入力に基づいて携帯電話機1の電源のON/OFF状態を切り替え、電源がON状態の場合に電力供給源から各部に対して電力を供給して、携帯電話機1を動作可能にする。
【0016】
操作入力制御部22はタッチスクリーン11に対する入力インタフェースを備え、タッチスクリーン11の画面上で接触を検知すると、接触があった位置を示す信号を生成して主制御部20に伝送する。また、操作入力制御部22は操作キー14に対する入力インタフェースを備え、操作キー14のいずれかが押下されたことを検知すると、その押下された操作キー14を示す信号を生成して主制御部20に伝送する。これらの信号を受信した主制御部20は、それらの信号に基づいて処理を行う。
【0017】
表示制御部23はタッチスクリーン11に対する表示インタフェースを備え、主制御部20の制御に基づいて、データをタッチスクリーン11に表示させる。
【0018】
音声制御部24は、主制御部20の制御に基づいて、マイクロフォン13で集音されたデジタル音声信号に処理を施して主制御部20へ出力する。また音声制御部24は、デジタル音声信号を取得すると、主制御部20の制御に基づいてスピーカ12から音声として出力する。
【0019】
通信制御部25は、主制御部20の制御に基づいて、基地局からアンテナ25aを介して受信した受信信号を復号化処理してデータを復元する。このデータは、主制御部20の指示により、音声制御部24に伝送されてスピーカ12から出力されたり、表示制御部23に伝送されてタッチスクリーン11に表示されたり、または記憶部26に記録されたりする。また通信制御部25は、主制御部20の制御に基づいて、マイクロフォン13で集音された音声データやタッチスクリーン11を介して入力されたデータや記憶部26に記憶されたデータを取得すると、これらのデータに対して符号化処理を行い、基地局に対してアンテナ25aを介して送信する。
【0020】
記憶部26は、主制御部20が行う処理について、処理プログラムや処理に必要なデータ等を格納するROM(Read Only Memory)やハードディスク、不揮発性メモリ、データベース、主制御部20が処理を行う際に使用されるデータを一時的に記憶するRAM(Random Access Memory)等から構成される。また、主制御部20が後述する関連データ収集処理を行う際の処理プログラム、関連データ収集処理で用いられる母国語(例えば日本語)の辞書データ、所定の外国語(例えば英語)の辞書データは、例えばROMに記憶されているものとする。
【0021】
図3は、主制御部20の制御によって関連データ収集機能を実現するためのソフトウェア構成を示すブロック図である。携帯電話機1は、図3に示すように、Webページ入力部30、設定情報記憶部31、言語判別部32、母国語キーワード抽出部33、外国語キーワード抽出部34、翻訳装置通信部35、キーワード表示選択部36、検索クエリ生成部37、検索結果解析表示部38を有している。
【0022】
Webページ入力部30は、タッチスクリーン11を介してWebページアドレスが入力された際、または記憶部26に記憶されているWebページアドレスが選択された際に、そのWebページアドレスをブラウジング機能に入力してWebサイトからWebページデータを取得する。そしてWebページ入力部30は、ブラウジング機能によりタッチスクリーン11にWebページのコンテンツを表示させる。
【0023】
設定情報記憶部31は、関連データ収集処理の際に使用される、言語に関する設定情報40を記憶している。図4は、設定情報40の一例を示すデータ構成図である。図4に示すように、設定情報40は、各々の言語を示す言語情報41に対して、母国語か否かを示す母国語情報42、翻訳が必要か否かを示す翻訳情報43、Webページの記述言語として指定される言語タグを示す言語タグ情報44、Webページの作成に使用される文字コードを示す文字コード情報45がそれぞれ対応付けられた情報である。母国語情報42は、各々の言語に対して、ユーザの母国語である場合は「○」で、母国語でない場合は「×」で示される。翻訳情報43は、各々の言語に対して、携帯電話機1のシステムが対応していない言語であるため翻訳が必要な場合は「要」で、携帯電話機1のシステムが対応しているため翻訳が不要な場合は「不要」で示される。
【0024】
例えば図4によると、日本語が母国語で翻訳が不要な言語である旨、英語が母国語でなく翻訳が不要な言語である旨、ドイツ語が母国語でなく翻訳が必要な言語である旨がそれぞれ設定されている。すなわち、携帯電話機1のユーザは日本語を母国語としていることがわかる。また、日本語と英語には翻訳が不要であるが、ドイツ語には翻訳が必要なことがわかる。
【0025】
言語判別部32は、Webページ入力部により入力されたWebページに含まれる言語タグ(例えばWebページデータに属性として付されているもの)から、設定情報40を用いてそのWebページの記述言語を判別するとともに、翻訳する必要があるか否かを判別する。
【0026】
母国語キーワード抽出部33は、母国語で記載されたWebページの中からキーワード群を抽出する。外国語キーワード抽出部34は、外国語(母国語以外の言語)で記載されたWebページの中からキーワード群を抽出する。翻訳装置通信部35は、Webページを翻訳する必要がある場合に、Webページコンテンツから翻訳クエリを生成して、翻訳装置に対してその翻訳クエリを送信することにより、Webページコンテンツを母国語に翻訳するように翻訳装置に指示する。母国語キーワード抽出部33は、翻訳装置通信部35の指示により翻訳装置から返送された翻訳後のWebページコンテンツ(母国語)を受信すると、受信したWebページコンテンツからキーワード群を抽出する。
【0027】
キーワード表示選択部36は、母国語キーワード抽出部33または外国語キーワード抽出部34により抽出されたキーワード群をタッチスクリーン11に表示させ、ユーザにいずれかのキーワードの選択を促す。検索クエリ生成部37は、ユーザによりキーワードが選択されると、選択されたキーワードから検索クエリを生成して、検索エンジン200に対してその検索クエリを送信する。検索結果表示部38は、検索エンジン200から検索結果を受信すると、検索結果を解析しタッチスクリーン11に表示させる。
【0028】
なお、翻訳装置は、携帯電話機1から翻訳元データ(例えばドイツ語)を受信するとともに翻訳後の言語(例えば日本語)が指定されると、翻訳元データをドイツ語から日本語に翻訳して、翻訳後の日本語のデータを携帯電話機1に送信する装置である。翻訳装置は、携帯電話機1とは別個に設けられた装置であっても携帯電話機1に内蔵された装置であっても良い。検索エンジン200は、予め多くのデータを記憶していて、携帯電話機1からキーワードを受信すると、記憶されたデータからそのキーワードに関連するデータを抽出してそれらのデータのリストを携帯電話機1に対して送信する装置であり、携帯電話機1とは別個に設けられた装置である。
【0029】
携帯電話機1は、ユーザが携帯電話機1を用いてWebページを閲覧している際、そのWebページの関連ページの表示が指示された場合に、その閲覧中のWebページからキーワードを抽出して関連データを収集する。携帯電話機1がこの関連データ収集処理を行う際の手順について、図5に示すフローチャートに基づいて詳細に説明する。
【0030】
Webページをタッチスクリーン11に表示しているときに、現在表示しているWebページに関連するページの表示を指示する操作をタッチスクリーン11または操作キー14が受け付けると、Webページ入力部30に対して関連ページの表示の指示があったことを通知する。
【0031】
関連ページの表示の指示があった場合(S101;Yes)、言語判別部32は、閲覧中のWebページの言語を判別する。まず言語判別部32は、閲覧中のページが母国語で記載されているか否かを判断する(S103)。この際、言語判別部32は、例えば閲覧中のWebページに含まれる言語タグに基づいて言語を識別し、設定情報40においてその言語が母国語に設定されていた場合に、閲覧中のWebページが母国語で記載されているものと判断する。例えば図4に示す設定情報40によると、日本語が母国語であるため、閲覧中のページが日本語で書かれていた場合に、母国語で記載されているものと判断される。
【0032】
閲覧中のページが母国語で記載されている場合(S103;Yes)は、母国語キーワード抽出部33は、閲覧中のWebページコンテンツから母国語のキーワードを抽出する(S105)。この際、母国語キーワード抽出部33は、例えば記憶部26に記憶されている母国語の辞書データを使用したり、Webページコンテンツについて形態素解析を行ったりすることによって、単語を抽出すると良い。または、「は」、「が」、「で」、「に」等の格助詞を判別してその直前の名詞を抽出するようにしても良い。
【0033】
閲覧中のページが母国語で記載されていなかった場合(S103;No)は、言語判別部32は、閲覧中のページが翻訳不要な外国語で記載されているか否かを判断する(S107)。この際、言語判別部32は、例えばステップS103にて識別された言語が設定情報40において翻訳不要に設定されていた場合に、閲覧中のページが翻訳不要な外国語で記載されているものと判断する。例えば図4に示す設定情報40によると、日本語及び英語が翻訳不要に設定されているため、閲覧中のページが日本語または英語で書かれていた場合に翻訳不要だと判断され、ドイツ語で書かれていた場合に翻訳が必要だと判断される。
【0034】
閲覧中のページが翻訳不要な外国語で記載されていた場合(S107;Yes)は、外国語キーワード抽出部34は、閲覧中のWebページコンテンツからその外国語のキーワードを抽出する(S109)。この際、外国語キーワード抽出部34は、例えば記憶部26に記憶されている外国語の辞書データを使用し、Webページコンテンツについて形態素解析を行ったりすることにより、単語を抽出すると良い。
【0035】
閲覧中のページが翻訳不要な外国語で記載されていなかった場合(S107;No)は、翻訳が必要であるため、翻訳装置通信部35は外部の翻訳装置を用いて閲覧中のWebページコンテンツを翻訳する(S111)。このとき、翻訳装置通信部35は、閲覧中のWebページコンテンツを含んだ翻訳クエリを生成して翻訳装置に送信して、Webページコンテンツを母国語に翻訳するように翻訳装置に依頼する。この翻訳クエリを受信した翻訳装置は、翻訳クエリに含まれるWebページコンテンツを指定された母国語に翻訳して携帯電話機1に返信する。
【0036】
なお、携帯電話機1と翻訳装置との通信の際には、翻訳装置通信部35は、Webブラウザを介さず、バックグラウンドで翻訳前後のWebページコンテンツのうちの文字列情報のみを送受信して、母国語キーワード抽出部33に翻訳後のWebページコンテンツを入力させることで、HTML(HyperText Markup Language)のファイルに参照として含まれる画像データの読み込みを省略してキーワードの抽出を行う。これにより、翻訳処理にかかる時間を短縮することができる。
【0037】
携帯電話機1が翻訳装置から母国語に翻訳されたWebページコンテンツを受信すると、母国語キーワード抽出部34は、受信した母国語のWebページコンテンツから母国語のキーワードを抽出する(S105)。
【0038】
ステップS105またはS109にてキーワードが抽出されると、キーワード表示選択部36は、タッチスクリーン11にキーワードを表示させる(S113)。閲覧中のWebページの言語と抽出されたキーワードの言語とがそれぞれ異なっている場合には、抽出されたキーワードが、閲覧中のWebページにおいてそのキーワードに該当する文字列に対応付けて表示されると良い。
【0039】
ユーザは、タッチスクリーン11の画面を触れることで、表示されたキーワードからいずれかのキーワードを選択することができる。キーワード表示選択部36は、ユーザによりいずれかのキーワードが選択されたか否かを判断する(S115)。キーワードが選択されていない場合(S115;No)、キーワード表示選択部36はキーワードが選択されるまで待機する。
【0040】
キーワードが選択された場合(S115;Yes)、検索クエリ生成部37は、検索エンジン200を用いて、選択されたキーワードについて検索する(S117)。このとき、検索クエリ生成部37は、ユーザにより選択されたキーワードを含んだ検索クエリを生成して検索エンジン200に送信して、選択されたキーワードについて検索するように検索エンジン200に依頼する。この検索クエリを受信した検索エンジン200は、検索クエリに含まれるキーワードに関連のあるデータを抽出して検索結果として携帯電話機1に返信する。そして、携帯電話機1が検索エンジン200から検索結果(URLのリストやWebページ)を受信すると、検索結果解析表示部38は、タッチスクリーン11に検索結果を表示させる(S119)。なお、検索結果として表示させる情報は、母国語で記載されているWebページや、母国後で記載されているWebページのURLを含むリストに限定されても良い。
【0041】
このようにして携帯電話機1は、Webページの閲覧中にユーザにより関連ページの表示を指示された際に、そのWebページが母国語(例えば日本語)で記載されているか、母国語ではないが翻訳不要な言語(例えば英語)で記載されているか、翻訳が必要な言語(例えばドイツ語)で記載されているか、の3つに場合分けした上で検索を行う。携帯電話機1は、閲覧中のWebページが母国語(例えば日本語)で記載されている場合、予め記憶されている母国語の辞書データを用いて母国語のキーワードを抽出し、母国語ではないが翻訳不要な言語(例えば英語)で記載されている場合、予め記憶されている外国語の辞書データを用いて外国語のキーワードを抽出し、翻訳が必要な言語(例えばドイツ語)で記載されている場合、そのWebページコンテンツを翻訳装置を用いて母国語に翻訳した後に予め記憶されている母国語の辞書データを用いて母国語のキーワードを抽出する。そして携帯電話機1は、抽出されたキーワードをユーザに提示してユーザにより選択されたキーワードについて検索エンジン200を用いて検索する。
【0042】
本発明の上記のような構成により、閲覧中のWebページが、ユーザが理解できない言語で記載されたWebページであっても、バックグラウンドでそのWebページコンテンツを母国語に翻訳した上で母国語のキーワードを抽出することにより、ユーザは、閲覧中のWebページに関連のある母国語のデータを容易に入手することが可能になる。
【0043】
なお、閲覧中のWebページがユーザが理解できない言語で記載されていた場合に、そのWebページのコンテンツ自体を翻訳させて表示させることも考えられるが、現状での機械翻訳の精度はユーザが違和感無く文章を読める程度に十分ではない。しかしながら、現状での機械翻訳の精度は、Webページコンテンツから重要なキーワードを抽出する分には十分である。よって、携帯電話機1がWebページから抽出されたキーワードを用いて母国語で記載された関連ページを取得することにより、ユーザに有用な情報を提供することができる。
【0044】
本発明に係る情報処理装置(携帯電話機1)によると、閲覧中のWebページがユーザが理解できない外国語で記載されていた場合であっても、バックグラウンドでWebページコンテンツを母国語に翻訳して、Webページコンテンツから母国語のキーワードを抽出して検索することで、閲覧中のWebページに関連する母国語のデータを容易に収集することが可能となる。
【0045】
本発明の説明として、携帯電話機1について説明したが、これに限らず、PHS(Personal Handyphone System)、PDA(Personal Digital Assistants)、携帯ゲーム機、携帯音楽録再機など、ブラウジング機能、Web検索機能を備えている情報処理装置であれば、任意の情報処理装置であっても良い。
【符号の説明】
【0046】
1…携帯電話機,10…筐体,11…タッチスクリーン,12…スピーカ,13…マイクロフォン,14…操作キー、20…主制御部,21…電源回路部,22…操作入力制御部,23…表示制御部,24…音声制御部,25…通信制御部,25a…アンテナ,26…記憶部,30…Webページ入力部,31…設定情報記憶部,32…言語判別部,33…母国語キーワード抽出部,34…外国語キーワード抽出部,35…翻訳装置通信部,36…キーワード表示選択部,37…検索クエリ生成部,38…検索結果解析表示部,40…設定情報,200…検索エンジン。

【特許請求の範囲】
【請求項1】
閲覧中のWebページの記述言語が所定の原語か否かを判断し、所定の原語ではない場合、前記Webページコンテンツを前記所定の原語に翻訳した翻訳コンテンツを取得する原語処理手段と、
前記所定の原語のWebページ中の文または所定の原語に翻訳した翻訳文キーワードを抽出する抽出手段と、
前記抽出手段により抽出されたキーワードを用いた検索クエリを生成し、前記キーワードに関連するWebページを収集する収集手段とを備えることを特徴とする情報処理装置。
【請求項2】
前記情報処理装置のシステムに対応している言語のいずれかを母国語として設定する設定手段を備え、
前記原語処理手段は、前記母国語ではないWebページコンテンツを母国語に翻訳した翻訳コンテンツを取得し、
前記抽出手段は、前記翻訳手段により翻訳されたWebページのコンテンツから母国語のキーワードを抽出することを特徴とする請求項1記載の情報処理装置。
【請求項3】
前記抽出手段により抽出されたキーワードを表示させる表示手段と、
前記表示手段により表示されたキーワードのうちのいずれかの選択を受け付ける受付手段とを備え、
前記収集手段は、前記受付手段により受け付けられたキーワードの関連情報を検索することを特徴とする請求項1記載の情報処理装置。
【請求項4】
前記収集手段は、前記母国語で記述されたWebページを検索結果として収集することを特徴とする請求項1記載の情報処理装置。
【請求項5】
Webページの記述言語が所定の原語か否かを設定する設定手段を更に有し、
前記原語処理手段は、閲覧中のWebページの記述原語が前記設定手段に所定の原語でないと設定されている場合、前記Webページコンテンツを前記所定の原語に翻訳した翻訳コンテンツを取得することを特徴とする請求項1記載の情報処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate