ローカル項目抽出
【課題】ローカル検索システムは、特定の地域内の関連性のあるウェブページおよび/またはビジネスリストを返すことを試みる。ビジネスがウェブページにおいて言及されるとき、既存のローカル検索システムは、そのビジネスを職業別電話帳データと突合わせることにより、対応するビジネスリストを特定してもよい。この技術は、しかしながら、職業別電話帳データが存在しないか、または職業別電話帳データがビジネスに対して不正確であるときには、実行可能ではない。
【解決手段】あるシステムは、住所を含む文書を特定し、その文書においてビジネス情報を見つけ出す。このシステムは信頼度スコアをそのビジネス情報に割当てるが、その信頼度スコアはビジネス情報が住所に関連付けられる確率に関している。このシステムはその割当てられた信頼度スコアに基づいてビジネス情報を住所に関連付けるかどうかを判断する。
【解決手段】あるシステムは、住所を含む文書を特定し、その文書においてビジネス情報を見つけ出す。このシステムは信頼度スコアをそのビジネス情報に割当てるが、その信頼度スコアはビジネス情報が住所に関連付けられる確率に関している。このシステムはその割当てられた信頼度スコアに基づいてビジネス情報を住所に関連付けるかどうかを判断する。
【発明の詳細な説明】
【技術分野】
【0001】
背景
発明の分野
ここに記述される実現例は、一般的には、ローカル(local)情報検索、より特定的には、住所に関連付けられるビジネス情報の特定に関する。
【背景技術】
【0002】
関連技術の説明
ワールドワイドウェブ(「ウェブ」)は大量の情報を含んでいる。情報のうち所望される部分を見つけることは、しかしながら、困難であり得る。この問題は悪化しており、なぜならば、ウェブ上の情報量、およびウェブ検索において経験のない新規のユーザの数が急速の増大しているからである。
【0003】
検索システムは、ユーザが興味を持っているウェブページにハイパーリンクを返すことを試みる。一般に、検索システムは、それらの、ユーザの関心についての判断を、ユーザによって入力された検索語(検索クエリと呼ばれる)に基づかせる。検索システムの目的は、検索クエリに基づいて、高品質の、関連性のある結果(たとえばウェブページ)へのリンクを、ユーザに与えることである。典型的には、検索システムは、予め記憶されたウェブページのコーパスに検索クエリ中の語を突合わせることにより、これを達成する。ユーザの検索語を包含しているウェブページは「ヒット」であり、リンクとしてユーザに返される。
【発明の概要】
【発明が解決しようとする課題】
【0004】
ローカル検索システムは、特定の地域内の関連性のあるウェブページおよび/またはビジネスリストを返すことを試みる。ビジネスがウェブページにおいて言及されるとき、既存のローカル検索システムは、そのビジネスを職業別電話帳データと突合わせることにより、対応するビジネスリストを特定してもよい。この技術は、しかしながら、職業別電話帳データが存在しないか、または職業別電話帳データがビジネスに対して不正確であるときには、実行可能ではない。
【課題を解決するための手段】
【0005】
概要
1つの局面によれば、ある方法は、住所を含む文書を特定するステップと、その文書においてビジネス情報を見つけるステップと、そのビジネス情報に信頼度スコアを割当てるステップとを含んでもよく、信頼度スコアはそのビジネス情報がその住所に関連付けられる確率に関してもよい。この方法は、さらに、割当てられた信頼度スコアに基づいて住所にビジネス情報を関連付けるべきかどうかを判断するステップを含んでもよい。
【0006】
別の局面によれば、ある方法は、住所を含む文書を特定するステップと、その文書においてその住所に先行する語の組を特定するステップと、それらの語の各々がその住所に関連付けられるタイトルの一部である確率を判断するステップとを含んでもよい。この方法は、さらに、住所に関連付けられるタイトルの一部である高い確率を有している語の1つ以上に基づいて候補タイトルを特定するステップと、候補タイトルに信頼度スコアを割当てるステップと、割当てられた信頼度スコアに基づいて住所に候補タイトルを関連付けるべきかどうかを判断するステップとを含んでもよい。
【0007】
さらに別の局面によれば、ある方法は、住所を含む文書を特定するステップと、その文書において候補電話番号の組を特定するステップと、その候補電話番号の組における各候補電話番号が住所に関連付けられる確率を判断するステップと、判断された確率に基づいて住所に候補番号のうちの1つを関連付けるべきかどうかを判断するステップとを含んでもよい。
【0008】
さらなる局面によれば、ある方法は、目印を含むウェブページを特定するステップと、そのウェブページにおいて属性を特定するステップと、その属性に信頼度スコアを割当てるステップとを含んでもよく、信頼度スコアは、属性が目印に関連付けられる確率に関してもよい。この方法は、さらに、割当てられた信頼度スコアに基づいて属性を目印に関連付けるべきかどうかを判断するステップを含んでもよい。
【図面の簡単な説明】
【0009】
【図1】住所を含む例示的文書の図である。
【図2】この発明の原理に一致するシステムおよび方法が実現されてもよいネットワークの例示的な図である。
【図3】この発明の原理に一致するある実現例に従う図2のクライアントサーバの例示的な図である。
【図4】この発明の原理に一致するある実現例に従うトレーニングシステムの例示的な図である。
【図5】この発明の原理に一致するある実現例に従う統計的モデルをトレーニングするための例示的処理のフローチャートである。
【図6】この発明の原理に一致するある実現例に従うローカル項目抽出部の例示的な図である。
【図7】この発明の原理に一致するある実現例に従って住所に関連付けられる商号(タイトル)を特定するための例示的処理のフローチャートである。
【図8】この発明の原理に一致するある実現例に従って住所に関連付けられる電話番号を特定するための例示的処理のフローチャートである。
【図9】この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。
【図10】この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。
【図11】この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。
【図12】この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。
【図13】この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。
【図14】この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。
【図15】この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。
【発明を実施するための形態】
【0010】
添付の図面は、この明細書において援用され、その一部を構成するものであるが、この発明の実施例を示し、記載とともに、この発明を説明するものである。
【0011】
詳細な説明
この発明の以下の詳細な説明は、添付図面に言及する。異なる図面における同じ参照番号は同じまたは同様の要素を特定する場合がある。さらに、以下の詳細な説明はこの発明を限定しはしない。
【0012】
外観
ローカル検索は特定の地域に関連付けられるビジネスリストを特定することを伴う。ウェブは何十億もの文書を含んでおり、それらのうちのいくつかはビジネスに言及しているかもしれない。できるだけ多くの異なるビジネスに関連付けられたビジネス情報を特定することは、ローカル検索システムに有益である。しばしば、職業別電話帳データがビジネスに関連付けられている。しかしながら、時には、ビジネスは、職業別電話帳データがないか、または、職業別電話帳データがおそらくは不正確な文書中で、言及されている。
【0013】
この発明の原理と一致するシステムおよび方法は、ウェブ文書中で言及される住所に関連付けられるビジネス情報を特定してもよい。1つの実現例では、ビジネス情報は住所に関連付けられたビジネスの名称を含んでいる。別の実現例では、ビジネス情報は、住所に関連付けられた電話番号を含んでいる。さらに別の実現例では、ビジネス情報は、住所に関連付けられたビジネスについての営業時間またはウェブサイトもしくは地図へのリンクのような別の種類の情報を含んでもよい。
【0014】
図1は住所を含んでいる例示的文書の図である。図示されるように、この文書はPennsylvania(ペンシルベニア州)のOakmont(オークモント)にあるレストランであるVeltri's Pizza(ベルトリズ・ピザ)のレビューに関連付けられている。文書は、それが郵便住所(つまり123 Allegheny Avenue in Oakmont, PA(123、アレゲーニー・アベニュー、オークモント、ペンシルベニア州))を含むことを判断するよう分析されてもよい。ベルトリズは関連付けられた職業別電話帳データを有していないかまたはおそらく不正確な職業別電話帳データを有している、と仮定する。
【0015】
ここに記載される技術を用いて、文書は、さらに、住所に関連付けられたビジネス情報を判断するよう分析されてもよい。ビジネス情報は住所に関連付けられた商号(ここにおいては「タイトル」とも称される)および/または電話番号を含んでもよい。ビジネス情報は住所に関連付けられるビジネスリストを生成または訂正するよう用いられてもよい。
【0016】
「文書」という語は、ここで用いられるとおりでは、いかなる機械読取可能なおよび機械記憶可能なワークプロダクト(work product)をも含むよう広く解釈される。文書は、たとえばeメール、ウェブサイト、ビジネスリスト、ファイル、ファイルの組合せ、他のファイルへの埋込まれたリンクを備えた1つ以上のファイル、ニュースグループポスティング、ブログ、ウェブ広告などを含んでもよい。インターネットの中では、ある一般的な文書はウェブページである。ウェブページはしばしばテキスト情報を含んでおり、埋込まれた情報(メタ情報、画像、ハイパーリンクなど)および/または埋込まれた命令(ジャバスクリプト(Java(登録商標)script)など)を含んでもよい。「リンク」という語は、ここで用いられるとおりでは、ある文書から別の文書または同じ文書内の別の部分への、またはその逆の、いかなる参照をも含めるよう広く解釈される。
【0017】
例示的ネットワーク構成
図2は、この発明の原理と一致するシステムおよび方法が実現されてもよいネットワーク200の例示的な図である。ネットワーク200は、ネットワーク250を介して複数のサーバ220〜240に接続される複数のクライアント210を含んでもよい。簡潔性のため、2つのクライアント210および3つのサーバ220〜240がネットワーク250に接続されるように図示される。実際には、より多くの、またはより少ないクライアントおよびサーバがあってもよい。さらに、いくつかの例では、あるクライアントはサーバの機能を実行してもよく、あるサーバはクライアントの機能を実行してもよい。
【0018】
クライアント210はクライアントエンティティを含んでもよい。エンティティは、無線電話、パソコン、携帯情報端末(PDA)、ラップトップ、もしくは別の種類の計算もしくは通信装置のような装置、これらの装置のうちの1つの上で実行されるスレッドもしくは処理、および/またはこれらの装置のうちの1つによって実行可能なオブジェクトとして規定されてもよい。サーバ220〜240はこの発明の原理と一致する態様で文書を収集し、処理し、検索し、および/または維持するサーバエンティティを含んでもよい。
【0019】
この発明の原理と一致するある実現例では、サーバ220はクライアント210によって使用可能な検索エンジン225を含んでもよい。サーバ220は、文書(たとえばウェブ文書)のコーパスを巡回し、文書にインデックスを付け、文書に関連付けられる情報を文書のレポジトリに記憶してもよい。サーバ230および240はサーバ220により巡回または分析されてもよい文書を記憶または維持してもよい。
【0020】
サーバ220〜240は別々のエンティティとして示されているが、サーバ220〜240の1つ以上が、サーバ220〜240のうちの別の1つ以上の、1つ以上の機能を実行することが可能であってもよい。たとえば、サーバ220〜240のうちの2つ以上が単一のサーバとして実現されることが可能であってもよい。さらに、サーバ220〜240のうちの1つが2つ以上の別々の(およびおそらくは分散された)装置として実現されることが可能であってもよい。
【0021】
ネットワーク250は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、電話網、たとえば公衆交換電話網(PSTN)、イントラネット、インターネット、記憶装置、またはネットワークの組合せを含んでもよい。クライアント210およびサーバ220〜240は、ネットワーク250に、有線、無線、および/または光接続を介して接続してもよい。
【0022】
例示的クライアント/サーバアーキテクチャ
図3はクライアントまたはサーバエンティティ(以下「クライアント/サーバエンティティ」と称される)の例示的な図であるが、それは、この発明の原理に一致する実現例によれば、1つ以上のクライアント210および/またはサーバ220〜240に対応してもよい。クライアント/サーバエンティティは、バス310、プロセッサ320、メインメモリ330、リードオンリメモリ(ROM)340、記憶装置350、入力装置360、出力装置370、および通信インターフェイス308を含んでもよい。バス310はクライアント/サーバエンティティの要素間において通信を可能にする通路を含んでもよい。
【0023】
プロセッサ320は、命令を解釈および実行する従来のプロセッサ、マイクロプロセッサまたは処理論理を含んでもよい。メインメモリ330は、プロセッサ320による実行のため情報および命令を記憶してもよいランダムアクセスメモリ(RAM)または別のタイプの動的記憶装置を含んでもよい。ROM340はプロセッサ320による使用のため静的情報および命令を記憶してもよい従来のROM装置または別のタイプの静的記憶装置を含んでもよい。記憶装置350は磁気および/または光記録媒体ならびにその対応するドライブを含んでもよい。
【0024】
入力装置360はオペレータが情報をクライアント/サーバエンティティに入力できるような従来の機構、たとえばキーボード、マウス、ペン、音声認識および/またはバイオメトリック機構などを含んでもよい。出力装置370は、情報をオペレータに出力する、ディスプレイ、プリンタ、スピーカなどの従来の機構を含んでもよい。通信インターフェイス380はクライアント/サーバエンティティが他の装置および/またはシステムと通信することを可能にする任意のトランシーバのような機構を含んでもよい。たとえば、通信インターフェイス380は、別の装置またはシステムと、ネットワーク、たとえばネットワーク250を介して通信するための機構を含んでもよい。
【0025】
この発明の原理と一致するクライアント/サーバエンティティは、以下に詳細に記載されるように、ある動作を実行してもよい。クライアント/サーバエンティティは、これらの動作を、プロセッサ320がたとえばメモリ330のようなコンピュータ読取可能媒体に含まれるソフトウェア命令を実行することに応答して実行してもよい。コンピュータ読取可能媒体は物理もしくは論理メモリ装置および/または搬送波として定義されてもよい。
【0026】
ソフトウェア命令は、別のコンピュータ読取可能媒体、たとえばデータ記憶装置350から、または別の装置から通信インターフェイス380を介して、メモリ330に読込まれてもよい。メモリ330に含まれるソフトウェア命令は、プロセッサ320に、後に記載されるような処理を実行させてもよい。代替的に、結線で接続された回路系をソフトウェア命令の代わりにまたはソフトウェア命令との組合せで用いてこの発明の原理に一致する処理を実現してもよい。このように、この発明の原理に一致する実現例はハードウェア回路系およびソフトウェアのいかなる特定の組合せにも限定されるものではない。
【0027】
例示的なトレーニングシステム
図4はこの発明の原理に一致するある実現例に従うトレーニングシステム400の例示的な図である。1つの実現例においては、トレーニングシステム400は、ソフトウェアおよび/またはハードウェアにより、サーバ220(図2)、別の装置、またはサーバ220とは別途のもしくはサーバ220を含む装置の群内において実現されてもよい。
【0028】
図4に示されるように、トレーニングシステム400はトレーニングセットに基づいた統計的モデル420を発生させるトレーナ410を含んでもよい。1つの実現例では、職業別電話帳データが存在する住所を含む文書の組を特定してもよい。一般的には、トレーナ410は職業別電話帳データが存在する文書の組においてビジネス情報と共通に関連付けられる特徴を特定して統計的モデル420を発生させてもよい。統計的モデル420は、職業別電話帳データが存在しないかまたはおそらくは不正確な職業別電話帳データが存在する住所を含む文書内においてビジネス情報がどこに見つかるかもしれないかを予想するよう用いられてもよい。
【0029】
図5はこの発明の原理に一致するある実現例に従うトレーニング統計的モデル420に対する例示的処理のフローチャートである。処理は、文書のコーパスを分析して、職業別電話帳データが存在する住所を含む文書を特定することから始まってもよい(ブロック510)。たとえば、文書コーパス内の文書は、それらの文書が住所を含むかどうかを判断するよう分析されてもよい。任意の周知の住所認識技術を用いて文書において住所を認識してよい。
【0030】
ある文書が、住所を含むとして特定されると、その住所を、職業別電話帳データに対して分析して、職業別電話帳データがその住所と一致するビジネスリストを含むかどうかを判断してもよい。職業別電話帳のビジネスリストから、ビジネス情報、たとえば商号(「タイトル」)および/または電話番号などが特定されてもよい。このビジネス情報は、次いで、文書内において特定されてもよい(ブロック520)。たとえば、文書のテキストを分析して、テキストのいずれかがビジネス情報に一致するかどうかを判断してもよい。
【0031】
テキストのいずれもビジネス情報に一致しないときは、その文書はトレーニングセットから取除かれてもよい。文書のテキストがビジネス情報に一致すると、その住所およびビジネス情報はその文書内にマーキングされてもよく(ブロック530)、その文書はトレーニングセットに含まれてもよい。任意の周知のマーキング技術を用いて住所およびビジネス情報を文書においてマーキングしてよい。1つの実現例では、ビジネス情報が住所の付近に生ずる文書のみ(たとえば、住所の左および/または右に対して予め定められた数の語、たとえば20語または60語内など)がトレーニングセットに含まれてもよい。別の実現例では、ビジネス情報が文書においてどこでもよいから生ずる文書がトレーニングセットに含まれてもよい。
【0032】
一旦トレーニングセットが確立されると、それは何百万もの文書を含んでもよいものでであるが、統計的モデルがそのトレーニングセットに基づいて発生されてもよい(ブロック540)。たとえば、トレーニングセットにおける文書を分析して、文書が住所を含むときに文書においてビジネス情報をどのように認識するかに関する情報を収集してもよい。それらの特徴は、参照点(たとえば文書における住所)からの候補語の距離、候補語の特性、候補語に関連付けられる境界情報、および/または候補語に関連付けられる句読点情報に関連付けられてもよい。タイトルを判断するのに有用な特定の特徴は電話番号を判断するのに有用な情報と異なっていてもよい。これらの特徴は、さらに、他の種類のビジネス情報を判断することに関し、異なっていてもよい。
【0033】
候補タイトル語の特性に関する特徴の例は、その語が何であるか、それは数であるかどうか、それは大文字で始まっているか、大文字で書かれているか、太字であるか、斜体字であるか、下線付きであるか、もしくは中央揃えされているか、それはアンカーテキストの一部であるか、およびその長さは文字においてどのようであるか、を含むかもしれない。候補タイトル語に対する境界情報に関する特徴の例は、境界マーキング(たとえばHTMLタグ)の存在に基づくかもしれず、段落、区切り、またはリスト項目マーカがあるかどうか、および候補タイトル語と先行するまたは後続の語との間における表もしくはリストの始まりもしくは終わりに関するマーカがあるかどうかを含むかもしれない。ある候補タイトル語に対する句読点情報に関する特徴の例は、コンマ、ピリオド、感嘆符、疑問符、コロン、セミコロン、ダッシュ、一重もしくは二重引用符、括弧、またはスペースが候補タイトル語と先行するもしくは後続の語との間にあるかどうかを含むかもしれない。他の特徴は当業者には明らかであろう。
【0034】
候補電話番号語の特徴に関する特徴の例は、その語が何であるか、その長さは文字においてどのようであるか、およびもし電話がエリアコードを含む場合には、そのエリアコードはその住所がある地域に対して適切に見えるかどうかを含むかもしれない。ある候補電話番号語に対する境界情報に関する特徴の例は、境界マーキング(たとえばHTMLタグ)の存在に基づくかもしれず、段落、区切り、またはリスト項目マーカがあるかどうか、および候補電話番号語と住所との間において表もしくはリストの始まりもしくは終わりに関するマーカがあるかどうかを含むかもしれない。候補電話番号語と関連性があるいくつかの他の特徴は、一般的な電話番号語(たとえば「電話(call, calling, telephone, telephoning, phone, phoning, tel, tele, (T))など」)が候補電話番号語の前のある予め定められた数の語内に現われるかどうか、一般的なファクシミリ番号語(たとえば「ファックス(fax, faxing, (F))など」)が候補電話番号語の前のある予め定められた数の語内に現われるかどうか、候補電話番号語と住所との間に別の電話番号があるかどうか、を含むかもしれない。他の特徴は当業者には明らかであろう。
【0035】
統計的モデルを、ある文書におけるある語と関連付けられる特徴に基づいて用いて、その語がその文書においてある住所と関連付けられるビジネス情報の一部であるかどうかを予想してもよい。換言すると、統計的モデルはある数の異なる手掛かりをトレーニングセットから特定し、それらの手掛かりを用いて、あるタイトルがある文書内においてどこにおいて始まりそして終わりそうか、および/またはどの電話番号がその文書内におけるある住所に対応しそうかを判断してもよい。
【0036】
例示的なローカル項目抽出部
図6はこの発明の原理に一致するある実現例に従うローカル項目抽出部600の例示的な図である。1つの実現例においては、ローカル項目抽出部600は、ソフトウェアおよび/またはハードウェアによって、サーバ220(図2)、別の装置、またはサーバ220とは別のもしくはサーバ220を含む装置の群内において実現されてもよい。
【0037】
図6に示されるように、ローカル項目抽出部600は、住所を伴う文書を分析して、統計的モデル420に基づいてその住所に関連付けられるビジネス情報を判断してもよい分類部610を含んでもよい。分類部610によって分析される文書は、対応する職業別電話帳データがない住所を伴う文書、および/またはおそらく不正確な職業別電話帳データが存在する住所を伴う文書を含んでもよい。分類部610により実行される機能は、ビジネス情報が商号(タイトル)情報または電話番号情報に対応するかどうかに基づいて異なってもよい。さらに別の機能が、ビジネス情報が商号または電話番号情報以外の情報を含むときに実行されてもよい。
【0038】
図7はこの発明の原理に一致するある実現例に従って住所に関連付けられる商号(タイトル)を特定するための例示的処理のフローチャートである。処理は、住所を含む文書の特定で始まってもよい(ブロック710)。任意の周知の住所認識技術を用いて文書において住所を認識してよい。
【0039】
住所付近の語を分析してもよく、各語がタイトルの一部である確率を判断してもよい(ブロック720および730)。1つの実現例では、分析を、文書内における住所の直前の語で始めてもよい。換言すると、タイトルに対する検索を、住所において始めて、文書のテキストを逆方向に見てもよい。その理論は、タイトルが文書において住所に関連して生ずるとき、それはほとんどいつも文書において住所の前に生ずる、というものである。
【0040】
候補語を分析するとき、先行する語に関する予想が与えられ、および候補語の周りにおいて語のウィンドウが与えられるとして(たとえば左および右のある予め定められた数の語を見て)、統計的モデルに基づいて、候補語がタイトルの一部である確率を判断してもよい。この確率判断は、そのウィンドウにおける候補語および他の語の特徴に基づいてもよい。候補語に関連付けられる特徴は、たとえば、候補語の、住所からの距離、候補語の特性、候補語と先行するもしくは後続の語との間における境界情報、および/または候補語と先行するもしくは後続の語との間における句読点情報を含むかもしれない。
【0041】
0または1のいずれかであるt(i)を、住所の始まりに先行するi番目の語がタイトルにおける語である(=1)かまたはそうでない(=0)かの予想であるとする。x(i)をi番目の語それ自体とし、s(i)をx(i)の属性(たとえば距離および特性)とし、h(i)をx(i)と後続の(または先行する)語との間の境界情報とし、q(i)をx(i)と後続の(または先行する)語との間における句読点情報であるとする。その場合、x(i)がそのコンテキストにおいて条件付けられるタイトルの一部である確率は以下のように表現されてもよい:
F(i)=Prob[t(i)given x(i+2)x(i+1)x(i)x(i−1)x(i−2),s(i+2)s(i+1)s(i)s(i−1)s(i−2),h(i+1)h(i)h(i−1)h(i−2),q(i+1)q(i)q(i−1)q(i−2),t(i−1)]
式中、x(i+2)x(i+1)x(i)x(i−1)x(i−2)はx(i)の付近の語のウィンドウを指してもよく(語のウィンドウはx(i)の左に対し2つおよび右に対し2つとして示されているが、ウィンドウはこの発明の原理に一致する他の実現例においてはより大きくてもまたはより小さくてもよい)、s(i+2)s(i+1)s(i)s(i−1)s(i−2)はウィンドウにおける語の属性を示してもよく、h(i+1)h(i)h(i−1)h(i−2)はウィンドウにおける語の間の境界情報を示してもよく、q(i+1)q(i)q(i−1)q(i−2)はウィンドウにおける語の間の句読点情報を示してもよく、t(i−1)はx(i)に先行する語(つまりx(i−1))に関する予想を示してもよい。
【0042】
X=x(n)x(n−1)...x(2)x(1)とし、ここで、nは考慮されるテキストストリングのサイズ(たとえば20語)を示し、S=s(n)s(n−1)...s(2)s(1)、H=h(n−1)...h(2)h(1)、Q=q(n−1)...q(2)q(1)およびT=t(n)t(n−1)...t(2)t(1)とする。全ストリングの確率は、この場合、Prob(T given X,S,H,Q)から判断されてもよい。条件付き確率の定義およびマルコフのような仮定(つまりローカルなコンテキスト事項のみ)に基づいて、このストリングの確率は次のように表現されてもよい:
Prob(T given X,S,H,Q)=kF(n)F(n−1)...F(2)F(1)
式中、kはこのコンテキストに対する定数であり、この等式の右側においてF(i)においてt(i)およびt(i−1)はこの等式の左側においてTにあるものと一致する。
【0043】
Tは、次いで、Tにおけるすべての1は隣接しているという制約の対象となるProb(Tgiven X,S,H,Q)を最大にするよう選択されてもよい。そのようにするために、徹底的な検索をすべての2nTにわたって実行し、Prob(T given X,S,H,Q)を各Tごとに評価してもよい。まさにベストのタイトルを得るために、周知の、単一ソースの、最短経路アルゴリズムを用いてもよい。j個のベストのタイトルを得るために、周知のjベストアルゴリズムを用いてもよい。
【0044】
信頼度スコアを、特定される各候補タイトルに割当ててもよい(ブロック740)。この信頼度スコアはそのタイトルに関連付けられる確率(たとえばProb(T given X,S,H,Q))に関係していてもよい。選択肢として、住所に対するベストのタイトルを候補タイトルの組から判断してもよい(ブロック750)。1つの実現例では、住所に対するベストのタイトルは最も高い信頼度スコアを伴う候補タイトルとして特定されてもよい。別の実現例では、住所が文書の群に現われると、その住所に対するベストのタイトルを、文書の群にわたって最も高い信頼度スコアを伴う候補タイトル、または文書の群において最も多くの文書に現われる最も高い信頼度スコアを伴う候補タイトルとして特定してもよい。
【0045】
タイトルは次いで住所と関連付けられてビジネスリストを形成するかまたは補足してもよい。住所はその関連付けられたタイトルとともにメモリに記憶されてもよい。
【0046】
図8はこの発明の原理に一致するある実現例に従って住所に関連付けられる電話番号を特定するための例示的処理のフローチャートである。処理は住所を含む文書の特定で始まってもよい(ブロック810)。任意の周知の住所認識技術を用いて文書において住所を認識してよい。
【0047】
文書における候補電話番号の組を特定してもよい(ブロック820)。1つの実現例では、文書におけるすべての電話番号を候補電話番号として特定してもよい。別の実現例では、住所のある距離内における電話番号を特定してもよい。任意の周知のパターンマッチング技術を用いて候補電話番号の組を特定してよい。
【0048】
先行する候補電話番号に関する予想が与えられ、候補電話番号の付近において語のウィンドウが与えられるとして(たとえば左および右のある予め定められた数の語を見て)、候補電話番号の各々が住所に関連付けられる確率を、統計的モデルに基づいて判断してもよい(ブロック830)。この確率判断は、さらに、候補電話番号に関連付けられる特徴に基づいてもよい。特徴は、上記において説明されるように、候補電話番号の、住所からの距離、候補電話番号の特性、候補電話番号と住所との間における境界情報、および/または候補電話番号と住所との間における句読点情報を含むかもしれない。この確率は上記においてタイトルに関し記載された態様と同様の態様で判断されてもよく、そこにおいて、x(i)は、この場合においては、候補電話番号を示す。
【0049】
信頼度スコアを、候補電話番号に対し、それらの判断された確率に基づいて割当ててもよい(ブロック840)。選択肢として、住所に対するベストの電話番号を判断してもよい(ブロック850)。1つの実現例では、住所に対するベストの電話番号は、最も高い信頼度スコアを伴う候補電話番号として特定されてもよい。別の実現例では、住所が文書の群の中に現われる場合には、住所に対するベストの電話番号は、文書の群にわたって最も高い信頼度スコアを伴う候補電話番号として、または文書の群において最も多くの文書中に現われる最も高い信頼度スコアを伴う候補電話番号として特定されてもよい。
【0050】
電話番号は、次いで、住所と関連付けられて、ビジネスリストを形成または補足してもよい。住所と、その関連付けられた電話番号は、ともに、メモリに記憶されてもよい。
【0051】
例
図9〜図15はこの発明の原理に一致するある実現例に従って例示的な文書において実行されてもよい処理を示す図である。図9に示されるように、この文書はWashington, DC(ワシントンDC)にあるMorton's(モートンの)レストランのレビューに関連付けられるウェブページである。このウェブページに対し、周知の住所認識技術を用いて分析を行なって、このウェブページに郵便住所が含まれることを判断してもよい。図10に示されるように、住所は、123 Connecticut Avenue, Washington, DC 20200(123 コネチカット・アベニュー、ワシントン、DC 20200)に対応している。Morton'sは、関連付けられる職業別電話帳データを全く持たないか、またはおそらく不正確な職業別電話帳データを有している、と仮定する。
【0052】
住所に関連付けられる商号(タイトル)を特定しようと試みる際、検索を、その住所の直前の語で始めて、逆向きに進んでもよい。この場合では、検索は、図11に示されるように、「at(〜の)」という語で始まってもよい。候補語「at」が、その候補語の付近に語のウィンドウが与えられ、そのウィンドウにおけるそれらの語に関連付けられる特徴が与えられ、先の語に関連付けられる予想が与えられるとして、タイトルの一部である確率はどのようであるかを判断してもよい。
【0053】
この確率は、F(at)=Prob[t(at)given“visited Morton's at 123 Connecticut,”s(visited)s(Morton's)s(at)s(123)s(Connecticut),h(Morton's)h(at)h(123)h(Connecticut),q(Morton's)q(at)q(123)q(Connecticut),0]として表現されてもよく、そこにおいて、たとえば、s(at)は「at」という語の属性を示してもよく、h(at)は「at」という語とそれに続く語「Morton's」との間における境界情報を示してもよく、q(at)は「at」という語とそれに続く語「Morton's」という語との間における句読点情報を示してもよく、「0」は前の語に関する予想を示し、それはこの場合においては住所の一部に対応する。この単純な例は、候補語の左および右に2つの語のウィンドウを仮定するが、このウィンドウは実際にはより大きくてもまたはより小さくてもよい。
【0054】
候補語「at」に関連付けられる属性は、「at」という語の、住所からの距離を含むかもしれない。この場合においては、「at」という語は住所の直前になる。属性は、さらに、「at」という語の特性を含むかもしれない。この場合においては、語は「at」であり;それは数ではなく;それは大文字で始まってもいなければ、大文字でもなければ、太字でもなければ、斜体字でもなければ、下線を付けられてもいなければ、中央揃えされてもおらず;それはアンカーテキストの一部ではなく;それは長さにおいて2つの文字である。境界情報に対しては、「at」という語の左(または右)には境界マーカはないと仮定する。さらに、「at」という語の左(または右)には句読点もない。この確率判断は、「at」という語はタイトルの一部ではない(たとえばt(at)=0)という予想をもたらす結果となる。
【0055】
検索は、図12に示されるように、「Morton's」という語で続いてもよい。「Morton's」という候補語が、その候補語の付近に語のウィンドウが与えられ、そのウィンドウにおけるそれらの語に関連付けられる特徴が与えられ、先の語に関連付けられる予想が与えられるとして、タイトルの一部である確率はどのようであるかを判断してもよい。
【0056】
この確率はP(Morton's)=Prob[t(Morton's)given“recently visited Morton's at 123,”s(recently)s(visited)s(Morton's)s(at)s(123),h(visited)h(Morton's)h(at)h(123),q(visited)q(Morton's)q(at)q(123),0]として表現されてもよい。「Morton's」という語に関連付けられる属性は、「Morton's」という語の、住所からの距離を含むかもしれない。この場合においては、「Morton's」という語は住所から1語離れている。属性は、さらに、「Morton's」という語の特性を含むかもしれない。この場合においては、語は「Morton's」であり;、それは数ではなく;それは最初の文字が大文字であり;それは大文字ではなく、太字でもなく、斜体字でもなく、下線を付けられてもおらず、中央揃えされてもおらず;それはアンカーテキストの一部ではなく;それは長さが8文字である。境界情報に対しては、「Morton's」という語の左(または右)には境界マーカはないと仮定する。さらに、「Morton's」という語の左(または右)には句読点はない。この確率判断は、「Morton's」という語はタイトルの一部である(たとえばt(Morton's)=1)という予想をもたらす結果となる。
【0057】
検索は、図13に示されるように、「visited(訪ねた)」という語で続いてもよい。候補語「visited」が、その候補語の付近に語のウィンドウが与えられ、そのウィンドウにおけるそれらの語に関連付けられる特徴が与えられ、先の語に関連付けられる予想が与えられるとして、タイトルの一部である確率はどのようであるかを判断してもよい。
【0058】
この確率はP(visited)=Prob[t(visited)given“I recently visited Morton's at,”s(I)s(recently)s(visited)s(Morton's)s(at),h(recently)h(visited)h(Morton's)h(at),q(recently)q(visited)q(Morton's)q(at),1]として表現されてもよい。「visited」という語に関連付けられる属性は、「visited」という語の、住所からの距離を含むかもしれない。この場合においては、「visited」という語は住所から2語離れている。属性は、さらに、「visited」という語の特性を含むかもしれない。この場合においては、語は「visited」であり;それは数ではなく;それは大文字で始まってはおらず、大文字でもなく、太字でもなく、斜体字でもなく、下線を付けられてもおらず、中央揃えされてもおらず;それはアンカーテキストの一部ではなく;それは長さが7文字である。境界情報に対しては、「visited」という語の左(または右)には境界マーカはないと仮定する。さらに、「visited」という語の左(または右)には句読点はない。この確率判断は、「visited」という語はタイトルの一部ではない((t(visited)=0)という予想をもたらす結果となる。
【0059】
(ウェブページにおけるなんらかの語の組またはウェブページにおける語のすべてに関し)候補語の各々がタイトルの一部であるかどうか予想がなされると、スライドする語のストリングを考慮して、その語がタイトルを含む確率を最大にするストリングを特定してもよい。この処理は「Morton's」という語を住所に対する候補タイトルとして特定すると仮定する。ある信頼度スコアを、上記のように、候補タイトルに割当ててもよい。
【0060】
住所に関連付けられる電話番号を特定しようと試みる際、検索は、図14に示されるように、周知のパターンマッチング技術を用いて、ウェブページにおける電話番号のすべてを特定することにより、開始してもよい。この場合においては、2つの候補電話番号、つまり202−987−6543および202−987−6542が特定された。
【0061】
候補電話番号の各々が、その候補電話番号の付近に語のウィンドウが与えられ、候補電話番号に関連付けられる特徴が与えられ、先の電話番号に関連付けられる予想が与えられるとして、その住所に対する電話番号である確率はどのようであるかを判断してもよい。候補電話番号に関連付けられる特徴は、電話番号の、住所からの距離を含むかもしれない。この場合においては、双方の候補電話番号は住所から約150語分離れている。特徴は、さらに、境界情報が電話番号と住所との間に存在するかどうかを含むかもしれない。この場合においては、2つの段落境界が候補電話番号と住所との間に存在する。
【0062】
電話番号に関連性がある他の特徴は、一般的な電話番号語(たとえば「電話(call, calling, telephone, telephoning, phone, phoning, tel, tele, (T))など」)が電話番号語の前のある予め定められた数の語内に現われるかどうか、一般的なファクシミリ番号語(たとえば「ファックス(fax, faxing, (F))など」)が電話番号語の前のある予め定められた数の語内に現われるかどうか、それと住所との間に別の電話番号があるかどうか、を含む。この場合においては、確率判断は、202−987−6543という電話番号候補は202−987−6542という電話番号候補よりも住所に合っている電話番号でありそうであるという予想をもたらす結果となってもよい。
【0063】
候補電話番号は、それらの、住所に関連付けられる確率に基づいて、信頼度スコアを割当てられてもよい。
【0064】
住所に関連付けられるビジネスリストは、図15に示されるように、最も高い信頼度スコアを伴うタイトルおよび/または電話番号から情報を伴って形成または補足されてもよい。ビジネスリストはビジネスに関連付けられる文書へのリンク、ビジネスに対する住所情報、ビジネスに関する電話番号、ビジネスに言及する文書からの抜粋、および/またはビジネスに言及する文書への1つ以上のリンクを含んでもよい。
【0065】
結論
この発明の原理に一致するシステムおよび方法は、文書においてなんらかの目印(たとえば、郵便住所)を与えられるとして、目印の属性(たとえばビジネス情報、たとえば商号、電話番号、営業時間、またはウェブサイトもしくはマップへのリンク)をその文書において見つけるよう試みる。先の記載は文書において住所に関連付けられるビジネス情報を見つけることに焦点を置いたが、これは必ずしもそうである必要はない。他の実現例では、上記の処理は他の目印および属性に当てはまってもよく、たとえば、製品(目印)に関連付けられる価格(属性)または製品識別番号(属性)を見つけ出してもよい。文書に現われてもよい他の種類の目印および属性は当業者には明らかであろう。
【0066】
この発明の好ましい実施例の、前述の記載は、説明および記載を与えてはいるが、排他的であったり、またはこの発明を開示される形式そのものに限定するよう意図されるものではない。修正および変形が、上記の教示に照らして可能であり、またはこの発明の実施から得られてもよい。
【0067】
たとえば、一連の動作が図5、図7および図8を参照して記載されているが、これら動作の順序はこの発明の原理に従う他の実現例においては修正されてもよい。さらに、非依存性の動作を平行して実行してもよい。
【0068】
さらに、候補語が住所に関連付けられるビジネス情報の一部である確率は、特徴、たとえばその語の付近の語からなるウィンドウ、先の語に関する予想、ならびにそのウィンドウにおける1つ以上の語に関連付けられる属性、境界情報および句読点などに基づくと記載されたが、別の実現例では、より多くの、より少ない、または異なる特徴を用いて、候補語が住所に関連付けられるビジネス情報の一部であるかどうかを予想してもよい。
【0069】
当業者には、上記のような、この発明の局面は、図に示される実現例において数多くの異なる形式のソフトウェア、ファームウェアおよびハードウェアにおいて実現されてもよいことは明らかである。この発明の原理に一致する局面を実現するよう用いられる実際のソフトウェアコードまたは専門化された制御ハードウェアはこの発明の限定ではない。このように、それら局面の動作およびふるまいは具体的なソフトウェアコードに対する言及なく記載され−−当業者であればここにおける記載に基づいてそれらの局面を実現するようソフトウェアおよび制御ハードウェアを設計することが可能であろうことが理解される。
【0070】
本願において用いられるいかなる要素、行為または命令も、この発明にとって重要または本質的であるとして明記されるのでなければ、そのように解釈されるべきではない。さらに、ここで用いられるとおりでは、「a(ある〜)」という冠詞は1つ以上のものを含むよう意図される。たった1つのものを意図する場合には、「1つの」または同様の文言が用いられている。さらに、「〜に基づく」という表現は、特段の明記がなければ、「少なくとも一部は〜に基づく」を意味するよう意図される。
【技術分野】
【0001】
背景
発明の分野
ここに記述される実現例は、一般的には、ローカル(local)情報検索、より特定的には、住所に関連付けられるビジネス情報の特定に関する。
【背景技術】
【0002】
関連技術の説明
ワールドワイドウェブ(「ウェブ」)は大量の情報を含んでいる。情報のうち所望される部分を見つけることは、しかしながら、困難であり得る。この問題は悪化しており、なぜならば、ウェブ上の情報量、およびウェブ検索において経験のない新規のユーザの数が急速の増大しているからである。
【0003】
検索システムは、ユーザが興味を持っているウェブページにハイパーリンクを返すことを試みる。一般に、検索システムは、それらの、ユーザの関心についての判断を、ユーザによって入力された検索語(検索クエリと呼ばれる)に基づかせる。検索システムの目的は、検索クエリに基づいて、高品質の、関連性のある結果(たとえばウェブページ)へのリンクを、ユーザに与えることである。典型的には、検索システムは、予め記憶されたウェブページのコーパスに検索クエリ中の語を突合わせることにより、これを達成する。ユーザの検索語を包含しているウェブページは「ヒット」であり、リンクとしてユーザに返される。
【発明の概要】
【発明が解決しようとする課題】
【0004】
ローカル検索システムは、特定の地域内の関連性のあるウェブページおよび/またはビジネスリストを返すことを試みる。ビジネスがウェブページにおいて言及されるとき、既存のローカル検索システムは、そのビジネスを職業別電話帳データと突合わせることにより、対応するビジネスリストを特定してもよい。この技術は、しかしながら、職業別電話帳データが存在しないか、または職業別電話帳データがビジネスに対して不正確であるときには、実行可能ではない。
【課題を解決するための手段】
【0005】
概要
1つの局面によれば、ある方法は、住所を含む文書を特定するステップと、その文書においてビジネス情報を見つけるステップと、そのビジネス情報に信頼度スコアを割当てるステップとを含んでもよく、信頼度スコアはそのビジネス情報がその住所に関連付けられる確率に関してもよい。この方法は、さらに、割当てられた信頼度スコアに基づいて住所にビジネス情報を関連付けるべきかどうかを判断するステップを含んでもよい。
【0006】
別の局面によれば、ある方法は、住所を含む文書を特定するステップと、その文書においてその住所に先行する語の組を特定するステップと、それらの語の各々がその住所に関連付けられるタイトルの一部である確率を判断するステップとを含んでもよい。この方法は、さらに、住所に関連付けられるタイトルの一部である高い確率を有している語の1つ以上に基づいて候補タイトルを特定するステップと、候補タイトルに信頼度スコアを割当てるステップと、割当てられた信頼度スコアに基づいて住所に候補タイトルを関連付けるべきかどうかを判断するステップとを含んでもよい。
【0007】
さらに別の局面によれば、ある方法は、住所を含む文書を特定するステップと、その文書において候補電話番号の組を特定するステップと、その候補電話番号の組における各候補電話番号が住所に関連付けられる確率を判断するステップと、判断された確率に基づいて住所に候補番号のうちの1つを関連付けるべきかどうかを判断するステップとを含んでもよい。
【0008】
さらなる局面によれば、ある方法は、目印を含むウェブページを特定するステップと、そのウェブページにおいて属性を特定するステップと、その属性に信頼度スコアを割当てるステップとを含んでもよく、信頼度スコアは、属性が目印に関連付けられる確率に関してもよい。この方法は、さらに、割当てられた信頼度スコアに基づいて属性を目印に関連付けるべきかどうかを判断するステップを含んでもよい。
【図面の簡単な説明】
【0009】
【図1】住所を含む例示的文書の図である。
【図2】この発明の原理に一致するシステムおよび方法が実現されてもよいネットワークの例示的な図である。
【図3】この発明の原理に一致するある実現例に従う図2のクライアントサーバの例示的な図である。
【図4】この発明の原理に一致するある実現例に従うトレーニングシステムの例示的な図である。
【図5】この発明の原理に一致するある実現例に従う統計的モデルをトレーニングするための例示的処理のフローチャートである。
【図6】この発明の原理に一致するある実現例に従うローカル項目抽出部の例示的な図である。
【図7】この発明の原理に一致するある実現例に従って住所に関連付けられる商号(タイトル)を特定するための例示的処理のフローチャートである。
【図8】この発明の原理に一致するある実現例に従って住所に関連付けられる電話番号を特定するための例示的処理のフローチャートである。
【図9】この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。
【図10】この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。
【図11】この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。
【図12】この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。
【図13】この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。
【図14】この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。
【図15】この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。
【発明を実施するための形態】
【0010】
添付の図面は、この明細書において援用され、その一部を構成するものであるが、この発明の実施例を示し、記載とともに、この発明を説明するものである。
【0011】
詳細な説明
この発明の以下の詳細な説明は、添付図面に言及する。異なる図面における同じ参照番号は同じまたは同様の要素を特定する場合がある。さらに、以下の詳細な説明はこの発明を限定しはしない。
【0012】
外観
ローカル検索は特定の地域に関連付けられるビジネスリストを特定することを伴う。ウェブは何十億もの文書を含んでおり、それらのうちのいくつかはビジネスに言及しているかもしれない。できるだけ多くの異なるビジネスに関連付けられたビジネス情報を特定することは、ローカル検索システムに有益である。しばしば、職業別電話帳データがビジネスに関連付けられている。しかしながら、時には、ビジネスは、職業別電話帳データがないか、または、職業別電話帳データがおそらくは不正確な文書中で、言及されている。
【0013】
この発明の原理と一致するシステムおよび方法は、ウェブ文書中で言及される住所に関連付けられるビジネス情報を特定してもよい。1つの実現例では、ビジネス情報は住所に関連付けられたビジネスの名称を含んでいる。別の実現例では、ビジネス情報は、住所に関連付けられた電話番号を含んでいる。さらに別の実現例では、ビジネス情報は、住所に関連付けられたビジネスについての営業時間またはウェブサイトもしくは地図へのリンクのような別の種類の情報を含んでもよい。
【0014】
図1は住所を含んでいる例示的文書の図である。図示されるように、この文書はPennsylvania(ペンシルベニア州)のOakmont(オークモント)にあるレストランであるVeltri's Pizza(ベルトリズ・ピザ)のレビューに関連付けられている。文書は、それが郵便住所(つまり123 Allegheny Avenue in Oakmont, PA(123、アレゲーニー・アベニュー、オークモント、ペンシルベニア州))を含むことを判断するよう分析されてもよい。ベルトリズは関連付けられた職業別電話帳データを有していないかまたはおそらく不正確な職業別電話帳データを有している、と仮定する。
【0015】
ここに記載される技術を用いて、文書は、さらに、住所に関連付けられたビジネス情報を判断するよう分析されてもよい。ビジネス情報は住所に関連付けられた商号(ここにおいては「タイトル」とも称される)および/または電話番号を含んでもよい。ビジネス情報は住所に関連付けられるビジネスリストを生成または訂正するよう用いられてもよい。
【0016】
「文書」という語は、ここで用いられるとおりでは、いかなる機械読取可能なおよび機械記憶可能なワークプロダクト(work product)をも含むよう広く解釈される。文書は、たとえばeメール、ウェブサイト、ビジネスリスト、ファイル、ファイルの組合せ、他のファイルへの埋込まれたリンクを備えた1つ以上のファイル、ニュースグループポスティング、ブログ、ウェブ広告などを含んでもよい。インターネットの中では、ある一般的な文書はウェブページである。ウェブページはしばしばテキスト情報を含んでおり、埋込まれた情報(メタ情報、画像、ハイパーリンクなど)および/または埋込まれた命令(ジャバスクリプト(Java(登録商標)script)など)を含んでもよい。「リンク」という語は、ここで用いられるとおりでは、ある文書から別の文書または同じ文書内の別の部分への、またはその逆の、いかなる参照をも含めるよう広く解釈される。
【0017】
例示的ネットワーク構成
図2は、この発明の原理と一致するシステムおよび方法が実現されてもよいネットワーク200の例示的な図である。ネットワーク200は、ネットワーク250を介して複数のサーバ220〜240に接続される複数のクライアント210を含んでもよい。簡潔性のため、2つのクライアント210および3つのサーバ220〜240がネットワーク250に接続されるように図示される。実際には、より多くの、またはより少ないクライアントおよびサーバがあってもよい。さらに、いくつかの例では、あるクライアントはサーバの機能を実行してもよく、あるサーバはクライアントの機能を実行してもよい。
【0018】
クライアント210はクライアントエンティティを含んでもよい。エンティティは、無線電話、パソコン、携帯情報端末(PDA)、ラップトップ、もしくは別の種類の計算もしくは通信装置のような装置、これらの装置のうちの1つの上で実行されるスレッドもしくは処理、および/またはこれらの装置のうちの1つによって実行可能なオブジェクトとして規定されてもよい。サーバ220〜240はこの発明の原理と一致する態様で文書を収集し、処理し、検索し、および/または維持するサーバエンティティを含んでもよい。
【0019】
この発明の原理と一致するある実現例では、サーバ220はクライアント210によって使用可能な検索エンジン225を含んでもよい。サーバ220は、文書(たとえばウェブ文書)のコーパスを巡回し、文書にインデックスを付け、文書に関連付けられる情報を文書のレポジトリに記憶してもよい。サーバ230および240はサーバ220により巡回または分析されてもよい文書を記憶または維持してもよい。
【0020】
サーバ220〜240は別々のエンティティとして示されているが、サーバ220〜240の1つ以上が、サーバ220〜240のうちの別の1つ以上の、1つ以上の機能を実行することが可能であってもよい。たとえば、サーバ220〜240のうちの2つ以上が単一のサーバとして実現されることが可能であってもよい。さらに、サーバ220〜240のうちの1つが2つ以上の別々の(およびおそらくは分散された)装置として実現されることが可能であってもよい。
【0021】
ネットワーク250は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、電話網、たとえば公衆交換電話網(PSTN)、イントラネット、インターネット、記憶装置、またはネットワークの組合せを含んでもよい。クライアント210およびサーバ220〜240は、ネットワーク250に、有線、無線、および/または光接続を介して接続してもよい。
【0022】
例示的クライアント/サーバアーキテクチャ
図3はクライアントまたはサーバエンティティ(以下「クライアント/サーバエンティティ」と称される)の例示的な図であるが、それは、この発明の原理に一致する実現例によれば、1つ以上のクライアント210および/またはサーバ220〜240に対応してもよい。クライアント/サーバエンティティは、バス310、プロセッサ320、メインメモリ330、リードオンリメモリ(ROM)340、記憶装置350、入力装置360、出力装置370、および通信インターフェイス308を含んでもよい。バス310はクライアント/サーバエンティティの要素間において通信を可能にする通路を含んでもよい。
【0023】
プロセッサ320は、命令を解釈および実行する従来のプロセッサ、マイクロプロセッサまたは処理論理を含んでもよい。メインメモリ330は、プロセッサ320による実行のため情報および命令を記憶してもよいランダムアクセスメモリ(RAM)または別のタイプの動的記憶装置を含んでもよい。ROM340はプロセッサ320による使用のため静的情報および命令を記憶してもよい従来のROM装置または別のタイプの静的記憶装置を含んでもよい。記憶装置350は磁気および/または光記録媒体ならびにその対応するドライブを含んでもよい。
【0024】
入力装置360はオペレータが情報をクライアント/サーバエンティティに入力できるような従来の機構、たとえばキーボード、マウス、ペン、音声認識および/またはバイオメトリック機構などを含んでもよい。出力装置370は、情報をオペレータに出力する、ディスプレイ、プリンタ、スピーカなどの従来の機構を含んでもよい。通信インターフェイス380はクライアント/サーバエンティティが他の装置および/またはシステムと通信することを可能にする任意のトランシーバのような機構を含んでもよい。たとえば、通信インターフェイス380は、別の装置またはシステムと、ネットワーク、たとえばネットワーク250を介して通信するための機構を含んでもよい。
【0025】
この発明の原理と一致するクライアント/サーバエンティティは、以下に詳細に記載されるように、ある動作を実行してもよい。クライアント/サーバエンティティは、これらの動作を、プロセッサ320がたとえばメモリ330のようなコンピュータ読取可能媒体に含まれるソフトウェア命令を実行することに応答して実行してもよい。コンピュータ読取可能媒体は物理もしくは論理メモリ装置および/または搬送波として定義されてもよい。
【0026】
ソフトウェア命令は、別のコンピュータ読取可能媒体、たとえばデータ記憶装置350から、または別の装置から通信インターフェイス380を介して、メモリ330に読込まれてもよい。メモリ330に含まれるソフトウェア命令は、プロセッサ320に、後に記載されるような処理を実行させてもよい。代替的に、結線で接続された回路系をソフトウェア命令の代わりにまたはソフトウェア命令との組合せで用いてこの発明の原理に一致する処理を実現してもよい。このように、この発明の原理に一致する実現例はハードウェア回路系およびソフトウェアのいかなる特定の組合せにも限定されるものではない。
【0027】
例示的なトレーニングシステム
図4はこの発明の原理に一致するある実現例に従うトレーニングシステム400の例示的な図である。1つの実現例においては、トレーニングシステム400は、ソフトウェアおよび/またはハードウェアにより、サーバ220(図2)、別の装置、またはサーバ220とは別途のもしくはサーバ220を含む装置の群内において実現されてもよい。
【0028】
図4に示されるように、トレーニングシステム400はトレーニングセットに基づいた統計的モデル420を発生させるトレーナ410を含んでもよい。1つの実現例では、職業別電話帳データが存在する住所を含む文書の組を特定してもよい。一般的には、トレーナ410は職業別電話帳データが存在する文書の組においてビジネス情報と共通に関連付けられる特徴を特定して統計的モデル420を発生させてもよい。統計的モデル420は、職業別電話帳データが存在しないかまたはおそらくは不正確な職業別電話帳データが存在する住所を含む文書内においてビジネス情報がどこに見つかるかもしれないかを予想するよう用いられてもよい。
【0029】
図5はこの発明の原理に一致するある実現例に従うトレーニング統計的モデル420に対する例示的処理のフローチャートである。処理は、文書のコーパスを分析して、職業別電話帳データが存在する住所を含む文書を特定することから始まってもよい(ブロック510)。たとえば、文書コーパス内の文書は、それらの文書が住所を含むかどうかを判断するよう分析されてもよい。任意の周知の住所認識技術を用いて文書において住所を認識してよい。
【0030】
ある文書が、住所を含むとして特定されると、その住所を、職業別電話帳データに対して分析して、職業別電話帳データがその住所と一致するビジネスリストを含むかどうかを判断してもよい。職業別電話帳のビジネスリストから、ビジネス情報、たとえば商号(「タイトル」)および/または電話番号などが特定されてもよい。このビジネス情報は、次いで、文書内において特定されてもよい(ブロック520)。たとえば、文書のテキストを分析して、テキストのいずれかがビジネス情報に一致するかどうかを判断してもよい。
【0031】
テキストのいずれもビジネス情報に一致しないときは、その文書はトレーニングセットから取除かれてもよい。文書のテキストがビジネス情報に一致すると、その住所およびビジネス情報はその文書内にマーキングされてもよく(ブロック530)、その文書はトレーニングセットに含まれてもよい。任意の周知のマーキング技術を用いて住所およびビジネス情報を文書においてマーキングしてよい。1つの実現例では、ビジネス情報が住所の付近に生ずる文書のみ(たとえば、住所の左および/または右に対して予め定められた数の語、たとえば20語または60語内など)がトレーニングセットに含まれてもよい。別の実現例では、ビジネス情報が文書においてどこでもよいから生ずる文書がトレーニングセットに含まれてもよい。
【0032】
一旦トレーニングセットが確立されると、それは何百万もの文書を含んでもよいものでであるが、統計的モデルがそのトレーニングセットに基づいて発生されてもよい(ブロック540)。たとえば、トレーニングセットにおける文書を分析して、文書が住所を含むときに文書においてビジネス情報をどのように認識するかに関する情報を収集してもよい。それらの特徴は、参照点(たとえば文書における住所)からの候補語の距離、候補語の特性、候補語に関連付けられる境界情報、および/または候補語に関連付けられる句読点情報に関連付けられてもよい。タイトルを判断するのに有用な特定の特徴は電話番号を判断するのに有用な情報と異なっていてもよい。これらの特徴は、さらに、他の種類のビジネス情報を判断することに関し、異なっていてもよい。
【0033】
候補タイトル語の特性に関する特徴の例は、その語が何であるか、それは数であるかどうか、それは大文字で始まっているか、大文字で書かれているか、太字であるか、斜体字であるか、下線付きであるか、もしくは中央揃えされているか、それはアンカーテキストの一部であるか、およびその長さは文字においてどのようであるか、を含むかもしれない。候補タイトル語に対する境界情報に関する特徴の例は、境界マーキング(たとえばHTMLタグ)の存在に基づくかもしれず、段落、区切り、またはリスト項目マーカがあるかどうか、および候補タイトル語と先行するまたは後続の語との間における表もしくはリストの始まりもしくは終わりに関するマーカがあるかどうかを含むかもしれない。ある候補タイトル語に対する句読点情報に関する特徴の例は、コンマ、ピリオド、感嘆符、疑問符、コロン、セミコロン、ダッシュ、一重もしくは二重引用符、括弧、またはスペースが候補タイトル語と先行するもしくは後続の語との間にあるかどうかを含むかもしれない。他の特徴は当業者には明らかであろう。
【0034】
候補電話番号語の特徴に関する特徴の例は、その語が何であるか、その長さは文字においてどのようであるか、およびもし電話がエリアコードを含む場合には、そのエリアコードはその住所がある地域に対して適切に見えるかどうかを含むかもしれない。ある候補電話番号語に対する境界情報に関する特徴の例は、境界マーキング(たとえばHTMLタグ)の存在に基づくかもしれず、段落、区切り、またはリスト項目マーカがあるかどうか、および候補電話番号語と住所との間において表もしくはリストの始まりもしくは終わりに関するマーカがあるかどうかを含むかもしれない。候補電話番号語と関連性があるいくつかの他の特徴は、一般的な電話番号語(たとえば「電話(call, calling, telephone, telephoning, phone, phoning, tel, tele, (T))など」)が候補電話番号語の前のある予め定められた数の語内に現われるかどうか、一般的なファクシミリ番号語(たとえば「ファックス(fax, faxing, (F))など」)が候補電話番号語の前のある予め定められた数の語内に現われるかどうか、候補電話番号語と住所との間に別の電話番号があるかどうか、を含むかもしれない。他の特徴は当業者には明らかであろう。
【0035】
統計的モデルを、ある文書におけるある語と関連付けられる特徴に基づいて用いて、その語がその文書においてある住所と関連付けられるビジネス情報の一部であるかどうかを予想してもよい。換言すると、統計的モデルはある数の異なる手掛かりをトレーニングセットから特定し、それらの手掛かりを用いて、あるタイトルがある文書内においてどこにおいて始まりそして終わりそうか、および/またはどの電話番号がその文書内におけるある住所に対応しそうかを判断してもよい。
【0036】
例示的なローカル項目抽出部
図6はこの発明の原理に一致するある実現例に従うローカル項目抽出部600の例示的な図である。1つの実現例においては、ローカル項目抽出部600は、ソフトウェアおよび/またはハードウェアによって、サーバ220(図2)、別の装置、またはサーバ220とは別のもしくはサーバ220を含む装置の群内において実現されてもよい。
【0037】
図6に示されるように、ローカル項目抽出部600は、住所を伴う文書を分析して、統計的モデル420に基づいてその住所に関連付けられるビジネス情報を判断してもよい分類部610を含んでもよい。分類部610によって分析される文書は、対応する職業別電話帳データがない住所を伴う文書、および/またはおそらく不正確な職業別電話帳データが存在する住所を伴う文書を含んでもよい。分類部610により実行される機能は、ビジネス情報が商号(タイトル)情報または電話番号情報に対応するかどうかに基づいて異なってもよい。さらに別の機能が、ビジネス情報が商号または電話番号情報以外の情報を含むときに実行されてもよい。
【0038】
図7はこの発明の原理に一致するある実現例に従って住所に関連付けられる商号(タイトル)を特定するための例示的処理のフローチャートである。処理は、住所を含む文書の特定で始まってもよい(ブロック710)。任意の周知の住所認識技術を用いて文書において住所を認識してよい。
【0039】
住所付近の語を分析してもよく、各語がタイトルの一部である確率を判断してもよい(ブロック720および730)。1つの実現例では、分析を、文書内における住所の直前の語で始めてもよい。換言すると、タイトルに対する検索を、住所において始めて、文書のテキストを逆方向に見てもよい。その理論は、タイトルが文書において住所に関連して生ずるとき、それはほとんどいつも文書において住所の前に生ずる、というものである。
【0040】
候補語を分析するとき、先行する語に関する予想が与えられ、および候補語の周りにおいて語のウィンドウが与えられるとして(たとえば左および右のある予め定められた数の語を見て)、統計的モデルに基づいて、候補語がタイトルの一部である確率を判断してもよい。この確率判断は、そのウィンドウにおける候補語および他の語の特徴に基づいてもよい。候補語に関連付けられる特徴は、たとえば、候補語の、住所からの距離、候補語の特性、候補語と先行するもしくは後続の語との間における境界情報、および/または候補語と先行するもしくは後続の語との間における句読点情報を含むかもしれない。
【0041】
0または1のいずれかであるt(i)を、住所の始まりに先行するi番目の語がタイトルにおける語である(=1)かまたはそうでない(=0)かの予想であるとする。x(i)をi番目の語それ自体とし、s(i)をx(i)の属性(たとえば距離および特性)とし、h(i)をx(i)と後続の(または先行する)語との間の境界情報とし、q(i)をx(i)と後続の(または先行する)語との間における句読点情報であるとする。その場合、x(i)がそのコンテキストにおいて条件付けられるタイトルの一部である確率は以下のように表現されてもよい:
F(i)=Prob[t(i)given x(i+2)x(i+1)x(i)x(i−1)x(i−2),s(i+2)s(i+1)s(i)s(i−1)s(i−2),h(i+1)h(i)h(i−1)h(i−2),q(i+1)q(i)q(i−1)q(i−2),t(i−1)]
式中、x(i+2)x(i+1)x(i)x(i−1)x(i−2)はx(i)の付近の語のウィンドウを指してもよく(語のウィンドウはx(i)の左に対し2つおよび右に対し2つとして示されているが、ウィンドウはこの発明の原理に一致する他の実現例においてはより大きくてもまたはより小さくてもよい)、s(i+2)s(i+1)s(i)s(i−1)s(i−2)はウィンドウにおける語の属性を示してもよく、h(i+1)h(i)h(i−1)h(i−2)はウィンドウにおける語の間の境界情報を示してもよく、q(i+1)q(i)q(i−1)q(i−2)はウィンドウにおける語の間の句読点情報を示してもよく、t(i−1)はx(i)に先行する語(つまりx(i−1))に関する予想を示してもよい。
【0042】
X=x(n)x(n−1)...x(2)x(1)とし、ここで、nは考慮されるテキストストリングのサイズ(たとえば20語)を示し、S=s(n)s(n−1)...s(2)s(1)、H=h(n−1)...h(2)h(1)、Q=q(n−1)...q(2)q(1)およびT=t(n)t(n−1)...t(2)t(1)とする。全ストリングの確率は、この場合、Prob(T given X,S,H,Q)から判断されてもよい。条件付き確率の定義およびマルコフのような仮定(つまりローカルなコンテキスト事項のみ)に基づいて、このストリングの確率は次のように表現されてもよい:
Prob(T given X,S,H,Q)=kF(n)F(n−1)...F(2)F(1)
式中、kはこのコンテキストに対する定数であり、この等式の右側においてF(i)においてt(i)およびt(i−1)はこの等式の左側においてTにあるものと一致する。
【0043】
Tは、次いで、Tにおけるすべての1は隣接しているという制約の対象となるProb(Tgiven X,S,H,Q)を最大にするよう選択されてもよい。そのようにするために、徹底的な検索をすべての2nTにわたって実行し、Prob(T given X,S,H,Q)を各Tごとに評価してもよい。まさにベストのタイトルを得るために、周知の、単一ソースの、最短経路アルゴリズムを用いてもよい。j個のベストのタイトルを得るために、周知のjベストアルゴリズムを用いてもよい。
【0044】
信頼度スコアを、特定される各候補タイトルに割当ててもよい(ブロック740)。この信頼度スコアはそのタイトルに関連付けられる確率(たとえばProb(T given X,S,H,Q))に関係していてもよい。選択肢として、住所に対するベストのタイトルを候補タイトルの組から判断してもよい(ブロック750)。1つの実現例では、住所に対するベストのタイトルは最も高い信頼度スコアを伴う候補タイトルとして特定されてもよい。別の実現例では、住所が文書の群に現われると、その住所に対するベストのタイトルを、文書の群にわたって最も高い信頼度スコアを伴う候補タイトル、または文書の群において最も多くの文書に現われる最も高い信頼度スコアを伴う候補タイトルとして特定してもよい。
【0045】
タイトルは次いで住所と関連付けられてビジネスリストを形成するかまたは補足してもよい。住所はその関連付けられたタイトルとともにメモリに記憶されてもよい。
【0046】
図8はこの発明の原理に一致するある実現例に従って住所に関連付けられる電話番号を特定するための例示的処理のフローチャートである。処理は住所を含む文書の特定で始まってもよい(ブロック810)。任意の周知の住所認識技術を用いて文書において住所を認識してよい。
【0047】
文書における候補電話番号の組を特定してもよい(ブロック820)。1つの実現例では、文書におけるすべての電話番号を候補電話番号として特定してもよい。別の実現例では、住所のある距離内における電話番号を特定してもよい。任意の周知のパターンマッチング技術を用いて候補電話番号の組を特定してよい。
【0048】
先行する候補電話番号に関する予想が与えられ、候補電話番号の付近において語のウィンドウが与えられるとして(たとえば左および右のある予め定められた数の語を見て)、候補電話番号の各々が住所に関連付けられる確率を、統計的モデルに基づいて判断してもよい(ブロック830)。この確率判断は、さらに、候補電話番号に関連付けられる特徴に基づいてもよい。特徴は、上記において説明されるように、候補電話番号の、住所からの距離、候補電話番号の特性、候補電話番号と住所との間における境界情報、および/または候補電話番号と住所との間における句読点情報を含むかもしれない。この確率は上記においてタイトルに関し記載された態様と同様の態様で判断されてもよく、そこにおいて、x(i)は、この場合においては、候補電話番号を示す。
【0049】
信頼度スコアを、候補電話番号に対し、それらの判断された確率に基づいて割当ててもよい(ブロック840)。選択肢として、住所に対するベストの電話番号を判断してもよい(ブロック850)。1つの実現例では、住所に対するベストの電話番号は、最も高い信頼度スコアを伴う候補電話番号として特定されてもよい。別の実現例では、住所が文書の群の中に現われる場合には、住所に対するベストの電話番号は、文書の群にわたって最も高い信頼度スコアを伴う候補電話番号として、または文書の群において最も多くの文書中に現われる最も高い信頼度スコアを伴う候補電話番号として特定されてもよい。
【0050】
電話番号は、次いで、住所と関連付けられて、ビジネスリストを形成または補足してもよい。住所と、その関連付けられた電話番号は、ともに、メモリに記憶されてもよい。
【0051】
例
図9〜図15はこの発明の原理に一致するある実現例に従って例示的な文書において実行されてもよい処理を示す図である。図9に示されるように、この文書はWashington, DC(ワシントンDC)にあるMorton's(モートンの)レストランのレビューに関連付けられるウェブページである。このウェブページに対し、周知の住所認識技術を用いて分析を行なって、このウェブページに郵便住所が含まれることを判断してもよい。図10に示されるように、住所は、123 Connecticut Avenue, Washington, DC 20200(123 コネチカット・アベニュー、ワシントン、DC 20200)に対応している。Morton'sは、関連付けられる職業別電話帳データを全く持たないか、またはおそらく不正確な職業別電話帳データを有している、と仮定する。
【0052】
住所に関連付けられる商号(タイトル)を特定しようと試みる際、検索を、その住所の直前の語で始めて、逆向きに進んでもよい。この場合では、検索は、図11に示されるように、「at(〜の)」という語で始まってもよい。候補語「at」が、その候補語の付近に語のウィンドウが与えられ、そのウィンドウにおけるそれらの語に関連付けられる特徴が与えられ、先の語に関連付けられる予想が与えられるとして、タイトルの一部である確率はどのようであるかを判断してもよい。
【0053】
この確率は、F(at)=Prob[t(at)given“visited Morton's at 123 Connecticut,”s(visited)s(Morton's)s(at)s(123)s(Connecticut),h(Morton's)h(at)h(123)h(Connecticut),q(Morton's)q(at)q(123)q(Connecticut),0]として表現されてもよく、そこにおいて、たとえば、s(at)は「at」という語の属性を示してもよく、h(at)は「at」という語とそれに続く語「Morton's」との間における境界情報を示してもよく、q(at)は「at」という語とそれに続く語「Morton's」という語との間における句読点情報を示してもよく、「0」は前の語に関する予想を示し、それはこの場合においては住所の一部に対応する。この単純な例は、候補語の左および右に2つの語のウィンドウを仮定するが、このウィンドウは実際にはより大きくてもまたはより小さくてもよい。
【0054】
候補語「at」に関連付けられる属性は、「at」という語の、住所からの距離を含むかもしれない。この場合においては、「at」という語は住所の直前になる。属性は、さらに、「at」という語の特性を含むかもしれない。この場合においては、語は「at」であり;それは数ではなく;それは大文字で始まってもいなければ、大文字でもなければ、太字でもなければ、斜体字でもなければ、下線を付けられてもいなければ、中央揃えされてもおらず;それはアンカーテキストの一部ではなく;それは長さにおいて2つの文字である。境界情報に対しては、「at」という語の左(または右)には境界マーカはないと仮定する。さらに、「at」という語の左(または右)には句読点もない。この確率判断は、「at」という語はタイトルの一部ではない(たとえばt(at)=0)という予想をもたらす結果となる。
【0055】
検索は、図12に示されるように、「Morton's」という語で続いてもよい。「Morton's」という候補語が、その候補語の付近に語のウィンドウが与えられ、そのウィンドウにおけるそれらの語に関連付けられる特徴が与えられ、先の語に関連付けられる予想が与えられるとして、タイトルの一部である確率はどのようであるかを判断してもよい。
【0056】
この確率はP(Morton's)=Prob[t(Morton's)given“recently visited Morton's at 123,”s(recently)s(visited)s(Morton's)s(at)s(123),h(visited)h(Morton's)h(at)h(123),q(visited)q(Morton's)q(at)q(123),0]として表現されてもよい。「Morton's」という語に関連付けられる属性は、「Morton's」という語の、住所からの距離を含むかもしれない。この場合においては、「Morton's」という語は住所から1語離れている。属性は、さらに、「Morton's」という語の特性を含むかもしれない。この場合においては、語は「Morton's」であり;、それは数ではなく;それは最初の文字が大文字であり;それは大文字ではなく、太字でもなく、斜体字でもなく、下線を付けられてもおらず、中央揃えされてもおらず;それはアンカーテキストの一部ではなく;それは長さが8文字である。境界情報に対しては、「Morton's」という語の左(または右)には境界マーカはないと仮定する。さらに、「Morton's」という語の左(または右)には句読点はない。この確率判断は、「Morton's」という語はタイトルの一部である(たとえばt(Morton's)=1)という予想をもたらす結果となる。
【0057】
検索は、図13に示されるように、「visited(訪ねた)」という語で続いてもよい。候補語「visited」が、その候補語の付近に語のウィンドウが与えられ、そのウィンドウにおけるそれらの語に関連付けられる特徴が与えられ、先の語に関連付けられる予想が与えられるとして、タイトルの一部である確率はどのようであるかを判断してもよい。
【0058】
この確率はP(visited)=Prob[t(visited)given“I recently visited Morton's at,”s(I)s(recently)s(visited)s(Morton's)s(at),h(recently)h(visited)h(Morton's)h(at),q(recently)q(visited)q(Morton's)q(at),1]として表現されてもよい。「visited」という語に関連付けられる属性は、「visited」という語の、住所からの距離を含むかもしれない。この場合においては、「visited」という語は住所から2語離れている。属性は、さらに、「visited」という語の特性を含むかもしれない。この場合においては、語は「visited」であり;それは数ではなく;それは大文字で始まってはおらず、大文字でもなく、太字でもなく、斜体字でもなく、下線を付けられてもおらず、中央揃えされてもおらず;それはアンカーテキストの一部ではなく;それは長さが7文字である。境界情報に対しては、「visited」という語の左(または右)には境界マーカはないと仮定する。さらに、「visited」という語の左(または右)には句読点はない。この確率判断は、「visited」という語はタイトルの一部ではない((t(visited)=0)という予想をもたらす結果となる。
【0059】
(ウェブページにおけるなんらかの語の組またはウェブページにおける語のすべてに関し)候補語の各々がタイトルの一部であるかどうか予想がなされると、スライドする語のストリングを考慮して、その語がタイトルを含む確率を最大にするストリングを特定してもよい。この処理は「Morton's」という語を住所に対する候補タイトルとして特定すると仮定する。ある信頼度スコアを、上記のように、候補タイトルに割当ててもよい。
【0060】
住所に関連付けられる電話番号を特定しようと試みる際、検索は、図14に示されるように、周知のパターンマッチング技術を用いて、ウェブページにおける電話番号のすべてを特定することにより、開始してもよい。この場合においては、2つの候補電話番号、つまり202−987−6543および202−987−6542が特定された。
【0061】
候補電話番号の各々が、その候補電話番号の付近に語のウィンドウが与えられ、候補電話番号に関連付けられる特徴が与えられ、先の電話番号に関連付けられる予想が与えられるとして、その住所に対する電話番号である確率はどのようであるかを判断してもよい。候補電話番号に関連付けられる特徴は、電話番号の、住所からの距離を含むかもしれない。この場合においては、双方の候補電話番号は住所から約150語分離れている。特徴は、さらに、境界情報が電話番号と住所との間に存在するかどうかを含むかもしれない。この場合においては、2つの段落境界が候補電話番号と住所との間に存在する。
【0062】
電話番号に関連性がある他の特徴は、一般的な電話番号語(たとえば「電話(call, calling, telephone, telephoning, phone, phoning, tel, tele, (T))など」)が電話番号語の前のある予め定められた数の語内に現われるかどうか、一般的なファクシミリ番号語(たとえば「ファックス(fax, faxing, (F))など」)が電話番号語の前のある予め定められた数の語内に現われるかどうか、それと住所との間に別の電話番号があるかどうか、を含む。この場合においては、確率判断は、202−987−6543という電話番号候補は202−987−6542という電話番号候補よりも住所に合っている電話番号でありそうであるという予想をもたらす結果となってもよい。
【0063】
候補電話番号は、それらの、住所に関連付けられる確率に基づいて、信頼度スコアを割当てられてもよい。
【0064】
住所に関連付けられるビジネスリストは、図15に示されるように、最も高い信頼度スコアを伴うタイトルおよび/または電話番号から情報を伴って形成または補足されてもよい。ビジネスリストはビジネスに関連付けられる文書へのリンク、ビジネスに対する住所情報、ビジネスに関する電話番号、ビジネスに言及する文書からの抜粋、および/またはビジネスに言及する文書への1つ以上のリンクを含んでもよい。
【0065】
結論
この発明の原理に一致するシステムおよび方法は、文書においてなんらかの目印(たとえば、郵便住所)を与えられるとして、目印の属性(たとえばビジネス情報、たとえば商号、電話番号、営業時間、またはウェブサイトもしくはマップへのリンク)をその文書において見つけるよう試みる。先の記載は文書において住所に関連付けられるビジネス情報を見つけることに焦点を置いたが、これは必ずしもそうである必要はない。他の実現例では、上記の処理は他の目印および属性に当てはまってもよく、たとえば、製品(目印)に関連付けられる価格(属性)または製品識別番号(属性)を見つけ出してもよい。文書に現われてもよい他の種類の目印および属性は当業者には明らかであろう。
【0066】
この発明の好ましい実施例の、前述の記載は、説明および記載を与えてはいるが、排他的であったり、またはこの発明を開示される形式そのものに限定するよう意図されるものではない。修正および変形が、上記の教示に照らして可能であり、またはこの発明の実施から得られてもよい。
【0067】
たとえば、一連の動作が図5、図7および図8を参照して記載されているが、これら動作の順序はこの発明の原理に従う他の実現例においては修正されてもよい。さらに、非依存性の動作を平行して実行してもよい。
【0068】
さらに、候補語が住所に関連付けられるビジネス情報の一部である確率は、特徴、たとえばその語の付近の語からなるウィンドウ、先の語に関する予想、ならびにそのウィンドウにおける1つ以上の語に関連付けられる属性、境界情報および句読点などに基づくと記載されたが、別の実現例では、より多くの、より少ない、または異なる特徴を用いて、候補語が住所に関連付けられるビジネス情報の一部であるかどうかを予想してもよい。
【0069】
当業者には、上記のような、この発明の局面は、図に示される実現例において数多くの異なる形式のソフトウェア、ファームウェアおよびハードウェアにおいて実現されてもよいことは明らかである。この発明の原理に一致する局面を実現するよう用いられる実際のソフトウェアコードまたは専門化された制御ハードウェアはこの発明の限定ではない。このように、それら局面の動作およびふるまいは具体的なソフトウェアコードに対する言及なく記載され−−当業者であればここにおける記載に基づいてそれらの局面を実現するようソフトウェアおよび制御ハードウェアを設計することが可能であろうことが理解される。
【0070】
本願において用いられるいかなる要素、行為または命令も、この発明にとって重要または本質的であるとして明記されるのでなければ、そのように解釈されるべきではない。さらに、ここで用いられるとおりでは、「a(ある〜)」という冠詞は1つ以上のものを含むよう意図される。たった1つのものを意図する場合には、「1つの」または同様の文言が用いられている。さらに、「〜に基づく」という表現は、特段の明記がなければ、「少なくとも一部は〜に基づく」を意味するよう意図される。
【特許請求の範囲】
【請求項1】
住所を含む文書を特定するステップと;
前記文書においてビジネス情報を見つけ出すステップと;
前記ビジネス情報に信頼度スコアを割当てるステップとを含み、前記信頼度スコアは前記ビジネス情報が前記住所に関連付けられる確率に関するものであり;さらに
前記割当てられた信頼度スコアに基づいて前記ビジネス情報を前記住所に関連付けるかどうかを判断するステップとを含む、方法。
【請求項2】
前記ビジネス情報はタイトルに対応し;および
ビジネス情報を前記文書において見つけ出すステップは:
前記文書において前記住所に先行する複数の語を分析するステップと、
前記語の各々が前記住所に関連付けられるタイトルの一部である確率を判断するステップと、
前記住所に関連付けられるタイトルの一部である高い確率を有する前記語のうちの1つ以上に基づいて候補タイトルを特定するステップとを含む、請求項1に記載の方法。
【請求項3】
前記複数の語は、前記文書において前記住所の直前の第1の語、および前記文書において前記第1の語に先行する1つ以上の第2の語を含む、請求項2に記載の方法。
【請求項4】
前記語の各々がタイトルに含まれる確率を判断するステップは:
前記語のうちの1つが前記タイトルの一部であるかどうかを予想するステップと、
前記語のうちの前記1つに関する前記予想に基づいて前記語のうちの別の1つが前記タイトルの一部であるかどうかを予想するステップとを含む、請求項2に記載の方法。
【請求項5】
前記語のうちの1つがタイトルに含まれる確率は当該の語の付近の語からなるウィンドウに基づく、請求項2に記載の方法。
【請求項6】
前記語のうちの1つがタイトルに含まれる確率は前記語のうちの別の1つに関連付けられる確率に基づく、請求項2に記載の方法。
【請求項7】
前記語のうちの1つがタイトルに含まれる確率は当該の語に関連付けられる特徴の組に基づく、請求項2に記載の方法。
【請求項8】
前記特徴の組は、当該の語の、前記住所からの距離、当該の語の特性、当該の語と先行するもしくは後続の語との間における境界情報、または当該の語と先行するもしくは後続の語との間における句読点情報のうちの少なくとも1つを含む、請求項7に記載の方法。
【請求項9】
前記語のうちの1つがタイトルに含まれる確率は既知の住所および関連付けられるタイトルを伴う複数の文書に関連付けられる特徴を分析することにより発生される統計的モデルから判断される、請求項2に記載の方法。
【請求項10】
前記ビジネス情報はタイトルに対応し;および
ビジネス情報を前記文書において見つけ出すステップは:
前記文書において前記住所に先行する複数の語を分析するステップと、
前記語の各々が前記住所に関連付けられるタイトルの一部である確率を判断するステップと、
複数の候補タイトルを、前記住所に関連付けられるタイトルの一部である高い確率を有する語からなる1つ以上の群に基づいて特定するステップとを含む、請求項1に記載の方法。
【請求項11】
前記ビジネス情報は電話番号に対応し;
前記文書においてビジネス情報を見つけ出すステップは:
前記文書において候補電話番号の組を特定するステップと、
前記候補電話番号の組における各候補電話番号が前記住所に関連付けられる確率を判断するステップとを含む、請求項1に記載の方法。
【請求項12】
前記候補電話番号の1つが前記住所に関連付けられる確率は当該候補電話番号に関連付けられる特徴の組に基づく、請求項11に記載の方法。
【請求項13】
前記特徴の組は、当該候補電話番号の、住所からの距離、当該候補電話番号と前記住所との間の境界情報、一般的な電話番号語が当該候補電話番号の前に現われるかどうか、一般的なファクシミリ番号語が当該候補電話番号の前に現れるか、または別の候補電話番号が当該候補電話番号と前記住所との間に存在するか、のうちの少なくとも1つを含む、請求項12に記載の方法。
【請求項14】
前記候補電話番号の1つが前記住所に関連付けられる確率は、既知の住所および関連付けられた電話番号を伴う複数の文書に関連付けられる特徴を分析することにより発生される統計的モデルから判断される、請求項12に記載の方法。
【請求項15】
前記ビジネス情報が前記住所に関連付けられる確率は、既知の住所および関連付けられたビジネス情報を伴う複数の文書に関連付けられる特徴を分析することにより発生される統計的モデルから判断される、請求項1に記載の方法。
【請求項16】
前記ビジネス情報は、タイトル、電話番号、営業時間、または前記住所に関連付けられるウェブサイトもしくはマップへのリンクのうちの少なくとも1つを含む、請求項1に記載の方法。
【請求項17】
前記ビジネス情報を前記住所と関連付けるかどうかを判断するステップは;
前記文書において語のストリングを分析するステップと、
前記ストリングのうち、前記語が前記ビジネス情報を含む確率を最大にするストリングを判断するステップとを含む、請求項1に記載の方法。
【請求項18】
前記ビジネス情報が前記住所に関連付けられるとき、前記ビジネス情報と前記住所とに基づいたビジネスリストを生成または補足するステップをさらに含む、請求項1に記載の方法。
【請求項19】
住所を含む文書を特定するための手段と;
前記文書において1つ以上のビジネス情報候補を見つけ出すための手段と;
信頼度スコアを前記1つ以上のビジネス情報候補の各々に割当てるための手段とを含み、前記ビジネス情報候補の1つに関連付けられる信頼度スコアは、当該ビジネス情報候補が前記住所に関連付けられる確率に関するものであり;さらに
前記割当てられた信頼度スコアに基づいて前記1つ以上のビジネス情報候補の1つを前記住所に関連付けるかどうかを判断するための手段とを含む、システム。
【請求項20】
統計的モデルを記憶するメモリと;
前記メモリに接続され、住所を含む文書を特定し、前記文書においてビジネス情報を特定し、前記統計的モデルに基づいて前記ビジネス情報が前記住所に関連付けられるかどうかを予想し、前記予測に基づいて前記ビジネス情報を前記住所に関連付けるかどうかを判断するプロセッサとを含む、システム。
【請求項21】
前記ビジネス情報はタイトルに対応し;
前記文書においてビジネス情報を特定する際に、前記プロセッサは、
前記文書において前記住所に先行する複数の語を分析し、
前記統計的モデルに基づいて前記語の各々が前記住所に関連付けられるタイトルの一部である確率を判断し、
前記住所に関連付けられるタイトルの一部である高い確率を有する前記語の1つ以上に基づいて候補タイトルを特定するよう構成される、請求項20に記載のシステム。
【請求項22】
前記複数の語は、前記文書において前記住所の直前の第1の語、および前記文書において前記第1の語に先行する1つ以上の第2の語を含む、請求項21に記載のシステム。
【請求項23】
前記語の各々がタイトルに含まれる確率を判断する際、前記プロセッサは:
前記語のうちの1つが前記タイトルの一部であるかどうかを予想し、
前記語のうちの前記1つに関する前記予想に基づいて前記語のうちの別の1つが前記タイトルの一部であるかどうかを予想するよう構成される、請求項21に記載のシステム。
【請求項24】
前記語のうちの1つがタイトルに含まれる確率は当該の語の付近の語からなるウィンドウに基づく、請求項21に記載のシステム。
【請求項25】
前記語のうちの1つがタイトルに含まれる確率は前記語のうちの別の1つに関連付けられる確率に基づく、請求項21に記載のシステム。
【請求項26】
前記語のうちの1つがタイトルに含まれる確率は当該の語に関連付けられる特徴の組に基づく、請求項21に記載のシステム。
【請求項27】
前記特徴の組は、当該の語の、前記住所からの距離、当該の語の特性、当該の語と先行するもしくは後続の語との間における境界情報、または当該の語と先行するもしくは後続の語との間における句読点情報のうちの少なくとも1つを含む、請求項26に記載のシステム。
【請求項28】
前記統計的モデルは、既知の住所および関連付けられたタイトルを伴う複数の文書に関連付けられる特徴を分析することにより発生される、請求項20に記載のシステム。
【請求項29】
前記ビジネス情報はタイトルに対応し、;
前記文書においてビジネス情報を特定する際、前記プロセッサは:
前記文書において前記住所に先行する複数の語を分析し、
前記語の各々が前記住所に関連付けられるタイトルの一部である確率を判断し、
複数の候補タイトルを、前記住所に関連付けられるタイトルの一部である高い確率を有する語からなる1つ以上の群に基づいて特定するよう構成される、請求項20に記載のシステム。
【請求項30】
前記ビジネス情報は電話番号に対応し;
前記文書においてビジネス情報を特定する際、前記プロセッサは:
前記文書において候補電話番号の組を特定し、
前記統計的モデルに基づいて前記候補電話番号の組における各候補電話番号が前記住所に関連付けられる確率を判断するよう構成される、請求項20に記載のシステム。
【請求項31】
前記候補電話番号の1つが前記住所に関連付けられる確率は当該候補電話番号に関連付けられる特徴の組に基づく、請求項30に記載のシステム。
【請求項32】
前記特徴の組は、当該候補電話番号の、住所からの距離、当該候補電話番号と前記住所との間の境界情報、一般的な電話番号語が当該候補電話番号の前に現われるかどうか、一般的なファクシミリ番号語が当該候補電話番号の前に現れるか、または別の候補電話番号が当該候補電話番号と前記住所との間に存在するか、のうちの少なくとも1つを含む、請求項31に記載のシステム。
【請求項33】
前記統計的モデルは、既知の住所および関連付けられた電話番号を伴う複数の文書に関連付けられる特徴を分析することにより発生される、請求項31に記載のシステム。
【請求項34】
前記統計的モデルは、既知の住所および関連付けられたビジネス情報を伴う複数の文書に関連付けられる特徴を分析することにより発生される、請求項20に記載のシステム。
【請求項35】
前記ビジネス情報は、タイトル、電話番号、営業時間、または前記住所に関連付けられるウェブサイトもしくはマップへのリンクのうちの少なくとも1つを含む、請求項20に記載のシステム。
【請求項36】
前記ビジネス情報を前記住所と関連付けるかどうかを判断する際、前記プロセッサは:
前記文書において語のストリングを分析し、
前記ストリングのうち、前記語が前記ビジネス情報を含む確率を最大にするストリングを判断するよう構成される、請求項20に記載のシステム。
【請求項37】
前記プロセッサはさらに、前記ビジネス情報が前記住所に関連付けられるとき、前記ビジネス情報と前記住所とに基づいたビジネスリストを生成または補足するよう構成される、請求項20に記載のシステム。
【請求項38】
住所を含む文書を特定するステップと;
前記文書において前記住所に先行する複数の語を特定するステップと;
前記語の各々が前記住所に関連付けられるタイトルの一部である確率を判断するステップと;
前記住所に関連付けられるタイトルの一部である高い確率を有する前記語の1つ以上に基づいて候補タイトルを特定するステップと;
信頼度スコアを前記候補タイトルに割当てるステップと;
前記割当てられた信頼度スコアに基づいて前記候補タイトルを前記住所に関連付けるかどうかを判断するステップとを含む、方法。
【請求項39】
住所を含む文書を特定するステップと;
前記文書において候補電話番号の組を特定するステップと;
前記候補電話番号の組における各候補電話番号が前記住所に関連付けられる確率を判断するステップと;
前記判断された確率に基づいて前記候補電話番号の1つを前記住所に関連付けるかどうかを判断するステップとを含む、方法。
【請求項40】
目印を含むウェブページを特定するステップと;
前記ウェブページにおいて属性を特定するステップと;
信頼度スコアを前記属性に割当てるステップとを含み、前記信頼度スコアは前記属性が前記目印に関連付けられる確率に関するものであり;さらに
前記割当てられた信頼度スコアに基づいて前記属性を前記目印に関連付けるかどうかを判断するステップとを含む、方法。
【請求項41】
前記目印は郵便住所に対応し、前記属性は、タイトル、電話番号、営業時間、または前記郵便住所に関連付けられるウェブサイトもしくはマップへのリンクの1つに関する情報に対応する、請求項40に記載の方法。
【請求項42】
前記目印は製品に対応し、前記属性は価格または製品識別番号の1つに対応する、請求項40に記載の方法。
【請求項1】
住所を含む文書を特定するステップと;
前記文書においてビジネス情報を見つけ出すステップと;
前記ビジネス情報に信頼度スコアを割当てるステップとを含み、前記信頼度スコアは前記ビジネス情報が前記住所に関連付けられる確率に関するものであり;さらに
前記割当てられた信頼度スコアに基づいて前記ビジネス情報を前記住所に関連付けるかどうかを判断するステップとを含む、方法。
【請求項2】
前記ビジネス情報はタイトルに対応し;および
ビジネス情報を前記文書において見つけ出すステップは:
前記文書において前記住所に先行する複数の語を分析するステップと、
前記語の各々が前記住所に関連付けられるタイトルの一部である確率を判断するステップと、
前記住所に関連付けられるタイトルの一部である高い確率を有する前記語のうちの1つ以上に基づいて候補タイトルを特定するステップとを含む、請求項1に記載の方法。
【請求項3】
前記複数の語は、前記文書において前記住所の直前の第1の語、および前記文書において前記第1の語に先行する1つ以上の第2の語を含む、請求項2に記載の方法。
【請求項4】
前記語の各々がタイトルに含まれる確率を判断するステップは:
前記語のうちの1つが前記タイトルの一部であるかどうかを予想するステップと、
前記語のうちの前記1つに関する前記予想に基づいて前記語のうちの別の1つが前記タイトルの一部であるかどうかを予想するステップとを含む、請求項2に記載の方法。
【請求項5】
前記語のうちの1つがタイトルに含まれる確率は当該の語の付近の語からなるウィンドウに基づく、請求項2に記載の方法。
【請求項6】
前記語のうちの1つがタイトルに含まれる確率は前記語のうちの別の1つに関連付けられる確率に基づく、請求項2に記載の方法。
【請求項7】
前記語のうちの1つがタイトルに含まれる確率は当該の語に関連付けられる特徴の組に基づく、請求項2に記載の方法。
【請求項8】
前記特徴の組は、当該の語の、前記住所からの距離、当該の語の特性、当該の語と先行するもしくは後続の語との間における境界情報、または当該の語と先行するもしくは後続の語との間における句読点情報のうちの少なくとも1つを含む、請求項7に記載の方法。
【請求項9】
前記語のうちの1つがタイトルに含まれる確率は既知の住所および関連付けられるタイトルを伴う複数の文書に関連付けられる特徴を分析することにより発生される統計的モデルから判断される、請求項2に記載の方法。
【請求項10】
前記ビジネス情報はタイトルに対応し;および
ビジネス情報を前記文書において見つけ出すステップは:
前記文書において前記住所に先行する複数の語を分析するステップと、
前記語の各々が前記住所に関連付けられるタイトルの一部である確率を判断するステップと、
複数の候補タイトルを、前記住所に関連付けられるタイトルの一部である高い確率を有する語からなる1つ以上の群に基づいて特定するステップとを含む、請求項1に記載の方法。
【請求項11】
前記ビジネス情報は電話番号に対応し;
前記文書においてビジネス情報を見つけ出すステップは:
前記文書において候補電話番号の組を特定するステップと、
前記候補電話番号の組における各候補電話番号が前記住所に関連付けられる確率を判断するステップとを含む、請求項1に記載の方法。
【請求項12】
前記候補電話番号の1つが前記住所に関連付けられる確率は当該候補電話番号に関連付けられる特徴の組に基づく、請求項11に記載の方法。
【請求項13】
前記特徴の組は、当該候補電話番号の、住所からの距離、当該候補電話番号と前記住所との間の境界情報、一般的な電話番号語が当該候補電話番号の前に現われるかどうか、一般的なファクシミリ番号語が当該候補電話番号の前に現れるか、または別の候補電話番号が当該候補電話番号と前記住所との間に存在するか、のうちの少なくとも1つを含む、請求項12に記載の方法。
【請求項14】
前記候補電話番号の1つが前記住所に関連付けられる確率は、既知の住所および関連付けられた電話番号を伴う複数の文書に関連付けられる特徴を分析することにより発生される統計的モデルから判断される、請求項12に記載の方法。
【請求項15】
前記ビジネス情報が前記住所に関連付けられる確率は、既知の住所および関連付けられたビジネス情報を伴う複数の文書に関連付けられる特徴を分析することにより発生される統計的モデルから判断される、請求項1に記載の方法。
【請求項16】
前記ビジネス情報は、タイトル、電話番号、営業時間、または前記住所に関連付けられるウェブサイトもしくはマップへのリンクのうちの少なくとも1つを含む、請求項1に記載の方法。
【請求項17】
前記ビジネス情報を前記住所と関連付けるかどうかを判断するステップは;
前記文書において語のストリングを分析するステップと、
前記ストリングのうち、前記語が前記ビジネス情報を含む確率を最大にするストリングを判断するステップとを含む、請求項1に記載の方法。
【請求項18】
前記ビジネス情報が前記住所に関連付けられるとき、前記ビジネス情報と前記住所とに基づいたビジネスリストを生成または補足するステップをさらに含む、請求項1に記載の方法。
【請求項19】
住所を含む文書を特定するための手段と;
前記文書において1つ以上のビジネス情報候補を見つけ出すための手段と;
信頼度スコアを前記1つ以上のビジネス情報候補の各々に割当てるための手段とを含み、前記ビジネス情報候補の1つに関連付けられる信頼度スコアは、当該ビジネス情報候補が前記住所に関連付けられる確率に関するものであり;さらに
前記割当てられた信頼度スコアに基づいて前記1つ以上のビジネス情報候補の1つを前記住所に関連付けるかどうかを判断するための手段とを含む、システム。
【請求項20】
統計的モデルを記憶するメモリと;
前記メモリに接続され、住所を含む文書を特定し、前記文書においてビジネス情報を特定し、前記統計的モデルに基づいて前記ビジネス情報が前記住所に関連付けられるかどうかを予想し、前記予測に基づいて前記ビジネス情報を前記住所に関連付けるかどうかを判断するプロセッサとを含む、システム。
【請求項21】
前記ビジネス情報はタイトルに対応し;
前記文書においてビジネス情報を特定する際に、前記プロセッサは、
前記文書において前記住所に先行する複数の語を分析し、
前記統計的モデルに基づいて前記語の各々が前記住所に関連付けられるタイトルの一部である確率を判断し、
前記住所に関連付けられるタイトルの一部である高い確率を有する前記語の1つ以上に基づいて候補タイトルを特定するよう構成される、請求項20に記載のシステム。
【請求項22】
前記複数の語は、前記文書において前記住所の直前の第1の語、および前記文書において前記第1の語に先行する1つ以上の第2の語を含む、請求項21に記載のシステム。
【請求項23】
前記語の各々がタイトルに含まれる確率を判断する際、前記プロセッサは:
前記語のうちの1つが前記タイトルの一部であるかどうかを予想し、
前記語のうちの前記1つに関する前記予想に基づいて前記語のうちの別の1つが前記タイトルの一部であるかどうかを予想するよう構成される、請求項21に記載のシステム。
【請求項24】
前記語のうちの1つがタイトルに含まれる確率は当該の語の付近の語からなるウィンドウに基づく、請求項21に記載のシステム。
【請求項25】
前記語のうちの1つがタイトルに含まれる確率は前記語のうちの別の1つに関連付けられる確率に基づく、請求項21に記載のシステム。
【請求項26】
前記語のうちの1つがタイトルに含まれる確率は当該の語に関連付けられる特徴の組に基づく、請求項21に記載のシステム。
【請求項27】
前記特徴の組は、当該の語の、前記住所からの距離、当該の語の特性、当該の語と先行するもしくは後続の語との間における境界情報、または当該の語と先行するもしくは後続の語との間における句読点情報のうちの少なくとも1つを含む、請求項26に記載のシステム。
【請求項28】
前記統計的モデルは、既知の住所および関連付けられたタイトルを伴う複数の文書に関連付けられる特徴を分析することにより発生される、請求項20に記載のシステム。
【請求項29】
前記ビジネス情報はタイトルに対応し、;
前記文書においてビジネス情報を特定する際、前記プロセッサは:
前記文書において前記住所に先行する複数の語を分析し、
前記語の各々が前記住所に関連付けられるタイトルの一部である確率を判断し、
複数の候補タイトルを、前記住所に関連付けられるタイトルの一部である高い確率を有する語からなる1つ以上の群に基づいて特定するよう構成される、請求項20に記載のシステム。
【請求項30】
前記ビジネス情報は電話番号に対応し;
前記文書においてビジネス情報を特定する際、前記プロセッサは:
前記文書において候補電話番号の組を特定し、
前記統計的モデルに基づいて前記候補電話番号の組における各候補電話番号が前記住所に関連付けられる確率を判断するよう構成される、請求項20に記載のシステム。
【請求項31】
前記候補電話番号の1つが前記住所に関連付けられる確率は当該候補電話番号に関連付けられる特徴の組に基づく、請求項30に記載のシステム。
【請求項32】
前記特徴の組は、当該候補電話番号の、住所からの距離、当該候補電話番号と前記住所との間の境界情報、一般的な電話番号語が当該候補電話番号の前に現われるかどうか、一般的なファクシミリ番号語が当該候補電話番号の前に現れるか、または別の候補電話番号が当該候補電話番号と前記住所との間に存在するか、のうちの少なくとも1つを含む、請求項31に記載のシステム。
【請求項33】
前記統計的モデルは、既知の住所および関連付けられた電話番号を伴う複数の文書に関連付けられる特徴を分析することにより発生される、請求項31に記載のシステム。
【請求項34】
前記統計的モデルは、既知の住所および関連付けられたビジネス情報を伴う複数の文書に関連付けられる特徴を分析することにより発生される、請求項20に記載のシステム。
【請求項35】
前記ビジネス情報は、タイトル、電話番号、営業時間、または前記住所に関連付けられるウェブサイトもしくはマップへのリンクのうちの少なくとも1つを含む、請求項20に記載のシステム。
【請求項36】
前記ビジネス情報を前記住所と関連付けるかどうかを判断する際、前記プロセッサは:
前記文書において語のストリングを分析し、
前記ストリングのうち、前記語が前記ビジネス情報を含む確率を最大にするストリングを判断するよう構成される、請求項20に記載のシステム。
【請求項37】
前記プロセッサはさらに、前記ビジネス情報が前記住所に関連付けられるとき、前記ビジネス情報と前記住所とに基づいたビジネスリストを生成または補足するよう構成される、請求項20に記載のシステム。
【請求項38】
住所を含む文書を特定するステップと;
前記文書において前記住所に先行する複数の語を特定するステップと;
前記語の各々が前記住所に関連付けられるタイトルの一部である確率を判断するステップと;
前記住所に関連付けられるタイトルの一部である高い確率を有する前記語の1つ以上に基づいて候補タイトルを特定するステップと;
信頼度スコアを前記候補タイトルに割当てるステップと;
前記割当てられた信頼度スコアに基づいて前記候補タイトルを前記住所に関連付けるかどうかを判断するステップとを含む、方法。
【請求項39】
住所を含む文書を特定するステップと;
前記文書において候補電話番号の組を特定するステップと;
前記候補電話番号の組における各候補電話番号が前記住所に関連付けられる確率を判断するステップと;
前記判断された確率に基づいて前記候補電話番号の1つを前記住所に関連付けるかどうかを判断するステップとを含む、方法。
【請求項40】
目印を含むウェブページを特定するステップと;
前記ウェブページにおいて属性を特定するステップと;
信頼度スコアを前記属性に割当てるステップとを含み、前記信頼度スコアは前記属性が前記目印に関連付けられる確率に関するものであり;さらに
前記割当てられた信頼度スコアに基づいて前記属性を前記目印に関連付けるかどうかを判断するステップとを含む、方法。
【請求項41】
前記目印は郵便住所に対応し、前記属性は、タイトル、電話番号、営業時間、または前記郵便住所に関連付けられるウェブサイトもしくはマップへのリンクの1つに関する情報に対応する、請求項40に記載の方法。
【請求項42】
前記目印は製品に対応し、前記属性は価格または製品識別番号の1つに対応する、請求項40に記載の方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【公開番号】特開2011−129154(P2011−129154A)
【公開日】平成23年6月30日(2011.6.30)
【国際特許分類】
【出願番号】特願2011−47519(P2011−47519)
【出願日】平成23年3月4日(2011.3.4)
【分割の表示】特願2007−549625(P2007−549625)の分割
【原出願日】平成17年12月30日(2005.12.30)
【出願人】(502208397)グーグル インコーポレイテッド (161)
【Fターム(参考)】
【公開日】平成23年6月30日(2011.6.30)
【国際特許分類】
【出願日】平成23年3月4日(2011.3.4)
【分割の表示】特願2007−549625(P2007−549625)の分割
【原出願日】平成17年12月30日(2005.12.30)
【出願人】(502208397)グーグル インコーポレイテッド (161)
【Fターム(参考)】
[ Back to top ]