ローカル項目抽出

【課題】ローカル検索システムは、特定の地域内の関連性のあるウェブページおよび／またはビジネスリストを返すことを試みる。ビジネスがウェブページにおいて言及されるとき、既存のローカル検索システムは、そのビジネスを職業別電話帳データと突合わせることにより、対応するビジネスリストを特定してもよい。この技術は、しかしながら、職業別電話帳データが存在しないか、または職業別電話帳データがビジネスに対して不正確であるときには、実行可能ではない。
【解決手段】あるシステムは、住所を含む文書を特定し、その文書においてビジネス情報を見つけ出す。このシステムは信頼度スコアをそのビジネス情報に割当てるが、その信頼度スコアはビジネス情報が住所に関連付けられる確率に関している。このシステムはその割当てられた信頼度スコアに基づいてビジネス情報を住所に関連付けるかどうかを判断する。

【発明の詳細な説明】
【技術分野】
【０００１】
背景
発明の分野
ここに記述される実現例は、一般的には、ローカル(local）情報検索、より特定的には、住所に関連付けられるビジネス情報の特定に関する。
【背景技術】
【０００２】
関連技術の説明
ワールドワイドウェブ（「ウェブ」）は大量の情報を含んでいる。情報のうち所望される部分を見つけることは、しかしながら、困難であり得る。この問題は悪化しており、なぜならば、ウェブ上の情報量、およびウェブ検索において経験のない新規のユーザの数が急速の増大しているからである。
【０００３】
検索システムは、ユーザが興味を持っているウェブページにハイパーリンクを返すことを試みる。一般に、検索システムは、それらの、ユーザの関心についての判断を、ユーザによって入力された検索語（検索クエリと呼ばれる）に基づかせる。検索システムの目的は、検索クエリに基づいて、高品質の、関連性のある結果（たとえばウェブページ）へのリンクを、ユーザに与えることである。典型的には、検索システムは、予め記憶されたウェブページのコーパスに検索クエリ中の語を突合わせることにより、これを達成する。ユーザの検索語を包含しているウェブページは「ヒット」であり、リンクとしてユーザに返される。
【発明の概要】
【発明が解決しようとする課題】
【０００４】
ローカル検索システムは、特定の地域内の関連性のあるウェブページおよび／またはビジネスリストを返すことを試みる。ビジネスがウェブページにおいて言及されるとき、既存のローカル検索システムは、そのビジネスを職業別電話帳データと突合わせることにより、対応するビジネスリストを特定してもよい。この技術は、しかしながら、職業別電話帳データが存在しないか、または職業別電話帳データがビジネスに対して不正確であるときには、実行可能ではない。
【課題を解決するための手段】
【０００５】
概要
１つの局面によれば、ある方法は、住所を含む文書を特定するステップと、その文書においてビジネス情報を見つけるステップと、そのビジネス情報に信頼度スコアを割当てるステップとを含んでもよく、信頼度スコアはそのビジネス情報がその住所に関連付けられる確率に関してもよい。この方法は、さらに、割当てられた信頼度スコアに基づいて住所にビジネス情報を関連付けるべきかどうかを判断するステップを含んでもよい。
【０００６】
別の局面によれば、ある方法は、住所を含む文書を特定するステップと、その文書においてその住所に先行する語の組を特定するステップと、それらの語の各々がその住所に関連付けられるタイトルの一部である確率を判断するステップとを含んでもよい。この方法は、さらに、住所に関連付けられるタイトルの一部である高い確率を有している語の１つ以上に基づいて候補タイトルを特定するステップと、候補タイトルに信頼度スコアを割当てるステップと、割当てられた信頼度スコアに基づいて住所に候補タイトルを関連付けるべきかどうかを判断するステップとを含んでもよい。
【０００７】
さらに別の局面によれば、ある方法は、住所を含む文書を特定するステップと、その文書において候補電話番号の組を特定するステップと、その候補電話番号の組における各候補電話番号が住所に関連付けられる確率を判断するステップと、判断された確率に基づいて住所に候補番号のうちの１つを関連付けるべきかどうかを判断するステップとを含んでもよい。
【０００８】
さらなる局面によれば、ある方法は、目印を含むウェブページを特定するステップと、そのウェブページにおいて属性を特定するステップと、その属性に信頼度スコアを割当てるステップとを含んでもよく、信頼度スコアは、属性が目印に関連付けられる確率に関してもよい。この方法は、さらに、割当てられた信頼度スコアに基づいて属性を目印に関連付けるべきかどうかを判断するステップを含んでもよい。
【図面の簡単な説明】
【０００９】
【図１】住所を含む例示的文書の図である。
【図２】この発明の原理に一致するシステムおよび方法が実現されてもよいネットワークの例示的な図である。
【図３】この発明の原理に一致するある実現例に従う図２のクライアントサーバの例示的な図である。
【図４】この発明の原理に一致するある実現例に従うトレーニングシステムの例示的な図である。
【図５】この発明の原理に一致するある実現例に従う統計的モデルをトレーニングするための例示的処理のフローチャートである。
【図６】この発明の原理に一致するある実現例に従うローカル項目抽出部の例示的な図である。
【図７】この発明の原理に一致するある実現例に従って住所に関連付けられる商号（タイトル）を特定するための例示的処理のフローチャートである。
【図８】この発明の原理に一致するある実現例に従って住所に関連付けられる電話番号を特定するための例示的処理のフローチャートである。
【図９】この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。
【図１０】この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。
【図１１】この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。
【図１２】この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。
【図１３】この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。
【図１４】この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。
【図１５】この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。
【発明を実施するための形態】
【００１０】
添付の図面は、この明細書において援用され、その一部を構成するものであるが、この発明の実施例を示し、記載とともに、この発明を説明するものである。
【００１１】
詳細な説明
この発明の以下の詳細な説明は、添付図面に言及する。異なる図面における同じ参照番号は同じまたは同様の要素を特定する場合がある。さらに、以下の詳細な説明はこの発明を限定しはしない。
【００１２】
外観
ローカル検索は特定の地域に関連付けられるビジネスリストを特定することを伴う。ウェブは何十億もの文書を含んでおり、それらのうちのいくつかはビジネスに言及しているかもしれない。できるだけ多くの異なるビジネスに関連付けられたビジネス情報を特定することは、ローカル検索システムに有益である。しばしば、職業別電話帳データがビジネスに関連付けられている。しかしながら、時には、ビジネスは、職業別電話帳データがないか、または、職業別電話帳データがおそらくは不正確な文書中で、言及されている。
【００１３】
この発明の原理と一致するシステムおよび方法は、ウェブ文書中で言及される住所に関連付けられるビジネス情報を特定してもよい。１つの実現例では、ビジネス情報は住所に関連付けられたビジネスの名称を含んでいる。別の実現例では、ビジネス情報は、住所に関連付けられた電話番号を含んでいる。さらに別の実現例では、ビジネス情報は、住所に関連付けられたビジネスについての営業時間またはウェブサイトもしくは地図へのリンクのような別の種類の情報を含んでもよい。
【００１４】
図１は住所を含んでいる例示的文書の図である。図示されるように、この文書はPennsylvania（ペンシルベニア州）のOakmont（オークモント）にあるレストランであるVeltri's Pizza（ベルトリズ・ピザ)のレビューに関連付けられている。文書は、それが郵便住所（つまり123 Allegheny Avenue in Oakmont, PA(１２３、アレゲーニー・アベニュー、オークモント、ペンシルベニア州）)を含むことを判断するよう分析されてもよい。ベルトリズは関連付けられた職業別電話帳データを有していないかまたはおそらく不正確な職業別電話帳データを有している、と仮定する。
【００１５】
ここに記載される技術を用いて、文書は、さらに、住所に関連付けられたビジネス情報を判断するよう分析されてもよい。ビジネス情報は住所に関連付けられた商号（ここにおいては「タイトル」とも称される）および／または電話番号を含んでもよい。ビジネス情報は住所に関連付けられるビジネスリストを生成または訂正するよう用いられてもよい。
【００１６】
「文書」という語は、ここで用いられるとおりでは、いかなる機械読取可能なおよび機械記憶可能なワークプロダクト（work product）をも含むよう広く解釈される。文書は、たとえばｅメール、ウェブサイト、ビジネスリスト、ファイル、ファイルの組合せ、他のファイルへの埋込まれたリンクを備えた１つ以上のファイル、ニュースグループポスティング、ブログ、ウェブ広告などを含んでもよい。インターネットの中では、ある一般的な文書はウェブページである。ウェブページはしばしばテキスト情報を含んでおり、埋込まれた情報（メタ情報、画像、ハイパーリンクなど）および／または埋込まれた命令（ジャバスクリプト（Java（登録商標）script）など）を含んでもよい。「リンク」という語は、ここで用いられるとおりでは、ある文書から別の文書または同じ文書内の別の部分への、またはその逆の、いかなる参照をも含めるよう広く解釈される。
【００１７】
例示的ネットワーク構成
図２は、この発明の原理と一致するシステムおよび方法が実現されてもよいネットワーク２００の例示的な図である。ネットワーク２００は、ネットワーク２５０を介して複数のサーバ２２０〜２４０に接続される複数のクライアント２１０を含んでもよい。簡潔性のため、２つのクライアント２１０および３つのサーバ２２０〜２４０がネットワーク２５０に接続されるように図示される。実際には、より多くの、またはより少ないクライアントおよびサーバがあってもよい。さらに、いくつかの例では、あるクライアントはサーバの機能を実行してもよく、あるサーバはクライアントの機能を実行してもよい。
【００１８】
クライアント２１０はクライアントエンティティを含んでもよい。エンティティは、無線電話、パソコン、携帯情報端末（ＰＤＡ）、ラップトップ、もしくは別の種類の計算もしくは通信装置のような装置、これらの装置のうちの１つの上で実行されるスレッドもしくは処理、および／またはこれらの装置のうちの１つによって実行可能なオブジェクトとして規定されてもよい。サーバ２２０〜２４０はこの発明の原理と一致する態様で文書を収集し、処理し、検索し、および／または維持するサーバエンティティを含んでもよい。
【００１９】
この発明の原理と一致するある実現例では、サーバ２２０はクライアント２１０によって使用可能な検索エンジン２２５を含んでもよい。サーバ２２０は、文書（たとえばウェブ文書）のコーパスを巡回し、文書にインデックスを付け、文書に関連付けられる情報を文書のレポジトリに記憶してもよい。サーバ２３０および２４０はサーバ２２０により巡回または分析されてもよい文書を記憶または維持してもよい。
【００２０】
サーバ２２０〜２４０は別々のエンティティとして示されているが、サーバ２２０〜２４０の１つ以上が、サーバ２２０〜２４０のうちの別の１つ以上の、１つ以上の機能を実行することが可能であってもよい。たとえば、サーバ２２０〜２４０のうちの２つ以上が単一のサーバとして実現されることが可能であってもよい。さらに、サーバ２２０〜２４０のうちの１つが２つ以上の別々の（およびおそらくは分散された）装置として実現されることが可能であってもよい。
【００２１】
ネットワーク２５０は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、電話網、たとえば公衆交換電話網（ＰＳＴＮ）、イントラネット、インターネット、記憶装置、またはネットワークの組合せを含んでもよい。クライアント２１０およびサーバ２２０〜２４０は、ネットワーク２５０に、有線、無線、および／または光接続を介して接続してもよい。
【００２２】
例示的クライアント／サーバアーキテクチャ
図３はクライアントまたはサーバエンティティ（以下「クライアント／サーバエンティティ」と称される）の例示的な図であるが、それは、この発明の原理に一致する実現例によれば、１つ以上のクライアント２１０および／またはサーバ２２０〜２４０に対応してもよい。クライアント／サーバエンティティは、バス３１０、プロセッサ３２０、メインメモリ３３０、リードオンリメモリ（ＲＯＭ）３４０、記憶装置３５０、入力装置３６０、出力装置３７０、および通信インターフェイス３０８を含んでもよい。バス３１０はクライアント／サーバエンティティの要素間において通信を可能にする通路を含んでもよい。
【００２３】
プロセッサ３２０は、命令を解釈および実行する従来のプロセッサ、マイクロプロセッサまたは処理論理を含んでもよい。メインメモリ３３０は、プロセッサ３２０による実行のため情報および命令を記憶してもよいランダムアクセスメモリ（ＲＡＭ）または別のタイプの動的記憶装置を含んでもよい。ＲＯＭ３４０はプロセッサ３２０による使用のため静的情報および命令を記憶してもよい従来のＲＯＭ装置または別のタイプの静的記憶装置を含んでもよい。記憶装置３５０は磁気および／または光記録媒体ならびにその対応するドライブを含んでもよい。
【００２４】
入力装置３６０はオペレータが情報をクライアント／サーバエンティティに入力できるような従来の機構、たとえばキーボード、マウス、ペン、音声認識および／またはバイオメトリック機構などを含んでもよい。出力装置３７０は、情報をオペレータに出力する、ディスプレイ、プリンタ、スピーカなどの従来の機構を含んでもよい。通信インターフェイス３８０はクライアント／サーバエンティティが他の装置および／またはシステムと通信することを可能にする任意のトランシーバのような機構を含んでもよい。たとえば、通信インターフェイス３８０は、別の装置またはシステムと、ネットワーク、たとえばネットワーク２５０を介して通信するための機構を含んでもよい。
【００２５】
この発明の原理と一致するクライアント／サーバエンティティは、以下に詳細に記載されるように、ある動作を実行してもよい。クライアント／サーバエンティティは、これらの動作を、プロセッサ３２０がたとえばメモリ３３０のようなコンピュータ読取可能媒体に含まれるソフトウェア命令を実行することに応答して実行してもよい。コンピュータ読取可能媒体は物理もしくは論理メモリ装置および／または搬送波として定義されてもよい。
【００２６】
ソフトウェア命令は、別のコンピュータ読取可能媒体、たとえばデータ記憶装置３５０から、または別の装置から通信インターフェイス３８０を介して、メモリ３３０に読込まれてもよい。メモリ３３０に含まれるソフトウェア命令は、プロセッサ３２０に、後に記載されるような処理を実行させてもよい。代替的に、結線で接続された回路系をソフトウェア命令の代わりにまたはソフトウェア命令との組合せで用いてこの発明の原理に一致する処理を実現してもよい。このように、この発明の原理に一致する実現例はハードウェア回路系およびソフトウェアのいかなる特定の組合せにも限定されるものではない。
【００２７】
例示的なトレーニングシステム
図４はこの発明の原理に一致するある実現例に従うトレーニングシステム４００の例示的な図である。１つの実現例においては、トレーニングシステム４００は、ソフトウェアおよび／またはハードウェアにより、サーバ２２０（図２）、別の装置、またはサーバ２２０とは別途のもしくはサーバ２２０を含む装置の群内において実現されてもよい。
【００２８】
図４に示されるように、トレーニングシステム４００はトレーニングセットに基づいた統計的モデル４２０を発生させるトレーナ４１０を含んでもよい。１つの実現例では、職業別電話帳データが存在する住所を含む文書の組を特定してもよい。一般的には、トレーナ４１０は職業別電話帳データが存在する文書の組においてビジネス情報と共通に関連付けられる特徴を特定して統計的モデル４２０を発生させてもよい。統計的モデル４２０は、職業別電話帳データが存在しないかまたはおそらくは不正確な職業別電話帳データが存在する住所を含む文書内においてビジネス情報がどこに見つかるかもしれないかを予想するよう用いられてもよい。
【００２９】
図５はこの発明の原理に一致するある実現例に従うトレーニング統計的モデル４２０に対する例示的処理のフローチャートである。処理は、文書のコーパスを分析して、職業別電話帳データが存在する住所を含む文書を特定することから始まってもよい（ブロック５１０）。たとえば、文書コーパス内の文書は、それらの文書が住所を含むかどうかを判断するよう分析されてもよい。任意の周知の住所認識技術を用いて文書において住所を認識してよい。
【００３０】
ある文書が、住所を含むとして特定されると、その住所を、職業別電話帳データに対して分析して、職業別電話帳データがその住所と一致するビジネスリストを含むかどうかを判断してもよい。職業別電話帳のビジネスリストから、ビジネス情報、たとえば商号（「タイトル」）および／または電話番号などが特定されてもよい。このビジネス情報は、次いで、文書内において特定されてもよい（ブロック５２０）。たとえば、文書のテキストを分析して、テキストのいずれかがビジネス情報に一致するかどうかを判断してもよい。
【００３１】
テキストのいずれもビジネス情報に一致しないときは、その文書はトレーニングセットから取除かれてもよい。文書のテキストがビジネス情報に一致すると、その住所およびビジネス情報はその文書内にマーキングされてもよく（ブロック５３０）、その文書はトレーニングセットに含まれてもよい。任意の周知のマーキング技術を用いて住所およびビジネス情報を文書においてマーキングしてよい。１つの実現例では、ビジネス情報が住所の付近に生ずる文書のみ（たとえば、住所の左および／または右に対して予め定められた数の語、たとえば２０語または６０語内など）がトレーニングセットに含まれてもよい。別の実現例では、ビジネス情報が文書においてどこでもよいから生ずる文書がトレーニングセットに含まれてもよい。
【００３２】
一旦トレーニングセットが確立されると、それは何百万もの文書を含んでもよいものでであるが、統計的モデルがそのトレーニングセットに基づいて発生されてもよい（ブロック５４０）。たとえば、トレーニングセットにおける文書を分析して、文書が住所を含むときに文書においてビジネス情報をどのように認識するかに関する情報を収集してもよい。それらの特徴は、参照点（たとえば文書における住所）からの候補語の距離、候補語の特性、候補語に関連付けられる境界情報、および／または候補語に関連付けられる句読点情報に関連付けられてもよい。タイトルを判断するのに有用な特定の特徴は電話番号を判断するのに有用な情報と異なっていてもよい。これらの特徴は、さらに、他の種類のビジネス情報を判断することに関し、異なっていてもよい。
【００３３】
候補タイトル語の特性に関する特徴の例は、その語が何であるか、それは数であるかどうか、それは大文字で始まっているか、大文字で書かれているか、太字であるか、斜体字であるか、下線付きであるか、もしくは中央揃えされているか、それはアンカーテキストの一部であるか、およびその長さは文字においてどのようであるか、を含むかもしれない。候補タイトル語に対する境界情報に関する特徴の例は、境界マーキング（たとえばＨＴＭＬタグ）の存在に基づくかもしれず、段落、区切り、またはリスト項目マーカがあるかどうか、および候補タイトル語と先行するまたは後続の語との間における表もしくはリストの始まりもしくは終わりに関するマーカがあるかどうかを含むかもしれない。ある候補タイトル語に対する句読点情報に関する特徴の例は、コンマ、ピリオド、感嘆符、疑問符、コロン、セミコロン、ダッシュ、一重もしくは二重引用符、括弧、またはスペースが候補タイトル語と先行するもしくは後続の語との間にあるかどうかを含むかもしれない。他の特徴は当業者には明らかであろう。
【００３４】
候補電話番号語の特徴に関する特徴の例は、その語が何であるか、その長さは文字においてどのようであるか、およびもし電話がエリアコードを含む場合には、そのエリアコードはその住所がある地域に対して適切に見えるかどうかを含むかもしれない。ある候補電話番号語に対する境界情報に関する特徴の例は、境界マーキング（たとえばＨＴＭＬタグ）の存在に基づくかもしれず、段落、区切り、またはリスト項目マーカがあるかどうか、および候補電話番号語と住所との間において表もしくはリストの始まりもしくは終わりに関するマーカがあるかどうかを含むかもしれない。候補電話番号語と関連性があるいくつかの他の特徴は、一般的な電話番号語（たとえば「電話（call, calling, telephone, telephoning, phone, phoning, tel, tele, (T)）など」）が候補電話番号語の前のある予め定められた数の語内に現われるかどうか、一般的なファクシミリ番号語（たとえば「ファックス（fax, faxing, (F)）など」）が候補電話番号語の前のある予め定められた数の語内に現われるかどうか、候補電話番号語と住所との間に別の電話番号があるかどうか、を含むかもしれない。他の特徴は当業者には明らかであろう。
【００３５】
統計的モデルを、ある文書におけるある語と関連付けられる特徴に基づいて用いて、その語がその文書においてある住所と関連付けられるビジネス情報の一部であるかどうかを予想してもよい。換言すると、統計的モデルはある数の異なる手掛かりをトレーニングセットから特定し、それらの手掛かりを用いて、あるタイトルがある文書内においてどこにおいて始まりそして終わりそうか、および／またはどの電話番号がその文書内におけるある住所に対応しそうかを判断してもよい。
【００３６】
例示的なローカル項目抽出部
図６はこの発明の原理に一致するある実現例に従うローカル項目抽出部６００の例示的な図である。１つの実現例においては、ローカル項目抽出部６００は、ソフトウェアおよび／またはハードウェアによって、サーバ２２０（図２）、別の装置、またはサーバ２２０とは別のもしくはサーバ２２０を含む装置の群内において実現されてもよい。
【００３７】
図６に示されるように、ローカル項目抽出部６００は、住所を伴う文書を分析して、統計的モデル４２０に基づいてその住所に関連付けられるビジネス情報を判断してもよい分類部６１０を含んでもよい。分類部６１０によって分析される文書は、対応する職業別電話帳データがない住所を伴う文書、および／またはおそらく不正確な職業別電話帳データが存在する住所を伴う文書を含んでもよい。分類部６１０により実行される機能は、ビジネス情報が商号（タイトル）情報または電話番号情報に対応するかどうかに基づいて異なってもよい。さらに別の機能が、ビジネス情報が商号または電話番号情報以外の情報を含むときに実行されてもよい。
【００３８】
図７はこの発明の原理に一致するある実現例に従って住所に関連付けられる商号（タイトル）を特定するための例示的処理のフローチャートである。処理は、住所を含む文書の特定で始まってもよい（ブロック７１０）。任意の周知の住所認識技術を用いて文書において住所を認識してよい。
【００３９】
住所付近の語を分析してもよく、各語がタイトルの一部である確率を判断してもよい（ブロック７２０および７３０）。１つの実現例では、分析を、文書内における住所の直前の語で始めてもよい。換言すると、タイトルに対する検索を、住所において始めて、文書のテキストを逆方向に見てもよい。その理論は、タイトルが文書において住所に関連して生ずるとき、それはほとんどいつも文書において住所の前に生ずる、というものである。
【００４０】
候補語を分析するとき、先行する語に関する予想が与えられ、および候補語の周りにおいて語のウィンドウが与えられるとして（たとえば左および右のある予め定められた数の語を見て）、統計的モデルに基づいて、候補語がタイトルの一部である確率を判断してもよい。この確率判断は、そのウィンドウにおける候補語および他の語の特徴に基づいてもよい。候補語に関連付けられる特徴は、たとえば、候補語の、住所からの距離、候補語の特性、候補語と先行するもしくは後続の語との間における境界情報、および／または候補語と先行するもしくは後続の語との間における句読点情報を含むかもしれない。
【００４１】
０または１のいずれかであるｔ（ｉ）を、住所の始まりに先行するｉ番目の語がタイトルにおける語である（＝１）かまたはそうでない（＝０）かの予想であるとする。ｘ（ｉ）をｉ番目の語それ自体とし、ｓ（ｉ）をｘ（ｉ）の属性（たとえば距離および特性）とし、ｈ（ｉ）をｘ（ｉ）と後続の（または先行する）語との間の境界情報とし、ｑ（ｉ）をｘ（ｉ）と後続の（または先行する）語との間における句読点情報であるとする。その場合、ｘ（ｉ）がそのコンテキストにおいて条件付けられるタイトルの一部である確率は以下のように表現されてもよい：
Ｆ（ｉ）＝Prob［ｔ（ｉ）given ｘ（ｉ＋２）ｘ（ｉ＋１）ｘ（ｉ）ｘ（ｉ−１）ｘ（ｉ−２），ｓ（ｉ＋２）ｓ（ｉ＋１）ｓ（ｉ）ｓ（ｉ−１）ｓ（ｉ−２），ｈ（ｉ＋１）ｈ（ｉ）ｈ（ｉ−１）ｈ（ｉ−２），ｑ（ｉ＋１）ｑ（ｉ）ｑ（ｉ−１）ｑ（ｉ−２），ｔ（ｉ−１）］
式中、ｘ（ｉ＋２）ｘ（ｉ＋１）ｘ（ｉ）ｘ（ｉ−１）ｘ（ｉ−２）はｘ（ｉ）の付近の語のウィンドウを指してもよく（語のウィンドウはｘ（ｉ）の左に対し２つおよび右に対し２つとして示されているが、ウィンドウはこの発明の原理に一致する他の実現例においてはより大きくてもまたはより小さくてもよい）、ｓ（ｉ＋２）ｓ（ｉ＋１）ｓ（ｉ）ｓ（ｉ−１）ｓ（ｉ−２）はウィンドウにおける語の属性を示してもよく、ｈ（ｉ＋１）ｈ（ｉ）ｈ（ｉ−１）ｈ（ｉ−２）はウィンドウにおける語の間の境界情報を示してもよく、ｑ（ｉ＋１）ｑ（ｉ）ｑ（ｉ−１）ｑ（ｉ−２）はウィンドウにおける語の間の句読点情報を示してもよく、ｔ（ｉ−１）はｘ（ｉ）に先行する語（つまりｘ（ｉ−１））に関する予想を示してもよい。
【００４２】
Ｘ＝ｘ（ｎ）ｘ（ｎ−１）...ｘ（２）ｘ（１）とし、ここで、ｎは考慮されるテキストストリングのサイズ（たとえば２０語）を示し、Ｓ＝ｓ（ｎ）ｓ（ｎ−１）...ｓ（２）ｓ（１）、Ｈ＝ｈ（ｎ−１）...ｈ（２）ｈ（１）、Ｑ＝ｑ（ｎ−１）...ｑ（２）ｑ（１）およびＴ＝ｔ（ｎ）ｔ（ｎ−１）...ｔ（２）ｔ（１）とする。全ストリングの確率は、この場合、Prob（Ｔ given Ｘ，Ｓ，Ｈ，Ｑ）から判断されてもよい。条件付き確率の定義およびマルコフのような仮定（つまりローカルなコンテキスト事項のみ）に基づいて、このストリングの確率は次のように表現されてもよい：
Prob（Ｔ given Ｘ，Ｓ，Ｈ，Ｑ）＝ｋＦ（ｎ）Ｆ（ｎ−１）...Ｆ（２）Ｆ（１）
式中、ｋはこのコンテキストに対する定数であり、この等式の右側においてＦ（ｉ）においてｔ（ｉ）およびｔ（ｉ−１）はこの等式の左側においてＴにあるものと一致する。
【００４３】
Ｔは、次いで、Ｔにおけるすべての１は隣接しているという制約の対象となるProb（Ｔgiven Ｘ，Ｓ，Ｈ，Ｑ）を最大にするよう選択されてもよい。そのようにするために、徹底的な検索をすべての２ⁿＴにわたって実行し、Prob（Ｔ given Ｘ，Ｓ，Ｈ，Ｑ）を各Ｔごとに評価してもよい。まさにベストのタイトルを得るために、周知の、単一ソースの、最短経路アルゴリズムを用いてもよい。ｊ個のベストのタイトルを得るために、周知のｊベストアルゴリズムを用いてもよい。
【００４４】
信頼度スコアを、特定される各候補タイトルに割当ててもよい（ブロック７４０）。この信頼度スコアはそのタイトルに関連付けられる確率（たとえばProb（Ｔ given Ｘ，Ｓ，Ｈ，Ｑ））に関係していてもよい。選択肢として、住所に対するベストのタイトルを候補タイトルの組から判断してもよい（ブロック７５０）。１つの実現例では、住所に対するベストのタイトルは最も高い信頼度スコアを伴う候補タイトルとして特定されてもよい。別の実現例では、住所が文書の群に現われると、その住所に対するベストのタイトルを、文書の群にわたって最も高い信頼度スコアを伴う候補タイトル、または文書の群において最も多くの文書に現われる最も高い信頼度スコアを伴う候補タイトルとして特定してもよい。
【００４５】
タイトルは次いで住所と関連付けられてビジネスリストを形成するかまたは補足してもよい。住所はその関連付けられたタイトルとともにメモリに記憶されてもよい。
【００４６】
図８はこの発明の原理に一致するある実現例に従って住所に関連付けられる電話番号を特定するための例示的処理のフローチャートである。処理は住所を含む文書の特定で始まってもよい（ブロック８１０）。任意の周知の住所認識技術を用いて文書において住所を認識してよい。
【００４７】
文書における候補電話番号の組を特定してもよい（ブロック８２０）。１つの実現例では、文書におけるすべての電話番号を候補電話番号として特定してもよい。別の実現例では、住所のある距離内における電話番号を特定してもよい。任意の周知のパターンマッチング技術を用いて候補電話番号の組を特定してよい。
【００４８】
先行する候補電話番号に関する予想が与えられ、候補電話番号の付近において語のウィンドウが与えられるとして（たとえば左および右のある予め定められた数の語を見て）、候補電話番号の各々が住所に関連付けられる確率を、統計的モデルに基づいて判断してもよい（ブロック８３０）。この確率判断は、さらに、候補電話番号に関連付けられる特徴に基づいてもよい。特徴は、上記において説明されるように、候補電話番号の、住所からの距離、候補電話番号の特性、候補電話番号と住所との間における境界情報、および／または候補電話番号と住所との間における句読点情報を含むかもしれない。この確率は上記においてタイトルに関し記載された態様と同様の態様で判断されてもよく、そこにおいて、ｘ（ｉ）は、この場合においては、候補電話番号を示す。
【００４９】
信頼度スコアを、候補電話番号に対し、それらの判断された確率に基づいて割当ててもよい（ブロック８４０）。選択肢として、住所に対するベストの電話番号を判断してもよい（ブロック８５０）。１つの実現例では、住所に対するベストの電話番号は、最も高い信頼度スコアを伴う候補電話番号として特定されてもよい。別の実現例では、住所が文書の群の中に現われる場合には、住所に対するベストの電話番号は、文書の群にわたって最も高い信頼度スコアを伴う候補電話番号として、または文書の群において最も多くの文書中に現われる最も高い信頼度スコアを伴う候補電話番号として特定されてもよい。
【００５０】
電話番号は、次いで、住所と関連付けられて、ビジネスリストを形成または補足してもよい。住所と、その関連付けられた電話番号は、ともに、メモリに記憶されてもよい。
【００５１】
例
図９〜図１５はこの発明の原理に一致するある実現例に従って例示的な文書において実行されてもよい処理を示す図である。図９に示されるように、この文書はWashington, DC（ワシントンＤＣ）にあるMorton's（モートンの）レストランのレビューに関連付けられるウェブページである。このウェブページに対し、周知の住所認識技術を用いて分析を行なって、このウェブページに郵便住所が含まれることを判断してもよい。図１０に示されるように、住所は、123 Connecticut Avenue, Washington, DC 20200（１２３コネチカット・アベニュー、ワシントン、ＤＣ２０２００）に対応している。Morton'sは、関連付けられる職業別電話帳データを全く持たないか、またはおそらく不正確な職業別電話帳データを有している、と仮定する。
【００５２】
住所に関連付けられる商号（タイトル）を特定しようと試みる際、検索を、その住所の直前の語で始めて、逆向きに進んでもよい。この場合では、検索は、図１１に示されるように、「at（〜の）」という語で始まってもよい。候補語「at」が、その候補語の付近に語のウィンドウが与えられ、そのウィンドウにおけるそれらの語に関連付けられる特徴が与えられ、先の語に関連付けられる予想が与えられるとして、タイトルの一部である確率はどのようであるかを判断してもよい。
【００５３】
この確率は、Ｆ（at）＝Prob［t（at）given“visited Morton's at １２３ Connecticut,”s（visited）s（Morton's）s（at）s（１２３）s（Connecticut），h（Morton's）h（at）h（１２３）h（Connecticut），q（Morton's）q（at）q（１２３）q（Connecticut），０］として表現されてもよく、そこにおいて、たとえば、s（at）は「at」という語の属性を示してもよく、h（at）は「at」という語とそれに続く語「Morton's」との間における境界情報を示してもよく、q（at）は「at」という語とそれに続く語「Morton's」という語との間における句読点情報を示してもよく、「０」は前の語に関する予想を示し、それはこの場合においては住所の一部に対応する。この単純な例は、候補語の左および右に２つの語のウィンドウを仮定するが、このウィンドウは実際にはより大きくてもまたはより小さくてもよい。
【００５４】
候補語「at」に関連付けられる属性は、「at」という語の、住所からの距離を含むかもしれない。この場合においては、「at」という語は住所の直前になる。属性は、さらに、「at」という語の特性を含むかもしれない。この場合においては、語は「at」であり；それは数ではなく；それは大文字で始まってもいなければ、大文字でもなければ、太字でもなければ、斜体字でもなければ、下線を付けられてもいなければ、中央揃えされてもおらず；それはアンカーテキストの一部ではなく；それは長さにおいて２つの文字である。境界情報に対しては、「at」という語の左（または右）には境界マーカはないと仮定する。さらに、「at」という語の左（または右）には句読点もない。この確率判断は、「at」という語はタイトルの一部ではない（たとえばt（at）＝０）という予想をもたらす結果となる。
【００５５】
検索は、図１２に示されるように、「Morton's」という語で続いてもよい。「Morton's」という候補語が、その候補語の付近に語のウィンドウが与えられ、そのウィンドウにおけるそれらの語に関連付けられる特徴が与えられ、先の語に関連付けられる予想が与えられるとして、タイトルの一部である確率はどのようであるかを判断してもよい。
【００５６】
この確率はＰ（Morton's）＝Prob［t（Morton's）given“recently visited Morton's at １２３，”s（recently）s（visited）s（Morton's）s（at）s（１２３），h（visited）h（Morton's）h（at）h（１２３），q（visited）q（Morton's）q（at）q（１２３），０］として表現されてもよい。「Morton's」という語に関連付けられる属性は、「Morton's」という語の、住所からの距離を含むかもしれない。この場合においては、「Morton's」という語は住所から１語離れている。属性は、さらに、「Morton's」という語の特性を含むかもしれない。この場合においては、語は「Morton's」であり；、それは数ではなく；それは最初の文字が大文字であり；それは大文字ではなく、太字でもなく、斜体字でもなく、下線を付けられてもおらず、中央揃えされてもおらず；それはアンカーテキストの一部ではなく；それは長さが８文字である。境界情報に対しては、「Morton's」という語の左（または右）には境界マーカはないと仮定する。さらに、「Morton's」という語の左（または右）には句読点はない。この確率判断は、「Morton's」という語はタイトルの一部である（たとえばt（Morton's）＝１）という予想をもたらす結果となる。
【００５７】
検索は、図１３に示されるように、「visited（訪ねた）」という語で続いてもよい。候補語「visited」が、その候補語の付近に語のウィンドウが与えられ、そのウィンドウにおけるそれらの語に関連付けられる特徴が与えられ、先の語に関連付けられる予想が与えられるとして、タイトルの一部である確率はどのようであるかを判断してもよい。
【００５８】
この確率はＰ（visited）＝Prob［t（visited）given“I recently visited Morton's at，”s（Ｉ）s（recently）s（visited）s（Morton's）s（at），h（recently）h（visited）h（Morton's）h（at），q（recently）q（visited）q（Morton's）q（at），１］として表現されてもよい。「visited」という語に関連付けられる属性は、「visited」という語の、住所からの距離を含むかもしれない。この場合においては、「visited」という語は住所から２語離れている。属性は、さらに、「visited」という語の特性を含むかもしれない。この場合においては、語は「visited」であり；それは数ではなく；それは大文字で始まってはおらず、大文字でもなく、太字でもなく、斜体字でもなく、下線を付けられてもおらず、中央揃えされてもおらず；それはアンカーテキストの一部ではなく；それは長さが７文字である。境界情報に対しては、「visited」という語の左（または右）には境界マーカはないと仮定する。さらに、「visited」という語の左（または右）には句読点はない。この確率判断は、「visited」という語はタイトルの一部ではない（（t（visited）＝０）という予想をもたらす結果となる。
【００５９】
（ウェブページにおけるなんらかの語の組またはウェブページにおける語のすべてに関し）候補語の各々がタイトルの一部であるかどうか予想がなされると、スライドする語のストリングを考慮して、その語がタイトルを含む確率を最大にするストリングを特定してもよい。この処理は「Morton's」という語を住所に対する候補タイトルとして特定すると仮定する。ある信頼度スコアを、上記のように、候補タイトルに割当ててもよい。
【００６０】
住所に関連付けられる電話番号を特定しようと試みる際、検索は、図１４に示されるように、周知のパターンマッチング技術を用いて、ウェブページにおける電話番号のすべてを特定することにより、開始してもよい。この場合においては、２つの候補電話番号、つまり２０２−９８７−６５４３および２０２−９８７−６５４２が特定された。
【００６１】
候補電話番号の各々が、その候補電話番号の付近に語のウィンドウが与えられ、候補電話番号に関連付けられる特徴が与えられ、先の電話番号に関連付けられる予想が与えられるとして、その住所に対する電話番号である確率はどのようであるかを判断してもよい。候補電話番号に関連付けられる特徴は、電話番号の、住所からの距離を含むかもしれない。この場合においては、双方の候補電話番号は住所から約１５０語分離れている。特徴は、さらに、境界情報が電話番号と住所との間に存在するかどうかを含むかもしれない。この場合においては、２つの段落境界が候補電話番号と住所との間に存在する。
【００６２】
電話番号に関連性がある他の特徴は、一般的な電話番号語（たとえば「電話（call, calling, telephone, telephoning, phone, phoning, tel, tele, (T)）など」）が電話番号語の前のある予め定められた数の語内に現われるかどうか、一般的なファクシミリ番号語（たとえば「ファックス（fax, faxing, (F)）など」）が電話番号語の前のある予め定められた数の語内に現われるかどうか、それと住所との間に別の電話番号があるかどうか、を含む。この場合においては、確率判断は、２０２−９８７−６５４３という電話番号候補は２０２−９８７−６５４２という電話番号候補よりも住所に合っている電話番号でありそうであるという予想をもたらす結果となってもよい。
【００６３】
候補電話番号は、それらの、住所に関連付けられる確率に基づいて、信頼度スコアを割当てられてもよい。
【００６４】
住所に関連付けられるビジネスリストは、図１５に示されるように、最も高い信頼度スコアを伴うタイトルおよび／または電話番号から情報を伴って形成または補足されてもよい。ビジネスリストはビジネスに関連付けられる文書へのリンク、ビジネスに対する住所情報、ビジネスに関する電話番号、ビジネスに言及する文書からの抜粋、および／またはビジネスに言及する文書への１つ以上のリンクを含んでもよい。
【００６５】
結論
この発明の原理に一致するシステムおよび方法は、文書においてなんらかの目印（たとえば、郵便住所）を与えられるとして、目印の属性（たとえばビジネス情報、たとえば商号、電話番号、営業時間、またはウェブサイトもしくはマップへのリンク）をその文書において見つけるよう試みる。先の記載は文書において住所に関連付けられるビジネス情報を見つけることに焦点を置いたが、これは必ずしもそうである必要はない。他の実現例では、上記の処理は他の目印および属性に当てはまってもよく、たとえば、製品（目印）に関連付けられる価格（属性）または製品識別番号（属性）を見つけ出してもよい。文書に現われてもよい他の種類の目印および属性は当業者には明らかであろう。
【００６６】
この発明の好ましい実施例の、前述の記載は、説明および記載を与えてはいるが、排他的であったり、またはこの発明を開示される形式そのものに限定するよう意図されるものではない。修正および変形が、上記の教示に照らして可能であり、またはこの発明の実施から得られてもよい。
【００６７】
たとえば、一連の動作が図５、図７および図８を参照して記載されているが、これら動作の順序はこの発明の原理に従う他の実現例においては修正されてもよい。さらに、非依存性の動作を平行して実行してもよい。
【００６８】
さらに、候補語が住所に関連付けられるビジネス情報の一部である確率は、特徴、たとえばその語の付近の語からなるウィンドウ、先の語に関する予想、ならびにそのウィンドウにおける１つ以上の語に関連付けられる属性、境界情報および句読点などに基づくと記載されたが、別の実現例では、より多くの、より少ない、または異なる特徴を用いて、候補語が住所に関連付けられるビジネス情報の一部であるかどうかを予想してもよい。
【００６９】
当業者には、上記のような、この発明の局面は、図に示される実現例において数多くの異なる形式のソフトウェア、ファームウェアおよびハードウェアにおいて実現されてもよいことは明らかである。この発明の原理に一致する局面を実現するよう用いられる実際のソフトウェアコードまたは専門化された制御ハードウェアはこの発明の限定ではない。このように、それら局面の動作およびふるまいは具体的なソフトウェアコードに対する言及なく記載され−−当業者であればここにおける記載に基づいてそれらの局面を実現するようソフトウェアおよび制御ハードウェアを設計することが可能であろうことが理解される。
【００７０】
本願において用いられるいかなる要素、行為または命令も、この発明にとって重要または本質的であるとして明記されるのでなければ、そのように解釈されるべきではない。さらに、ここで用いられるとおりでは、「a（ある〜）」という冠詞は１つ以上のものを含むよう意図される。たった１つのものを意図する場合には、「１つの」または同様の文言が用いられている。さらに、「〜に基づく」という表現は、特段の明記がなければ、「少なくとも一部は〜に基づく」を意味するよう意図される。

【特許請求の範囲】
【請求項１】
住所を含む文書を特定するステップと；
前記文書においてビジネス情報を見つけ出すステップと；
前記ビジネス情報に信頼度スコアを割当てるステップとを含み、前記信頼度スコアは前記ビジネス情報が前記住所に関連付けられる確率に関するものであり；さらに
前記割当てられた信頼度スコアに基づいて前記ビジネス情報を前記住所に関連付けるかどうかを判断するステップとを含む、方法。
【請求項２】
前記ビジネス情報はタイトルに対応し；および
ビジネス情報を前記文書において見つけ出すステップは：
前記文書において前記住所に先行する複数の語を分析するステップと、
前記語の各々が前記住所に関連付けられるタイトルの一部である確率を判断するステップと、
前記住所に関連付けられるタイトルの一部である高い確率を有する前記語のうちの１つ以上に基づいて候補タイトルを特定するステップとを含む、請求項１に記載の方法。
【請求項３】
前記複数の語は、前記文書において前記住所の直前の第１の語、および前記文書において前記第１の語に先行する１つ以上の第２の語を含む、請求項２に記載の方法。
【請求項４】
前記語の各々がタイトルに含まれる確率を判断するステップは：
前記語のうちの１つが前記タイトルの一部であるかどうかを予想するステップと、
前記語のうちの前記１つに関する前記予想に基づいて前記語のうちの別の１つが前記タイトルの一部であるかどうかを予想するステップとを含む、請求項２に記載の方法。
【請求項５】
前記語のうちの１つがタイトルに含まれる確率は当該の語の付近の語からなるウィンドウに基づく、請求項２に記載の方法。
【請求項６】
前記語のうちの１つがタイトルに含まれる確率は前記語のうちの別の１つに関連付けられる確率に基づく、請求項２に記載の方法。
【請求項７】
前記語のうちの１つがタイトルに含まれる確率は当該の語に関連付けられる特徴の組に基づく、請求項２に記載の方法。
【請求項８】
前記特徴の組は、当該の語の、前記住所からの距離、当該の語の特性、当該の語と先行するもしくは後続の語との間における境界情報、または当該の語と先行するもしくは後続の語との間における句読点情報のうちの少なくとも１つを含む、請求項７に記載の方法。
【請求項９】
前記語のうちの１つがタイトルに含まれる確率は既知の住所および関連付けられるタイトルを伴う複数の文書に関連付けられる特徴を分析することにより発生される統計的モデルから判断される、請求項２に記載の方法。
【請求項１０】
前記ビジネス情報はタイトルに対応し；および
ビジネス情報を前記文書において見つけ出すステップは：
前記文書において前記住所に先行する複数の語を分析するステップと、
前記語の各々が前記住所に関連付けられるタイトルの一部である確率を判断するステップと、
複数の候補タイトルを、前記住所に関連付けられるタイトルの一部である高い確率を有する語からなる１つ以上の群に基づいて特定するステップとを含む、請求項１に記載の方法。
【請求項１１】
前記ビジネス情報は電話番号に対応し；
前記文書においてビジネス情報を見つけ出すステップは：
前記文書において候補電話番号の組を特定するステップと、
前記候補電話番号の組における各候補電話番号が前記住所に関連付けられる確率を判断するステップとを含む、請求項１に記載の方法。
【請求項１２】
前記候補電話番号の１つが前記住所に関連付けられる確率は当該候補電話番号に関連付けられる特徴の組に基づく、請求項１１に記載の方法。
【請求項１３】
前記特徴の組は、当該候補電話番号の、住所からの距離、当該候補電話番号と前記住所との間の境界情報、一般的な電話番号語が当該候補電話番号の前に現われるかどうか、一般的なファクシミリ番号語が当該候補電話番号の前に現れるか、または別の候補電話番号が当該候補電話番号と前記住所との間に存在するか、のうちの少なくとも１つを含む、請求項１２に記載の方法。
【請求項１４】
前記候補電話番号の１つが前記住所に関連付けられる確率は、既知の住所および関連付けられた電話番号を伴う複数の文書に関連付けられる特徴を分析することにより発生される統計的モデルから判断される、請求項１２に記載の方法。
【請求項１５】
前記ビジネス情報が前記住所に関連付けられる確率は、既知の住所および関連付けられたビジネス情報を伴う複数の文書に関連付けられる特徴を分析することにより発生される統計的モデルから判断される、請求項１に記載の方法。
【請求項１６】
前記ビジネス情報は、タイトル、電話番号、営業時間、または前記住所に関連付けられるウェブサイトもしくはマップへのリンクのうちの少なくとも１つを含む、請求項１に記載の方法。
【請求項１７】
前記ビジネス情報を前記住所と関連付けるかどうかを判断するステップは；
前記文書において語のストリングを分析するステップと、
前記ストリングのうち、前記語が前記ビジネス情報を含む確率を最大にするストリングを判断するステップとを含む、請求項１に記載の方法。
【請求項１８】
前記ビジネス情報が前記住所に関連付けられるとき、前記ビジネス情報と前記住所とに基づいたビジネスリストを生成または補足するステップをさらに含む、請求項１に記載の方法。
【請求項１９】
住所を含む文書を特定するための手段と；
前記文書において１つ以上のビジネス情報候補を見つけ出すための手段と；
信頼度スコアを前記１つ以上のビジネス情報候補の各々に割当てるための手段とを含み、前記ビジネス情報候補の１つに関連付けられる信頼度スコアは、当該ビジネス情報候補が前記住所に関連付けられる確率に関するものであり；さらに
前記割当てられた信頼度スコアに基づいて前記１つ以上のビジネス情報候補の１つを前記住所に関連付けるかどうかを判断するための手段とを含む、システム。
【請求項２０】
統計的モデルを記憶するメモリと；
前記メモリに接続され、住所を含む文書を特定し、前記文書においてビジネス情報を特定し、前記統計的モデルに基づいて前記ビジネス情報が前記住所に関連付けられるかどうかを予想し、前記予測に基づいて前記ビジネス情報を前記住所に関連付けるかどうかを判断するプロセッサとを含む、システム。
【請求項２１】
前記ビジネス情報はタイトルに対応し；
前記文書においてビジネス情報を特定する際に、前記プロセッサは、
前記文書において前記住所に先行する複数の語を分析し、
前記統計的モデルに基づいて前記語の各々が前記住所に関連付けられるタイトルの一部である確率を判断し、
前記住所に関連付けられるタイトルの一部である高い確率を有する前記語の１つ以上に基づいて候補タイトルを特定するよう構成される、請求項２０に記載のシステム。
【請求項２２】
前記複数の語は、前記文書において前記住所の直前の第１の語、および前記文書において前記第１の語に先行する１つ以上の第２の語を含む、請求項２１に記載のシステム。
【請求項２３】
前記語の各々がタイトルに含まれる確率を判断する際、前記プロセッサは：
前記語のうちの１つが前記タイトルの一部であるかどうかを予想し、
前記語のうちの前記１つに関する前記予想に基づいて前記語のうちの別の１つが前記タイトルの一部であるかどうかを予想するよう構成される、請求項２１に記載のシステム。
【請求項２４】
前記語のうちの１つがタイトルに含まれる確率は当該の語の付近の語からなるウィンドウに基づく、請求項２１に記載のシステム。
【請求項２５】
前記語のうちの１つがタイトルに含まれる確率は前記語のうちの別の１つに関連付けられる確率に基づく、請求項２１に記載のシステム。
【請求項２６】
前記語のうちの１つがタイトルに含まれる確率は当該の語に関連付けられる特徴の組に基づく、請求項２１に記載のシステム。
【請求項２７】
前記特徴の組は、当該の語の、前記住所からの距離、当該の語の特性、当該の語と先行するもしくは後続の語との間における境界情報、または当該の語と先行するもしくは後続の語との間における句読点情報のうちの少なくとも１つを含む、請求項２６に記載のシステム。
【請求項２８】
前記統計的モデルは、既知の住所および関連付けられたタイトルを伴う複数の文書に関連付けられる特徴を分析することにより発生される、請求項２０に記載のシステム。
【請求項２９】
前記ビジネス情報はタイトルに対応し、；
前記文書においてビジネス情報を特定する際、前記プロセッサは：
前記文書において前記住所に先行する複数の語を分析し、
前記語の各々が前記住所に関連付けられるタイトルの一部である確率を判断し、
複数の候補タイトルを、前記住所に関連付けられるタイトルの一部である高い確率を有する語からなる１つ以上の群に基づいて特定するよう構成される、請求項２０に記載のシステム。
【請求項３０】
前記ビジネス情報は電話番号に対応し；
前記文書においてビジネス情報を特定する際、前記プロセッサは：
前記文書において候補電話番号の組を特定し、
前記統計的モデルに基づいて前記候補電話番号の組における各候補電話番号が前記住所に関連付けられる確率を判断するよう構成される、請求項２０に記載のシステム。
【請求項３１】
前記候補電話番号の１つが前記住所に関連付けられる確率は当該候補電話番号に関連付けられる特徴の組に基づく、請求項３０に記載のシステム。
【請求項３２】
前記特徴の組は、当該候補電話番号の、住所からの距離、当該候補電話番号と前記住所との間の境界情報、一般的な電話番号語が当該候補電話番号の前に現われるかどうか、一般的なファクシミリ番号語が当該候補電話番号の前に現れるか、または別の候補電話番号が当該候補電話番号と前記住所との間に存在するか、のうちの少なくとも１つを含む、請求項３１に記載のシステム。
【請求項３３】
前記統計的モデルは、既知の住所および関連付けられた電話番号を伴う複数の文書に関連付けられる特徴を分析することにより発生される、請求項３１に記載のシステム。
【請求項３４】
前記統計的モデルは、既知の住所および関連付けられたビジネス情報を伴う複数の文書に関連付けられる特徴を分析することにより発生される、請求項２０に記載のシステム。
【請求項３５】
前記ビジネス情報は、タイトル、電話番号、営業時間、または前記住所に関連付けられるウェブサイトもしくはマップへのリンクのうちの少なくとも１つを含む、請求項２０に記載のシステム。
【請求項３６】
前記ビジネス情報を前記住所と関連付けるかどうかを判断する際、前記プロセッサは：
前記文書において語のストリングを分析し、
前記ストリングのうち、前記語が前記ビジネス情報を含む確率を最大にするストリングを判断するよう構成される、請求項２０に記載のシステム。
【請求項３７】
前記プロセッサはさらに、前記ビジネス情報が前記住所に関連付けられるとき、前記ビジネス情報と前記住所とに基づいたビジネスリストを生成または補足するよう構成される、請求項２０に記載のシステム。
【請求項３８】
住所を含む文書を特定するステップと；
前記文書において前記住所に先行する複数の語を特定するステップと；
前記語の各々が前記住所に関連付けられるタイトルの一部である確率を判断するステップと；
前記住所に関連付けられるタイトルの一部である高い確率を有する前記語の１つ以上に基づいて候補タイトルを特定するステップと；
信頼度スコアを前記候補タイトルに割当てるステップと；
前記割当てられた信頼度スコアに基づいて前記候補タイトルを前記住所に関連付けるかどうかを判断するステップとを含む、方法。
【請求項３９】
住所を含む文書を特定するステップと；
前記文書において候補電話番号の組を特定するステップと；
前記候補電話番号の組における各候補電話番号が前記住所に関連付けられる確率を判断するステップと；
前記判断された確率に基づいて前記候補電話番号の１つを前記住所に関連付けるかどうかを判断するステップとを含む、方法。
【請求項４０】
目印を含むウェブページを特定するステップと；
前記ウェブページにおいて属性を特定するステップと；
信頼度スコアを前記属性に割当てるステップとを含み、前記信頼度スコアは前記属性が前記目印に関連付けられる確率に関するものであり；さらに
前記割当てられた信頼度スコアに基づいて前記属性を前記目印に関連付けるかどうかを判断するステップとを含む、方法。
【請求項４１】
前記目印は郵便住所に対応し、前記属性は、タイトル、電話番号、営業時間、または前記郵便住所に関連付けられるウェブサイトもしくはマップへのリンクの１つに関する情報に対応する、請求項４０に記載の方法。
【請求項４２】
前記目印は製品に対応し、前記属性は価格または製品識別番号の１つに対応する、請求項４０に記載の方法。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【公開番号】特開２０１１−１２９１５４（Ｐ２０１１−１２９１５４Ａ）
【公開日】平成２３年６月３０日（２０１１．６．３０）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 情報検索；そのためのデータベース構造 (17,914)

【出願番号】特願２０１１−４７５１９（Ｐ２０１１−４７５１９）
【出願日】平成２３年３月４日（２０１１．３．４）
【分割の表示】特願２００７−５４９６２５（Ｐ２００７−５４９６２５）の分割
【原出願日】平成１７年１２月３０日（２００５．１２．３０）
【出願人】（５０２２０８３９７）グーグル　インコーポレイテッド (161)
【Ｆターム（参考）】

検索装置 (67,127)
- 検索対象情報 (11,868)
  - 検索対象情報の内容 (10,277)
    - コード情報 (3,706)
      - 文字コード (3,390)
- 検索キー情報 (8,147)
  - 検索キー情報の自動抽出 (2,419)
    - 自然言語解析による検索キーの抽出 (1,229)

[ Back to top ]

ローカル項目抽出

メニュー

スポンサーリンク

次の公報 »

« 前の公報

ローカル項目抽出

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク