説明

要約作成装置及び方法

【課題】簡易な処理で、多くのユーザが実際に興味を持つ部分を基に有用な要約を作成すること。
【解決手段】要約の基となるページのURLを含むリンク側ページから引用部分を特定して要約を作成する簡単な処理を行うことにより、引用部分は実際に引用者が関心を惹かれた部分であることから、多くのユーザが実際に興味を持つ部分に基づく要約を作成できるうえ、原文の長さや文章の数にも依存せず要約が作成できるので用途も限られない。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、言語処理技術に関する。
【背景技術】
【0002】
近年、ウェブページ(本出願において単に「ページ」とも呼ぶ)の普及増大や処理技術の発達に伴い、ニュース記事などの要約を自動で作成する技術が登場している。例えば、ウェブ検索結果で表示されるページごとの要約(「スニペット」などと呼ばれる)として、検索キーワードの前後所定文字数を抜き出す例が見られ、また、ページなどのドキュメントを先頭から所定文字数取り出して要約とするなどの単純な手法が普及している。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2009−140411号
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、上記のような従来技術は、簡易な処理で負荷は少ないが、要約の基とする文書やページ(「原文」と呼ぶこととする)のみに基づいて要約を作成するため、作成された要約については、原文のなかで多くの人が実際に興味を持つ部分が含まれているとは限らず、有用性に問題があった。
【0005】
なお、要約としての網羅性と読みやすさの両立のために、要約対象文章中の文と類似した類似文をウェブ上の文章から抽出し、この類似文の出現頻度と、類似文同士の連結パターンの出現頻度とを利用して要約文章を作成する工夫も提案されている(例えば、特許文献1参照)。しかし、この提案は、ある程度の長さとなる複数の文を基に、複雑かつ機械的な処理の結果を出力するもので、短い原文には不向きで用途が限られ、処理負荷も大きいうえ、ユーザの実際の興味に基づくものではない点でも、従来技術の課題を解決するものではなかった。
【0006】
上記の課題に対し、本発明の目的は、簡易な処理で、多くのユーザが実際に興味を持つ部分を基に有用な要約を作成することである。
【課題を解決するための手段】
【0007】
上記の目的をふまえ、本発明の一態様(1)である要約作成装置は、要約作成の基となるページのURLを取得するURL取得手段と、前記URLに係る前記ページ内の文字列を原文として取得する原文取得手段と、取得された前記URLを含むページを引用先ページとして抽出する引用先ページ抽出手段と、抽出された前記引用先ページ内の文字列を引用先テキストとして取得する引用先テキスト取得手段と、取得された前記原文と前記引用先テキストとを照合することにより、引用部分を特定する照合特定手段と、特定された前記引用部分に基づいて要約を作成する要約作成手段と、を有することを特徴とする。
【0008】
本発明の他の態様(4)である要約作成方法は、上記態様を方法のカテゴリで捉えたもので、要約作成の基となるページのURLを取得するURL取得処理と、前記URLに係る前記ページ内の文字列を原文として取得する原文取得処理と、取得された前記URLを含むページを引用先ページとして抽出する引用先ページ抽出処理と、抽出された前記引用先ページ内の文字列を引用先テキストとして取得する引用先テキスト取得処理と、取得された前記原文と前記引用先テキストとを照合することにより、引用部分を特定する照合特定処理と、特定された前記引用部分に基づいて要約を作成する要約作成処理と、をコンピュータが実行することを特徴とする。
【0009】
本発明の他の態様(5)である要約作成プログラムは、上記態様をコンピュータ・プログラムのカテゴリで捉えたもので、コンピュータを制御することにより、要約作成の基となるページのURLを取得させ、前記URLに係る前記ページ内の文字列を原文として取得させ、取得された前記URLを含むページを引用先ページとして抽出させ、抽出された前記引用先ページ内の文字列を引用先テキストとして取得させ、取得された前記原文と前記引用先テキストとを照合することにより、引用部分を特定させ、特定された前記引用部分に基づいて要約を作成させることを特徴とする。
【0010】
このように、要約の基となるページのURLを含むリンク側ページから引用部分を特定して要約を作成する簡単な処理を行うことにより、引用部分は実際に引用者が関心を惹かれた部分であることから、多くのユーザが実際に興味を持つ部分に基づく要約を作成できるうえ、原文の長さや文章の数にも依存せず要約が作成できるので用途も限られることなく様々なページで適用できる。
【0011】
本発明の他の態様(2)は、上記いずれかの態様において、前記照合特定手段は、前記引用先テキストのうち前記URLの前後所定量を前記照合の対象とすることを特徴とする。
【0012】
このように、引用先テキストのうちURLの前後所定量を照合の対象とすることにより、URLから所定量離れた位置にある原文の内容と関係の薄いと思われるテキスト部分は対象から省くことが可能となり、照合負荷を軽減し要約の精度も改善できる。
【0013】
本発明の他の態様(3)は、上記いずれかの態様において、前記照合特定手段は、前記引用先テキストのうち所定の引用符号に係る部分については他の部分より優先して前記引用部分として特定することを特徴とする。
【0014】
このように、引用先テキストのうち、カギ括弧や引用符、HTMLの強調タグなど所定の引用符号に係る部分については、選択基準のスコアを大きくするなど、他の部分より優先して要約に用いることにより、ブログなどを書いた人が特に引用符号で強調した部分に基づいて、より印象的な部分を含んだ的確で高精度な優れた要約が得られる。
【0015】
なお、上記の各態様と異なるカテゴリ(装置に対し方法、方法に対しプログラムなど)や、以下に説明するさらに具体的な各態様も本発明に含まれる。上記の各態様と異なるカテゴリについては、「手段」を「処理」又は「ステップ」のように適宜読み替えるものとする。また、処理やステップの実行順序は上記のものに限定されず、適宜変更したりまとめて処理するなど、変更可能である。さらに、方法やプログラムのカテゴリにおいて、個々の処理を実行する「コンピュータ」は共通でもよいし処理ごとに異なってもよい。
【発明の効果】
【0016】
本発明によれば、簡易な処理で、多くのユーザが実際に興味を持つ部分を基に有用な要約を作成することができる。
【図面の簡単な説明】
【0017】
【図1】本発明の実施形態の構成を示す機能ブロック図。
【図3】本発明の実施形態における引用先ページ(ブログなど)を例示する図。
【図2】本発明の実施形態における処理手順を示すフローチャート。
【図4】本発明の実施形態の作用例を示す概念図。
【図5】本発明の実施形態における引用先ページの他の例を示す図。
【発明を実施するための形態】
【0018】
次に、本発明の一例として、本発明を実施するための形態(「実施形態」と呼ぶ)について図に沿って説明する。なお、背景技術や課題などで既に述べた内容と共通の前提事項については適宜省略する。
【0019】
〔1.構成〕
本実施形態は、図1(構成図)に示す要約作成装置1(「本装置」又は「本装置1」とも呼ぶ)に関するもので、本装置1は、対象とするページの要約を、そのページの引用先(例えば図2)を活用して作成するものである。本実施形態では、端末Tを用いるウェブサイト管理者が、ニュースサーバNS内の記事の要約を本装置1に要求するものとする。図1に示すように本装置1は、コンピュータの構成として少なくとも、CPUなどの演算制御部6と、主メモリや補助記憶装置等の記憶装置7と、通信ネットワークN(例えば、インターネット、携帯電話網、PHS網など)との通信手段8(通信ゲートウェイ装置、携帯電話網やPHS網との通信回路、無線LANアダプタなど)と、を有する。
【0020】
また、端末Tは、据置型PC、モバイルPC、タブレットPC、スマートフォン、携帯電話端末などの電子情報機器で、上記のようなコンピュータの構成に加え、図示は省略するが、液晶表示パネルやタッチパネル、押しボタンなどを用いた入出力部を有する。図1に示す端末Tは、要約の作成をさせるウェブサイト管理者が用いるもので、一般のウェブサイト閲覧者などエンドユーザが用いる端末については図示を省略する。
【0021】
また、本装置1では、記憶装置7に記憶(インストール)した所定のコンピュータ・プログラムが演算制御部6を制御することで、図1に示す各手段などの要素(20,30など)を実現する。それら各要素のうち、情報の記憶手段は、記憶装置7において各種のデータベース(「DB」とも表す)やファイル、配列等の変数、各種スタックやレジスタ、システム設定値など任意の形式で実現でき、図示はしないが、各手段による処理の素材や結果を記憶する。
【0022】
なお、図中の矢印は、データや制御などの流れについて主要な方向を補助的に示すもので、方向の限定を意味するものではない。例えばウェブデータをある方向に取得するには、先立って逆方向のページリクエスト送信がある。また、記憶手段以外の各手段は、以下のような情報処理の機能・作用を実現・実行する処理手段であるが、これらは説明のために整理した機能単位であり、実際のハードウェア要素やソフトウェアモジュールとの一致は問わない。
【0023】
〔2.主な作用と効果〕
図3のフローチャートは、上記のように構成した本実施形態において、要求を受けて本装置1が要約を作成する処理手順を示すもので、破線及び破線矢印は、前の処理ステップに基づく情報を後の処理ステップで利用する利用関係を表す。この処理手順では、まず、URL取得手段20が、要約作成の基となるページ(以下「原ページ」と呼ぶ)のURLを取得する(ステップS2)。
【0024】
取得するURLについては、例えば、端末Tからの作成要求において、ニュースサーバNS上の記事であって要約作成の対象とする記事のURLを個別に指定してもよいし、予め作成対象として設定されている所定範囲(例えば所定ディレクトリ内など)の記事ごとに、URL取得手段20がニュースサーバNSから取得してもよい。それら以外でも、何らかの条件(所定以上の閲覧数など)を満たした記事のURLを自動検出して対象とするなど、任意の取得の態様でよい。また、本出願において「URL」とは、狭義のURLに限らず、WWW(ワールド・ワイド・ウェブ)などのデータ群中でページを特定する識別情報を意味し、IPアドレスなどでもよい。
【0025】
続いて、原文取得手段30が、上記のように取得されたURLに係る原ページ内の文字列(例えば、ニュース記事のタイトルと本文など)を、ニュースサーバNSから原文として取得する(ステップS3)。また、引用先ページ抽出手段40が、取得されたURLを含むページを引用先ページとして、典型的にはウェブ上から抽出する(ステップS4)。引用先ページの例は、ブログサーバBSなどの提供するブログ記事やコメント、ミニブログの投稿メッセージ(いわゆる「つぶやき」など)などを表するウェブページであるが、そのURLを含む商業記事などのページでもよい。
【0026】
また、「ページ」とは、図4に例示するページDA,DB,DCのような個々のページ全体に限らず、図5に例示するように、電子掲示板やミニブログなどの単一のウェブページP内に記事やコメントといった要素が複数含まれる場合における個々の要素、すなわちページの部分でもよい。図5の例では、ウェブページPにはAさん、Bさん、Cさん、Dさん、といった複数のユーザが投稿した記事があり、それらの中から、原ページの記事のURLを含む記事C1とC3(破線の楕円で示す)のみを引用先ページとして抽出している。
【0027】
また、それら引用先ページを抽出する手法も自由であるが、典型的には、URLを検索キーとしてウェブ検索要求を検索サーバSSへ送信し、その検索結果を利用することが考えられる。そして、引用先テキスト取得手段50が、抽出された引用先ページ内の文字列を引用先テキストとして取得する(ステップS5)。抽出する文字列について、ブログサイトなどのページのうち、定型的要素(広告欄、会社概要、ヘルプへのリンクなど)を除き、ブログ記事やコメントなど正味の部分を選択的に抽出すれば要約の精度が高まる。
【0028】
そして、照合特定手段60が、取得された原文と引用先テキストとを照合することにより、引用部分を特定する(ステップS6)。引用部分を特定する基準も自由であるが、典型的には、原文内の文字列で、かつ、所定割合以上の引用先テキストに含まれる部分を引用部分として特定する。例えば、図4の例では、原ページD1内の原文に含まれる「テレビ離れ」という文字列が(図中、破線の楕円で示す)、原ページD1のURL(図中、破線の下線で示す)を含む引用先ページDA,DB,DCにも存在するので(図中、破線矢印の先に破線の楕円で示す)、引用部分として特定できる。
【0029】
また、要約作成手段70が、特定された引用部分に基づいて要約を作成する(ステップS7)。引用部分に「基づいて」とは、図4において一点鎖線で示すように、特定した引用部分をそのまま要約(図中、破線の矩形で示す)とするものでもよいし、特定した複数の引用部分をつなぎ合わせるなど加工するものでもよく、また、引用部分のうち原文との一致部分の量(例えば連続して一致している文字数やバイト数など)の多いものを採用するなども含む趣旨である。要約の「作成」は、引用部分をそのまま要約として出力装置や処理の後工程、機能の呼び出し元であるプロセスやルーチンなどに出力する処理でもよい。
【0030】
以上のように、要約の基となるページのURLを含むリンク側ページから引用部分を特定して要約を作成する簡単な処理を行うことにより、引用部分は実際に引用者が関心を惹かれた部分であることから、多くのユーザが実際に興味を持つ部分に基づく要約を作成できるうえ、原文の長さや文章の数にも依存せず要約が作成できる。
【0031】
〔3.引用部分の特定〕
特に、照合特定手段60は、引用先テキストのうちURLの前後所定量を照合の対象とすることが望ましい。例えば、図2に例示するブログ記事では、引用されている記事のURL(図中、破線の楕円で示す)の直前100文字と直後100文字は記事内容に関連あるテレビの話題であるが、それよりもさらに前や後は、野良猫対策や同窓会など無関係な話題となっている。
【0032】
このように、引用されているURLに関する内容はそのURLの直前や直後に記載されることが一般的であることから、引用先テキストのうちURLの前後所定量を照合の対象とすることにより、URLから所定量離れた位置にある原文の内容と関係の薄いと思われるテキスト部分は対象から省くことが可能となり、照合負荷を軽減し要約の精度も改善できる。もちろん、URLの前後所定量は、100文字に限らず、他の文字数や行数、データのバイト数、空行までなど、自由に定めてよい。直前又は直後の少なくとも一方でもよいし、直前と直後で量が互いに異なってもよい(例えば、直前100文字、直後は200文字など)。
【0033】
図5に例示したように単一のページ内の複数個所に同一のURLが存在する場合は、個々のURLを基準に前記所定量を照合の対象とする。この場合、照合の対象とする文字列の「所定量」は、単一のページ内にURLが一カ所のみの場合(上記の例では100文字)と同じでもよいが、より少ない量(例えば20文字など)としてもよい。このようにすれば、複数の投稿の一部ずつが抜粋として単一のページに含まれるため100文字も前後にずれれば他の投稿となる場合や、そもそも個々の投稿文字数に限りがある場合(例えば140文字など)など、話題が短いスパンで切り替わるような投稿やページの構成である場合にも、原文の内容と関係が薄いと思われるテキスト部分を対象から確実に省けるので、要約の優れた精度が維持できる。
【0034】
また、照合特定手段60は、引用先テキストのうち所定の引用符号(例えば、カギ括弧や引用符、HTMLの強調タグなど)に係る部分については、選択基準のスコアを大きくするなど、他の部分より優先して引用部分として特定し、要約に用いることが望ましい。例えば、図4の例では、引用先ページDAでは、原文を引用している引用部分に「テレビ離れのきっかけ」とカギ括弧が附され、同様に、引用先ページDBでは引用部分の行頭に引用符「>>」が、引用先ページDCでも引用符であるダブルクオート「"」が附されている。
【0035】
このような引用符号に係る部分について、他の部分より優先して引用部分として特定する基準や態様は自由であるが、原文のうち、引用先ページの何割以上に含まれる部分を引用部分とする、などの選択基準の場合に、引用符号に係る部分については2件や3件分など通常の1件より重みを増してカウントするようにすれば演算負荷が軽減される。
【0036】
このように、引用先テキストのうち所定の引用符号に係る部分について他の部分より優先して引用部分として特定し、要約に用いることにより、ブログなどを書いた人が特に引用符号で強調した部分に基づいて、より印象的な部分を含んだ的確で高精度な優れた要約が得られる。
【0037】
〔4.他の実施形態〕
なお、上記実施形態は例示に過ぎず、本発明は、以下に例示するものやそれ以外の他の実施態様も含むものである。例えば、本出願における構成図、データの図、フローチャートなどは例示に過ぎず、各要素の有無、その配置や処理実行などの順序、具体的内容などは適宜変更可能である。
【0038】
一例として、上記実施形態では、要約作成の基礎となる引用先ページとして、インターネット上において、ブログサーバBSなどに記憶されているブログなどのSNS(ソーシャル・ネットワーキング・サービス)のページを例示したが、引用先ページについては、イントラネット上のページや、単なる電子掲示板に代表されるソーシャルメディアなど自由である。
【0039】
また、上記実施形態で作成された要約は、端末Tを用いるウェブサイト管理者が、例えばニュースサーバNSが提供するニュースのウェブサイトのトピックス一覧表示などに利用できるが、本発明で作成する要約の用途はそのような業務に限られない。例えば、一般のエンドユーザが各記事の概要把握のため、個人のパーソナルコンピュータ(PC)のブラウザから本装置1へアクセスして本発明による要約を利用したり、PCに本発明に係るプログラムをインストールして要約を得るなどしてもよい。
【0040】
また、図1などに示した個々の手段を、相互に別個独立の設備で実現する構成も一般的であるし、サーバでも端末でも機能によっては、外部のプラットフォーム等をAPI(アプリケーション・プログラム・インタフェース)やネットワークコンピューティング(いわゆるクラウドなど)で呼び出して実現するなど、構成は柔軟に変更できる。例えば、図1に示した本装置や各サーバは、適宜一体化してもよい。さらに、本発明に関する手段などの各要素は、コンピュータの演算制御部に限らず物理的な電子回路など他の情報処理機構で実現してもよい。
【符号の説明】
【0041】
1 要約作成装置(本装置)
6 演算制御部
7 記憶装置
8 通信手段
20 URL取得手段
30 原文取得手段
40 引用先ページ抽出手段
50 引用先テキスト取得手段
60 照合特定手段
70 要約作成手段
BS ブログサーバ
D1 原ページ
DA,DB,DC 引用先ページ
N 通信ネットワーク
NS ニュースサーバ
SS 検索サーバ
T 端末

【特許請求の範囲】
【請求項1】
要約作成の基となるページのURLを取得するURL取得手段と、
前記URLに係る前記ページ内の文字列を原文として取得する原文取得手段と、
取得された前記URLを含むページを引用先ページとして抽出する引用先ページ抽出手段と、
抽出された前記引用先ページ内の文字列を引用先テキストとして取得する引用先テキスト取得手段と、
取得された前記原文と前記引用先テキストとを照合することにより、引用部分を特定する照合特定手段と、
特定された前記引用部分に基づいて要約を作成する要約作成手段と、
を有することを特徴とする要約作成装置。
【請求項2】
前記照合特定手段は、前記引用先テキストのうち前記URLの前後所定量を前記照合の対象とすることを特徴とする請求項1記載の要約作成装置。
【請求項3】
前記照合特定手段は、前記引用先テキストのうち所定の引用符号に係る部分については他の部分より優先して前記引用部分として特定することを特徴とする請求項1又は2記載の要約作成装置。
【請求項4】
要約作成の基となるページのURLを取得するURL取得処理と、
前記URLに係る前記ページ内の文字列を原文として取得する原文取得処理と、
取得された前記URLを含むページを引用先ページとして抽出する引用先ページ抽出処理と、
抽出された前記引用先ページ内の文字列を引用先テキストとして取得する引用先テキスト取得処理と、
取得された前記原文と前記引用先テキストとを照合することにより、引用部分を特定する照合特定処理と、
特定された前記引用部分に基づいて要約を作成する要約作成処理と、
をコンピュータが実行することを特徴とする要約作成方法。
【請求項5】
コンピュータを制御することにより、
要約作成の基となるページのURLを取得させ、
前記URLに係る前記ページ内の文字列を原文として取得させ、
取得された前記URLを含むページを引用先ページとして抽出させ、
抽出された前記引用先ページ内の文字列を引用先テキストとして取得させ、
取得された前記原文と前記引用先テキストとを照合することにより、引用部分を特定させ、
特定された前記引用部分に基づいて要約を作成させる
ことを特徴とする要約作成プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2013−20460(P2013−20460A)
【公開日】平成25年1月31日(2013.1.31)
【国際特許分類】
【出願番号】特願2011−153487(P2011−153487)
【出願日】平成23年7月12日(2011.7.12)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】