説明

Fターム[5B091CA01]の内容

機械翻訳 (6,566) | 言語処理技術 (1,358) | 文解析 (1,092)

Fターム[5B091CA01]の下位に属するFターム

Fターム[5B091CA01]に分類される特許

1 - 20 / 33


【課題】テキストのさまざまな特徴を十分に考慮して、テキストを複数のテキストセグメントにセグメント化する方法およびシステムを提供する。
【解決手段】方法は、テキストの複数の分割点のうちの1以上の分割点に対応する1以上の入力ラベルをユーザから受信することを含む。テキストの複数の分割点は1以上のセグメントヒューリスティックをテキストに適用することによって取得される。ユーザによって提供される1以上の入力ラベルは、テキストの複数の分割点をラベル付けするために用いられる。ラベル付けに応答して検証が実行されて、複数の分割点のうちのある分割点が妥当な分割点であるかどうかが特定される。その後、検証に基づいて、妥当な分割点の組が複数の分割点のうちの1以上の分割点で更新される。分割点の組は複数のセクションを認識するためのテキストのセグメント化を可能にする。 (もっと読む)


【課題】契約書に含まれる文章の危険度を判定し契約書のチェックを支援する契約チェック支援装置を提供する。
【解決手段】文章分解部12が、契約書データ格納部2に格納された契約書データ21に含まれる文章の各々を分解して、文章に含まれる目的語、述語及び修飾語を抽出すると、文章分解部12が抽出した目的語と述語との組合せが注意目的語/注意述語組合せテーブル24に存在し、文章分解部12が抽出した修飾語が注意修飾語/危険度テーブル25に存在する場合に、危険判定部13が、注意修飾語/危険度テーブル25から修飾語に対応する危険度を求める。 (もっと読む)


【課題】 要因でありながら、要因を表す言語パターンを伴わない語の適切な要因推定を可能とし、経験記事コーパスにおける要因自明語リストの網羅的な獲得を可能とする。
【解決手段】 本発明は、経験語(経験語シード)の入力を受け付け、入力された経験語シードに基づいて記憶手段を参照し、経験記事が要素となるコーパスがあるとき、1度以上登場する各語のコーパス中における、各経験記事内での出現位置傾向と、各語の品詞と、各語の直前出現助詞の頻度分布と、を用いて経験語を抽出し、経験語と要因助詞語を含む言語パターンを用いて、記憶手段を参照し、コーパスから所定の出現回数の以上の単語を要因自明語として抽出する。 (もっと読む)


【課題】従来、正しい用語対訳を自動抽出する場合、学習データや対訳辞書が必要であった。
【解決手段】対訳データベースから1以上の品詞情報パターンに合致する1以上の対訳フレーズを取得する対訳フレーズ取得部と、対訳フレーズ取得部が取得した1以上の対訳フレーズから、第一言語の用語と用語に対応する第二言語の用語の組の候補である1以上の用語対訳候補を取得する用語対訳候補取得部と、2以上の異なる方法により、2以上の各用語対訳候補に対して、スコアを算出し、2以上のスコアを取得するスコア算出部と、2以上のスコアを用いて、2以上の用語対訳候補のうちの一部を選択して蓄積する用語対訳蓄積部とを具備する用語対訳抽出装置により、正しい用語対訳を自動抽出する場合、学習データや対訳辞書が不要である。 (もっと読む)


【課題】トピック作成の作業負担を軽減し、且つ、トピックの質を均質化すること。
【解決手段】トピック作成支援装置1は、ニュース記事情報記憶手段2から見出しを構成する見出し情報を抽出し、抽出された見出し情報を文節で区切って、複数の文節要素に分割する。そして、トピック作成支援装置1は、分割された各文節要素に対して、少なくとも品詞の特性或いは品詞の活用に応じて予め定められた重み付け判定データに基づいて、重み付けを行い、重み付けされた文節要素のうち、重み付けの度合いが大きい文節要素を抽出する。そして、トピック作成支援装置1は、抽出された文節要素の文字数が13文字以下である場合には、抽出された文節要素を文章情報のトピック候補としてディスプレイ3に出力する。 (もっと読む)


【課題】簡易な処理での抽出が可能となる処理装置等を提供する。
【解決手段】チャンク及び該チャンクを構成する一または複数の単語の種類を受け付ける。予め記憶部15に記憶したチャンク及びチャンクの種類と、受け付けたチャンク及び該チャンクを構成する一または複数の単語の種類とに基づき、チャンクに対する処理を選択する。チャンクを構成する一または複数の単語の属性を選択した処理に対応付けて記憶する。チャンク及びチャンクを構成する一または複数の単語に属性を付与する。単語の属性及び該単語の属性に対応する処理を記憶した記憶部15を参照し、単語に付与された属性に対応する処理を抽出し、抽出した処理を単語に適用する。 (もっと読む)


【課題】 あらゆるタイプの文書及び資料の翻訳に、客観的な自動品質管理又は品質保証を適用する装置と方法を提供すること
【解決手段】 翻訳の品質評価を自動化するためのシステム(10)。システム(10)は、プロセッサ(14)、及び操作可能な状態で相互に接続されているメモリデバイス(16)を有するコンピュータ(12)を含んでもよい。第1の言語によるソーステキストは、メモリデバイス(16)内に格納されてよい。第2の言語へのソーステキストの翻訳を含むターゲットテキストもメモリデバイス(16)内に格納されてよい。これに加えて、複数の実行ファイルは、メモリデバイス(16)上に格納されるとともに、プロセッサ(14)によって実行されたときに、1つ以上のブロックを含むテストサンプルを単独で認識するように構成されてもよく、前記各ブロックは、ソーステキストから選択されたソース部分とターゲットテキストから選択された対応するターゲット部分とを有する整合されたセットを含む。 (もっと読む)


【課題】迅速かつ柔軟な自動応答の生成装置及び方法を提供すること。
【解決手段】自然言語ユーザインタフェース生成装置は、ユーザ端末からの会話文の入力に対応した会話文の出力における会話の状況、会話の動作及びそれらの関係を示すコンピュータ上での処理動作をノードとエッジで表現する知識構造の記憶手段と、知識構造を解釈し、複数の対話ルールと対話制御手法の組を予め関連付けて実行する応答手段とを備え、応答手段は、対話制御手法を実施するために、ノードに属する要素のうち少なくとも二つの要素の間の関係において、処理動作の流れを示す関係及び処理動作に必要な関係を対話ルールとして記憶する対話構造記憶手段と、記憶した要素に対して知識構造における関連付けの有無を判別する判別手段と、判別手段による判別の結果に応じて、対話構造記憶手段に記憶された二つの要素の間の関係を変更する変更手段と、を備える。 (もっと読む)


【課題】集合の要素の属性が連続的な数値で表される場合に、その属性における、グラフ表示すべき対象となる数値的範囲を決定する手段を提供する。
【解決手段】集合選択部202が、利用者にグラフデータを選択させる画面を表示装置102に表示させる。集合選択部202は、利用者によりグラフデータが選択されると、グラフデータ記憶部212から選択されたグラフデータを取得する。集合選択部202は、利用者に、選択されたグラフデータのうちグラフ表示に使用されるデータの集合を選択させるための画面を表示装置102に表示させる。属性が選択されると、集合選択部202は、選択画面を表示させ、利用者にグラフ表示させる属性値の範囲を選択させる。属性値の範囲であるα及びβが決定されることにより、集合A、B及びCが決定され、グラフ表示制御部204は決定された集合A、B及びCのグラフをそれぞれ表示する。 (もっと読む)


【課題】 追加説明を含む入力文について、正しく翻訳できるようにすること。
【解決手段】 翻訳装置は、入力文から追加説明部分を抽出する抽出手段と、入力文から前記抽出手段で追加説明部分が抽出され前記追加説明部分が除かれた文に、当該追加説明部分の位置を示す管理情報を付加する付加手段と、前記追加説明部分が除かれた文を翻訳する第1の翻訳手段と、前記抽出手段で抽出された追加説明部分を翻訳する第2の翻訳手段と、前記管理情報に基づいて、前記第1及び第2の翻訳手段の翻訳結果を合成する合成手段と、を具備することを特徴とする。 (もっと読む)


ライティングシステム及び言語を検出するための方法、システム、及びコンピュータプログラム製品を含む装置が開示される。一実施例では、方法が提供される。この方法は、テキストを受け入れ、かなりの量が第1言語を表現するテキストの第1セグメントを検出し、かなりの量が第2言語を表現するテキストの第2セグメントを検出し、テキスト中に含まれるサイズxの各nグラムに対してスコアを確認し、スコアの変化に基づき、テキストにおいて第1言語から第2言語への遷移を識別するエッジを検出することを含む。
(もっと読む)


【課題】学習データが意味的に類似するクラスを含む場合、及びそうでないクラスを含む場合のいずれであっても、語句のクラスを正しく分類可能な抽出ルールを学習し得る、語句抽出ルール生成装置、語句抽出ルール生成方法、及びプログラムを提供する。
【解決手段】語句抽出ルール生成装置2は、特徴量とクラス情報とを含む学習データから、特定のクラスの語句を抽出するための語句抽出ルールを生成する装置である。語句抽出ルール生成装置2は、特徴量の種類と、特徴量の種類別に付与されている特徴量の重みとによって予め設定された各クラスの定義を用いて、学習データの特徴空間を変換する特徴空間変換部20と、特徴空間変換部20によって特徴空間が変換された学習データから語句抽出ルールを学習する、抽出ルール学習部21とを備えている。 (もっと読む)


【課題】ソフトウェアのドキュメントの翻訳に好適な翻訳装置、方法、及びプログラムを提供する。
【解決手段】ソフトウェアのソースコードを記憶するソースコード記憶部32と、ソースコードの仕様が記載されたドキュメントを原言語で生成する生成部45と、生成されたドキュメントを記憶するドキュメント記憶部34と、ドキュメント記憶部からドキュメントを取得するとともに、ドキュメントの生成元のソースコードをソースコード記憶部から取得する取得部50と、取得されたソースコードを参照して、取得されたドキュメントからソースコード中に出現するプログラム要素を検出する検出部60と、検出されたプログラム要素を、目的言語への翻訳が不要な翻訳不用語句に設定する設定部70と、ドキュメントの翻訳不要語句以外の語句を目的言語に翻訳する翻訳部80と、ドキュメントの翻訳結果を出力する出力部20と、を備える。 (もっと読む)


【課題】従来は見出しの文に対する格フレームにおいて欠落している格関係と格要素を他の見出しの文の格フレームから補うことができない。また、格要素同士の関係や用言同士の関係を抽出し、体言のIS−A関係や用言のIS−A関係を獲得することができない。
【解決手段】見出し階層関係抽出部で文書構造を持つ入力文書から章・節等の見出しの階層関係を抽出し、この見出しの階層関係が不適切な場合、見出し階層関係抽出部で再度見出しの階層関係を抽出するため文書編集部で入力文書を編集し、見出しの階層関係が適切な場合、見出しの階層関係の文の構造を解析して見出しごとの格フレームを文解析部で生成し、この見出しごとの格フレームに対して同一の用言の格要素と格関係を見出し階層関係による格マージ部でマージすることで、欠落した格関係と格要素が補われた格フレームの獲得及びIS−A関係の獲得が行なえる。 (もっと読む)


【課題】可変長nグラムを適切に扱うことができる情報処理装置を提供する。
【解決手段】記号の並びを示す訓練データが記憶される訓練データ記憶部11と、訓練データに含まれる各記号に対応するグラム長を示すグラム長情報と、訓練データに含まれる各記号に対応するグラム長情報の示すグラム長より短いグラム長を有する代理の記号に関する代理情報とが記憶される可変長情報記憶部12と、訓練データとグラム長情報と代理情報とに対応する、訓練データに含まれる記号の接尾辞木を示す接尾辞木情報が記憶される接尾辞木情報記憶部13と、訓練データを用いて、接尾辞木情報を更新しながら各記号のグラム長情報と代理情報とをギブスサンプリングにより算出して可変長情報記憶部12に蓄積する処理を繰り返して実行するギブスサンプリング処理を行うギブスサンプリング部14と、を備える。 (もっと読む)


【課題】非常に高速であり、速度に対して精度を著しく犠牲にしないパーザシステムを提供する。
【解決手段】文書内のブレークキャラクタを使用して、文書を迅速にパーズし、そして文書を特徴付ける1つ以上のキーフレーズを文書から抽出する(44)ためのパージングシステム及び方法が提供される。文書内のブレークキャラクタは、句読点、ソフト終止ワード及びハード終止ワードのような明確なブレークキャラクタを含む(46)。文書内のどのフレーズが抽出されるかは、文書内のそのフレーズの後に現れるブレークキャラクタの形式によって左右される(52)。 (もっと読む)


【課題】アプリケーションに適したサイズに言語モデルを枝刈りできる言語モデルの枝刈り方法及び装置を提供する。
【解決手段】(a)複数のn(nは2以上の任意の整数)及び複数のn´(n´は1≦n´<nを満たす整数)−グラムと、各n−グラムの確率及び各n´−グラムの確率とを含む言語モデルに基づき、前記複数のn−グラム及び各n−グラムの確率を含まない初期のベースモデルを生成し、(b)複数のトレーニングデータ及びその標準解答を含むトレーニングコーパスを用いて、前記複数のn−グラムのそれぞれに、対象アプリケーションに関する重要度を計算し、(c)前記複数のn−グラムのうち高い重要度をもつ少なくとも1つのn−グラム及びその確率を前記ベースモデルに追加することにより、枝刈りされた自然言語モデルを得る。 (もっと読む)


【課題】適切な翻訳単位に分割して文書の翻訳を行う機械翻訳装置を提供する。
【解決手段】区間の開始位置を表す開始タグと区間の終了位置を表す終了タグとを含む第1言語による文書の入力を受付ける受付部101と、受付けた文書を翻訳の単位に分割する分割部102と、分割した単位に含まれる第1単位の先頭に終了タグが存在するか否か、および、第1単位の末尾に開始タグが存在するか否かを判断する第1判断部103と、第1単位の先頭に終了タグが存在する場合に、第1単位の直前の単位である第2単位の末尾に終了タグを移動し、第1単位の末尾に開始タグが存在する場合に、第1単位の直後の単位である第3単位の先頭に開始タグを移動する移動部104と、第1単位、第2単位、および第3単位のそれぞれを第2言語で翻訳する翻訳部109と、を備えた。 (もっと読む)


【課題】文末記号の付されていないテキストデータに適切な文末記号を補う。
【解決手段】本発明の文末記号補正装置3は、形態素解析結果バッファ26に格納されている、テキストデータの語句の配列を示す形態素解析結果データと、形態素解析結果データと照合するための判定規則と文末記号とを対応付けた文末記号補正規則データ13とに基づいて上記テキストデータに文末記号を補う文末記号補正部11を備えているので、文末記号の付されていないテキストデータに適切な文末記号を補うことができる。 (もっと読む)


【課題】短時間で重複データを検出するためのデータ絞り込みを容易に行う重複データ検出プログラム、重複データ検出方法および重複データ検出装置を提供する。
【解決手段】コンピュータ1は以下の機能を有する。構文木構築手段2が、データ毎に、文字列の隣接しない所定の文字位置の文字を複数個取り出した構文木を構築する。重複データ検出手段3が、構文木の葉ノード毎に、葉ノードに到達したデータが複数存在するか否かを判断し、同一の葉ノードに到達したデータを重複データ候補として検出する。 (もっと読む)


1 - 20 / 33