説明

多言語複層サイト作成システムおよび多言語複層サイト作成プログラム

【課題】本発明は、ユーザーにコスト負担をかけることなく、翻訳精度の向上を図ることができ、サーチエンジンによる検索にかかるような多言語複層サイトを安価かつ自動的に構築することのできるシステムを提供することを目的とする。
【解決手段】上記課題を解決するために、本発明にかかる多言語複層サイト作成システムの代表的な構成は、制御手段と、ウェブサーバから原語コンテンツを取得または入力される入力手段と、原語コンテンツを所定の他言語に翻訳する自動翻訳手段と、翻訳後の他言語コンテンツをウェブサーバに配信可能に格納する出力手段とを備え、異なる言語で多重化したウェブサイトを構築することを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の言語によるウェブサイトを自動的に構築するためのシステムに関する。
【背景技術】
【0002】
近年急速に発達したインターネットは、情報の発信および閲覧が極めて自由かつ安価であり、また国境の隔たりなく海外の情報も容易に閲覧可能であるという特性を有している。このため、情報を発信する側にとっても、閲覧する側にとっても、有効に利用したい要請がある。
【0003】
インターネット自体は海外のウェブサイトを閲覧が可能であるとしても、基本的に閲覧する者が理解できるのは母国語のみである場合が多い。このため、何らかの手段により翻訳をする必要性が生じる。
【0004】
図9は、ユーザー側の立場から外国語のウェブサイトを閲覧する際の翻訳手段を説明する図である。
【0005】
図9(a)は、ウェブサーバ1において、原語コンテンツ1aと並列に所定の言語に翻訳した他言語コンテンツ1bが準備された構成を示している(例えば特開2002−312641(特許文献1))。ウェブサーバ1には、インターネットなどのネットワーク2を介してユーザー3が接続される。この構成はユーザー3にとっては最善のものであり、単にウェブブラウザ(HTTPクライアント)で閲覧すれば足りる。また基本的に翻訳者(人間)が推考して翻訳するものであるから翻訳精度も高く、コンテンツの内容が正確にユーザーに伝達される。しかし配信する側にとってみれば、翻訳のコストが高く、また原語コンテンツを作成または更新してから他言語コンテンツを公開できるまでのタイムラグも大きくなってしまうという問題がある。
【0006】
図9(b)は、閲覧するユーザー3が自己のコンピュータ端末に自動翻訳アプリケーションをインストールした構成を示している。この構成は、ユーザー3がいわば自力で翻訳を行うものであり、母国語のコンテンツが準備されていなくとも任意の外国語のコンテンツを閲覧することが可能となる。しかし、昨今は様々な機器がウェブブラウザ機能を備えているところ、自動翻訳アプリケーションを実行可能な汎用機(コンピュータ)にしか許されない構成であって、機器に制限が生じる。また配信する側に負担はないが、ユーザー側にとって見ればアプリケーションを購入するコストが生じる。またアプリケーションの辞書機能は更新が少なく、更新があったとしても一般的な語彙であるため、当該コンテンツを適切に翻訳できるとは限らず、翻訳精度は向上しにくいという問題がある。また特に、原語コンテンツが日本語である場合に、外国語圏のユーザーが日本語を翻訳できるアプリケーションを準備していることは期待できない。
【0007】
図9(c)に示すのは、オンライン上で提供される自動翻訳サーバ4を介して原語コンテンツ1aを参照する構成を示している。自動翻訳サーバ4は、プロキシ(代理サーバ)若しくはウェブアプリケーション(ASP:Active Server Pages) 等を用いることができ、ユーザー3からの要求により目的のコンテンツを参照し、翻訳処理をしてからデータを返すものである。この構成では、配信する側およびユーザー側のいずれにも負担はない。しかし大量の要求を高速に処理する要請から必然的に翻訳精度は低いものとなる。
【0008】
また特開2002−041518(特許文献2)には、ウェブサーバに閲覧者対応言語識別部と、自動翻訳手段を備えた構成が開示されている。この構成では、配信する側にコストの負担がかかる点以外は、図9(c)の場合と同様の利害を備えている。
【0009】
さらに図9(b)、(c)、および特許文献2の構成では、他言語コンテンツ1bの実体がないため、いわゆるサーチエンジン(検索サイト)による検索にかからないという問題がある。すなわち、ユーザーは知りたい情報があると、サーチエンジンにキーワードを入力し、当該キーワードを含むページを参照するという手順を踏む場合が多い。ところでサーチエンジンは、ロボットと呼ばれる自動巡回機能によってインターネット上に公開されている全てのウェブサーバを参照し、各コンテンツのアドレス(URL)とキーワードを収集する。従って、ユーザー端末のアプリケーションや自動翻訳サーバによって翻訳された一時的なデータはサーチエンジンのロボットに収集されず、検索にもかからない。結果としてユーザーは容易には当該コンテンツに到達できず、配信する側からしてみればなかなか見てもらえないことになる。
【特許文献1】特開2002−312641号公報
【特許文献2】特開2002−041518号公報
【発明の開示】
【発明が解決しようとする課題】
【0010】
そこで本発明は、ユーザーにコスト負担をかけることなく、翻訳精度の向上を図ることができ、サーチエンジンによる検索にかかるような多言語複層サイトを安価かつ自動的に構築することのできるシステムを提供することを目的とする。
【課題を解決するための手段】
【0011】
上記課題を解決するために、本発明にかかる多言語複層サイト作成システムの代表的な構成は、制御手段と、ウェブサーバから原語コンテンツを取得または入力される入力手段と、原語コンテンツを所定の他言語に翻訳する自動翻訳手段と、翻訳後の他言語コンテンツをウェブサーバに配信可能に格納する出力手段とを備え、異なる言語で多重化したウェブサイトを構築することを特徴とする。これにより、実態のある他言語コンテンツによって複層化したウェブサイトを自動的に構築することができる。
【0012】
さらに原語コンテンツが記録又は更新されたことを検知するコンテンツ変更検知手段を備え、前記制御手段は、新規作成または更新された原語コンテンツにつき処理を行うことを特徴とする。これにより、原語コンテンツを作成または修正した際に、自動的に他言語コンテンツも作成または修正することができる。
【0013】
さらにタイマー手段を備え、前記制御手段は、一定期間ごとに処理を再実行することを特徴とする。既に翻訳を行った原語コンテンツであっても、定期的に再実行することにより、翻訳手段の更新を反映させることができる。
【0014】
前記自動翻訳手段は、辞書の訳語または文例を更新するための辞書更新手段を備えることを特徴とする。辞書機能を更新することによって、翻訳精度を向上させることができる。特に自己のサーバに登録された原語コンテンツについて辞書を最適化すればよいことから、翻訳精度を効率的に向上させることができる。
【0015】
前記制御手段は前記自動翻訳手段と別体であって、前記制御手段には、原語コンテンツを自動翻訳手段に送信する送信手段と、翻訳後の他言語コンテンツを受信する受信手段とを備えることを特徴とする。ウェブサーバとは別体、もしくは遠隔地に自動翻訳サーバを設けることも可能である。
【0016】
さらに、少なくとも登録された原語コンテンツの指定と、変換する言語の指定とを格納した機能テーブルを備え、前記処理手段は、前記機能テーブルを参照し、処理対象となる原語コンテンツを一括処理することを特徴とする。これにより、コンテンツごとに処理を行うか否かを設定することができる。
【0017】
さらに、少なくとも登録された原語コンテンツの指定と、変換する言語の指定と、自動実行または手動実行とを区別して指定する実行種別データとを格納した機能テーブルと、翻訳者に原語コンテンツのデータを送信する翻訳者送信手段とを備え、前記コンテンツ変更検知手段が原語コンテンツの記録又は更新を検知した際に、前記実行種別データが手動実行と指定されている場合には、前記翻訳者送信手段によって翻訳者に原語コンテンツのデータを送信することを特徴とする。これにより、特に大切な原語コンテンツは、翻訳者による正確な翻訳を行うことができる。
【0018】
さらに、他言語コンテンツを作成した場合に、原語コンテンツに他言語コンテンツへの関連づけを付加するリンク作成手段を備えることを特徴とする。これにより、原語コンテンツの作成者をわずらわせることなく、ユーザーを他言語コンテンツに導くことが可能となる。
【発明の効果】
【0019】
本発明によれば、実体のある他言語コンテンツを備えた多言語複層サイトを安価かつ自動的に構築することができ、かつユーザーにコスト負担をかけることなく、翻訳精度の向上を図ることができるシステムを提供することができる。
【発明を実施するための最良の形態】
【0020】
本発明にかかる多言語複層サイト作成システムの実施例について説明する。図1は本実施例に係るシステムの概略構成を説明する図、図2は複層サイトの構造例を示す図、図3は機能テーブルおよびコンテンツデータベースを説明する図、図4は新語登録機能を説明する図である。
【0021】
本実施例においては、3つの立場(3種の人物)が登場する。本実施例に係るシステムを提供する者を管理者、システムを利用して情報を配信する者をクライアント、システムを利用して情報を閲覧するものをユーザーと称する。なお、管理者とクライアントをあわせて配信する者と称する場合もある。
【0022】
図1に示すように、ウェブサーバ1はネットワーク2に接続されており、これを介してユーザー3はウェブサーバ1上のコンテンツを参照可能となっている。多言語複層サイト作成システム(以下、単にシステムという)はシステム本体5と翻訳部6とから構成され、システム本体5はウェブサーバ1に接続されている。ここでウェブサーバ1は、本実施例に係るシステムに含まれない。なおウェブサーバ1、システム本体5、翻訳部6、および以下に説明する各手段は、いずれもプログラム(ソフトウェア)をCPUやLSI(ハードウェア)によって実行することにより実現される。これらは単一のコンピュータ装置で構成してもよいが、本実施例のように別体のコンピュータで構成してそれぞれを接続することでもよく、さらにはネットワーク2を介して接続することでもよい。
【0023】
ウェブサーバ1には、ある一つの言語(以下、原語という)で構成されたウェブサイト(原語コンテンツ1a)、他の複数の言語で構成された複数のウェブサイト(他言語コンテンツ1b)が閲覧可能に準備される。原語コンテンツ1aはクライアント(配信する者)が作成するものであり、他言語コンテンツ1bは次に述べるようにシステムが作成するものである。
【0024】
システム本体5には、全体の動作を制御する制御手段10、ウェブサーバ1から原語コンテンツ1aを取得する入力手段11、ウェブサーバ1に他言語コンテンツ1bを格納する出力手段12、コンテンツ変更検知手段13、タイマー手段14、翻訳するコンテンツおよび言語の指定を格納した機能テーブル15、各言語のコンテンツ間の相互リンクを作成するリンク作成手段18を備えている。
【0025】
またシステム本体5には、翻訳部6とデータをやりとりするための送信手段16a及び受信手段16b、翻訳者7とデータをやりとりするための翻訳者送信手段17a及び翻訳者受信手段17bとを備えている。翻訳部6は自動翻訳であってシステムに含まれるが、翻訳者7は人間であってシステムには含まれない。
【0026】
入力手段11は、本実施例では制御手段10の制御によって入力手段11がウェブサーバ1の原語コンテンツ1aから取得するものである(能動)。しかし、システムの仕様によってはウェブサーバ1から、または他の手段により入力されるものであってもよい(受動)。なお、入力手段11が能動的にウェブサーバ1から取得する場合には、HTTPプロトコルを介すると部分的に処理されてしまう場合があることから(インラインコマンドやスクリプトなど)、FTPプロトコルを用いて取得することが望ましい。
【0027】
出力手段12は、翻訳の終了した他言語コンテンツ1bをウェブサーバ1に、配信可能に格納するものである。具体的には、例えばFTPプロトコルを用いることができる。ここで他言語コンテンツ1bとは、翻訳部6によって自動翻訳したもの、および翻訳者7によって手動翻訳したものを含む。
【0028】
出力手段12による他言語コンテンツ1bの格納は、図2(a)に示すように、言語ごとに並列なディレクトリ構造とすることが管理上簡便である。図2(a)に示す例では、原語コンテンツ(日本語)の階層下に、中国語(cn)、英語(en)、仏語(fr)、独語(gr)のディレクトリを作成し、多言語による複層サイトを構築している。ただし、リンク構成さえ維持されていれば、サーバ内のディレクトリ構成はユーザー3の関知するところではないので、階層構造は仕様に応じて任意に設定することができ、例えば他言語コンテンツ1bは原語コンテンツ1aとサーバを分けることも可能である。なお上記言語の選択は全くの例示であって、原語が日本語以外の言語であってもよい。また他言語のディレクトリは原語コンテンツの階層下でなく同階層であってもよい。
【0029】
コンテンツ変更検知手段13は、原語コンテンツ1aが新規作成または更新されたことを検知するものである。具体的には、新規作成を検知するためには、原語コンテンツ1aのファイルの有無を判別する。更新を検知するためには、ファイルのタイムスタンプやサイズを逐次不図示のメモリ手段に記録し、直前のものと比較することにより行うことができる。
【0030】
タイマー手段14は、コンテンツ変更検知手段13による検知の実行間隔を測るほか、翻訳部6による自動翻訳の再実行の間隔を測るためにある。検知の実行間隔は、例えば数時間〜1日程度に設定することが望ましい(定時実行)。再実行の間隔は、前回翻訳処理を行った日時を不図示のメモリ手段に記録しておき、前回実行時から所定の一定期間(例えば1ヶ月程度)を経過した時に設定する(定期実行)。再実行とは、既に翻訳を行った原語コンテンツであっても、その後に更新されたか否かにかかわらず、再度自動翻訳を実行することをいう。原文は変更されておらずとも、翻訳部6が更新されることにより、他言語コンテンツ1bの翻訳精度が向上することが期待できるからである。
【0031】
機能テーブル15は、翻訳する対象となる原語コンテンツ、および言語の指定を格納したものである。テーブルの構造としては様々な方式が考えられるが、例えば図3(a)に示すようにクライアントID、原語コンテンツのアドレス、下層リンクを翻訳対象に含むか否かのフラグ、および各言語についての実行種別データとすることができる。クライアントIDはシステムの動作上は必ずしも必要でないが、クライアントに対して課金する場合には項目を設けておくと簡便である。
【0032】
また、原語コンテンツのアドレスを個々に登録することにより、コンテンツごとに処理を行うか否かを区別することができる。また、制御手段10は機能テーブル15を参照して、ここに登録された原語コンテンツに対して順次的に一括処理を行うことができ、処理上も簡便となる。さらにクライアントに対する課金においても、対象となるコンテンツの数を単位とすることができ、管理者にとって簡便となる。なお、登録する段階において指定されたアドレスの原語コンテンツは、まだ実際には存在していなくとも良い。存在していなかったコンテンツが存在するようになった場合に、新規作成されたと判断して翻訳処理を行えばよい。
【0033】
また、登録した原語コンテンツについて、下層リンクを対象に含むか否かのフラグを設けることにより、複数ページに分割された一群のコンテンツを一括して指定することができる。下層リンクとは、指定したコンテンツからリンク(関連づけ)されたウェブページについて、サーバ上のディレクトリ構造において、指定したコンテンツが含まれたディレクトリより下層(下位)のディレクトリに含まれたウェブページをいう。ここで、他サーバへのリンクおよび上層ディレクトリに含まれたウェブページへのリンクは無視するが、同一ディレクトリに含まれたウェブページへのリンクを含むか否かは適宜設定することができる。
【0034】
各言語についての実行種別データは、翻訳部6または翻訳者7が翻訳可能な言語につき、0:翻訳しない、1:自動翻訳、2:手動翻訳、のように登録する。図3(a)に示す例は、英語は自動翻訳、中国語は手動翻訳、独語と仏語は翻訳しないという実行種別を示している。
【0035】
翻訳部6は、本実施例ではシステム本体5と別体として示しているため、制御手段10は送信手段16aから翻訳部6に原語コンテンツ1aのデータを送信し、受信手段16bから他言語コンテンツ1bのデータを受信する。別体が遠隔地やLAN上にある他のコンピュータ装置を意味する場合には、送信手段16a、受信手段16bはインターネットなどのネットワーク2を介して翻訳部6と接続するものとなり、例えばメールシステムや、ポートを開いて送受信するメッセージングソフト類似のものとして構成することができる。この場合において、翻訳部6は管理者とは異なる事業者が管理を行うことができる。別体が同一のコンピュータで動作する別アプリケーションを意味する場合には、送信手段16aおよび受信手段16bはシステムメッセージまたはファイル入出力として構成することができる。なお、システム本体5と翻訳部6とを単一のアプリケーションとして構成した場合には、送信手段16aおよび受信手段16bは不要である。
【0036】
翻訳部6は、自動翻訳手段としての翻訳エンジン21および辞書22を備え、さらに辞書更新手段23を備えている。辞書更新手段23は、辞書22に含まれる訳語、訳文、用例などを追加、削除するためのインターフェースアプリケーションである。ここで翻訳部6が翻訳する対象は、汎用の自動翻訳アプリケーションと異なり、ウェブサーバ1(またはコンテンツデータベース19)に含まれる原語コンテンツ1aに限定されるという点で異なっている。このため、辞書更新手段23を用いて辞書22を適宜最適化することにより、翻訳精度を大幅に向上させることが可能となる。
【0037】
図4は、新語登録機能の一例を説明する図である。クライアントが入力用インターフェース30を用いて原語コンテンツ1aを入力する際に、文章中に新しい単語(新語)がある場合、これを知らせるためのチェックボックス32(新語報知手段)にチェックを入れる。するとウェブアプリケーションは辞書更新手段23の例としての新語登録画面30aへと移行し、新語の単語とその意味を登録することができる。新語登録画面30aでは、新語入力部30bと、それに対応する意味を入力する訳語入力部30cが設けられている。この登録により新語が辞書に登録され、さらに新語に対しての注釈を付けることもできる。また新語項目追加ボタン30dを押すことにより新語入力部30b及び訳語入力部30cを追加し、複数の新語を一度に登録することが可能となっている。
【0038】
さらに新語の登録は、管理者が行うことも可能となっている。従って、クライアントは新語登録画面30aを用いずとも、管理者にファックスや電話などの手段によって新語と訳語を伝えることにより、新語の登録を行うことも可能である。
【0039】
翻訳者7は、上述したように基本的には人間であって、十全の翻訳を期待しうるものとする。従って、特に大切なコンテンツや、翻訳部6による自動翻訳に満足できない場合に、翻訳者7によって翻訳を行うことができる。翻訳者送信手段17a、翻訳者受信手段17bは、例えばメールシステムを利用することができる。本実施例では、制御手段10が翻訳者受信手段17bから受信した他言語コンテンツ1bを、出力手段12によってウェブサーバ1に格納する。しかし、翻訳者7が直接にウェブサーバ1に格納することとしても良い。
【0040】
リンク作成手段18は、原語コンテンツ1aおよび複数の他言語コンテンツ1bについて、相互に関連づけるリンクを生成するものである。なお、原語コンテンツ1aを変更してしまうことは好ましくないため、フレームなどを用いて付加的にリンクを設けることが好ましい。その場合、フレームは他言語コンテンツ1bを表示する際にも共通に利用することができる。なお、システム本体5にリンク作成手段18を設ける場合には相互リンクのデータを静的に設ける必要があるが、ウェブサーバ1において他言語コンテンツ1bをサーチし、ユーザー3が閲覧する際に動的に相互リンクを生成することでもよい。
【0041】
制御手段10の動作について、図5ないし図7に示すフローチャートを用いて説明する。図5は翻訳処理の対象を特定するメインルーチンを説明するフローチャート、図6および図7は翻訳処理のルーチンを説明するフローチャートである。
【0042】
図5に示すように、制御手段10は処理を開始すると、まず機能テーブル15を参照し、登録された最初の原語コンテンツのアドレスを取得する(S1)。そして機能テーブル15からそのコンテンツについて下層リンクを含むか否かのフラグを参照する(S2)。下層リンクを含む場合には、リンクを辿って処理対象となる原語コンテンツのアドレスを収集し(S3)、アドレスのリストを作成する(S4)。下層リンクを含まない場合にもアドレスのリストを作成するが(S4)、リストに含まれるアドレスは一つのみとなる。
【0043】
次に、アドレスリストに含まれた最初の原語コンテンツについて、コンテンツ変更検知手段13により、原語コンテンツの変更(新規作成または更新されたこと)をチェックする(S5)。変更されていれば、後述するルーチンAへと進む(図6参照)。同様に、タイマー手段14により、前回翻訳処理を実行してから一定期間が経過したか否かを判断し(S6)経過していればルーチンAへと進む。変更されておらず、一定期間も経過していなければ、翻訳処理は行わない。
【0044】
アドレスリストに含まれる全ての原語コンテンツについて処理したか否かを判断し(S7)、完了していなければリストのインデックスを1つシフトして(S8)、次の原語コンテンツについてステップS5,S6を繰り返す。リストを全て処理していれば、機能テーブル15に登録された単位における1つの原語コンテンツを処理したことになる。そして機能テーブル15において登録された原語コンテンツを全て処理したか否かを判断し(S9)、完了していなければ機能テーブル15のROW(行)を1つシフトして(S10)、次の原語コンテンツについて処理を行う。全ての登録された原語コンテンツについて処理が完了すると、一連の翻訳処理が完了する。このメインルーチンは、継続的に繰り返してもよく(循環実行)、また定期的に実行してもよい(例えば毎日1回)。
【0045】
図6に示すように、ルーチンAにおいては、まず原語コンテンツのデータを取得する(S20)。ここで、図3(a)に示したように、機能テーブル15には各言語についての実行種別が格納されている。これを参照し、最初の言語の実行種別が自動翻訳であるか否かについて判断する(S21)。
【0046】
実行種別が自動翻訳であった場合には、送信手段16aによって翻訳部6に原語コンテンツのデータを送信し(S30)、翻訳エンジン21により自動翻訳を実行する(S31)。受信手段16bが翻訳結果(他言語コンテンツ)を翻訳部6から受信すると(S32)、制御手段10は出力手段12によってウェブサーバ1に他言語コンテンツ1bをアップロードする(S33)。あわせて、リンク作成手段18により、原語コンテンツ1aおよび他言語コンテンツ1bに、各言語のコンテンツ間の相互リンクを付加する(S34)。
【0047】
また制御手段10は、不図示のメモリ手段に履歴を保存する(S35)。ここで履歴は、例えば翻訳対象の原語コンテンツのアドレス、翻訳した言語、日時データなどである。この履歴は、一定期間経過チェック(図5のS6)で利用される。
【0048】
次に、原語コンテンツが変更されており(図5のS5)、かつ実行種別が手動翻訳である場合には(S22)、翻訳者送信手段17aにより翻訳者7に原語コンテンツのデータを送信する(S36)。ステップS22において変更された場合に限るのは、手動翻訳の場合は一定期間ごとの再実行を行わないためである。再実行を行わないのは、そもそも再実行は自動翻訳手段としての翻訳エンジン21および辞書22の更新による翻訳精度の向上を目的とするところ、翻訳者7が翻訳するコンテンツについては再実行を行う意義がないからである。
【0049】
ステップS36において翻訳者7にデータを送信した場合、即座に翻訳が行われるわけではないので、システムは結果を待たずに次の動作に移行する。翻訳結果については、図7に例示するループ処理により待ち受けを行い、別処理とすることができる。すなわち、制御手段10は翻訳者受信手段17bを監視し、翻訳者7から翻訳結果を受信するまで待ち受ける(S40)。翻訳結果を受信すると、これを他言語コンテンツ1bとして出力手段12によってウェブサーバ1にアップロードする(S41)。そして各言語のコンテンツ間の相互リンクを付加し(S42)、履歴を保存する(S43)。
【0050】
図6に戻り、実行種別が自動翻訳でも手動翻訳でもない場合には、その言語については処理をしない(S23)。制御手段10は全ての言語について処理をしたか否かを判断し(S24)、完了していなければ機能テーブル15においてカラム(列)を1つシフトして(S25)、次の言語についての実行種別を参照し、ステップS21〜S23を繰り返す。
【0051】
全ての言語について処理を完了すると、アドレスリスト(図5のS4)に列挙された単位における1つの原語コンテンツを処理したことになる。そして制御手段10は、不図示のメモリ手段に履歴を保存する(S26)。ここでの履歴は、翻訳した原語コンテンツのタイムスタンプ、ファイルサイズ、CRCなどである。すなわち、機能テーブル15において下層リンクを含むよう一括指定されていた場合には、下層リンクの個々のページについて、履歴(現在の状態)を保存することになる。これにより、変更チェックを行う際に(図5のS5)、下層リンクのページのみが更新されていた場合でも、これを検知することができる。
【0052】
上記説明した如く、実体のある他言語コンテンツを備えた多言語複層サイトを、自動翻訳によって構築することができる。実体があることにより、サーチエンジンによってキーワードの収集がされるため、原語と異なる言語を母国語とするユーザー3にとって、当該情報に到達することが容易となる。また自動翻訳であることから、原語コンテンツを変更(新規作成または更新)してから他言語コンテンツに反映されるまでの時間を大幅に短縮することができる。また、翻訳動作のタイミングがクライアントからの要求によるものではないので、同時実行がなく、システムにかかる負荷は過大とならない利点がある。
【0053】
また、翻訳部6を更新可能とし、また翻訳部6が翻訳する対象が限定的であることから、翻訳部6の辞書22を最適化することにより、自動翻訳といえども翻訳精度を大幅に向上させることができる。さらに、既に翻訳を行ったコンテンツであっても、定期的に翻訳の再実行を行うことにより、常に翻訳精度の向上を図ることができる。なお、指定したコンテンツについては翻訳者に依頼する仕組みを提供することにより、容易に翻訳精度の高い他言語コンテンツ1bを得ることが可能となる。
【0054】
また、基本的には自動翻訳であることから、クライアント(配信する者)のコスト低減を図ることができる。なお、翻訳のためにユーザーに必要な追加コストは全く負担がない。
【0055】
[他の実施例]
上記実施例においては、原語コンテンツおよび他言語コンテンツを格納するために、htmlファイルとディレクトリ構造を用いて説明した。しかし、他言語コンテンツ1bを格納するための他の構成として、図2(b)に示すようにコンテンツデータベース19を設け、ウェブサーバ1に設けたウェブアプリケーション(ASP, PHP, CGI, Perl等。サーバーサイドアプリケーションともいう)によって入出力するよう構成してもよい。なお、図2(b)において図1と重複し説明を要しない部分については記載を省略している。
【0056】
ウェブアプリケーションは、入力用インターフェース30と、出力用インターフェース31が準備される。これらのインターフェース30、31は、端末のブラウザからの要求に応じて実行され、結果をhtmlやxml等のブラウザに対応した言語で返す動作をする。入力用インターフェース30は、クライアント(配信する者)がブラウザを用いて原語コンテンツ1aを入力し、または他言語コンテンツ1bを修正するために用いられる。出力用インターフェース31は、ユーザー3のブラウザからの要求に応じてデータベースを参照し、動的にhtmlデータを生成してコンテンツの内容を閲覧可能とするものである。動的とはいえ近年のサーチエンジンはウェブアプリケーションの実行結果も収集するため、htmlファイルを準備する場合と同等に実体があるとして取り扱うことができる。
【0057】
また制御手段10は、翻訳実行を支持された際、および再実行(定期実行)の際には、入力手段11を通じてコンテンツデータベース19に対し読み取りを行う。そして翻訳部6(図1参照)によって翻訳した後に、出力手段12によってコンテンツデータベース19に対して書き込みを行う。またコンテンツ変更検知手段13も、コンテンツデータベース19におけるデータの変更を監視する。
【0058】
すなわちコンテンツデータベース19には、入力用インターフェース30および出力手段12によって書き込みが行われ、出力用インターフェース31および入力手段11によって読み取りが行われる。
【0059】
コンテンツデータベース19のテーブルの構造としては様々な方式が考えられるが、例えば図3(b)に示すようにクライアントID、原語コンテンツ(データ)、および各言語についての実行種別データ、各他言語のコンテンツ(データ)とすることができる。ここで、図3(a)にて示した機能テーブルにおける原語コンテンツの項目にはデータファイルの位置を示すアドレスが格納されていたのに対し、図3(b)にて示したコンテンツデータベース19にはデータそのものが格納されている。なお図に示すBLOB(Binary Large OBject)は、任意のバイナリデータを格納しうるデータ型である。
【0060】
このようにデータベースとウェブアプリケーションを用いてデータの入出力を行うことにより、htmlファイルを生成する場合と比較して、クライアントに要求される設備や技能を簡略化し、また管理者においてデータの取り扱いを容易にすることができる。
【0061】
図8は、本システムを利用した追加機能を説明する図である。なお図8において図1と重複し説明を要しない部分については記載を省略している。本発明に係る自動翻訳システムにおいてコンテンツデータベース19を利用した場合、図8に示すように掲示板やチャット等のシステムを構築することができる。例えばウェブサーバ1に設けられた掲示板やチャット等のシステム40は、複数の言語のインターフェース40a〜40c等を備えている(この場合、どの言語が原語であるという区別はない)。インターフェース40a、40b等はウェブアプリケーションによって動的に構成され、コンテンツデータベース19を参照して内容を表示し、また書き込みをするための入力機能を備えている。
【0062】
ユーザー3aが言語Aのインターフェース40aにアクセスして書き込むと、掲示板やチャット等のシステム40はシステム本体5により他言語へと自動翻訳し、コンテンツデータベース19に格納保存する。そしてユーザー3bが言語Bのインターフェース40bにアクセスすれば、ユーザー3aの書き込みが言語Bによって表示される。ユーザー3bによる書き込みも同様に他言語に翻訳され、ユーザー3aが言語Aで参照することができる。このように、掲示板やチャット等においても多言語の窓口を設けることができ、言語の異なるクライアントとユーザー、およびユーザー同士の意思疎通の助けとすることができる。
【産業上の利用可能性】
【0063】
本発明は、ウェブサイトの自動翻訳システムとして利用することができる。
【図面の簡単な説明】
【0064】
【図1】実施例に係るシステムの概略構成を説明する図である。
【図2】複層サイトの構造例を示す図である。
【図3】機能テーブルおよびコンテンツデータベースを説明する図である。
【図4】新語登録機能を説明する図である。
【図5】翻訳処理の対象を特定するメインルーチンを説明するフローチャートである。
【図6】翻訳処理のルーチンを説明するフローチャートである。
【図7】翻訳処理のルーチンを説明するフローチャートである。
【図8】自動翻訳システムを利用した追加機能を説明する図である。
【図9】従来において、ユーザー側の立場から外国語のウェブサイトを閲覧する際の翻訳手段を説明する図である。
【符号の説明】
【0065】
1 …ウェブサーバ
1a …原語コンテンツ
1b …他言語コンテンツ
2 …ネットワーク
3 …ユーザー
4 …自動翻訳サーバ
5 …システム本体
6 …翻訳部
7 …翻訳者
10 …制御手段
11 …入力手段
12 …出力手段
13 …コンテンツ変更検知手段
14 …タイマー手段
15 …機能テーブル
16a …送信手段
16b …受信手段
17a …翻訳者送信手段
17b …翻訳者受信手段
18 …リンク作成手段
19 …コンテンツデータベース
21 …翻訳エンジン
22 …辞書
23 …辞書更新手段
30 …入力用インターフェース
30a …新語登録画面
30b …新語入力部
30c …訳語入力部
30d …新語項目追加ボタン
31 …出力用インターフェース
32 …チェックボックス
40 …掲示板やチャット等のシステム
40a〜40c …言語A〜言語Cのインターフェース

【特許請求の範囲】
【請求項1】
制御手段と、
ウェブサーバから原語コンテンツを取得または入力される入力手段と、
原語コンテンツを所定の他言語に翻訳する自動翻訳手段と、
翻訳後の他言語コンテンツをウェブサーバに配信可能に格納する出力手段とを備え、
異なる言語で多重化したウェブサイトを構築することを特徴とする多言語複層サイト作成システム。
【請求項2】
さらに原語コンテンツが記録又は更新されたことを検知するコンテンツ変更検知手段を備え、
前記制御手段は、新規作成または更新された原語コンテンツにつき処理を行うことを特徴とする請求項1記載の多言語複層サイト作成システム。
【請求項3】
さらにタイマー手段を備え、
前記制御手段は、一定期間ごとに処理を再実行することを特徴とする請求項1記載の多言語複層サイト作成システム。
【請求項4】
前記自動翻訳手段は、辞書の訳語または文例を更新するための辞書更新手段を備えることを特徴とする請求項1記載の多言語複層サイト作成システム。
【請求項5】
前記制御手段は前記自動翻訳手段と別体であって、
前記制御手段には、
原語コンテンツを自動翻訳手段に送信する送信手段と、
翻訳後の他言語コンテンツを受信する受信手段とを備えることを特徴とする請求項1記載の多言語複層サイト作成システム。
【請求項6】
さらに、少なくとも登録された原語コンテンツの指定と、変換する言語の指定とを格納した機能テーブルを備え、
前記処理手段は、前記機能テーブルを参照し、処理対象となる原語コンテンツを一括処理することを特徴とする請求項1記載の多言語複層サイト作成システム。
【請求項7】
さらに、少なくとも登録された原語コンテンツの指定と、変換する言語の指定と、自動実行または手動実行とを区別して指定する実行種別データとを格納した機能テーブルと、
翻訳者に原語コンテンツのデータを送信する翻訳者送信手段とを備え、
前記コンテンツ変更検知手段が原語コンテンツの記録又は更新を検知した際に、前記実行種別データが手動実行と指定されている場合には、前記翻訳者送信手段によって翻訳者に原語コンテンツのデータを送信することを特徴とする請求項2記載の多言語複層サイト作成システム。
【請求項8】
さらに、他言語コンテンツを作成した場合に、原語コンテンツに他言語コンテンツへの関連づけを付加するリンク作成手段を備えることを特徴とする請求項1記載の多言語複層サイト作成システム。
【請求項9】
ウェブサーバから原語コンテンツを取得または入力される入力手段と、
原語コンテンツを所定の他言語に翻訳する自動翻訳手段と、
翻訳後の他言語コンテンツをウェブサーバに配信可能に格納する出力手段と、
異なる言語で多重化したウェブサイトを構築する制御手段として機能することを特徴とする多言語複層サイト作成プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2007−87241(P2007−87241A)
【公開日】平成19年4月5日(2007.4.5)
【国際特許分類】
【出願番号】特願2005−277212(P2005−277212)
【出願日】平成17年9月26日(2005.9.26)
【出願人】(505361185)
【Fターム(参考)】