1987年度から政府開発援助(ODA)の一環として、「近隣諸国間の機械翻訳システム」に関する共同研究を中華人民共和国、インドネシア共和国、マレーシア国、タイ王国と共同で実施し、95年度からフォローアップ事業を行っています。

背景

近年、日本をとりまく近隣諸国との間で、さまざまな技術交流や文化交流が行なわれています。
技術や文化交流を円滑に進めるにあたって、その基礎となるさまざまな情報の導入が不可欠になっています。
交流の場では、日本語や英語で直接話し合うか、または通訳を介して会話しています。
日本語習得の難しさや通訳者不足から、実際には、英語を使用した直接の会話や文書が使われているのが現状です。
例えば、大規模なプラント開発やシステム導入を行うときには、技術者だけではなく、現場作業に従事する多数の現地作業員が必要です。
しかし、日本人を含めて、全ての技術者や現場作業者が英語に堪能というわけではありません。
意志疎通が不十分のために起こる技術移転や工事の遅れ、相互信頼の不足など言語の壁による弊害も少なくありません。
したがって、それぞれの作業の場を対象にした現地語マニュアルを作成することが、質の高いシステムを構築するために不可欠です。
多言語機械翻訳プロジェクトは、以上の背景を念頭に多言語機械翻訳システムの研究開発に着手しました。
この機械翻訳システムにより、各国間の技術移転や文化交流の促進を目的としています。
このプロジェクトは、日本を含めて、中華人民共和国、インドネシア共和国、マレーシア国、および、タイ王国の5カ国の共同研究開発で実施されました。

目的・目標

機械翻訳システムは、次の目的を持って研究開発されました。

  • 最新の情報処理システムの共同研究開発
  • 共同研究開発から派生する母国語情報処理技術の基盤確立
  • その他さまざまな技術・文化交流の促進

また、技術面、および経済面 の2つの面から、次の開発目標が揚げました。

【技術面】
日本、中華人民共和国、インドネシア共和国、マレーシア国、およびタイ王国のアジア5カ国間を対象として、上記のどの国の言語にも翻訳できる方式の研究開発を行う。

【経済面】
情報処理分野の文献を実用的な速さ、および正確さで翻訳を行う。

組織体制

機械翻訳システムは、日本、中華人民共和国、インドネシア共和国、マレーシア国、およびタイ王国の5カ国で共同研究開発されました。
日本においては、通商産業省から研究開発の委託を受けた(財)国際情報化協力センターが中心になり、いくつかの企業が機械翻訳システムの研究開発、およびプロジェクトへの支援を行ないました。
近隣アジア諸国においては、それぞれの国の研究推進機関が研究開発を行いました。
機械翻訳システムの研究開発における体制図を図1に示します。
なお、CICCの機械翻訳システム研究所は1995年4月に国際情報化研究所に改称 しました。

図1 体制図

内容・成果

この研究開発では、5か国語間の機械翻訳システムにおいて「中間言語方式」を採用しました。したがいまして、研究開発の内容及び成果としては、中間言語の仕様の作成、作成した仕様に基づく機械翻訳システムの開発及び電子化辞書・コーパスの作成、開発したシステムによる機械翻訳の実証実験等が挙げられます。
(1)中間言語の仕様の作成
 対象とする5か国語で表現された文章を、独自の表現形式で表すための仕様(規則、記述方法等)を作成しました。当初の仕様は、何度も見直しが行われ、改善が図られました。
(2)システム開発
 作成された中間言語の仕様をベースにして、機械翻訳システムが開発されました。このシステムは、入出力システム、翻訳支援システム、文解析システム、文生成システム、電子化辞書システム、文章ファイル管理システム、ネットワークシステム等から構成されています。
(3)電子化辞書及びコーパスの作成
 機械翻訳システムを実際に稼働させるためには電子化辞書が不可欠で、対象とした各国語について、基本語及び専門用語の電子化辞書を作成しました。また、実証実験の対象データとして、各国語で記述された3000の例文(コーパス)を作成しました。
(4)実証実験
 開発された機械翻訳システム及び作成された電子化辞書を使用して、作成したコーパスを対象に各国語間での翻訳の実証実験を行いました。最終的に、目標とした少なくとも50%の翻訳率をクリ アしました。

経過

1987年度から1994年までの8年をかけて、機械翻訳システムの研究開 発を進めました。図2に機械翻訳システムの研究開発の経緯を示します。1995年から1996年度には、8年間の共同研究の成果をもとに、フォローアップ事業を行なっています。
図2 研究開発の経過

(1)機械翻訳システムの基礎研究
 最初の2年間で、機械翻訳システムを構成するいくつかのシステムと要素(参 考1の1を参照)の基本仕様を設計し、試作しました。約5000語の辞書と数10の例文を作成し、文法規則の仕様を設計しました。また、限定された翻訳例文を使って、機械翻訳システムの処理能力を確認しました。

(2)機械翻訳システムの研究開発
 次の4年間で、基本語辞書約5万語、情報処理関連の専門語辞書2万5千語、 および約3000の例文を作成し、文解析や文生成を制御する文法規則を試作しました。また、追加した翻訳例文と任意の自然文を使って、機械翻訳システムの翻訳処理能力を確認しました。

(3)機械翻訳システムの評価と改良
 最後の2年間で、第(2)段階までに試作された機械翻訳システムを使って、 翻訳処理能力実験を繰り返し、辞書、文法規則、およびシステム全体を改善しました。

(4)機械翻訳研究フォローアップ事業
 8年間の共同研究の成果をもとに、研究に参加した各国において辞書・文法の 改良・追加、機械翻訳システム実用化に向けた追加研究を独自に実施できるよう支援しています。

(参考1)機械翻訳システムの概要

ここでは、多言語機械翻訳システムの翻訳の流れ、およびシステムの概要について説明します。

機械翻訳のシステム構成と翻訳の流れ

図3に機械翻訳のシステム構成と翻訳の流れを示します。
図3 機械翻訳システムの構成と翻訳の流れ
機械翻訳システムは、以下の機能システムにより構成されています。
(1) 入出力システム:
   端末およびフロッピーディスクなどの磁気媒体からデータを 入力します。また、機械翻訳されたデータを端末の画面上 やプリンタに出力します。
(2)翻訳支援システム:
   機械翻訳処理を効率良く行なうために欠かせない、原文の 修正(前編集)や訳文の修正(後編集)を支援します。
(3)文解析システム:
   入力された文章に対して形態素解析、構文解析、および 意味解析を行ない、解析されたデータを中間言語に 置き換えます。
(4)電子化辞書システム:
   各言語の文法情報や意味情報など機械翻訳に必要な 情報を管理します。
(5)文生成システム:
  中間言語のデータに対して、各言語に対応した文体生成 、構文生成、および形態素生成の処理を行います。
さらに、各言語対応の”文章ファイル管理機能”を持った「総合システム」があります。総合システムは、機械翻訳システムを一つのワークステーション(スタンドアロン)上で実現したり、また、ワークステーションどうしをネットワーク上に接続するためのインターフェースを実現します。
以下に翻訳の流れを説明します。
操作1. 原文入力

原文をシステムに入力します。原文はワードプロセッサなどを利用して端末から直接入力するか、またはフロッピーディスクやハードディスクなどの磁気媒体から入力されます。

操作 2.前編集

翻訳支援システムの前編集では、翻訳オペレータが原文を端末の画面上で機械翻訳の処理がしやすいように、必要に応じて修正します。処理されたデータは文解析システムに送られます。

操作 3.文解析

文解析システムでは、電子化辞書システムに蓄積されている機械翻訳情報(文法情報や意味情報などの解析文法規則、および各言語と中間言語との対応情報)を基に入力されたデータの形態素、構文、および意味の解析を行ないます。さらに解析されたデータを機械翻訳情報を基に中間言語に変換し、文生成システムに送ります。

操作 4.文生成

文生成システムでは、電子化辞書システムの機械翻訳情報(生成文法規則、および各言語との中間言語との対応情報)をもとに指定された言語に合わせて中間言語から文体、構文、および形態素を生成し、出力システム・翻訳支援システムに送ります。

操作 5.後編集

翻訳支援システムの後編集では、翻訳オペレータが機械翻訳結果と原文を対照しながら画面上で確認し、必要に応じて編集します。

操作 6.訳文出力

編集された訳文は、出力システムを介してプリンタや磁気媒体に出力されます。

対象言語

この多言語機械翻訳システムでは、日本語、中国語、インドネシア語、マレーシア語、およびタイ語を対象言語としました各国の言語は中間言語を経由して、相互に翻訳されます。このような方式を中間言語方式といい、図4に示すように、1つの言語を一度に複数の他国語に翻訳できるのが特徴です。
図4 言語構成

翻訳方式の考え方と特徴

この機械翻訳システムでは、多言語の翻訳処理を目標としています。日本語から中国語へ、中国語からインドネシア語への翻訳など、機械翻訳システムを共同開発している国の言語であれば、相互に翻訳処理できるというものです。

(1)中間言語方式
 多言語機械翻訳システムでは、翻訳処理を実現する手段として、「中間言語方式」を採用しています。中間言語とは、あらゆる言語の表現、文章の意味内容、表現態様を、言語に依存しない共通の表現形式に置き換えた言語です。例えば、日本語から中国語への翻訳過程で、日本語を中間言語に変換し、この中間言語から中国語を生成します。
 中間言語方式を採用することによって、どの国の言語であっても、目標とする国の言語への翻訳ができるようになります。また、機械翻訳システムを開発する技術者にとっても、中間言語方式は大きな利点があります。各言語の技術者は、中間言語と自国の言語の翻訳システムだけを実現すれば、どの言語へも翻訳が可能となるからです。

(2)多言語機械翻訳辞書
 中間言語方式を実現するには、各言語の語彙が中間言語の語彙と対応づけられていることが必要です。ここで、中間言語と並んでシステムに重要な要素として辞書があります。中間言語方式を採用している機械翻訳システムでは、各言語の辞書は次のように統一されていなければなりません。

  • 言語に依存しない共通の語彙概念との対応関係
  • 辞書の体系、構成、およびデータ形式の統一

辞書を作成するときに、どのような語彙を収集し、各言語にどのような情報(文法属性など)を付与するかは、その言語固有の問題です。

(参考2)機械翻訳システムの構成

多言語機械翻訳システムのハードウェア構成・ソフトウェア構成及びネットワークを説明します。

ハードウェア構成

(1)スタンドアロンモデル
翻訳システムやユーザーインターフェイスツールなどを搭載した単一のシステム

(2)分散モデル
翻訳システムサーバと運用端末を接続して、用途に応じて機能を使い分けるシステム構成

(3)ネットワークモデル
通信回線を利用して、複数のユーザーと機械翻訳システムを接続し、国際規模で利用するためのシステム構成

1-1 スタンドアロンモデルの構成と特徴
スタンドアロンモデルは、純粋に単一のシステムとして使う方法(Single user)です。 
スタンドアロンモデルは、複雑なシステム構成を構築する必要がないので、システムの保守運用を簡単に行なうことができます。

1-2 分散モデルの構成と特徴
分散モデルは、機械翻訳システムの機能を翻訳サーバと操作端末に分割したシステムです。
翻訳サーバに解析・生成を含む5カ国語の翻訳機能を持たせ、操作端末より翻訳機能を使用します。
操作端末上はワードプロセッサ、翻訳支援システムなどのユーザーインターフェイス機能を果たします。
そして、翻訳サーバと操作端末はLANで接続されます。
このように機能を分散 することにより、システムにかかる負荷を軽減し、システムの効率化を図ることができます。
図5に分散モデルの構成例を示します。
図5 分散モデルの構成例
1-3 ネットワークモデルの構成と特徴
ネットワークモデルはWAN(Wide Area Network)を介して、同一のドメインばかりではなく、他のドメインとシステムが接続できます。 WANを介することで、遠隔地や他の地域とのシステム共有が可能です。図6にネットワークモデルの構成例を示します。
図6 ネットワークモデルの構成例

ソフトウェア構成

機械翻訳システムのソフトウェア構成を以下に示します。

(1)基本システム
タスク管理システム(TCS:Task Control Sub-system)
通信制御サブシステム(CCS:Communication Control Sub-system)
サブシステム情報サービス(SIS:Sub-system Infomation Service)
テキストベースサブシステム(TXB:Texst Base Sub-system)

(2)文解析・文生成システム
日本語文解析・文生成システム(Japanese Analyser/Generator)
中国語文解析・文生成システム(Chinese Analyser/Generator)
インドネシア語文解析・文生成システム(Indonesian Analyser/Generator)
マレーシア語文解析・文生成システム(Malayian Analyser/Generator)
タイ語文解析・文生成システム(Thai Analyser/Generator)

(3)ユーザーインタフェースシステム
翻訳者向け翻訳支援システム(TSS3: Translation Support System for Translator)
研究者向け翻訳支援システム(TSS6: Translation Support System for Researcher)
1バイトコードワードプロセッサ(WP3: Single Byte Word Processor)
2バイトコードワードプロセッサ(WP7: Double Byte Word Processor)

(4)ユーザインタフェース統合ツール
ユーザオペレーションパネル(デスクトップ)(UOP: User Operational Panel)
図7に分散モデルの構成例を示します。
図7 ソフトウェア構成図

ネットワーク構成

WANを利用するネットワーク構成には、以下の方法があります。
OSI(Open Systems Interconnection)
開放型システム間相互接続で、通信制御機能は次の7階層から構成されています。
  • 第1層:物理層
  • 第2層:データリンク層
  • 第3層:ネットワーク層
  • 第4層:トランスポート層
  • 第5層:セッション層
  • 第6層:プレゼンテーション層
  • 第7層:応用層
応用層のアプリケーションとしてFTAM(File Transfer Access and Management)というファイル転送システムを採用しています。
図8にOSIを利用したネットワークモデルとして、1992年度に 実施した実 証試験における構成例を示します。
図8 ネットワークモデル