情報知識学会ニューズレター > No.34 (1995.10.1) > フル・テキスト・データベースにおける多言語処理の可能性と不可能性

フル・テキスト・データベースにおける多言語処理の可能性と不可能性

法政大学 石川 伊織

フル・テキスト・データベースの作成で重要なのは、原書の表記をできる限り再現することであり、しかもこうして作成したデータに汎用性を持たせることである。

DOS/V はマルチリンガルなシステムであると言う人もいるが1)、ヘーゲル・テキスト・データベース2) の校正に長年たたずさわってきた立場からすると、 これは疑問である。 なるほどDOS/Vのシステムはコードページを切り替えることで数種のヨーロッパ系言語の混在を可能にしはする。しかし、人文・社会科学の文献に使われているのは、DOS のコードページがサポートする言語ばかりではない。たとえばヘーゲルのテキストには、彼の母語であるドイツ語を中心に、英語、フランス語、イタリア語、ラテン語、さらにはギリシア語、ヘブライ語等が使われている。コードページ 437 でも 850 でも、これら全てをカバーすることはできない。

それ以上に問題なのは日本語との共存である。我々がフル・テキスト・データベースを使うのは研究のためであり、その結果は多くは日本語で書かれた論文なり著作なりの形で公表される。この中に外国語が埋めこまれるのである。ところが、現在の DOS/V マシンでは、これらの1バイト系言語を日本語と混在させることは、英語を除いて不可能である。日本語の使用を可能にするコードページ 932 は、コードページ 437 でウムラウト等の割り振られた肝心の129番目以下のコードを、2バイト文字の1バイト目と半角カタカナに充てているからである3)。

たしかに多言語の共存が可能なワードプロセッサは多い。だが問題なのは汎用性なのである。「一太郎」でもドイツ語・フランス語の混在する文章は書ける。しかし、「一太郎」のファイルは「一太郎」でなくては読めないし、「一太郎」が使えないマシンでは読めない。テキスト・データベースを個人で作成して個人で使うのならこれでも良い。しかし、公に配布するデータはどんな条件下でも利用できなくてはならないのである。

テキストの最初に特殊な文字をどう表現したか書いておいて、利用する側で自分のシステムに合わせてこれらの文字を置換してもらえばよいではないか、という意見もあろう4)。しかし、それができるのはパソコンに精通した人である。広く一般に使ってもらうには、一定以上の能力をもった利用者のみを対象とするわけにはいかない。必要なのは、非互換マルチリンガル・ワードプロセッサではなく、OSレベルのマルチリンガル環境なのである。

ヘーゲル・テキスト・データベースの場合も、まず問題になったのは NEC の PC9801 でどうやってドイツ語のウムラウト等を表現するかであった。当初は EPSON のプリンタが準拠している国際文字の記述方法5)を用いた。この規則で入力しておけば、EPSON のプリンタを使用している限りで、ディップスイッチの変更のみでウムラウトの印字が可能になる。もちろん、ウムラウト等のディスプレイ表示は不可能だし、当然、ドイツ語・英語以外の言語の共存も不可能であった。

ヘーゲル・テキスト・データベースは、弘前大学の清水明氏の作られた検索ソフト TEXAS を添付して配布される。TEXAS は、テキストから目的の単語を検索し、その出現箇所の一覧表を出力することを主な機能としている。前方一致・後方一致の検索も可能であり、さらにはこうして作成した検索集合の和集合・積集合を作ることもできる。後に TEXAS はドイツ語・フランス語等のフォントをプログラム自体がサポートするようになった。これによって、ディスプレイ表示も可能となったが、これは他面では TEXAS レベルでの閉じたデータベースへの逆戻りでもあった6)。

MS-Windows は、こうした問題を解消するはずであった。DOS/V の場合にはコードページの切り替えで多言語の処理を可能にしていたが、この切り替えにはシステムの再起動を必要とした。Windows ではフォントファイルを指定することでシステムの再起動無しに、ということは同一の文書ファイルの中で多言語を共存させることが可能なはずであった。

しかし、Windows が採用した標準テキストファイルは DOS のテキストファイルだった。ゆえに、エディタでファイルを読み込んだだけでは、それが何語で書かれたファイルなのかわからない。同一ファイル内に複数の言語とそれに対応した複数のフォントが指定されていても、これを判別する手掛かりが無い。Windows に標準添付の write というエディタの書式を使えば、互換性のあるテキストを作成できはする。しかし、何と write は129番目以降の欧文文字を扱えないのである。日本語版 Winsows とそのアプリケーションは、日本語も使えるソフトウェアなのではなくて、むしろ、日本語しか使えないのだ。アプリケーション開発者たちは、日本語を使えるようにするために、英語版では可能であったマルチリンガル環境を切り捨ててしまったのである。

アプリケーション開発者たちは、事態の深刻さをほとんど理解していない。大半の Windows 用ワードプロセッサは、ドイツ語・フランス語等を入力できはするが、Windows 標準の ANSI キャラクタセットで書かれたテキストファイルは読み込めない。Windows に添付されている notepad でも文字化けする。MS-Word は ANSI コードのファイルを開くこともセーブすることもできるが、セーブする時点でキャリッジリターン・コードを行末に多数挿入する。さらに、Word 文書の形式に直してセーブしようとするとハングアップする7)。Visual Basic や MS-C といった開発言語でも、マニュアルにすら出ている1バイト文字を処理する関数が2バイト環境ではうまく動作しない、といった例が報告されている。これをメーカーは「仕様である」と言い、我々は「バグである」と言う。OS レベルのマルチリンガル環境への道はまだ遠い。

このような劣悪な条件の下ではあるが、現在ヘーゲルのテキストの ANSI コード化を推進中である。ANSI コードの方が DOS のコードページ 437 よりも原文に忠実なデータを表記できるからである。TEXAS の Windows 版はまだ存在しないので、ANSI コードのテキストを検索するソフトウェアが必要になるが、共同で校正にあたっている跡見女子大の神山伸弘氏が、検索・出現箇所の一覧表示・当該箇所へのカーソルのジャンプが可能なアプリケーション、Easy Checker を開発中である8)。

発足して数年がたつヘーゲル・テキスト・データベースであるが、悩みもある。この間継続してテキスト・データベースの案内をしているにもかかわらず、データを入手したヘーゲル研究会員は30名程(15\%)にとどまっているのである。当初は、DOS の操作が難しいといった苦情もあった。しかし、普及率が低い理由はそればかりではないらしい。近ごろ多い問い合わせは、「それは何の役に立つのか」であるからだ。

黒崎政男氏は CD-ROM 化された辞書をめぐって書物のシーケンシャル性を論じている9)。小説や哲学書はシーケンシャルに書かれているが、書物という媒体の性質上シーケンシャルなだけで、じつはそうではない書物もある。辞書・事典がそれである。

この区別は、書物を読むという作業の本質を考える上でも有効だろう。思考の展開を秩序立てるとき、論文・書物に書き表すことを考えると、どうしてもシーケンシャルな構造とならざるをえない。しかし、人間の思考は必ずしもシーケンシャルではないはずだ。書物を読む、特に哲学書を読むという作業は、シーケンシャルに表現されてはいるけれどもけしてシーケンシャルではないかも知れない思考を、分析的に読み取ることである。

ただ読むだけなら通読すればよい。しかし、これを研究するとなるとテキストの解釈が必要となる。解釈とは、シーケンシャルな体裁になっているテキストを分解して、構造を明らかにすることだ。明らかにされた事柄は、再度シーケンシャルな形式に整序されて、論文・書物として世に送り出される。研究者がテキストを読みながらこつこつカードを作っていくのは、シーケンシャルなテキストの分解作業であり、論文作成とは分解した構造の再シーケンシャル化だったのである。

ワードプロセッサは、登場したばかりの頃は文書の清書装置と考えられていた。それが今や文書作成装置と見なされている。研究という作業の後半部分における構造の再シーケンシャル化にとって、コンピュータ利用の有効性が研究者の間で認知されたのである。

これとの対比で言うなら、テキスト・データベースは、研究という作業の前半部分での、つまり、シーケンシャルなテキストを分解・分析するための道具である。「それは何の役に立つのか」という問いは、この部分でのコンピュータの有効性が未だ認知されていないという現状を物語っている。

研究者の要求を充たすようなデータベース・ソフトウェアが早急に求められている。巨大なソフトウェアが必要な訳ではない。ワードプロセッサと同時起動させておける優秀なビュワーや検索プログラムがあればそれで充分なのである10)。データの ANSI コード化は、Windows 環境を生かすことでテキスト・データベースそのものを認知してもらおうという意図でもある。

静岡大学の浜渦辰二氏はフッサール・データベースを作成されたが、底本の出版社(オランダ)から公開を禁じられ、重要単語400語の検索結果のみの公表で断念されたという11)。「真理は万人によって求められることを自ら欲し」12)ているはずであるが、出版社自らが知の普遍性を否定するとは、世も末である13)。

  1. 三上吉彦他編著『電脳外国語大学』技術評論社(1993)、p.15
  2. 加藤尚武千葉大学教授(現京都大学)が企画され、鶴巻幸平氏のご尽力で完了したフル・テキスト・データベース。G. W. F. Hegel Werke in zwanzig B\"{a}nden,(Suhrkamp Verlag)が底本(版権は加藤教授が所有)。加藤教授が世話人を務めるヘーゲル研究会向けに、データの校正と配布を筆者が担当している。
  3. コード体系は違っているが、129番目以降の欧文文字が使用できないという点では Macintosh も同様である。
  4. 前掲書p.152ff.小澤照彦「ドイツ語・英語でのテキスト・データベースの作成と処理」参照。
  5. 『EPSON MJ-500 取扱説明書』p.104等を参照。
  6. TEXAS の最新版は DOS/V 版(TEXAS/V)である。
  7. この問題に関して、筆者はマイクロソフト社に文書でバグの報告をしたが、なしの礫である。
  8. ヘーゲルのテキストのスペルチェック用に開発されたためこの名前がある。ヘーゲル著作集の各巻は1MB以上の巨大ファイルであり、これを一度に読み込んで実用に耐える速度で作動するスペルチェッカとなると、自分で開発するしかないのである。
  9. 黒崎政男『哲学者クロサキのMS-DOSは思考の道具だ』株式会社アスキー(1993),p.219ff.
  10. 霧生和夫氏はテキスト・データベースを「テキストと検索システムの合体したもの」であるとして、通読のための全文データベースとは区別する。しかし、通読も分析も可能で、書物を読むように使える検索システムでなくては研究者の必要には応えられまい。『電脳外国語大学』p.143参照。
  11. 静岡大学人文学部人文論集 第46号の1(1995年7月31日)、p.1-49.
  12. あえて出典は記さない。古典の文庫を次々と絶版にする神保町の某出版社よ、反省しなさい。
  13. ヘーゲル・テキスト・データベースの入手をご希望の方は筆者までお電話(0425-62-0512)ください。
最終更新日: 2018-04-27 (金) 11:41:36

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS