日本語による文化情報処理について
ここに『明治の文豪』という新潮社発行のCD―ROMがある。ありがたいことにテキストファイル化された文学作品は、版権の問題をクリアーしているからだろう、簡単にエディターに取り込んでも読めるようになっている。その上、夏目漱石の創作作品がすべて網羅されていて、その語彙検索などによって、漱石の小説言語の分析が手軽にできる。そこで、この紙面をかりて、文学テキストのコンピューターによる情報処理について、それも特に日本文学についての問題を、漱石の作品を手がかりに考えてみたい。
使っている言語によって創られる文化が制約されるという、いわゆるサピア=ウォーフの仮説は、自明の理のようではあっても、日本文学という文化現象について考えるとき、その中身が日本語の制約を大きく受けているということが、いまだに広くは認識されていない。一昨年ぼくが参加した、異なる言語による言説の差異について考えるシンポジウムで、出席者の一人であったジャック・デリダが、自分たちの(西欧の)文学を「文学」と呼ぶなら、日本文学は「文学」ではないという意味の発言をした。それはデリダが翻訳を通じて知った日本文学についての感想のようだったが、もしこれがデリダの言語文化観であるならば、ぼくも賛成だ。そして、これはただ文学の問題にとどまらず、日本文化の根本的な問題として、言い換えれば日本文化の翻訳の(不)可能性を検討することなのだ
この時点でわれわれは、文化の情報が、最近ますます盛んなインターネットなどを介して、いとも簡単に処理可能だと考えてはいないだろうか。国内的にも、海外との交流の場でも、文化の情報処理は技術革新に即応して進展しているように見えるが、実はそれほど簡単なことではない。そのわけは、今日までの情報処理が日本語の(少なくとも)西欧語との差異を軽視するかたちでなされているからだ。たとえば<英語/日本語>の切り替えボタン一つで、インターネット情報は互換性があるようにしつらえてあるhtml画面を見ると、英語の情報がたちまち日本語の翻訳ソフトで変換可能であるかのように見える。そして、それは高度な技術によって処理できるという前提に立っているようだ。
しかし、われわれの日本語はそれほど簡単にコンピューターで翻訳できないのであり、また翻訳しないほうがいいのかもしれないのだ。具体的には、まず第一に、ぼくが「私語」とよんでいる日本語の性格がもたらす西欧語との差異をどうするかの問題だ。
日本語の語彙(とくに現代日本語の基本語彙となっていて、今も根強く生きているヤマトコトバ)というのは、話し手の立場(視点)から意味づけられており、話し手の個人的な体験が関わっているために、辞書によって「定義」づけることが難しいという事情がある。それはまた、<A=B>という命題を命題として処理する機能を日本語がもたないことに関わり、この等式を日本語で読めば、<AはBだ>というように話し手の判断(断定の助動詞「ダ」)が介入してしまうから、のような「命題」ではなくなってしまうのをどうしようもない。それにもかかわらず、明治以来、日本の義務教育は日本語の語彙が全面的に西欧語と互換性があるという前提のもとに行われてきた。
いまこうした事情を詳述する紙幅はないが、そもそも日本語の時間表現は、西欧語の時制(テンス)では処理できない「私」的な意味をもっている。例えば日本語の過去表現は、話し手に内在する過去(話し手が経験した過去)が、いつも話し手の「イマ」という時間に表出されるという原理があって、それにはイメージが介在するので、過去のものを過去のものとして、歴史的(客観的)な時間軸によって表出する西欧語の過去形とは違う。そういう日本語の時間(ひいては空間)を、西欧語の文法概念で処理して(あるいは処理できるとして)きた近現代の日本語文法は再検討されなければならない。
そこで、明治以来の日本の近代化の過程を見直そうとすれば、たとえば夏目漱石のこの問題に対する取り組み方とその解答を、いまここで検討することは有意義だろう。周知のように、英国へ留学した漱石は、漢語を操るようには英語が自由にならないことから、神経衰弱になる。英語がいわば技術の問題として、この修得に邁進すれば、それによって日本語・日本文化の翻訳が可能であるとする認識は、明治精神の反映でもあったが、結局幻想に終わらなければならないのを、漱石といえども察知できずに苦しんだように思われる。一例をあげれば、今までの学校教育で行われてきた日本語文法の説明の中で、特に時にかかわる助動詞「タ」の解釈はその本質をとらえていない。そこでは例外なく「タ」は過去あるいは完了の意味とされていて、したがって、「タ」は西欧語の過去形と互換性があるように短絡されている。だから西欧語(外国語)教育の側からも、西欧語の過去形は「タ」で置き換えて正しいとしている。西欧語と日本語の本質的な差異を問うのではなく、意味の互換性は、あたかも自明のことのように考えられてきたのだ。しかし私見では、「タ」の本質は西欧語の過去形とほとんど互換性がない。それは次のような理由からだ。
日本語では、過去の出来事は話し手の現在によみがえったイメージとして表出する。その原理は、「タ」の語源「タリ」(完了の助動詞「ツ」の連用形に存在詞「アリ」がついたもの)にあり、それは「イメージがある」という意味を根底にもっているからだ。このイメージは、発話の時点で常に具体的で即物的なので、そうして表出される「タ」の意味は、話し手が回想する動作主体の存在(「アリ」)なのだ。西欧語が主語の動作を時間軸におく形でいわゆる過去形というテンスを用いるのは、歴史的な動作の客観化をめざしているからだが、日本語は話し手の内部にある過去のイメージの現在化(空間化)なのだ。空間化された時間は、だから西欧語のように動作を時計が示すような物理的な時間軸にうつしているわけではない。そこで、「タ」を西欧語で表現するためには動詞の過去形だけではなく、話し手の回想によって蘇った話し手の内にある過去のイメージの現在性についての説明(それはかなりやっかいな作業だ)がなければならないし、反対に西欧語の過去形を日本語で表出することも、意味範疇の全くといっていいほど違う「タ」だけでできるはずがない。にもかかわらず、日本の近代はそれを認める余裕がなかった。
夏目漱石は直感的に感じてだろう、最初はそうした近代化の流れに棹さすように小説を書き出す。『吾輩は猫である』『坊ちゃん』『草枕』といった作品が、本来の伝統的な和文脈でかかれたのだが、それが閑文学とみなされるに及んで、漱石自身、日本語を西欧語に近づけるための努力を始める。そのあたりの事情を、漱石の作品の文体の変化が物語っている。
はじめに紹介したCD−ROM「明治の文豪」のテキストファイルを取り出して、それに多少の操作をほどこして、収録された漱石の27作品の「地」の文の末尾にある動詞・助動詞の形を洗ってみたのが下の表だ。作品名に「ロンドン」とあるのは、短編集『倫敦塔・幻影の盾』所収の7編をまとめたもの。また、『こゝろ』は前半と後半とで文体が異なるので二つにわけた。したがって、27の作品は便宜的にここでは22の列になっているが、作品名はほぼ発表順(執筆順)だ。
日本語GREPでまず小説中の会話文を取り除き、「地」の文を句点を区切りに行単位に並べ、行末の助動詞「タ」の頻度を集計した。助動詞「タ」が文末に置かれるかたちは「た」だけではなく、「んだ」[編んだ]「いだ」[嗅いだ]のようにも現れるから、それを合計したのが<「タ」小計>のコラムだが、ここで「タ」で文末が終わる行数を地の文の行数で割ったパーセンテージのコラムに注目されたい。
作品名 | 地の文 | <た。> | <んだ。> | <いだ。> | 「タ」 | タ/地文 | <のである。> | <のです。> |
吾輩は猫 | 4863 | 668 | 22 | 0 | 690 | 14.18 | 154 |
ロンドン 3225 362 16 1 379 11.75 58
ケーベル 79 44 3 0 47 59.49 3
坊ちゃん 2181 729 71 2 802 36.77 9
草枕 2112 301 3 1 305 14.44 17
二百十日 238 58 1 0 59 24.78 0
野分 1718 388 9 0 397 23.10 48
虞美人草 4645 1000 29 4 1033 22.23 42
坑夫 3715 1497 47 2 1546 41.61 48
文鳥 409 225 5 3 233 56.96 1
夢十夜 598 340 7 1 348 58.19 2
三四郎 4936 2403 37 2 2442 49.47 61
永日小品 1520 759 16 5 780 51.31 18
それから 4468 3618 60 8 3686 82.49 72
門 3087 2754 57 4 2815 91.18 95
彼岸過迄 3488 2682 51 5 2738 78.49 191
行人 5161 4436 55 10 4501 87.21 61
こころ1 1828 1684 43 2 1729 94.58 23
こころ2 2418 1259 0 0 1259 52.06 0 660
硝子戸 1125 716 9 1 726 64.53 78
道草 3358 3208 67 5 3280 97.67 54
明暗 6199 5879 96 16 5991 96.64 72 計 61371 15010 704 72 35786 58.31
猫が苦沙弥先生一家をいわば外側から観察し、そのありのままを語る『吾輩は猫である』(1906)や、第三者的な「非人情」をその態度とする画工を主人公とする『草枕』(1906)は、西欧の「客観」を志向しながら、その文体が伝統的で自然な和文脈であるが、年を経て漱石の晩年には、自らの人生のある時期を克明にうつす『道草』(1914)や、作者の一生の問題であった女性との関わりを私情を交えず考える体の『明暗』(1916)に及ぶと、「タ」の使用頻度が逆転して、そこでは明らかに「タ」を西欧語的な過去形として機能させようとする意図がはっきりしている。しかし、これで西欧語のようになるわけではないのは、「タ」には他にも「完了」(アスペクト)的な意味もあり、それが全くテンスとして「タ」と区別できないのみか、西欧近代の小説文体と決定的に違うのは、(おそらく漱石が意識していなかった)「ノダ文」の介入なのだ。「ノダ」文は状況の説明を意図する文だから、図らずも小説の中に小説の中身を説明している誰かが存在することになってしまい、西欧の近代小説のように外界の事象を外界の事象として写し取ることだけを目的にした(作者の声を消す)文とはならなくなってしまうのだ。逆に、作者の声を響かせることが目的の『こゝろ』の後半(表では「こゝろ2」)では、地の文の4分の1以上が「のです。」という文末によって占められている。 西欧の小説がその文体を基本的には過去形に統一していることと、日本の伝統的な物語の文体が(西欧語的にいえば)現在の時点の状況をつねに描写しようとしていることとは、それぞれの言語の機能の本質に関わって当然その意味を異にするのだから、単純な置き換えで意味作用を換骨奪胎できるわけがない。にもかかわらず、こうした言語操作が結果的には現代日本語の解釈の根底にあり、その延長線上にコンピューターによる情報処理の原理があるわけで、今となってはそうした中途半端なことばの使い方が西欧を本質的に誤解したり、日本の本当の近代化にとって障碍となっていることを、重大視しなければならないだろう。
作品名 地の文 <た。> <んだ。> <いだ。> 「タ」 タ/地文 <のである。> <のです。> 痴人の愛 1845 989 16 1 1006 54.52 0 157
雪国 1200 986 26 1 1013 84.42 5
砂の女 2621 982 35 7 1024 39.07 52
黒い雨 4900 2654 42 7 2703 56.16 39
ノルウェイ 7659 4362 183 12 4557 59.50 3
合計 18225 9973 302 28 10303 56.53
3 漱石の実験的な小説の文体が、その後の日本語を西欧的な言語作用への変革に導いたのならば、西欧語との互換性を前提に、文化(並びに文化情報)の翻訳を押し進めることができるだろう。しかし、実際はこの時点で、助動詞「タ」が本質的に西欧語の過去形としての機能を獲得しているわけではないのだから、文化情報を安易な<日本語/英語>のような翻訳ボタンで処理した時に、脱落してしまう原語の意味は大きいのだ。ちなみに他の近現代作家の小説を同様にGREP検索してみると、文末の「タ」は、過去回想のムードが濃厚な谷崎潤一郎『痴人の愛』(1925)、川端康成『雪国』(1947)、村上春樹『ノルウェイの森』(1987)などと、日記体の井伏鱒二『黒い雨』(1966)とではあまり差がないし、視覚的な安部公房の『砂の女』(1962)では40%足らずと低い。これをみても、晩年の漱石のような意図をもってかかれた文体が現代の小説の言語として確立したわけではないことが知られよう。 助動詞「タ」は、日本語の機能が西欧語と比較して互換性に欠けるという問題の、氷山の一角にすぎない。前述したように、ここで行った「タ」の統計は、その形態だけを切り取ってみただけだから、複雑な本来の「タ」の意味をほとんど無視している。この先にあるのは、それぞれのテキストで一つ一つの「タ」が表出するイメージのありようであるが、その解明には今のところコンピューターは役に立ちそうもない。ここに見たように、日本語に基本的にはイメージの論理がはたらいているとすれば、それを解析することが先決問題だからだ。それは西欧語の文法を日本語に適用することではなくて、日本語の本質をはっきりさせる文法の確立だろう。そのためにも、あらためて日本語と西欧語(外国語)との差異を差異として認識することから始めなければならない。