今年のはじめに、われわれは、P.イングベルセン博士のInformation Retrieval Interactionの翻訳を行なった(1)。この本には、情報検索システムについてのさまざまな新しいアイデアが紹介されている。それらには、実際にプロトタイプとして実現されているものもあれば、発想の段階にすぎないものもあるが、示唆に富んだアイデアが少なくない。
本稿では、それらの中から、興味深いものをいくつか思いつくままにピックアップして、私見を交えて紹介したい。ただし、ここではいわゆる「文献検索」に限定する。しかしそれでも、いくつかのアイデアは、それよりも広いより一般的な情報検索に応用可能であろう。
情報検索システムが持つべき「知識」とは何かと問われれば、まず、そのデータベースが対象とする主題に関する知識ということになろう(この場合、タイトル、書名などの文献そのもののデータはこれには含めて考えない)。この知識は、シソーラスというかたちで、システムに組み込まれることが多い。例えば、1960年代後半にすでにSMARTシステムでは、語と語の関係が文献(抄録)中の共出現頻度で測定され、その知識がシソーラスとしてシステムに組み込まれて、検索式の自動的な修正に応用されている(2)。最近の検索システムの中にも、シソーラスのファイルを内蔵し、ディスクリプタを検索式にそのまま取り込めるものがある。この種の知識の活用は今後、さらに進むであろう。
その他の知識としては、利用者(検索者)に関する知識と、「システム」に関する知識とがある。利用者に関する知識については、すでに、情報検索のエキスパートシステムに、利用者プロファイルを組み込む試みがなされているが、筆者にはこれはそれほど有効とは思えない。イングベルセンは、このことに関して、従来試みられてきた、利用者のステイタス(「研究者」、「学生」など)についての知識は役に立たず、むしろ、その利用者が、情報検索のやりかたに対する知識を持っているかどうか、あるいはまさに「その時に」検索しようとしている主題に対して知識があるかどうかに着目すべきだと説いてはいる。しかし、それでも直感的にそれをどう活用するかということになると疑問が残る。せいぜい、検索方式を誘導型のメニュー方式にするかコマンド方式にするかの選択や、ヘルプ機能に関する工夫以外には、この種の知識を利用することはできないのではないだろうか。
それに対して、「システム」に関する知識は、見込みがありそうである。この場合、オンライン検索の状況を想定しており、「システム」とはホストコンピュータ上の検索システムを指す。そして、この「システム」に関する知識を持つのは、端末側の検索ソフトである。現在の商用データベースでは、検索の操作やコマンド、オペランド等に差異がある。そこで、検索ソフト側がこの差異についての知識を持ち、検索者にこの差異を意識させないようにできれば、ずいぶん検索が簡単になるのではないだろうか(筆者は実際にこのようなソフトの販売用パンフレットを見たような記憶があるが定かではない)。このあたりの発想はインターネットでも応用できそうである。
以上の、3種類の知識を備えた情報検索システムが(利用者についての知識の有用性にはやや疑問が残るが)、真の知識ベース型情報検索システムであろう。
検索の結果に基づいて、システムが検索式を自動修正するというタイプのフィードバックが多くの研究者によって論じられてきた。つまり、とにかく一度検索を行い、その結果検索されたそれぞれの文献に対して、利用者に適合しているか否かを回答してもらい、その情報を検索式の修正にフィードバックするのである。イングベルセンはこれを重要視する。
これは、われわれが現在、実際に行なっている通常の検索の場合に、検索の出力結果を一度検討してから、検索式を修正してやり直すことから考えてみても、当然、研究してみる価値のある方法であろう。この先駆的な試みはやはりSMARTシステムであり、そこでは語の重みを修正するために、フィードバックの情報が利用された(3)。その後、1970年代後半から、確率モデルなどを利用した手法が次々に考えだされ、最近では、機械学習や遺伝アルゴリズム、ニューラル・ネットワークを用いたものまでが提案されている(4)。
イングベルセンでは、ひとつのフィードバック機能として、すでに実用化されている出現頻度分析機能(Zoom機能)が紹介されているが、今後、さらに高度なフィードバック機能が求められよう。
例えば、検索をするとき、われわれは、自分の検索したい概念を、そのデータベースで使われていそうなキーワードに置き換えようとする。この際、過度に一般的なキーワードを使ったり、自分が本当に検索したい概念からあまりにもかけ離れたキーワードを使ってしまう場合がある。これをイングベルセンは「ラベル効果」と呼んでいる。
シソーラスは、いわば検索者と索引者との間の表現のしかたを統一するための典拠である。このシソーラスの有用性は、いまさらゆらぐことはないだろうが、それにしてもわれわれはこのラベル効果をあまりにも見過ごしてきたのではないだろうか。シソーラスで適当なディスクリプタを選んで検索すると、自分の欲しい文献がたくさんの関連のない文献に混ざって検索されるということを、筆者は何度も経験したことがあるが、これこそラベル効果の結果なのである。
その当時は、ラベル効果ということばは知らず(おそらくなかった)、単に、自分の検索式の立て方が悪いという認識しかなかったわけであるが、今後は、このラベル効果について研究が進められるべきであろう。
「パラダイム」という概念を、厳密な定義をせずに軽々しく使うことは慎むべきかもしれないが、ここではあえて、学派とか、研究の流儀が同じグループとか、研究方法の嗜好を共有するグループなどを漠然と総体的に示す語として「パラダイム」を使う。
現在の大部分の索引作成システムにおいては、このようなパラダイムを直接的に表すディスクリプタというのは付与されない。たまに、統計的な手法などの方法論に関するディスクリプタが付与されるものもあることはあるが、学派となるとまずないであろう。
しかし、このようなパラダイムを手がかりにして検索したい場合は少なくないのではないだろうか。例えば、情報検索の分野においては、本稿ですでに何度も引用しているSMARTシステムを開発したSaltonの一派がある。彼らにはベクトル空間モデルという共通の「思想的基盤」があって、その一派のある2つの文献が、キーワードのレベルでは共通性がなくても、実は非常に関連しているという場合が少なくない。さらに逆の可能性もある(キーワードが同じでもパラダイムが異なる)。したがって、もしパラダイム志向の検索が可能ならば、いわゆる「ノイズ」や「もれ」を防ぐ手段として有用ではないだろうか。
これを実現する方法としては、引用索引がある。イングベルセンも引用関係からの検索が、パラダイム志向の検索を実現するほぼ唯一の方法と考えているようである。具体的には、引用索引としてSCIやSSCIがすでにコンピュータで検索可能であるが、この引用索引と、その他の情報検索手法とを組み合わせることがひとつの有力な方法であろう。
また、計量書誌学あるいは科学計量学で盛んに研究されている共引用の活用も考えられる。Small(5)はクーンのパラダイムを実証し、かつそれを見出す方法として、いわゆる共引用マップを考えだした。現在でもこの共引用マップは、特に米国やオランダなどで、多くの研究者によって研究されている。それらの成果を情報検索システムに取り込むことも考えられよう。
ある情報要求があって、うまくキーワードを思いつかないが、その情報要求に関連した文献は1つは知っているという場合がある。このようなとき、まずその既知の文献を検索しておいて、それに付与されているディスクリプタを調べ、それを使って再び検索する方法が考えられる。しかし、そうではなく、直接的に既知の文献と「類似した」文献を検索できれば簡単だし、先に述べたパラダイムという観点から考えればそのほうがむしろ望ましい。この類似検索もイングベルセンが重要視するアイデアのひとつである。
それでは、文献が「類似している」というのは、具体的にどう捉えればよいのであろうか。Saltonのベクトル空間で考えれば、2つの文献のベクトル間の角度が小さいという意味になるから、すなわち、語の重みが近いほど類似していることになる。
また、著者が同じであるから似ている、方法論が同じだから似ている、研究対象が同じだから似ている、パラダイムを共有しているから似ている、掲載雑誌が同じだから似ている、などのさまざまな基準を考えることができる。そしてこの線で考えれば、引用関係にある文献どうしは「類似している」ともいえる。
もし、文献間のこれらの関係が測定できるとすれば、文献がネットワーク状に接続され、それぞれのリンクの長さが関係の度合の程度を反映するような表現方法が考えられる。そうすれば、ある既知の文献を出発点として、ネットワーク上を拡張活性するように、文献検索をしていくことができる。これは、Croft and Thomson(6)のアイデアであり、そのモデルはI3Rと呼ばれる(ただし、リンクはSaltonのベクトルモデルや引用関係によって張られ、文献は概念とも接続される)。
この文献をネットワーク状に構成することに筆者は非常に魅力を感じる。あまり使ったことのないデータベースを検索する場合に、データベースの中の1部分でもいいから、ながめたいということがある。つまり、どのような文献が蓄積されていて、それらにはどのようなディスクリプタが付与されているかという「感じ」を漠然とつかみたいのである。このとき、適当なキーワードで検索して、その文献の一覧表示をざっと眺めるのであるが、もし、これが文献ネットワークの形態で、グラフィカルに見られたら、とても具合がよいのではないかと思う。ただ、ネットワークは多次元の広がりをもつ可能性があるのでこれをどうするかとか、画面が小さいと文献が消し粒のようになってしまうとか、いくつかの問題はあるだろう。前者に関しては、多次元尺度構成法の理論を用いて次元を縮小させるとか、後者に関しては、「虫めがね」のようなものを用意するなどの対処が考えれる。最近のGUIの進歩は目を見張るものがあり、現在の技術でもかなりの期待はできるのではないだろうか。
これはあまりにも有名な例であるが、「Time files like an arrow」という文にはいくつかの解釈が可能である。これらの解釈のうちのどれがふさわしいかを決めるのは、その文が用いられる「文脈」である。このことは情報検索にもあてはまるわけで、イングベルセンは「文脈的情報検索」の理論を構築することを提案している。 筆者も、文脈の必要性は前から感じていた。例えば、図書館学のある文献に「公共図書館」というディスクリプタが付与されているとする。しかし、この事実からだけでは、この文献が、例えば、公共図書館自体を論じたものなのか、あるいは利用者研究のひとつのフィールドとして公共図書館を設定しているのかということはわからない。もちろん、他のディスクリプタ間は独立ではないのである。
さらに筆者は、かなり以前に、1つの文献に付与されているディスクリプタが、ディスクリプタ・フィールドにただ漫然と並べられていることに疑問を感じて、ディスクリプタ・フィールドに1つの構造を入れることを提案したことがある7)。つまり、簡単に言えば、「研究対象」「研究方法」などのサブフィールドをディスクリプタ・フィールド内に設定し、各ディスクリプタが、文献中にどのような「側面(ファセット)」に対応して付与されたかを明示的に示したらどうかと考えたのである。ここでのポイントは、通常のファセットはディスクリプタ側に設定されるが、それを文献側に設定して、ディスクリプタにひとつの「文脈」を与えようとした点にある。
このアイディアはもう古いものとなってしまったかもしれないが、文献の「表現」に対して、何らかの文脈に付与する方策が必要なのではないだろうか。
以上、思いつくままにトピックを拾って簡単な解説を行なった。イングベルセンの本には、「支援的アプローチ」など、ここでは紹介できなかったアイディアがまだまだたくさんあるが、ページ数の制限もあるので、ひとまずここで本稿を閉じることにしたい。