関西部会研究会(第2回)報告

情報知識学会関西部会2005年度第2回研究会報告

日 時:
7月16日(土)14時半〜17時
会 場:
大阪市立浪速人権文化センター
テーマ:
大規模韓国語オントロジ開発のためのシソーラス構築
発表者:
崔錫斗氏(韓国・京畿大学文献情報学科教授)
共 催:
日本図書館研究会整理技術研究グループ、横断的アーカイブズ論研究会
(平成17〜19年度文科省科研費補助金基盤研究(B):番号17300081)
出 席:
33名
内容:
発表者の開発している50万語レベルの韓国語一般シソーラスについて発表された。
同シソーラスは韓国のインターネット検索エンジンに組み込まれるなど、既に実用化されている。
1.シソーラス構築の基本構想
・一般用語(主題語)のほか人名・書名・地名等の固有名をも対象とし、用語に対応する各国語の表現や図書館分類・商品コードなどの各種語彙体系ともリンクされた「用語のプール」を基本構想としている。
・現在、主題語を中心に約47万語を擁しているが、基本用語数は100万語以上になると推定している。もっとも実際には索引及び検索の適合性を勘案して用語数・分析深度の調整が必要である。対象とする用語は、名詞類と形容詞である。
・汎用オントロジ(一般オントロジ)の開発が大きな目標である。セマンティックWebの枠組みでいうと、シソーラスは「RDFスキーマ層」「オントロジ層」に対応したところに位置づけられる。
・概念関係表現を行うための基本的枠組みとして「基本概念関係」「概念ファセット」「副次概念関係」を整理している。
2.シソーラスの適用可能性
・索引語の加重値付与、全文テキストの自動索引、動的主題ゲートのための分類体系の作成、同形異義語を区分した索引・検索、外国語参照及び交差言語検索、オントロジ構築などへの適用が考えられる。
3.基本概念関係
・基本概念関係とは、シソーラスに関するISO標準に準拠したものであり、BT/NT(階層関係)、USE/UF(等価関係)、RT(関連関係)が中心である。ただし、例えばBT(上位語)をBTG(属関係)・BTI(事例関係)・BTP(部分関係)に細分したり、PT/LT(以前・以後の用語)を設定するなどの精緻化をはかっている。
・その他、各種の分類コードや外国語コード、用語定義、用語水準(教科書での出現状況)等も設定する。また、人名と書名の間にあるTIT/AUT(著作/著者)等も基本概念関係である。
4.概念ファセット
・各用語の基本的性格を示すカテゴリとして、概念ファセット「空間」「方法」「状態・性質」「構造物」「機器・装置」「生物」「物質・材料」「非技術的行為」「現状・事件」「組織」「症状」「技術的行為」「コンテンツ・ドキュメント」を設定している。現時点では科学技術用語を対象としており、用語一般に拡張するにはさらに検討を要する。
・概念ファセットの用途として、自然言語処理への適用、名詞の語彙網作成の際の最上位カテゴリ、概念関係設定時のエラー検出基準、等が考えられる。
5.副次概念関係
・シソーラスのISO標準における関係表現は不十分である。一方オントロジでは概念関係の表現に制限がないが、全く単純化された形では情報追求活動に支障がある。結論として、基本概念関係の基礎の上に、それらをより精緻に細分する副次概念関係を定義する必要がある。
・副次概念関係の類型として、双方向に同じ関係が成り立つもの、向きを逆にすると対応して関係が変わる対称的性質をもつもの、一方通行のもの、がある。
・BT/NT(階層関係)に対して、現在65種の副次概念関係を定義している。これで全てではなく、100種内外になると推定している。「構造(部/課)」「分野(工学/ロボット工学)」「成分(化合物/シリコン水素化合物)」等の「包含関係」(20種)、「器機(基板/携帯基板)」「手段(決裁/電子決裁)」等の「限定関係」(19種)、「長さ(銃/長銃)」「色(光線/赤色光線)」等の「順序関係」(15種)、「距離(通信網/近距離通信網)」「地形(道路/海岸道路)」等の「処所関係」(11種)がある。ある語の各下位語に副次概念関係を設定することにより、区分原理による関係の整理ができる。
・USE/UF(等価関係)に対して、「一般名/学術名」「表記の相異」「旧用語/現代用語」「方言」等約100種の副次概念関係を設定している。最終的には200種内外と推定している。
・RT(関連関係)はISO標準における設定基準が曖昧である。現在は「業務と従事者」など約20カテゴリーにあてはまる関係にのみ設定を行っている。関連関係やその他の関係(固有名に関わるものなど)について副次概念関係の整理は十分ではないが、1,500種内外になるのではないかと推定している。
6.おわりに
・大規模シソーラスの開発は労働集約的で切りのない作業であり、本来は国家レベルでなされるべきである。また、概念及び副次概念関係の標準化が必要である。
・現在は基本的に手作業であるが、ある時点からは自動化していく必要がある。
最終更新日: 2011-01-19 (水) 18:37:36

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS