自然科学の立場から情報の普遍的概念を探るために、第1部では遺伝情報系と言語情報系とを比較した。遺伝情報系と言語情報系とは、その構造においても機能の面からも極めて類似している。したがって遺伝系は自然言語の一種と見做し得る。この意味で、DNA言語なる言葉がしばしば用いられる。遺伝系は言語系よりもずっと高度に進化しているであろう。 第2部では意味的情報の定量化を脳神経系に基づいて試みている。物質とエネルギーと情報との間には強い相関がある。さらに次の仮説を提出する。思考は解を生む。解は情報を含み、情報を発する。役に立つ解は大脳皮質にある装置に記憶される。このとき、電気信号がニューロンからニューロンに伝わるとエネルギーが消費される。それで情報(含)量はエネルギーの単位で表現することができるであろう。
全体―部分関係は種々の分野で使用されているきわめて一般的な関係であるにも拘わらず、その特徴や問題点が十分考察されているとはいいがたい。そこで本論文では、まず概念間、ことば間、そして概念とことば間の関係を扱う研究分野の例をあげ、それぞれでのアプローチの違いを示した。また、ターミノロジーおよび情報検索分野のシソーラスを中心に、類種関係、全体−部分関係、連想関係の全般的な特徴を明らかにした。 次にこうした論議を踏まえて、全体−部分関係の特徴と問題点を、ターミノロジーおよびシソーラスを中心に考察した。ターミノロジーではこの関係は概念の把握を容易にするための手段と捉えられてはいるが、部分概念を把握することのむずかしさ、名義論的過程と意義論過程との混乱がみられることを示した。また検索性能の向上を目的とするシソーラスでは、全体−部分関係は便宜的でありあまり重要視されていないこと、および関係規定の曖昧さが顕著に見られることを明らかにした。
今日、環境問題などの解決のために、データの蓄積ということが以前にも増して重要な課題となりつつある。こうした社会的要請ばかりでなく、科学自体がその発展のためにデータの蓄積を必要としている。よく知られているように、天体運行データや生物種多様性データを基にして西欧では近代的な物理学や生物学が誕生したが、日本や中国では近代化しそこなった。これらのデータを例にとり、研究者のデータに対する態度とその結果としての理論体系の構築について二つの地域で根本的な違いがあったことを指摘する。
今日では、MRI(核磁気共鳴断層撮影装置)などの医用画像機器が高度に発展し、またヒトの脳に関する医学研究上基本的な機器となりつつある。しかし、如何に大量のデータを収集したとしても、それを管理し検索する適当な手段が無くては無意味である。 我々は1000の健常者の3次元脳MRI画像を含むデータベースを構築中であり、これについて報告する。また、この種のデータベースについて要求される一般的事項の幾つかについても議論する。
Nowadays, highly advanced medical imaging devices, like MRI(Magnetic Resonance Imaging), are developped and have become rather common apparatus for medical research of the human brain. No matter how much data is obtained, however, it is nothing without appropriate measure for searching and analyzing it. The necessity of sophisticated database management systems for three-dimensional brain images is now clear. A three-dimensional brain image database which consists of about 1000 brain images taken from normal subjects are under construction. In this paper, what have accomplished on the database up to now will be introduced and several issues on general design of such kind of database are discussed.
材料における化学組成、結晶構造、物性それぞれの関係を体系的な分類に基づいて総合的に理解することは、材料設計の基本である。構造や物性値を数多く格納したデータベースは、上記の関係に対する新しい知識を得るための強力な道具となる。ここでは、データースを利用して無機材料における結晶構造と構造要素データマイニングを行なう上での問題点を、結晶学的見地から述べる。層状銅酸化物超伝導材料における、新たな探索方法の開発と、複雑で未だ発見されていない規則性を見出すことを目的として、二次元積層構造に関する分類を行なった。
A new approach to get a qualified view on large amounts of materials data is proposed. Global understanding on the relations among chemical composition, crystal structure and properties of materials on the basis of suitable classification is a starting point of material design. The present work is focused on studying the crystal structures and structural primitives as keys for materials design based on crystallographic information, and a sequence of stacking 2-dimensional layers, implying hidden regularities in the high temperature superconducting (HTSC) materials, is selected as an additional features to generic crystallographic information. Prerequisites for using this approach, its limitations and possibilities for database developments are discussed based on the analyses of data extracted from Inorganic Crystal Structure Database (ICSD) . In addition, possible applications of this method for classification and design of these interesting materials are proposed.
1995年にインフルエンザ菌ゲノムが公開されてから既に30以上の微生物のゲノム配列が決定され公開されている。さらに、100種類以上の微生物ゲノムがここ1〜2年内に公開されると思われる。それらのゲノムデータは配列を決定したゲノムプロジェクトチームからはもちろんであるが、同時に国際DNAデータバンク(DDBJ/EMBL/GenBank)からも公開される。しかしながら、そのデータのフォーマット、表現方法、さらに配列解析から生物学的意味付加(アノテーション)までの手法が共通でないために、有用な知見をもたらす比較ゲノム解析を行うことを実施することが困難であった。そのため、我々は既に公開されている微生物ゲノムに付加されている生物学的情報や配列を検索、取得するシステムとしてゲノム情報ブローカ(GIB)を開発した。GIBは比較ゲノムの研究に役立つものと考えている。GIBはhttp://gib.genes.nig.ac.jpで公開されている。
Whole genome sequences of more than 30 microbial species have been determined and open to the pubic since 1995. In addition, more than 100 microbial genome sequences are supposed to be disclosed or completed in a couple of years. The data are available either from the sites of groups that determined the genome sequence or from DDBJ/EMBL/GenBank International Nucleotide Sequence Databank (INSD). However, it is a daunting task for us to apply comparative genomics to the increasing number of microbial genomes. It is due to inconsistency of data format, data representation and even protocols of data annotation in the diverse data sources. Therefore, we developed Genome Information Broker (GIB) that allows us to retrieve and to display the part and/or whole genome sequences and the relevant biological annotation of all the microbial genomes together. Thus GIB will be a powerful tool for the study of comparative genomics. The URL address of GIB is http://gib.genes.nig.ac.jp.
遺伝子発現の一過程である翻訳における最適コドンを決定することは、遺伝子の発現量を推定するための重要な因子の一つである。本研究では、ゲノム全体の遺伝子を対象にバイオインフォマティクス的立場から多変量解析法に基づいて原核生物(バクテリア)と真核生物における種固有のコドン使用多様性について検討した。 原核生物はもとより単細胞真核生物(Saccharomyces cerevisiae、Scizosaccharomyces pombe)および多細胞真核生物(D. melanogaster、C.elegans)についてもコドン使用多様性に生物が有するtRNA種が大きく影響を及ぼしていることを示した。さらには、広範囲の生物種の種固有のコドン使用多様性に影響を及ぼす因子を検討した。
ヒトゲノムの全配列に続いて30種類以上の他のゲノム配列の完成が報告されている。このようにゲノムの解明された現在、転写レベルのTranscriptomeと翻訳レベルのProteomeの2つのprojectが注目を浴びて来た。 Proteome projectは生物の組織、細胞等の特定の部位で特定の時間の断面で発現される全蛋白質を分離してその各々の蛋白質を同定する事を目的としている。現在この目的の為に蛋白質の等電点と分子量で分離する二次元電気泳動法が主として用いられ、分離した蛋白質の同定にはN末端からのアミノ酸の配列解析、又蛋白質spotをゲルと共に切り取りトリプシン等の蛋白分解酵素で分解し、抽出して出て来たペプチド断片を質量分析装置で分析するペプチドマスフィンガープリント法等が使われている。これらの方法は分析感度が非常に高く前者で1pモル後者で10〜100 fモルで行われ、現在それらを自動化し且つ迅速に行うかという事に努力が集中している。一方これらのデータを標準化しデータベース化する努力が行われている。二次元電気泳動のイメージマップ、その実験を行った条件をGeneralデータとして入力、個々のspotの蛋白質のデータとその関係する20項目のデータをPIRのフォーマットに従ってspotデータとして入力してある。これらのデータベースについて概略を述べる。
国立遺伝学研究所では、1986年より塩基配列データベースの開発に着手し、日本DNAデータバンク(DNA Data Bank of JAPAN, 以下DDBJ)として国際的な事業を展開している。現在DDBJは、国際DNAデータバンクの1極として、米国のNCBI、ヨーロッパのEBIと日々データを交換し公共的な塩基配列データベースの構築支援に寄与している。この3極で集めれたデータは、DDBJ/EMBL/Genbank国際塩基配列データベースとしてまとめられ、一般ユーザへ公開されている。