情報知識学会誌, Vol. 13, No. 3

情報知識学会誌, 2003, 13(3), 3-11

物質・材料データベースに基づく規則性の発見
Discovery Regularities by Materials Database
陳 迎†, 岩田 修一†, 金田 保則†, ピエル ビラス††
Ying CHEN, Shuichi IWATA, Yasunori KANETA and Pierre VILLARS
†School of Engineering,The University of Tokyo,Japan, ††Materials Phases Data System,Switzerland

 近年のめざましい情報技術開発に伴い,大量で高品質のデータを備えた物質・材料データベースに基づくデータ・知識発摘型のアプローチが,物質・材料設計に対する強力な手法となってきている.「ボーリングファイル」は,無機物質・材料についての包括的な物質・材料データベースであり,ここ100年間に発表された結晶碍造データ,状態図,回折パターン,物性値データを格納している.現在公開されているの「ボーリングファイル二元系版」は,結晶構造に村して約28,000件,回折パターン28,000件,物性値42,000件,状態図データ・画像各8,000件を含んでいる.この大量のデータを様々な観点から系統的に検索・解析することにより,物質・材料群に内在する規則性や相関が示され,さらに物質・材料設計における初期段階としての物質・材料候補のヒントを得ることができる.ここでは,この二元系物質の物質碍造,物性値,物質を樽成する元素特性に村し,発見された規則性について述べる.

With the spectacular development of information technology nowadays, the data mining approach based on well organized materials database with large amount of high quality data is becoming a powerful tool in materials design. PAULING FILE is a comprehensive materials database for all non-organic solid state materials, covering crystallographer data, phase diagrams, diffraction patterns and physical properties data published within the last 100 years. The newly released PAULING FILE, BINARIES EDITION contains about 28,000 crystal structure entries, 28,000 diffraction entries, 42,000 property data and 8,000 constitution entries and 8,000 images of phase diagram. Systematic searching and analyzing within this huge amount of data from various aspects have revealed the regularities and correlations implicit in materials which directly provide hints on candidate materials in preliminary stage. The regularities discovered in binary systems among substance structure, property and the atomic properties of its constitution are presented.

情報知識学会誌, 2003, 13(3), 12-24

データマイニング技法を用いた 診断アンケート支援システム
Diagnostic Questionnaire Supporting System Using a Data-Mining Technique
田中猛彦†, 田中康幸††, 中川優†, 小倉光博††, 板倉徹††
Takehiko TANAKA, Yasuyuki TANAKA, Masaru NAKAGAWA, Mitsuhiro OGURA and Toru ITAKURA
†和歌山大学システム工学部, ††株式会社日立システムアンドサービス, †††和歌山県立医科大学脳神経学科

 質問に答えると診断結果が得られる「診断アンケート」は,実施者・回答者それぞれにメリットがあり,インターネットで広く実施されている.結果スコアを計算するには,あらかじめ重み付けスコアを設定する必要があるが,精密で根拠のあるスコア設定は難しい.そこで本論文では,回答データベースに基づいて重み付けスコアを自動的に修正し,常に最適な設定で結果スコアを計算する手法を提案する.自動修正には,データマイニング技法の一つである相関関係分析を使用している.本手法を脳出血の危険度判定アンケートに適用し,有効性を検証した.13件の脳出血発症者を含む713件の拘答に村して,年齢と結果スコアに関する散布図を作成すると,加齢により結果スコアが上昇するような散布図が得られた.また職業などの質問にも,適用により重み付けスコアが割り当てられ,本手法を用いることで知識発見の効果も期待できることがわかった.

Diagnostic questionnaires come into wide use in the internet. The conductor of a questionnaire has to arrange the weighted score for each option, before deriving the resulting scores from the replies. It is, however, difficult to assign accurate, well-founded weighted scores to all the options. In this paper, we propose a method for calculating the weighted scores according to the reply database of the questionnaire, for the purpose of presenting the optimum resulting score at any time. We adopt a correlation analysts, one of the data-mining techniques, to modify the weighted scores. For verifying the validity, we apply the method to a questionnaire on the cerebral hemorrhage. There were replied 713 answers including 13 ones of those who experienced the cerebral hemorrhage. As a result of using the proposed method, the scatter graph of the age and the resulting score is drawn where the resulting scores increase with aging. Furthermore, several questions such as the one about the occupation are judged to be correlated and the options of these questions are weighted, which means the detection of the novel knowledge.

情報知識学会誌, 2003, 13(3), 25-38

重複を除いた蛋白質データベースにおける3アミノ酸組の出現数の頻度分布
Frequency Distribution of the Number of Amino Acid Triplets in the Non-Redundant Protein Database
大滝 丈二, 後藤 智範, 山本 晴彦
Joji M.OTAKI†, Tomonori GOTOH†† and Haruhiko YAMAMOTO†
†Department of Biological Science,Kanagawa University;神奈川大学 理学部生物学科
††Department of Information and Computer Science,Kanagawa University;神奈川大学理学部情報化学科

Protein molecules are polymers of amino acids linked by peptide bonds, and they play various roles in innumerable biological functions. This remarkable functional diversity of biological proteins originates from linear sequences of 20 different amino acid residues. Their sequence information, which is encoded in genes as DNA sequences, is a product of molecular evolution at the genetic level. Upon completion of many genome projects, amino acid sequence records of proteins in databases, which include conceptually translated sequences from DNA, have already been accumulated over 1.24 million, and more than ever, the number of records is still increasing rapidly. Although these sequence databases have been mainly used for similarity searches, fundamental characters of these databases have not been examined thoroughly. Here we investigated biological significance of 8000 combinatorial sets of three amino acids (triplets) in proteins. Defining the number of each triplet in a database as "triplet count", we constructed a histogram for the frequency distribution of triplet counts in the non-redundant protein (nr- aa) database downloaded from the National Center for Biotechnology Information as of November 2002. Distribution range of the histogram was shown to be larger than that of the theoretical histogram generated randomly from the population having the amino acid composition of the nr-aa database, although overall shapes of these histograms were similar to each other. The difference between these two distributions was more dramatically highlighted in histograms showing the ratio of the original triplet counts in the nr-aa database or of the theoretical triplet counts generated randomly to the expected triplet counts derived from the amino acid composition in the database. Whereas the theoretical distribution well fitted the normal error curve due to the random flirtations inherently associated with the sampling procedure itself, the distribution for the existing triplets in the nr-aa database peaked much less and skewed much more toward higher values than the theoretical one, indicating a non-random and possibly biological nature of triplet counts in the nr-aa database. We also performed the same procedure in five phylogenetically distinct species: human (Homo sapiens), mouse (Mus musculus), fruit fly (Drosophila melanogaster), soil nematode (Caenorhabditzs elegant), and a colon bacterium (Escherichia colt). We found similar trends in all species examined here, largely excluding the possibility that the characteristic trend of the triplet-count distribution that was found using the entire database records might have resulted solely from some "sampling artifacts'? of the database itself. In other words, the existence of the species independent distribution trend mostly ruled out the possibility that the nr-aa database over-represents or under-represents particular kinds of proteins simply because of the arbitrary research history of biological sciences. Taken together, this study suggested the existence of non-random and species-independent biological preferences for particular triplets in proteins at the population level, which might have been "fixed" either accidentally or for functional reasons early during the course of biological evolution.

 蛋白質のアミノ酸配列情報は、近年顕著に増加している。この研究では、重複を除いたアミノ酸配列データベース中に存在する3アミノ酸組(トリプレット)の出現数(トリプレット数)について統計的に調べた.実際のトリプレット数の頻度分布は,データベースのアミノ酸組成を基礎としてランダムに発生させた理論的な分布よりも分布範囲が広いが,全体の傾向には大きな違いは見られなかった.これら二つの額度分布の相違は,それぞれのトリプレット数とデータベースのアミノ酸組成から期待される期待トリプレット数との比を求めることで明確となった.理論的な分布が無作為な標本抽出過程から生じる正規分布を示したのに村し,実際のトリプレット数の分布はかなり幅広い歪んだ分布を示した.同様な額度分布は生物種別に調べても得られた.このことは,これらの分布傾向は人為的なデータの偏りに起因するのではなく,生物学的なデータの性質に起因することを示唆している.

情報知識学会誌, 2003, 13(3), 39-48

材料ファクトデータベースから得られるXML記述の知見ノート
Knowledge-Note Obtained Using XML from Materials Factual Database
藤田充苗†, 徐一斌†, 加治芳行††, 塚田隆††, 小野瀬庄二†††, 益子真−††††, 芦野俊宏††††
Mitsutane FUJITA, Yibin XU, Yoshiyuki KAJI, Takashi TSUKADA, Shoji ONOSE, Shinnnichi MASHIKO and Toshihiro ASHINO
†物質・材料研究機構, ††日本原子力研究, †††核燃料サイクル開発機構, ††††東洋大学

 物質・材料研究機構(NIMSと以下略),日本原子力研究所(JAERI),核燃料サイクル開発機構(JNC),科学技術振興事業団(JST)の4機関が共同して,インターネットから相互利用可能な分散型材料データベースシステム(以下,データフリーウェイと言いDFWと略す.)の開発を進めてさた.DFWのようなデータベースでの検索結果は,一般に必要なデータ項目に関する数値や文字列が表やグラフで表示される.これらの結果やデータ解析からの新しい知見を知識として格納し,その知識から逆にその根拠となるデータの検索ができれば,材料データベースの高度な利用が可能になる.しかも,その知識を収集し,知識ベースが構築できればさらに新たな知見の生成が期待でさる.本論文では,本システムとリンクしているDFWの現状を述べ,そのデータベースの検索結果から得られる知識を知見ノートとしてXMLで記述し,知識の1つの要素として整理を行う方法を示し,材料分野の知識としての知見ノートから新たな知見を得るためのデータ加工の活用例を示す.

The distributed material database system named `Data-Free-Way', (DFW) has been developed by four organizations, (the National Institute for Materials Science, the Japan Atomic Energy Research Institute, the Japan Nuclear Cycle Development Institute, and the Japan Science and Technology Corporation) under a cooperative agreement in order to share fresh and stimulating information as well as accumulated information for the development of advanced nuclear materials, for the materials design, etc.

In order to create additional values of the system, knowledge base system, in which knowledge extracted from the material database is expressed, is planned to be developed for more effective utilization of DFW. XAIL has been adopted as the description method of the retrieved results and the meaning of them. One knowledge note described with XML is stored as one knowledge which composes the knowledge base. Since this knowledge note is described with XIIL, the user can easily convert the display form of the table and the graph into the data format which the user usually uses. This paper describes the current status of DFW. the description method of knowledge extracted from the material database with XhlL, handling of numerical data in the knowledge and the distributed material knowledge base system.

情報知識学会誌, 2003, 13(3), 49-57

相互エントロピーを用いたアライメントの改良
Improvement of Sequence Alignment Based on Mutual Entropy
池 正人, 佐藤 圭子, 谷田 貝甲児, 大矢雅則
Masato IKE, Keiko SATO, Koji YATAGAI and Masanori OHYA
東京理科大学理工学部情報科学科

 我々は,タンパク質の分析を行う上で基本的な操作であるアライメントアルゴリズムの改良を行った.2本の配列を対象とするペアワイズアライメントにおいて,今までは,配列間の類似性を表す距離を求め,その最小値をとる複数の結果から無作為に一組の配列を決定していた.本研究では,最小値を与える複数の結果すべてを考え,その配列の組各々に対し,相互エントロピーを計算した.そして,その値の等しい組でグループを作り,全グループの相互エントロピーの平均値を求めることで,結果の絞込みを行った.ヘモグロビンのアミノ酸配列を用いてアライメントしてみたところ,相互エントロビーの平均値と最も近い値をもつグループの中に,生物学的な立体構造を考慮したアライメント結果が含まれていることがわかった.この結果は,タンパク質の立体構造などを考慮することなく,生物学的なアライメント結果のグループを特定することがでさることを示している.

We improve the algorithm to align amino acid sequences af protein which is one of the most fundamental operations studying the analysis of genome. In pair-wise alignment, one chooses one aligned pair (i.e., two sequences) without special reasons from several aligned pairs (the number of these pairs is often very large) giving the same smallest values to the difference properly defined between two sequences. In this paper, we compute the mutual entropy for several such pairs having the same difference, and we classify the pairs into some groups such that the same group consist of the pairs having the same value of the mutual entropy, then we finally compute the mean value of the mutual entropy over the whole groups. As a consequence, we can observe the following interesting fact for some proteins that the aligned pair obtained by usual alignment with 3D protein structure (we call such a alignment the biological alignment here) is in the group having the value of the mutual entropy closest to the mean value of the mutual entropy. From the above observation we conclude that our method using the alignment (MOU-alignment) and the mutual entropy makes us possible to find the biological alignment, that is, we do not need to know the 3D structure to obtain the biological alignment.

情報知識学会誌, 2003, 13(3), 58-72

化学データベース
Chemical Database
田隅 三生† 朽津 耕三†† 細矢 治夫††† 早水 妃久子†††† 田辺 和俊‡ 森岡 義幸‡‡ 坂本 章‡‡ 佐藤 寿邦‡‡‡ 廣田 勇二‡‡‡‡
Mitsuo TASUMI, Kozo KUCHITSU, Haruo HOSOYA, Kikuko HAYAMIZU, Kazutoshi TANABE, Yoshiyuki MORIOKA, Akira SAKAMOTO, Hisakuni SATO and Yuji HIROTA
†東京大学・埼玉大学 名誉教授, ††東京大学・長岡技術科学大学 名誉教授, †††お茶の水女子大学 名誉教授, ††††エヌエムアールデービテック, ‡千葉工業大学, ‡‡埼玉大学 理学部, ‡‡‡横浜国立大学 大学院工学研究院, ‡‡‡‡化学情報協会

 化学においては,古くからファクトデータや文献(書誌)データの集積,流通,利用が盛んに行われてきた.現在では,電子媒体による利用やインターネットによるオンライン利用が主流となっている.ここでは,国内で作成され国際的に利用されているデータベースと海外で作成されている有力データベースについて,それらの現状を簡単に紹介する.

In chemistry, the collection, dissemination, and utilization of fact data and literature data have been made vigorously for many years. Today, many of them are available by electronic media or through the internet. The present status of several databases constructed in Japan and some representative databases constructed outside Japan, both of which are widely utilized, is briefly described.

情報知識学会誌, 2003, 13(3), 73-83

用語は名詞でなければいけないか? -用語規格における用語の品詞的考察-
The Grammatical Forms Parts of Speech of Terms Presented in Term Standards
太田 泰弘
Yasuhiro OTA
立教大学 国際学部

 JIS用語規格に蚊載される用語の品詞の大部分が名詞である実態を調査し,名詞が優先的に収載される理由について若干の考察をこころみた.専門分野ごとに作成される用語集および用語規格が「もの」に関する用語を対象として作成されているという既成事実が名詞重視に大きく影響しているものと思われる.しかし,行為を対象とする学術領域にあっては基本用語は動詞であり,感覚を対象とする学術領域によっては基本用語は形容詞であることから,用語規格に採用する用語の品詞的制約を排除することに積極的に取り組むべきである.

Most of terms presented in term standards are nouns. Using ISO International Standards and Japanese Industrial Standards (JIS), the author examined this matter. Though the history of technical vocabularies in which nouns are preferable results to prepare the noun-oriented term standards, the primary terms in technical fields investigating behavior and perfection are verbs and adjectives, respectively, and the other forms besides nouns should be accepted in term standards.

情報知識学会誌, 2003, 13(3), 84-90

「動き」を採り入れた電子マニュアルの製作とCGアニメーション画面のユーザビリティー評価
Production and Usability Evaluation of an Animation-Based E-Manual for "Eye Ball Motion Measurement Equipment"
能城 正志, 野猿 潔
Masashi NOJO, Kiyoshi NOSU
東海大学 開発工学部

 本研究速報は,大学の教育研究で使用する機材を対象にマルチメディア技術を用いた電子マニュアルを製作するとともに,製作した電子マニュアルのユーザビリティー評価の評価結果を報告する・製作したマニュアルは,電子マニュアルの重要な特徴の一つである「動さ」に重点を置いて開発した.電子マニュアルの評価を行った結果,測定機器の微妙な校正・調整作業などテキストだけでは理解が容易でない操作項目に対して,「動き」は重要であることが確認された・同時に,CGアニメーション表示時間・速度,画面デザイン・機能,動画を含めたメディア選択等について今後さらに検討する必要があることが分かった.

This Notes describes the development of an electronic manual (e-manual), which used multimedia technology to explain the equipment used for the education and research of a university. The repot also describes the result of usability evaluation of the e-manual. The produced e-manual emphasized the emotion", which is the most significant feature of an e-manual. The result of evaluating the e-manual with motions shows

  1. An e-manual with motions is useful to obtain the skill to operate equipment, which is not easy to understand.
  2. However, further investigations are necessary for the showing time of CG animation, display designing and functions and the selection of media including video.
最終更新日: 2011-02-18 (金) 12:14:00

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS