InChI

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動先: 案内検索
InChI
開発元 InChI Trust
初版 2005年4月15日 (2005-04-15)[1][2]
最新版 1.04 / 2011年9月(6年前) (2011-09
対応OS Microsoft Windows and Unix-like
プラットフォーム IA-32 and x86-64
サイズ 4.3 MB
対応言語 英語
サポート状況 Active
ライセンス IUPAC / InChI Trust Licence
公式サイト http://www.iupac.org/home/publications/e-resources/inchi.html
テンプレートを表示

InChI(International Chemical Identifier)は、標準的かつ人間が読める方法で分子情報を提供し、またウェブ上でのデータベースからの情報の検索機能を提供する。元々、2000年から2005年にIUPACNISTによって開発され、フォーマットとアルゴリズムは非営利であり、開発の継続は、IUPACも参画する非営利団体のInChI Trustにより、2010年までサポートされていた。現在の1.04版は、2011年9月にリリースされた。

1.04版の前までは、ソフトウェアはオープンソースGNU Lesser General Public Licenseで無償で入手できたが[3]、現在は、IUPAC-InChI Trust Licenseと呼ばれる固有のライセンスとなっている[4]

概要[編集]

識別子は、情報のレイヤーとして化学物質を記述する。レイヤーには、原子とその結合、互変異性情報、同位体情報、立体化学、電荷の情報がある。しかし全てのレイヤーが提供される訳ではなく、例えば互変異性のレイヤーは省略されることがある。

広く用いられているCAS登録番号とは、以下の点で異なる。

  • 自由に使え、非営利である。
  • 構造情報から計算でき、組織による割当が必要ない。
  • ほとんどの情報は、人が読むことができる。

そのため、InChIは、IUPAC命名法を一般化、極端な定式化したものと見なすことができる。単純なSMILES記法よりも多くの情報を表現でき、全ての構造が、データベースの応用に必要な独自のInChI文字列を持つ点が異なっている。原子の3次元配列の情報はInChIでは表せず、この目的のためにはPDB等のフォーマットが用いられる。

InChIアルゴリズムは、入力された構造情報を、正規化(冗長な情報の除去)、標準化(各原子に固有の番号を生成)、整列化(特徴の文字列を付与)の3段階の過程で固有の識別子に変換する。

hashed InChIとも呼ばれるInChIKeyは、25文字の固定長であるが、デジタル表現なので人間には読むことができない。InChIKeyの仕様は、ウェブでの検索を可能にするために、2007年9月にリリースされた[5]。InChIそのものとは異なり、InChIKeyは一意ではなく、非常に稀ではあるが重複が発生する[6]

2009年1月、InChIソフトウェアの最終の1.02版がリリースされた。これにより、いわゆるstandard InChIの生成が可能となった。standard InChIは、InChI文字列と、異なったグループによって生成されたキーの比較を容易にし、データベースやウェブ資源等の広範な情報源からのアクセスを可能にした。

フォーマットとレイヤー[編集]

InChI format
MIMEタイプ chemical/x-inchi
種別 chemical file format

全てのInChIは、”InChI=”という文字列から始まり、現在は1であるバージョンの数が続く。standard InChIでは、これにSの文字が続く。残りの情報は、レイヤーとサブレイヤーの配列として構造化され、各々のレイヤーは、1つの種類の情報を収める。レイヤーとサブレイヤーは、区切り文字 ”/” で隔てられ、(メインレイヤーの化学式サブレイヤーを除き)固有の接頭文字で始まる。6つのレイヤーと各々の重要なサブレイヤーは、以下の通りである。

1. メインレイヤー

  • 化学式(接頭文字なし) - 全てのInChIに現れる唯一のサブレイヤー
  • 原子の繋がり(接頭文字:”c”) - 化学式中の水素原子以外の原子には番号が付与される。このサブレイヤーでは、原子が他のどの原子と結合されているかを記述する。
  • 水素原子(接頭文字:”h”) - 各々の原子にいくつの水素原子が結合しているかを記述する。

2. 電荷レイヤー

  • プロトンサブレイヤー(接頭文字:”p”)
  • 電荷サブレイヤー(接頭文字:”q”)

3. 立体化学レイヤー

  • 二重結合とクムレン(接頭文字:”b”)
  • 原子の四面体配置とアレーン(接頭文字:”t”, ”m”)
  • 立体化学の種類の情報(接頭文字:”s”)

4. 同位体レイヤー(接頭文字:”i”,”h”,同位体立体化学に対しては”b”,”t”,”m,”s”)
5. 固定Hレイヤー(接頭文字:”f”) - 原子の繋がり以外の、上記の一部または全てのレイヤーを含む。”o”サブレイヤーで終わる。standard InChIには含まれない。
6. 再接続レイヤー(接頭文字:”r”) - 金属原子と再接続する全ての構造のInChIを含む。standard InChIには含まれない。

区切り文字と接頭文字のフォーマットは、使用者が特定のレイヤーのみ合致する識別子を探すために容易にワイルドカード検索を実施できる点で優位性がある。

[編集]

CH3CH2OH
エタノール
InChI=1/C2H6O/c1-2-3/h3H,2H2,1H3

InChI=1S/C2H6O/c1-2-3/h3H,2H2,1H3 (standard InChI)

L-Ascorbic acid.svg
L-アスコルビン酸
InChI=1/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1

InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-8,10-11H,1H2/t2-,5+/m0/s1 (standard InChI)

名前[編集]

このフォーマットは、元々IChI(IUPAC Chemical Identifier)と呼ばれていたが、2004年7月にINChI(IUPAC-NIST Chemical Identifier)と改名され、同年11月にInChI(IUPAC International Chemical Identifier)に再改名され、IUPACの商標とされた。

開発の継続[編集]

InChIの管理は、IUPACのVIII小委員会で行われており、新しい標準の拡張のための調査等の経費は、IUPACとInChI Trustが負担している。InChI Trustは、InChIの発展、試験、文書整備のための資金を出している。現在の拡張では、重合体及び混合物マルクーシュ構造、反応と有機金属の取扱いについて定義しており、VIII小委員会に承認されればアルゴリズムに加えられる。

採用[編集]

InChIは、ChemSpiderPubChem等を含む大小様々なデータベースに採用されている。しかし、多くのデータベースで構造とInChIの食い違いが見られ、リンク用データベースの課題となっている[7]

関連項目[編集]

出典[編集]

  1. ^ IUPAC International Chemical Identifier Project Page”. IUPAC. 2012年12月5日閲覧。
  2. ^ Heller, S.; McNaught, A.; Stein, S.; Tchekhovskoi, D.; Pletnev, I. (2013). “InChI - the worldwide chemical structure identifier standard”. Journal of Cheminformatics 5 (1): 7. doi:10.1186/1758-2946-5-7. PMC 3599061. PMID 23343401. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3599061/?tool=pmcentrez. 
  3. ^ McNaught, Alan (2006年). “The IUPAC International Chemical Identifier:InChl”. Chemistry International (IUPAC) 28 (6). http://www.iupac.org/publications/ci/2006/2806/4_tools.html 2007年9月18日閲覧。 
  4. ^ http://www.inchi-trust.org/sites/default/files/inchi-1.04/LICENCE.pdf
  5. ^ The IUPAC International Chemical Identifier (InChI)”. IUPAC (2007年9月5日). 2007年9月18日閲覧。
  6. ^ E.L. Willighagen (2011年9月17日). “InChIKey collision: the DIY copy/pastables”. 2012年11月6日閲覧。
  7. ^ Akhondi, S. A.; Kors, J. A.; Muresan, S. (2012). “Consistency of systematic chemical identifiers within and between small-molecule databases”. Journal of Cheminformatics 4 (1): 35. doi:10.1186/1758-2946-4-35. PMC 3539895. PMID 23237381. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3539895/?tool=pmcentrez. 

外部リンク[編集]

ドキュメントとプレゼンテーション[編集]

ソフトウェアとサービス[編集]

  • NCI/CADD Chemical Identifier Resolver Generates and resolves InChI/InChIKeys and many other chemical identifiers
  • ChemSpider InChI resolver
  • Search Google for molecules (generates InChI from interactive chemical and searches Google for any pages with embedded InChIs). Requires Javascript enabled on browser
  • ChemSketch, free chemical structure drawing package that includes input and output in InCHI format
  • PubChem online molecule editor that supports SMILES/SMARTS and InChI
  • ChemSpider Services that allows generation of InChI and conversion of InChI to structure (also SMILES and generation of other properties)
  • MarvinSketch from ChemAxon, implementation to draw structures (or open other file formats) and output to InChI file format
  • BKchem implements its own InChI parser and uses the IUPAC implementation to generate InChI strings
  • CompoundSearch implements an InChI and InChI Key search of spectral libraries
  • JNI-InChI Java library that wraps the InChI library
  • the Chemistry Development Kit uses JNI-InChI to generate InChIs, can convert InChIs into structures, and generate tautomers based on the InChI algorithms
  • Bioclipse generates InChI and InChIKeys for drawn structures or opened files