數奇雜記  

20070624 화학식 - SMILES vs InChI
 2007년 6월 24일 (일요일) 비... 장마 

화학식 - SIMLES 대 InChI

KRISTAL은 현재는 별로 원래 이름에 신경안쓰지만 Knowledge Retrieval In Science & Technology Affiliated Literatures라는 긴 이름을 가지고 있다. 그래서 (개인적으로나마) 과학기술 데이터의 색인 및 검색에도 고려를 하고 있는 편이다. 지금까지는 DNA 염기서열과 단백질 아미노산 서열에 대한 색인 및 검색기법을 제공하고 있다. 또 다른 색인/검색 기법의 하나로 화학분야에서 사용하는 분자식 및 구조식 색인에 대해서도 검토를 해보고자 사전조사를 진행중이다.

SMILES(simplified molecular input line entry specification) 는 업계에서 주로 사용하고 있는 것 같고 국제표준으로는 IUPAC 에서 2000-2004년간에 제정한 InChI(International Chemical Identifier) 가 사용되고 있는 것 같다.

다음은 바이아그라의 이차원 구조식, SMILES 구조식 2개, InChI 구조식을 보여주고 있다. (2차원 구조식과 SMILES 구조식은 Daylight 에서 InChI 구조식은 미국 NIST에서 참조하였다.)

비아그라(Viagra)

SMILES = CCc1nn(C)c2c(=O)[nH]c(nc12)c3cc(ccc3OCC)S(=O)(=O)N4CCN(C)CC4 SMILES = O=S(=O)(N1CCN(C)CC1)c4cc(C\2=N\C(=O)c3c(N/2)c(nn3C)CCC)c(OCC)cc4.O=C(O)C(O)(CC(=O)O)CC(=O)O InChI=1/C22H30N6O4S.C6H8O7/c1-5-7-17-19-20(27(4)25-17)22(29)24-21(23-19)16-14-15(8-9-18(16)32-6-2)33(30,31)28-12-10-26(3)11-13-28;7-3(8)1-6(13,5(11)12)2-4(9)10/h8-9,14H,5-7,10-13H2,1-4H3,(H,23,24,29); 13H,1-2H2,(H,7,8)(H,9,10)(H,11,12)/f/h23H;7,9,11H

Viagra는 sildenafil citrate라는 물질의 상품명이다. 분자식과 구조식 색인에 대해서 분석을 하다가 SMILES와 InChI의 두 가지 방식이 대표적인 것을 알았다. SMILES는 업계 표준, InChI는 국제 표준 정도로 인식하면 될까? 그런데 SMILES가 InChI에 비해 더 쉬워보인다. 그래서 서로 대치하고 있는 것일까?

문의나 조언은 메일로... | 저작권처음으로