Simplified Molecular Input Line Entry Specification

Die vereinfachte Molekulareingabezeile-Eingabesystem oder SMILES ist eine symbolische Sprache zur Beschreibung der Struktur der chemischen Molekülen wie kurzen ASCII-Strings. SMILES Zeichenfolgen können in die molekulare Struktur der meisten Verlage importiert werden, um in 2D- oder 3D-Darstellungsmodell überführt werden, und ermöglichen den Bau von Computer-Datenbanken einfach.

Die Definition der SMILES Sprache wurde zuerst von David Weininger in den späten 1980er Jahren mehrere Erweiterungen eingeführt und Modifikationen sind hinzugekommen, darunter die Firma Daylight Chemical Information Systems, die Weininger gegründet. Es gibt noch andere Textzeile, um Fremdsprachen zu Molekülen darstellen, einschließlich InChl von der IUPAC eingeführt. SMILES ist jedoch häufiger als lesbarer von dem menschlichen Benutzer und vor allem, weil es in vielen Molekulchemie Software implementiert.

SMILES und Prinzipien der Graphentheorie

SMILES wird von der Darstellung eines chemisches Molekül in Form eines Graphen gebaut, im mathematischen Sinne. Atome die Knoten des Graphen und die chemischen Bindungen sind die Kanten. Jeder Knoten des Graphen ist mit dem Symbol der entsprechenden Atom markiert.

Die SMILES-String für ein bestimmtes Molekül durch schrittweise Durchlaufen des Graphen nach einem tiefen Durchquerungs-Algorithmus und den Druck sukzessive gekreuzt Symbol jedes Gipfels erhalten. Der Graph des Moleküls wird zunächst durch Entfernen aller Wasserstoffatome und Öffnungszyklen für die Transformation des Graphen bedeckt die Welle vereinfacht. Wann immer ein Ring geöffnet wird, wird ein numerisches Suffix hinzugefügt, um die Verbindung der Scheitel, die dem gelöschten chemische Bindung anzuzeigen. Klammern werden verwendet, um die Verzweigungspunkte auf dem Baum anzuzeigen.

Von der Natur dieser Sprache gibt es für eine gegebene organische Molekül, das aus mehreren von Wasserstoff, einer Anzahl möglicher Einträge in Abhängigkeit von dem Abzug Atom und der Größenordnung der molekularen Struktur des natürlich-Atomen. So OCC, OCC, CO und CC sind alle vier gültige Darstellungen der Ethanol-Molekül CH3-CH2-OH.

Die theoretischen Grundlagen der SMILES Sprache sind umfassend theoretisch vorgestellt von Daylight Chemical Information Systems lächelt Hand vorgeschlagen.

Umsetzung und Beispiele

Atomen

Atome durch ihre chemische Symbol in Klammern über die Selen vertreten. Die Haken können für die gemeinsamen Elemente der organischen Chemie verzichtet werden: C, N, O, P, S, B, F, Cl, Br und I. Alle anderen Elemente sind eingeklammert werden. Wenn die Haken weggelassen werden, werden die freien Valenzen von jedem Atom implizit angenommen, dass durch Wasserstoff abgeschlossen. Zum Beispiel ist die SMILES Darstellung von Wasser O, dass Ethanol ist CCO.

Ein Atom eines oder mehrerer elektrischer Lasten trägt, eingeklammert, mit dem Kennzeichen, H ist mit einem oder mehreren von Wasserstoff gebunden ist, dann wird das Zeichen "+" für eine positive Ladung oder "-" Zeichen a negative Ladung. Die Anzahl der Ladungen wird dann nach dem Schild angegeben; Es ist jedoch auch möglich, das Vorzeichen der Ladung, so oft das Ion schreiben: statt "Ti + 4" ist, kann man sehr gut schreiben "Ti ++++". Somit wird das Hydroxid-Anion durch das Kation von Oxonium-, und Kobaltkation III oder dargestellt.

Liaisons

Die einfache Verbindung ist implizit und ist nicht dargestellt. CC steht für Ethan und CCC, Propan. Die Doppelbindung wird durch das Symbol "=" und die Dreifachbindung durch das "#" Symbol dargestellt. Ethylen ist daher C = C und Cyanwasserstoff, C # N.

Verzweigungen

Die Verzweigungen der Molekülstruktur sind in Klammern unmittelbar nach dem Atom, an das sie angeschlossen sind angegeben. Beispiels CCO darstellt Essigsäure, mit zwei an den Kohlenstoff der Carboxylgruppe verbunden Sauerstoffatomen. Wenn zwei Zweige gehen von der gleichen Atom, wird der nächste Zweig unmittelbar nach dem Ende der ersten Klammern gesetzt: die Formel dimethylpropan CCC sein. Die Zweige können verschachtelt und verkettet, um komplexere Molekülstrukturen, wie die Zitronensäure zu beschreiben: OTGC (CC = O) C = O.

Cycles

Der Verschluss der Ringe wird durch Zahlen gesetzt, nachdem die Atome verbunden sind angegeben. Cyclohexan C1CCCCC1 wird durch die beiden "1" dargestellt, wie Etiketten auf die vorstehende Kohlenstoffen verbunden sind, die einen Ring mit sechs Atomen dient. Ebenso wird die SMILE Formel 1,1-Dimethylcyclopentan C1CCCC1; daß von 3-cyanoanisole kann COccccc1C # N sein Für den zweiten Zyklus, wird das Etikett 2 sein; über 9, das Zeichen "%" muss das Etikett vorangehen, um die zwei verschiedenen Etiketten an dasselbe Atom gebunden unterscheiden.

Aromatizität

Die Atome C, N, O, S, die an einem aromatischen Ring werden durch Kleinbuchstaben 'c', 'n', 'o' und 'S' bzw. vertreten. Die Doppelbindungen sind nur selten explizit angegeben. Benzol ist gut mit c1ccccc1 und c1cocc1 Furan vertreten. Die Bindungen zwischen aromatischen Kohlenstoff werden standardmäßig als aromatische angesehen, obwohl die aromatische Bindung können explizit durch das Symbol angegeben werden ":". In der Tat, eine Einfachbindung zwischen zwei aromatischen Ringen zeigen, muss es durch das Symbol "-", in der Regel um nicht die Sequenz lasten weggelassen. Biphenyl durch c1ccccc1-c2ccccc2 vertreten sein. Einen aromatischen N-Atom an ein Wasserstoffatom ist, so dass das Pyrrol Molekül gebunden dargestellt werden; Pyrrol c1ccc1 gezeigt werden wird, und Imidazol n1ccc1.

Algorithmen und Daylight OpenEye, zur Erzeugung von kanonischen SMILES Strings, die sich in ihrer Behandlung der Aromatizität.

Es sei darauf hingewiesen, daß die Aromatizität, wie durch die verschiedenen Schalen detektiert Smiles-oft sehr verschieden von der tatsächlichen Verbindungen Aromatizität werden.

Stereochemie

Die Konfiguration der Kohlenstoff-Kohlenstoff-Doppelbindungen mit Zeichen '/' und '\' dargestellt, um die betroffenen Kohlen gelegt. Somit ist W / C = C / F eine Darstellung von trans-1,2-Difluorethen und F / C = C \ F eine Darstellung der cis-1,2-Difluorethen. Die Tatsache jedoch, dass die zweite Schrägstrich die gleiche Orientierung "/" oder nicht "\" bedeutet nicht, dass die Doppelbindung trans oder cis, sondern lediglich, dass die erste Gruppe nach der Doppelbindung auf der gleichen Seite wie die vor oder auf der gegenüberliegenden Seite. Somit wird das trans-2-hydroxybut-2-en der Formel C / C = CO oder C / C = CC und cis-2-hydroxybut-2-en werden C / C = CO ist.

Die Konfiguration der asymmetrischen Kohlenstoffatome und Kohlen chiralen Zentren ist, die wiederum mit dem Symbol 'Das häufigste Beispiel ist L-Alanin, Enantiomer der Formel NCO dargestellt. Hier "bedeutet, dass die Reste -H, -CH 3 und -COH in Richtung im Uhrzeigersinn um das chirale Kohlenstoff angeordnet ist, wenn ein Programm ihn aus der Position des Stickstoffatoms zu beobachten. -H Radikale werden nicht direkt in der SMILES Notation dargestellt, falls ein chirales Kohlen einen hat, muss es an arobases befestigt werden, ist daher die Klammern "", und an erster Stelle in der Reihenfolge der Radikale. Schreiben NCO NCO daher äquivalent zu schreiben. Im Gegensatz dazu zeigt eine Lesung in der Gegenrichtung der Uhrzeiger der folgenden Reste chirale Atom nur ein Symbol. Der D-Alanin, eine Reflexion von seinem Amtskollegen L Ansicht durch einen Spiegel, kann geschrieben werden NCO oder N (CO) C

Isotopes

Ein Isotop kann, indem die betroffenen und durch vorangegangene sein Symbol durch seine Massenzahl in Klammern Atom angegeben werden. Somit ist ein Benzolmolekül ein Kohlenstoff-14-Atom geschrieben 1ccccc1, während deuteriertem Chloroform CCl.

Andere Möglichkeiten der SMILES Sprache

Zwei separaten Molekülen oder Ionen in der gleichen Formel SMILES dargestellt werden. Ihre entsprechenden Formeln werden dann durch das Zeichen '.'. So wird Natriumchlorid nicht durch Cl oder aber dargestellt werden ..

Weiterhin ist es möglich, chemische Gleichungen stellen, mit dem Zeichen "& gt;" Reagents & gt; & gt; Produkte für eine einfache Umsetzung und Reagenzien & gt; MANAGER & gt; Produkte für eine Reaktion, die einen Agenten, der nicht direkt beteiligt waren. C = OO OO = = CO = O & gt; & gt; C = O = OO OO = = C ist äquivalent zu CH2 = CH2 + 3 O2 → CO2 + 2 H2O sein.

Anwendung auf verschiedene Arten von Molekülen

Illustration ein Molekül mit mehr als 9 Zyklen, Céphalostatine-1:

Werden, beginnend etwa Methyl links in der Abbildung:

CC13CC C43CC54CC5Ccc6nc = (C89) c7C8CC% 109C% 11C% 10% C = 11% 12C% 13CO

.

Umwandlung

Es gibt Computer-Algorithmen, um das Muster eines gegebenen Moleküls in SMILES Zeichenkette automatisch zu transformieren. Da es in der Regel keine einheitliche Beschreibung eines Moleküls, gibt es auch mehrere SMILES können die gleiche chemische Struktur zu beschreiben. Es hängt von der Atom, das Teil der Struktur in der Größenordnung, die die Zweige des molekularen Graphen beschreibt, und der Weg geöffnet Zyklen beschreiben. Zum Beispiel c1ccccc1o und c1ccccc1 es zwei Aufführungen Synonym SMILES Phenol.

Umgekehrt kann der SMILES Beschreibung eines Moleküls durch herkömmliche chemische 2D-Darstellung umgewandelt werden, mit Diagrammdarstellung Algorithmen.

SMILES Verfahren zum digitalen Austausch von beliebig komplexe Moleküle Beschreibungen durch eine herkömmliche Textdatei. SMILES Darstellung ist sehr kompakt, sie es ermöglicht, einfach Dateien von mehreren Hunderttausenden von Molekülen zu speichern.

Erweiterungen

Isomeren SMILES

Es Verlängerungen der SMILES Sprache, um die Chiralität und Konformation der Doppelbindungen zu beschreiben. Man kann also beschreiben die R- oder S-Konformation von einem asymmetrischen Kohlenstoff oder cis / trans-Isomerie. Man kann auch beschreiben die Protonierungszustände, das Vorhandensein von bestimmten Isotopen und sogar beschreiben Reaktionsschemata.

SMARTS

SMARTS SMILES ist eine Erweiterung, die, zusätzlich zu den konventionellen Definitionen ersetzt Atome oder Bindungen Wildcards. Dies wird benutzt, um chemische Einheiten für die Forschung in Molekülen Datenbanken benutzt wird. Dies ermöglicht insbesondere die Suche nach gemeinsamen chemischen Substrukturen, um zwei Moleküle.

(0)
(0)
Kommentare - 0
Keine Kommentare

Fügen Sie einen Kommentar

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Zeichen übrig: 3000
captcha