Abstract (GER)
Die exakte Annotation von Translationsstarts in prokaryotischen Genomen mit automatischen Systemen ist noch immer problematisch. Im Folgenden werden zwei Verfahren aus dem Bereich des Maschinellen Lernens zur Verbesserung der Annotation prokaryotischer Genome, vorgestellt: Der Oligo-Kern-Algorithmus, ein überwachtes Verfahren zur Analyse von Signalen in biologischen Sequenzen und TICO (Translation Initiation site COrrection), ein Programm zur (Re-)Annotation von Translationsstarts mit einem unüberwachten Lernverfahren.

Es wird gezeigt, dass der Oligo-Kern-Algorithmus für die Analyse und Identifikation biologischer Signale gut geeignet ist. In einer Fallstudie zu Translationsstarts des Eubakteriums Escherichia coli K-12 wird belegt, dass der Oligo-Klassifikator eine hohe Performanz bei der Vorhersage auf experimentell verifizierten Daten aufweist. Eine Visualisierung der diskriminativen Merkmale ermöglicht eine biologisch sinnvolle Interpretation. Für E. coli K-12 werden bekannte Signale zur Initiation der Translation eindeutig und korrekt mit der ihnen innewohnenden Variabilität detektiert. Der Algorithmus ist flexibel hinsichtlich der Länge der betrachteten Oligomere und des Grades an Positionsinformation, so dass er auf die Analyse anderer biologischer Sequenzen angepasst werden kann.

Das Programm TICO erzielt eine signifikante Verbesserung der Vorhersage von prokaryotischen Translationsstarts im Vergleich zu früheren Ansätzen. Dabei wird eine initiale Annotation, wie sie beispielsweise mit einem klassischen Genvorhersageprogramm erstellt werden kann, nachbearbeitet. Die Verbesserung bei der Nachbearbeitung solcher Annotationen beträgt bis zu 30%. Der Algorithmus ist robust und bietet eine Visualisierungsfunktion, welche eine intuitive Darstellung der diskriminativen Merkmale ermöglicht. Das Programm ist über ein Web-Interface (Webschnittstelle) und als Kommandozeilenprogramm für Linux und Windows implementiert und frei verfügbar.