Explorative Datenanalyse mittels Klassifikationsverfahren - Vergleich traditioneller Methoden für Anwendungen in der Systembiologie

von Henrieke Fabig, März 2011

In der Systembiologie werden unter anderem die komplexen Zusammenhänge in einer Zelle und deren Wechselwirkung mit der Umwelt untersucht. Um zu einem Gesamtbild zu gelangen, werden dazu auf verschiedenen Ebenen - vom Genom über das Proteom bis hin zum Metabolom - experimentelle Daten gesammelt, die Auskunft über die Zusammensetzung und Funktionsweise der Zelle geben sollen. Diese Datensätze werden heutzutage teilweise im Hochdurchsatzverfahren erzeugt und umfassen bis zu einige hundert Einzelmessungen pro Experiment. Diese Daten werden dazu verwendet, zelluläre Prozesse mit Hilfe mathematischer Modelle im Computer nachzubilden.

Zu den im Hochdurchsatz erzeugten experimentellen Daten kommen somit viele Simulationsdaten, die den Aufwand einer integrativen Auswertung erhöhen. Um diesen Aufwand zu minimieren, bietet sich eine Vorverarbeitung der vielschichtigen Daten an. Hier setzt die vorliegende Arbeit an. Es sollen Klassifikationsverfahren angewendet werden, um die Daten einzuordnen und interpretieren zu können. Diese Verfahren werden verwendet, um zwei für die Systembiologie typische Arbeitsfelder zu beleuchten.

Zum Einen müssen diese gewonnenen experimentellen Daten ausgewertet werden. Dies ist nur automatisiert möglich. Zum Anderen sind die mathematischen Modelle der Zellprozesse nicht linear und nicht alle Modellparameter sind bestimmbar. Typischerweise wird nicht eine einzelne, sondern viele, ähnlich gute Lösungen gefunden. Die manuelle Auswertung der Mess- und Simulationsdaten ist zeit- und arbeitsintensiv. In dieser Arbeit wird untersucht, ob diese Problematik mit Klassifikationsverfahren gelöst werden kann. Die 13C-Stoffflussanalyse (13C-MFA) ist ein Verfahren, welches indirekt Einblicke in das aktive metabolische Reaktionsnetzwerk ermöglicht. Aufgrund der Problemstellung kann anhand gewonnener Messdaten hier keine eindeutige Lösung für das Reaktionsnetzwerk bestimmt werden.

Um die erzeugten Lösungen des Problems miteinander zu vergleichen, werden in der vorliegenden Arbeit verschiedene Klassifikationsverfahren angewendet. Ein weiterer Aspekt ist die Analyse von Metaboliten mit Hilfe der Massenspektrometrie. Dabei wird eine komplexe biologische Probe aufgetrennt und die einzelnen Fragmente werden auf ihre Masse hin untersucht. Die dabei entstehenden Massenspektren enthalten stark verrauschte Gauß-verteilte Peaks, die sich teilweise überlagern. Diese Daten sollen mittels geeigneter Klassifikationsverfahren extrahiert werden. Auf diese beiden Problemstellungen der Systembiologie sollen verschiedene Klassifikationsverfahren angewendet werden. In dieser Arbeit werden das k-Means, das x-Means und das Fuzzy c-Means Verfahren verwendet. Außerdem werden das Hierarchische Clustern und der Gaussian Mixture Models Ansatz betrachtet.



letzte Änderung 18.03.2011 | Math Admin | Ausdrucken