MENÜ MENÜ  

Large-scale information theoretic clustering with application to the analysis of genetic fingerprinting data

Ralf Herwig

ISBN 978-3-89722-617-3
186 pages, year of publication: 2001
price: 40.50 €
Thema dieser Arbeit ist die Clusteranalyse von Hybridisierungsdaten aus Gen-array Experimenten. Diese Experimente erhalten zunehmende Bedeutung in der biologischen und pharmazeutischen Forschung, weil sie einen hohen Durchsatz an Datenmaterial ermöglichen und Information über komplexe biologische Zusammenhünge liefern. So können z.B. krankheitsrelevante Gene identifiziert und die Herstellung von Medikamenten erheblich beschleunigt werden. In den meisten Geweben gibt es mehr als 10,000 verschiedene aktive Gene in unterschiedlichen Hüufigkeiten. Ziel der oligonucleotide fingerprinting Technik ist es, für ein gegebenes Gewebe die Anzahl der verschiedenen Gene und deren Hüufigkeit zu ermitteln. Die Gene werden in Form von klonierten Sequenzen (cDNA Klone) auf einer Filtermembran immobilisiert (ca. 50,000) und mit ca. 250 kurzen, radioaktiv markierten Sequenzen (Proben) hybridisiert. Entsprechend der chemische Reaktion liefert die Gesamtheit dieser Hybridisierungsexperimente für jeden cDNA Klon einen hochdimensionalen Vektor, dessen Eintrüge signalisieren, ob die entsprechende kurze Probensequenz in der cDNA Klonsequenz enthalten ist oder nicht. Ziel der mathematischen Analyse ist nun, anhand der Vektoren von Hybridisierungssignalen (fingerprints) diejenigen Klone zusammenzufassen, die das gleiche Gen reprüsentieren. Dies kann durch Clusteranalyse geleistet werden, dabei erfordert sowohl die Menge als auch die Dimensionalitüt der Daten neue, spezifische Analysemethoden. Konzepte aus der Informationstheorie (Entropie, Transinformation) haben sich hierbei als zweckmüßig erwiesen. Diese Arbeit verfolgt eine doppelte Zielrichtung: Die Einführung bzw. Weiterentwicklung informationstheoretischer Ühnlichkeitsmaße in Clusteranalyse und Clustervalidierung sowie die Implementierung von Datenauswertungssoftware für oligonucleotide fingerprinting Hybridisierungsxperimente.

Als neues Maß zur Bewertung paarweiser Ühnlichkeit hochdimensionaler Vektoren wird eine modifizierte Version der Transinformation, die relative Transinformation, in die Clusteranalyse eingeführt. Ein neues Optimalitütskriterium zur Berechnung geeigneter Clusterreprüsentanten wird definiert, und im Falle von Binürdaten wird ein Algorithmus angegeben, der diesem Optimalitütskriterium genügt. Das neue Maß wird im weiteren zur Validierung von Clusterresultaten benutzt und mit etablierten Validierungsmaßen verglichen. Zusützlich wird ein Kriterium eingeführt, das den Vergleich verschiedener Validierungsmaße in bezug auf ihre Fehlertoleranz erlaubt. Die relative Transinformation erweist sich dabei als überlegen gegenüber den anderen Vergleichsmaßen.

Im zweiten Teil der Arbeit werden die entwickelten Methoden anhand experimenteller Datensütze getestet. Ein Clusteralgorithmus wird beschrieben, der auf einem sequentiellen K-means Verfahren beruht, das verbessert wurde, um praktischen Anforderungen gerecht zu werden. Neben dem Clusteralgorithmus werden weitere für die Analyse der Hybridisierungsexperimente wichtige Fragestellungen beantwortet. Die Gesamtheit der implementierten Programme ist dabei zu einem Standardauswertungspaket am Max-Planck Institut für Molekulare Genetik geworden.

Keywords:
  • Cluster algorithms
  • Mutual information
  • Oligonucleotide fingerprinting
  • gene expression analysis
  • K-means clustering

Buying Options

40.50 €