Der Vergleich von Next Generation Sequencing (NGS) Daten gegen DNA- oder Proteindatenbanken gehoert mittlerweile zu den Standardaufgaben in der bioinformatischen Sequenzanalyse. Gerade fuer die Suche lokaler Aehnlichkeiten stellt die Groesse von NGS Datensaetzen und der immer umfangreicheren Datenbanken ein Problem dar. Es wird quasi unmoeglich, jede Sequenz mit jeder exakt zu vergleichen. Ein Ansatz um dies zu umgehen, ist das Vorbearbeiten und Filtern der zu untersuchenden Datenbanksequenzen. Parsons [1] und Edgar [2] benuzten hier den Ansatz des Clusterns: Nach und nach wird ein zunaechst leeres Clustering von Sequenzen anhand lokaler Aehnlichkeit zwischen den Sequenzen aufgebaut. Aehnelt eine neue Sequenz einer Referenzsequenz eines Clusters, wird dieses dem Cluster zugeordnet, sonst wird ein neues Cluster aufgemacht. Benutzt man solch ein Cluster zur Suche bzw. zum Datenbankvergleich, vergleicht man seine Seqeunzen zunaechst nur mit den Referenzsequenzen der Cluster und nur bei ausreichender Aehnlichkeit werden auch die restlichen Sequenzen im Cluster verglichen.
Ziel dieser Aufgabe ist es, eine Menge von DNA-Sequenzen anhand lokaler Aehnlichkeit zu clustern.
Das Programm sollte folgende Funktionalitaeten haben:Ziel dieser Aufgabe ist es, lokale Aehnlichkeiten von Sequenzen in einem Cluster von Referenz-Sequenzen zu suchen.
Das Programm sollte folgende Funktionalitaeten haben:Pro Student soll eine Aufgabe bearbeitet werden. In einem Zweierteam koennen gemeinsam Datenstrukturen und Interfaces entwickelt werden, die in den einzelnen Aufgaben (wieder)verwendet werden koennen.