PSMB_Seqan_2014_large_insertd
Hintergrund
Lange Sequenzstücke, die im Donor aber nicht in der Referenz enthalten sind, lassen sich nur schwer mit einzelnen Reads bestimmen.
Hier ist das Assembly der Reads nötig.
Die Assemlies können dann mit einem Split Read Mapper oder lokalen Alignments in der Referenzsequenz verankert werden.
Aufgaben
Eingabe des Programs ist die Referenz sowie bisher nicht alinierte Reads.
Ausgabe des Programms sollen die assemblierten Sequenzen sowie deren Verankerung im Genom sein.
Für das Assembly wäre folgendes Vorgehen sinnvoll:
- Berechne overlaps, Kandidaten können über einen k-mer Filter bestimmt werden.
- Baue Overlap Graph und bestimme Layouts der Zusammenhangskomponenten.
- (Erstelle Consensus Sequenz über MSA.)
- Fülle einen
FragmentStore
mit dem MSA aus dem Consensus Schritt oder aus dem Layout.
- Berechne Realignment des
FragmentStore
und lese daraus die fertige Consensus-Sequenz ab.
- Suche Alignments des Präfixes und Suffixes der assemblierten Contigs in der Referenz um die Position der neuen Sequenz in der Referenz zu bestimmen.
Teilaufgaben
Folgende Teile müssen gelöst werden:
- Lese Reads aus Datei bzw. erhalte sie über Programmaufruf.
- Erzeuge ein Overlap-Layout-Consensus basiertes Assembly der Reads.
- Versuche die assemblierten Contigs in der Referenz zu verankern (wenn möglich an beiden Seiten, sonst nur an einer).
Alle Programmteile sollen durch Kommentare (z.B. mit Doxygen) dokumentiert werden.
Außerdem sind möglichst alle Programmteile mit Unit Tests zu testen.
Die Aufgabe kann weiter noch erweitert werden durch:
- Suche von lokalen Matches der Contigs in dem Genom, um schon existierende Sequenz auszuschließen.
References
Expose (von Gruppe)
Ziel dieses Projekts ist es aus den ungemappten Reads eine Consensus Sequenz zu erzeugen. Dabei besteht das Programm aus drei Phasen: die Overlap Phase, die Layout Phase und die Consensus Phase.
Overlap Phase:
- q-Gram Index über ungemappten Reads aufbauen
- Reads untereinander vergleichen
- erzeugen des Overlap-Graphen
Layout Phase:
- Zusammenhangskomponenten berechnen
- aus jeder Zusammenhangskomponente ein Unitig erzeugen
Consensus Phase:
- paarweise Overlaps berechnen
- Alignment-Graph erzeugen
- Consensus-Sequenz realignieren
- assemblierte Contigs in der Referenz verankern
Zeitplan:
- Woche 1: Overlap Phase
- Woche 2: Layout Phase
- Woche 3: Consensus Phase
- Woche 4: Verankerung und verbinden der Pipeline
Fortschrittsbericht (von Gruppe)
- Input Funktion: Einlesen der Fast und Sam Datei
- q-Gram Index aufbauen
- Vergleichen der Reads untereinander
- Overlap-Graphen erzeugen
- Zusammenhangskomponenten aufgebaut