PSMB_Seqan_2014_overview
Im PSMB SeqAn 2014 geht es darum, eine einfach Pipeline zur Variantenanalyse aufzubauen.
Hintergrund
Insbesondere für das menschliche Genom spielt die
Resequenzierung eine große Rolle:
Von einem Organismus mit einem bekannten Genom (also z.B. Mensch oder Fruchtfliege) werden weitere Individuen mit der Hilfe von High-Throughput-Sequencing sequenziert.
Die sich so ergebenen Daten (HTS reads) werden mit Hilfe des bekannten Genoms analysiert um festzustellen, wo und wie das Genom des Individuums sich von der Referenz unterscheidet oder übereinstimmt.
Dabei gibt es verschiedene Klassen von Unterschieden/Varianten, u.a.:
- SNPs - Single Nucleotide Polymorphisms bei denen einzelne Basen abweichen.
- small indels - Kurze Einfügungen oder Löschungen aus dem genom, z.B. von 2-10 bp (Basenpaaren)
- large insertions - Große Einfügungen von neuer Sequenz.
Solch Analysen werden meist in mehreren Schritten gelöst, die oft im Pipelineverfahren hintereinandergeschaltet werden.
Eine mögliche Pipeline zur Detektion der o.g. Varianten ist:
- Read Mapping - Suchen von ähnlichen Stellen in der Referenz, möglichst dem Ursprungslokus.
- Eingabe: Referenz, NGS Reads
- Ausgabe: Position auf Referenz und paarweise Alignments der Reads gegen die Referenz ("mapped reads")
- SNP Calling - Benutzen der Read Alignments um SNPs zu finden.
- Eingabe: Referenz, mapped reads.
- Ausgabe: Liste von Positionen mit möglichen SNPs sowie einem score, der die Fehlerwahrscheinlichkeit angibt.
- Split Mapping und Small Indel Calling - Suche nach Ankern vom Anfang und Ende der Reads, die im Read Mapping Schritt nicht gemappt werden konnten und versuche ihn mit einer größeren Insertion oder Deletion zu alinieren. Nach dem Alignment wird versucht, small indels mit mehreren Alignments zu finden.
- Eingabe: Referenz, mapped und unmapped reads aus 1.
- Ausgabe: Erweiterte Liste der mapped reads, ab hier auch mit indels, festgestellte small Indels.
- Large Insertion Assembly - Mit den Reads für die auch im 3. Schritt keine Position gefunden werden konnte, soll nun ein Assembly gemacht werden.
- Eingabe: Referenz, unmapped reads aus 3.
- Ausgabe: Assemblierte Sequenz sowie möglichst die Position der Insertion.
Am Ende sollen alle gefundenen Varianten in einer Datei zusammengefasst werden.
Aufgaben
Die Schritte 1-4 sollen mit Hilfe von
SeqAn umgesetzt werden.
References