NGS Data Postprocessing
Hintergrund
Als Next Generation Sequencing (NGS) oder auch High Througput Sequencing (HTS)
bezeichnet man Sequenzierverfahren, die in vergleichsweise kurzer Zeit sehr
viel genomische und/oder RNA Stuecke auslesen koennen. Beispiele fuer
solche Hersteller und Techniken sind Illumina (Genome Analyzer,
HiSeq),
Roche (454), ABI (Solid),
PacBio, Life (
IonTorrent).
Das Resultat eines NGS Experiments ist in der Regel die Ausgabe der Sequenzen
im (komprimierten) FASTQ Format. Diese Rohdaten können in der Regel nicht
unmittelbar für die anwendungsabhängige Datenauswertung genutzt werden, sondern
müssen zunächst nachbearbeitet werden. Zum einen sind NGS Verfahren immer
fehlerbehaftet, was eine Korrektur bzw. Vorauswahl von Sequenzen nach
Qualitätskriterien erforderlich macht. Ein weiterer, beim Pooling von Proben notwendiger
Nachverarbeitungsschritt ist das sogenannte Barcode-Demultiplexing, d.h. das
Aufteilen der Proben anhand von kurzen Sequenzabschnitten.
Aufgabe 1 - Behandlung von Sequenzierfehlern
Wie auch im Projekt
NGS Quality Control soll es hier um die Behandlung von Sequenzierfehlern gehen. Das Programm soll die Sequenzen wie folgt untersuchen und ggf. modifizieren:
- 3'-Adapter Entfernung
Für die meisten NGS-Methoden ist es erforderlich, dass die zu sequenzierenden Fragmente von sogenannten Adaptern terminiert werden, d.h. sowohl am 3'- als auch am 5'-Ende des Fragments befindet sich je eine vordefinierte Adaptersequenz. Diese wird vor der Sequenzierung entweder durch Ligation oder eine PCR-Reaktion mit entsprechend modifizierten Primern eingebracht. Sequenziermethoden, welche auf der Synthese von DNA durch DNA-Polymerasen basieren, sequenzieren immer vom 5'-Ende zum 3'-Ende eines DNA-Fragments. Der Adapter am 5'-Ende, an dem die Sequenzier-Reaktion beginnt, wird nicht mit gelesen. Je nach Länge des Fragments und verwendeter Sequenziermethode kann es jedoch vorkommen, dass das gegenüberliegende, 3'-Ende erreicht und der dort vorhandene Adapter mit abgelesen wird. Um dieses Artefakt zu beseitigen müssen die 3'-Enden von Sequenzierdaten auf bekannte Adaptersequenzen untersucht und diese ggf. entfernt werden.
- Low-quality tail removal
Bei vielen Sequenziermethoden nimmt die Qualität zum Ende der Sequenz hin ab. Daher ist ein häufig angewandter Nachverarbeitungsschritt das Abschneiden von Sequenz-Suffixen wenn die Qualität einen bestimmten Schwellenwert unterschreitet. Da Ausreisser das Ergebnis beeinträchtigen könnten wird der Median der Quality Scores von benachbarten Basen (Fenster einer vordefinierten Breite) bestimmt.
Aufgabe 2 - Barcode Demultiplexing
Um Ressourcen zu sparen ist es üblich, mehrere Proben (z.B. von unterschiedlichen Individuen) gemeinsam in einem Pool zu sequenzieren. Um die Sequenzen anschließend wieder den Proben zuordnen zu können werden alle DNA Moleküle einer Probe an einem Ende zusätzlich zum Adapter mit einer Barcode-Sequenz versehen bevor sie gemischt werden. Im Anschluss an die Sequenzierung muss die Sequenzdatei dann in unterschiedliche Sequenzdateien aufgeteilt werden, basierend auf der Barcode Sequenz. Die Barcode Sequenz kommt in den Ausgabe-Dateien nicht mehr vor. Hierbei sind unterschiedliche Ansätze möglich:
- In-line Barcoding
Die Barcodes werden nicht gesondert behandelt und sind Teil der normalen Ausgabesequenz. In diesem Fall muss die Sequenz beim Demultiplexen abgeschnitten werden
- Multiplex Barcoding
Der Sequencer liest die Barcodes getrennt von der eigentlichen Sequenz. In diesem Fall werden 2 Dateien erzeugt, eine mit den eigentlichen Sequenzen und eine weitere mit den Barcodes.
Standard Illumina Barcodes haben eine Länge von 6 bp. Üblicherweise werden sie exakt oder mit max. 1 Substitution gematched.
Nützliche Teile von SeqAn:
Referenzen