Die häufigste und kleinste mögliche genomische Variation ist der Single Nucleotide Polymorphism. Nach dem Mapping von Reads kann dies durch einfache statistische Methoden geschehen.
Wichtig ist dabei bei diploiden Organismen, sowohl homozygote als auch heteroyzgote SNPs erkennen zu können.
Eingabe ist die Referenzsequenz sowie Reads und deren bestes Alignment aus dem Read Mapping Modul.
Die Matches sollen in einenFragmentStore
geschrieben werden.
Da der Read Mapper nur paarweise Alignments ausgibt, sollen diese zunächst durch Realignment in dem globalen Alignment verfeinert werden.
Nach dem Bestimmen des Sequenz Profils aus dem multiplen Read Alignment soll für die Spalten mit Abweichungen bestimmt werden, ob an diesen Spalten ein SNP vorliegt.
Dafür soll die MAP (maximum a posteriori) Methode (siehe Genomics Vorlesungsskript) basierend auf dem Bayes-Theorem verwendet werden.
Die Qualität der SNP Calls soll dabei durch Einbeziehung von Base Qualities verbessert werden.
Gleichzeitig soll ein Score berechnet werden, der die Zuverlässigkeit des Calls angibt.
Die Eingabe soll zum einen aus Dateien (FASTA, SAM) gelesen werden können. Das Modul soll auch in das globale Pipelineprogramm integriert werden, so dass die Alignments direkt aus dem Read Mapper Modul kommen. Die Ausgabe der SNPs soll in einem geeigneten Format, z.B. im VCF Format, erfolgen. Alle Programmteile sollen durch Kommentare (z.B. mit Doxygen) dokumentiert werden. Außerdem sind möglichst alle Programmteile mit Unit Tests zu testen.
Anschließend sollen die Ergebnisse und die Laufzeit mit bestehenden Werkzeugen wiesamtools pileup
verglichen werden.
FragmentStore