Simulierte Daten leisten wichtige Dienste bei der Entwicklung, Fehlersuche und Bewertung von Software. Sie koennen reale Daten fuer Benchmarks sinnvoll komplementieren.
Will man RNA-Seq Daten simulieren, so muss man zuerst an Transkripte und Expressionsstufen kommen. Dann kann man Reads und Readpaare aus diesen Transkripten simulieren.
Beim Simulieren der Transkribtion kann man unter anderem auf alternatives Splicing, Varianten von Genen und Fehler beim Splicing eingehen. Bei der Simulation vom Sequenzierprozess ist die Simulation von Sequenzierfehlern wichtig. Hier sollen nur alternatives Splicing und Sequenzierfehler betrachtet werden.
Fuer die Simulation helfen folgende SeqAn Funktionen:
Es gibt zwei moegliche Teilaufgaben. Wird Aufgabe A bearbeitet, so kann Aufgabe B in eingeschraenkter Form bearbeitet werden. Wird nur Aufgabe B bearbeitet, so muss dies in vollem Umfang geschehen. Wird Aufgabe A nicht bearbeitet, so koennen wir Transkriptdateien und Expressionszahlen bereit stellen.
Aufgabe A: Simulation von TranskriptenTeilaufgabe B2 soll auf verschiedene Arten implementiert werden.
Die Simulation von Illumina Daten bietet sich an, da einfache Fehlermodelle die Wirklichkeit gut genug beschreiben.