You are here: Foswiki>ABI Web>LectureWiki>PMSB_Seqan_2012>RnaSeqReadSimulator (12 Apr 2012, ManuelHoltgrewe)Edit Attach

PISB SeqAn - RNA-Seq Read Simulator

Hintergrund: RNA-Seq Simulation

Simulierte Daten leisten wichtige Dienste bei der Entwicklung, Fehlersuche und Bewertung von Software. Sie koennen reale Daten fuer Benchmarks sinnvoll komplementieren.

Will man RNA-Seq Daten simulieren, so muss man zuerst an Transkripte und Expressionsstufen kommen. Dann kann man Reads und Readpaare aus diesen Transkripten simulieren.

Beim Simulieren der Transkribtion kann man unter anderem auf alternatives Splicing, Varianten von Genen und Fehler beim Splicing eingehen. Bei der Simulation vom Sequenzierprozess ist die Simulation von Sequenzierfehlern wichtig. Hier sollen nur alternatives Splicing und Sequenzierfehler betrachtet werden.

Fuer die Simulation helfen folgende SeqAn Funktionen:

I/O von Sequenzen
Infixe von Sequenzen
Erzeugen von Zufallszahlen, gleichverteilt oder mit Normalverteilung

Aufgaben

Es gibt zwei moegliche Teilaufgaben. Wird Aufgabe A bearbeitet, so kann Aufgabe B in eingeschraenkter Form bearbeitet werden. Wird nur Aufgabe B bearbeitet, so muss dies in vollem Umfang geschehen. Wird Aufgabe A nicht bearbeitet, so koennen wir Transkriptdateien und Expressionszahlen bereit stellen.

Aufgabe A: Simulation von Transkripten

Lese Genom FASTA und Annotation GFF Datei ein (Fragment Store und Annotation Store)
Simuliere Splicing von Genen zu Transkripten.
Schreibe die Transkripte als FASTA Datei aus.

Aufgabe B: Read Simulation

Transkriptom / Genom einlesen.
- Optional: Lese Metrik zur Expression ein, etwa: Zahl der Reads/Pairs von Transkript.
Simuliere Reads.
Schreibe simulierte Reads/Pairs als FASTA/FASTQ Datei aus.

Teilaufgabe B2 soll auf verschiedene Arten implementiert werden.

Simuliere einfache Reads mit einfachem uniformen Fehlermodell (Wahrscheinlichkeit p fuer Substitution, W. q fuer Indel).
Simuliere Read Paare (Fragment Groesse normalverteilt mit gegebenem mu und sigma) mit einfachem uniformen Fehlermodell (Wahrscheinlichkeit p fuer Substitution, W. q fuer Indel).
Lese Datei mit echten Reads/Paaren von Illumina reads ein.
Wenn A nicht bearbeitet: Benutze Phred Fehlerwahrscheinlichkeiten fuer positionsabhaengige Substitutionswahrscheinlichkeit p_i.

Die Simulation von Illumina Daten bietet sich an, da einfache Fehlermodelle die Wirklichkeit gut genug beschreiben.

Referenzen

[1] Wikipedia: FASTQ Format

Attachments 1

I	Attachment	Action	Size	Date	Who	Comment
pptx	1012-03-12-PMSB-Project-RNASeq.pptx	manage	251 K	12 Apr 2012 - 14:07	UnknownUser	Task Description Powerpoint

Topic revision: r2 - 12 Apr 2012, ManuelHoltgrewe - This page was cached on 06 Mar 2025 - 22:23.

ABI

Copyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback