Softwarepraktikum Bioinformatik: Projekte
Titel: Faster Bioinformatics with C++
DozentIn(en): Ch. Bielow
Maximale Teilnehmerzahl: 8
Zeitraum/Vorbesprechungstermin: tba
Vorstellung des Projekts: Donnerstag, 09.01.2025, um 10:00 Uhr (Webexmeeting), zusammen mit "Advanced bioinformatics pipelines"
Ort: Institut für Informatik
Kurze inhaltliche Beschreibung:
In diesem Praktikum werden wir am Beispiel unserer open-source Bibliothek OpenMS (www.openms.de) realitaetsnah ein C++ Programmierprojekt bearbeiten und dabei Algorithmen, Datenstrukturen und evtl. grafische Benutzerinterfaces reimplementieren oder neu entwicklen.
Dabei werden wir Tools zur Entwicklung, Debugging, Performance-Profiling, Source-Code Management im Team und Continuous-Integration kennen lernen.
OpenMS ist eine der meistverwendeten Softwarebibliotheken zur Analyse von Massenspektrometriedaten und besitzt eine sehr umfaengliche Sammlung an schnellen und effizienten Algorithmen. OpenMS wird staendig weiterentwicklet und auch kommerziell genutzt.
Quantitative Aufteilung (in %):
Praktische Programmierarbeit: 60%
Soft Skills: 40%
Verwendete Programmiersprache(n): C++
Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):
A Programmieren: 4*
B Biologie/Chemie: 1*
C Projektmanagement: 3*
Erforderliche Vorkenntnisse: gute Kenntnisse in C++
Kontaktadresse, Webseite/Link:
https://www.bsc.fu-berlin.de/TeachingAndWorkshops/SoSe25/Software_Praktikum_OpenMS/index.html
Titel: Algorithmen zur Analyse von von genomischen Sequenz-Daten (SeqAn)
Dozent(en): R.Rahn
Maximale Teilnehmerzahl: 6
Zeitraum und Ablauf:
Block 1: C++ Kurs (Feb/März). Nicht Teil des Praktikums, aber DRINGEND empfohlen
Block 2: SeqAn 3 Tutorial (x.x. – x.x.)
- Software Installation
- Cmake und github
- SeqAn Tutorials
- Zuordnung der Teilprojekte
Block 3: Recherche und Präsentation des Projektplans (bis x.x.)
- Vortrag vorbereiten
- Welche Datentypen/Schnittstellen von mir benötigen ggf. andere?
- Welche Datentypen/Schnittstellen benötige ich?
- Welche Algorithmen werden benötigt?
- Welche davon gibt es schon in SeqAn, welche muss ich implementieren?
Block 4: Implementierung, Erstellung eines Abschlussberichts (bis x.x.)
- Vorstellung der Ergebnisse (x.x.)
Ort: Institut für Informatik
Kurze inhaltliche Beschreibung:
Implementierung von Algorithmen für die Sequenzanalyse genomischer (Massen)daten & Erstellen kleinerer Analysepipelines mit Hilfe einer bestehenden C++-Bibliothek. Dabei sollen neben dem Programmieren auch Elemente des Software-Engineering eingeübt werden (Erstellen eines Zeitplanes, Benutzung von Programmierwerkzeugen, Erstellen von Tests, Arbeiten im Team, etc.)
Quantitative Aufteilung:
Praktische Programmierarbeit: 60%
Soft Skills: 40%
Verwendete Programmiersprache(n): C++
Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):
A Programmieren: *****
B Biologie/Chemie: *
C Projektmanagement: **
Unbedingt erforderliche Vorkenntnisse: C++
Kontaktadresse, Webseite:
DozentIn(en): Sandro Andreotti
Maximale Teilnehmerzahl: 8
Zeitraum/Vorbesprechungstermin: Nach Absprache
Vorstellung des Projekts (Nachholtermin): Donnerstag, 16.01.2025, um 10:00 Uhr (Webexmeeting),
Ort: tba
Kurze inhaltliche Beschreibung:
In diesem Praktikum werden Workflows für die Analyse von Next Generation Sequencing (NGS) Daten konzeptioniert und implementiert. Die Teilnehmer werden komplexe professionelle Datenanalysepipelines für aktuelle Forschungsprojekte in unserer Gruppe entwickeln. Dabei werden sie verschiedene Workflowsysteme (z.B. KNIME, Snakemake) kennenlernen und verwenden. Die Teilnehmer werden anhand aktueller Literatur ihre Workflows eigenständig erarbeiten, testen und verfeinern. Neben der Workflow-Programmierung erlangen die Teilnehmer ein umfangreiches Wissen über existierende Bioinformatik-Software im Bereich NGS.
Quantitative Aufteilung: (in %)
Praktische Programmierarbeit: 50%
Soft Skills: 50%
Verwendete Programmiersprache(n):
R, Python oder andere Skriptsprache
Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):
A Programmieren ****
B Biologie/Chemie *
C Projektmanagement ***
Erforderliche Vorkenntnisse: R, Python
Kontaktadresse, Webseite/Link:
https://www.bsc.fu-berlin.de/TeachingAndWorkshops/SoSe25/Software_Praktikum_Advanced_Pipelines/index.html
Thema: Developing Generalist Foundation Models from a Multimodal Dataset for 3D Computed Tomography
DozentIn(en): Prof. Roland Eils, Benjamin Wild, Sören Lukassen, Georg von Arnim, Tillmann Rheude
Maximale Teilnehmerzahl: 10
Zeitraum/Vorbesprechungstermin: nach Absprache; Das Projekt ist zeitlich flexibel und kann an die individuellen Bedürfnisse der Teilnehmer:innen angepasst werden.
Ort: Digital (A), BIH, Kapelle-Ufer 2 (B)
Kurze inhaltliche Beschreibung:
In diesem Softwareprojekt widmen wir uns der Entwicklung von Foundation Models für die Analyse von 3D-Computertomographie (CT)-Daten, basierend auf dem öffentlich zugänglichen CT-RATE-Datensatz. Ziel ist es, KI-Modelle zu entwickeln, die die Grundlagen für die Früherkennung von COPD (Chronic Obstructive Pulmonary Disease) legen und für eine geplante Studie genutzt werden können.
Der CT-RATE-Datensatz umfasst mehr als 50.000 rekonstruierte CT-Volumina von über 21.000 Patient:innen, gekoppelt mit Radiologieberichten, multi-abnormality labels und weiteren Metadaten. Aufbauend auf diesem Datensatz werden wir die Methoden von CT-CLIP, einem selbstüberwachten Framework für multimodales Pre-Training, und CT-CHAT, einem vision-language Modell für 3D-CT-Daten, erkunden und weiterentwickeln. (Weitere Informationen zu den Daten: https://huggingface.co/datasets/ibrahimhamamci/CT-RATE)
Inhalte und Lernziele:
- Einführung in multimodale Datenanalyse mit Bild- und Textdaten in der Medizin
- Entwicklung, Training und Evaluierung von Foundation Models für 3D-CT-Daten
- Vertiefung in selbstüberwachtes Pre-Training und Vision-Language-Modellierung
- Anwendung moderner ML-Frameworks wie PyTorch für die Modellentwicklung
- Integration und Optimierung der entwickelten Modelle für klinische Anwendungen
Zusätzlich besteht die Möglichkeit, sich mit spezifischen Interessen oder Ideen einzubringen, die in einem initialen Meeting besprochen und in das Projekt integriert werden können.
Quantitative Aufteilung: (in %)
Praktische Programmierarbeit: 80%
Soft Skills: 20%
Verwendete Programmiersprache(n): Python (>90%), ggf. Javascript für Web-Apps
Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):
A Programmieren ****
B Biologie/Chemie **
C Projektmanagement **
Erforderliche Vorkenntnisse:
Wichtiger Hinweis: Vorkenntnisse in den folgenden Bereichen sind zwingend erforderlich. Teilnehmer:innen ohne diese Qualifikationen können nicht berücksichtigt werden. Bewerber:innen mit praktischer Erfahrung werden bei der Auswahl bevorzugt.- Erfahrung mit Python-Programmierung
- Grundverständnis von maschinellem Lernen
- Idealerweise Erfahrung mit PyTorch oder anderen DL-Bibliotheken
- Kenntnisse über neuronale Netze und praktische Erfahrung mit Deep Learning
Kontaktadresse, Webseite/Link:
Bei Fragen können Sie uns gerne per E-Mail erreichen:
Titel: Bioinformatische Aufklärung monogener Krankheiten
Themen:
- Integrierte Analyse von Transkriptomdaten (RNAseq) und Erweiterung von Splice-Analyse-Tools (3 Plätze)
- Entwicklung einer Electron-App zur Suche nach Transkriptionsfaktor-Bindestellen (2 Plätze)
DozentIn(en): Dominik Seelow, Robin Steinhaus, Oliver Küchler
Maximale Teilnehmerzahl: 5
Informationstermin (online): Freitag, 17.01.2025, 16:00 Uhr. Anmeldung unter: https://www.genecascade.org/lehre/SWP_2025.html
Ort: Charité/BIH - Bioinformatics & Translational Genetics, Invalidenstr. 97
Weitere Infos:
https://www.genecascade.org/lehre/SWP_2025.html
Kontakt:
Titel: Advanced Drug Encodings for DrEvalPy: A Pipeline for Drug Response Prediction in Cancer Cell Lines
DozentIn(en): Baum, Iversen, Hiort
Maximale Teilnehmerzahl: 6
Projektvorstellung und Klären von Fragen: 15.01.2025 um 17:30 Uhr, remote unter diesem Webex-Link:
https://fu-berlin.webex.com/fu-berlin/j.php?MTID=me434a85bb36ef79f2e4bc7ac57f4d737
Kurze inhaltliche Beschreibung:
Das Softwareprojekt befasst sich mit der Entwicklung einer Python-basierten Pipeline zur Evaluierung von Machine Learning Modellen die die Wirkung von Krebsmedikamenten auf Zelllinien vorhersagen, genannt DrEval. Im Rahmen dieses Projekts wird eine Reihe unterschiedlicher Medikamenten Encodings implementiert, um die Vorhersagegenauigkeit und die Interpretierbarkeit der Modelle zu verbessern. Diese Encodings umfassen Literatur-abgeleitete Informationen, GNN-basierte Repräsentationen (Graph Neural Networks) und SMILES-basierte Encodings wie MACCS, die jeweils verschiedene Aspekte der chemischen und biologischen Eigenschaften von Medikamenten widerspiegeln.
Die Pipeline ist darauf ausgelegt, verschiedene Modellansätze zu testen und zu vergleichen, wobei der Fokus auf der Verbesserung der Vorhersage von Medikamentenwirkungen auf verschiedene Zelllinien und Krankheiten liegt. Durch die Integration und Analyse dieser Encodings sollen tiefere Einblicke in die Wirkmechanismen von Medikamenten und deren potenziellen klinischen Anwendungen gewonnen werden.
Quantitative Aufteilung: (in %)
Praktische Programmierarbeit: 50%
Soft Skills: 50%
Verwendete Programmiersprache(n): Python
Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):
A Programmieren ****
B Biologie/Chemie **
C Projektmanagement **
Erforderliche Vorkenntnisse: Python
Kontaktadresse, Webseite/Link:
Titel: Rust-Programmierung lernen
DozentIn(en): Peter Robinson, Daniel Danis, Kristin Köhler
Maximale Teilnehmerzahl: 5
Vorbesprechungstermin: Donnerstag, 18.01.2024, 17:00 Uhr unter: (Zoomlink wird auf Nachfrage mitgeteilt)
Zeitraum: nach Absprache
Themen:
1. Rust-Pakete erstellen, Software-Engineering, Grundlagen der Rustprogrammierung
2. Erstellen einer Applikation in Rust (z.B., ANN oder anderes Thema nach Rücksprache)
Ort: Charité/BIH – AG Robinson, Rachel Hirsch Gebäude
Kurze inhaltliche Beschreibung:
ggf. ergänzen
Quantitative Aufteilung: (in %) ggf. ergänzen
Praktische Programmierarbeit: x%
Soft Skills: y%
Verwendete Programmiersprache(n): Rust;
Einführung in Rust für Bioinformatiker
Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche): ggf. anpassen
A Programmieren ****
B Biologie/Chemie *
C Projektmanagement ***
Erforderliche Vorkenntnisse:
- ggf. ergänzen
Kontaktadresse: Prof. Peter Robinson
Themen und weitere Infos:
Allgemeine Infos zum Softwarepraktikum (Projektmanagement im Softwarebereich)