Softwarepraktikum Bioinformatik: Projekte
Titel: Faster Bioinformatics with C++
DozentIn(en): Ch. Bielow
Maximale Teilnehmerzahl: 10
Zeitraum/Vorbesprechungstermin: tba
Vorstellung des Projekts: 19.01.2024 um 9:30 Uhr (Webexmeeting), zusammen mit "Workflows"
https://fu-berlin.webex.com/fu-berlin/j.php?MTID=m852e25f32e66d84f3068835679d1c388
Ort: Institut für Informatik
Kurze inhaltliche Beschreibung:
In diesem Praktikum werden wir am Beispiel unserer open-source Bibliothek OpenMS (www.openms.de) realitaetsnah ein C++ Programmierprojekt bearbeiten und dabei Algorithmen, Datenstrukturen und evtl. grafische Benutzerinterfaces reimplementieren oder neu entwicklen.
Dabei werden wir Tools zur Entwicklung, Debugging, Performance-Profiling, Source-Code Management im Team und Continuous-Integration kennen lernen.
OpenMS ist eine der meistverwendeten Softwarebibliotheken zur Analyse von Massenspektrometriedaten und besitzt eine sehr umfaengliche Sammlung an schnellen und effizienten Algorithmen. OpenMS wird staendig weiterentwicklet und auch kommerziell genutzt.
Quantitative Aufteilung (in %):
Praktische Programmierarbeit: 60%
Soft Skills: 40%
Verwendete Programmiersprache(n): C++
Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):
A Programmieren: 4*
B Biologie/Chemie: 1*
C Projektmanagement: 3*
Erforderliche Vorkenntnisse: gute Kenntnisse in C++
Kontaktadresse, Webseite/Link:
https://www.bsc.fu-berlin.de/TeachingAndWorkshops/SoSe23/Software_Praktikum_OpenMS/index.html
Titel: Algorithmen zur Analyse von von genomischen Sequenz-Daten (SeqAn)
Dozent(en): K. Reinert
Maximale Teilnehmerzahl: 6
Zeitraum und Ablauf:
Block 1: C++ Kurs (26.02. – 07.03). Nicht Reil des Praktikums, aber DRINGEND empfohlen
Block 2: SeqAn 3 Tutorial (04.3. – 08.3.)
- Software Installation
- Cmake und github
- SeqAn Tutorials
- Zuordnung der Teilprojekte
Block 3: Recherche und Präsentation des Projektplans (bis 15.3.)
- Vortrag vorbereiten
- Welche Datentypen/Schnittstellen von mir benötigen ggf. andere?
- Welche Datentypen/Schnittstellen benötige ich?
- Welche Algorithmen werden benötigt?
- Welche davon gibt es schon in SeqAn, welche muss ich implementieren?
Block 4: Implementierung, Erstellung eines Abschlussberichts (bis 23.04.)
- Vorstellung der Ergebnisse (23.04.)
Ort: Institut für Informatik
Kurze inhaltliche Beschreibung:
Implementierung von Algorithmen für die Sequenzanalyse genomischer (Massen)daten & Erstellen kleinerer Analysepipelines mit Hilfe einer bestehenden C++-Bibliothek. Dabei sollen neben dem Programmieren auch Elemente des Software-Engineering eingeübt werden (Erstellen eines Zeitplanes, Benutzung von Programmierwerkzeugen, Erstellen von Tests, Arbeiten im Team, etc.)
Quantitative Aufteilung:
Praktische Programmierarbeit: 60%
Soft Skills: 40%
Verwendete Programmiersprache(n): C++
Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):
A Programmieren: *****
B Biologie/Chemie: *
C Projektmanagement: **
Unbedingt erforderliche Vorkenntnisse: C++
Kontaktadresse, Webseite:
DozentIn(en): Sandro Andreotti
Maximale Teilnehmerzahl: 8
Zeitraum/Vorbesprechungstermin: Nach Absprache
Vorstellung des Projekts: 19.01.2024 um 9:30 Uhr (Webexmeeting), zusammen mit OpenMS (Faster Bioinformatics...)
https://fu-berlin.webex.com/fu-berlin/j.php?MTID=m852e25f32e66d84f3068835679d1c388
Ort: tba
Kurze inhaltliche Beschreibung:
In diesem Praktikum werden Workflows für die Analyse von Next Generation Sequencing (NGS) Daten konzeptioniert und implementiert. Die Teilnehmer werden komplexe professionelle Datenanalysepipelines für aktuelle Forschungsprojekte in unserer Gruppe entwickeln. Dabei werden sie verschiedene Workflowsysteme (z.B. KNIME, Snakemake) kennenlernen und verwenden. Die Teilnehmer werden anhand aktueller Literatur ihre Workflows eigenständig erarbeiten, testen und verfeinern. Neben der Workflow-Programmierung erlangen die Teilnehmer ein umfangreiches Wissen über existierende Bioinformatik-Software im Bereich NGS.
Quantitative Aufteilung: (in %)
Praktische Programmierarbeit: 50%
Soft Skills: 50%
Verwendete Programmiersprache(n):
R, Python oder andere Skriptsprache
Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):
A Programmieren ****
B Biologie/Chemie *
C Projektmanagement ***
Erforderliche Vorkenntnisse: R, Python
Kontaktadresse, Webseite/Link:
https://www.bsc.fu-berlin.de/TeachingAndWorkshops/SoSe23/Software_Praktikum_Workflows/index.html
Thema: AI for Health
DozentIn(en): Prof. Roland Eils, Julius Upmeier zu Belzen, Benjamin Wild, Sören Lukassen
Maximale Teilnehmerzahl: 10
Zeitraum/Vorbesprechungstermin: nach Absprache
In this software project, you will learn about the fundamentals of applying machine learning to problems in the healthcare domain. We will provide access to public datasets and an environment for development (including ECG, Microscopy, and X-Ray datasets). Furthermore, we are open to discuss specific interests or ideas you might have in our initial meeting, and define the project accordingly. In any case, we will develop a pipeline from dataset access, preprocessing, baseline models, ML models and evaluation, as well as planning of future applications and extensions.
We are flexible with regards to the project timeline. If you have any further questions, please feel free to email us:
benjamin.wild@bih-charite.de, julius.upmeier@bih-charite.de, soeren.lukassen@bih-charite.de
Ort: Digital (A), BIH, Kapelle-Ufer 2 (B)
Kurze inhaltliche Beschreibung:
Project: Machine Learning in Medicine: from idea to tool
- Learn the fundamentals of developing, training and testing deep learning models in the medical domain
- Learn about relevant metrics for evaluation and benchmarking and potential biases to watch out for
- Optional: Work on integrating the developed and evaluated models into usable (web) tool
Quantitative Aufteilung: (in %)
Praktische Programmierarbeit: 75%
Soft Skills: 25%
Verwendete Programmiersprache(n): Python (>90%), maybe some javascript for web app
Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):
A Programmieren ****
B Biologie/Chemie *
C Projektmanagement ***
Erforderliche Vorkenntnisse:
- Experience with the Python programming language
- Fundamental understanding of “What is machine learning"
- Preferably prior experience with PyTorch or other DL-Libraries
- Understanding of neural networks and preferably experience with deep learning
Kontaktadresse, Webseite/Link:
Titel: Bioinformatische Aufklärung monogener Krankheiten
Themen:
1. Integrierte Analyse und Erweiterung von Splice-Analyse-Tools
2. Entwicklung eines ACME-Clients in C/C++ oder Bash
DozentIn(en): Dominik Seelow, Robin Steinhaus, Oliver Küchler
Maximale Teilnehmerzahl: 5
Informationstermin (online):
Donnerstag, 18.01.2024, 17:00 Uhr unter: https://meet.jit.si/BTG_SWP_2024Ort: Charité/BIH - Bioinformatics & Translational Genetics, Invalidenstr. 97
Themen und weitere Infos:
https://www.genecascade.org/lehre/SWP_2024.html
Titel: ML Techniken für biologische Daten
DozentIn(en): Baum, Iversen, Hiort
Maximale Teilnehmerzahl: 10
Projektvorstellung und Klären von Fragen: 17.01.24 um 17:45, remote unter diesem Webex-Link: https://fu-berlin.webex.com/fu-berlin/j.php?MTID=mb015bf546bc85904bc0932eb81af26e5
Kurze inhaltliche Beschreibung:
Im Softwarepraktikum werden wir verschiedene Machine-Learning (ML)-Methoden zur Analyse von biologischen Daten entwickeln, anwenden und evaluieren. Ziel ist es, verschiedene Datensätze aus der biologisch-medizinischen Forschung kennenzulernen und zu verarbeiten. Insbesondere werden wir uns mit großen Datensätzen beschäftigen, wie etwa aus dem Omics-Bereich, zum Beispiel Messungen von mRNA (Transcriptomics) oder Proteinen (Proteomics). Auf diese Daten sollen verschiedenen ML-Methoden angewendet werden, um biologische und medizinische Vorhersagen zu treffen. Die Qualität der Vorhersagen soll dann passend evaluiert werden. Wir planen im Projekt die Arbeit an konkreten, biomedizinisch und für unsere Forschung relevanten Fragestellungen. Diese können von uns bereitgestellt oder gemeinsam mit uns geplant werden. Eine konkrete Anwendung kann zum Beispiel die personalisierte Medizin sein. Hierbei geht es um die Vorhersage der Wirkung von Krebsmedikamenten anhand von umfassenden Daten von bestimmten Krebszellen. Wir setzen Vorkenntnisse in Python voraus. Wir werden im Projekt moderne Python-basierte Module für ML wie scikit-learn, TensorFlow oder PyTorch benutzen.
Quantitative Aufteilung: (in %)
Praktische Programmierarbeit: 50%
Soft Skills: 50%
Verwendete Programmiersprache(n): Python
Schwierigkeitsgrad (Acht Sterne verteilt auf drei Bereiche):
A Programmieren ****
B Biologie/Chemie *
C Projektmanagement ***
Erforderliche Vorkenntnisse: Python
Kontaktadresse, Webseite/Link:
Allgemeine Infos zum Softwarepraktikum (Projektmanagement im Softwarebereich)