Genom-Daten im MPEG-Format

Genom-Daten im MPEG-Format

(Quelle: Genomsys)
4. April 2020 - Dank sinkender DNA-Sequenzierungskosten entstehen nicht nur neue Forschungsmöglichkeiten, sondern auch neue Datenberge. Der Forschung zur Hand geht das Start-up Genomsys.
Artikel erschienen in IT Magazine 2020/04
Innerhalb der letzten zehn Jahre sind die Kosten für das Auslesen einer DNA, die sogenannte Genom-Sequenzierung, massiv gesunken – von 10 Milliarden Dollar 2008 auf heute etwa 600 Dollar. Parallel stieg Menge der durchgeführten Analysen von einigen wenigen auf heuer 1,5 Millionen. Für Wissenschaftler eröffneten sich so neue Dimensionen der Forschung. Leider aber sind die Daten etwas unhandlich.

Ein einzelnes menschliches Genom belegt nämlich zwischen 30 und 100 GB. Grossangelegte Forschungsprojekte mit tausenden Teilnehmern erreichen deshalb leicht Grössenordnungen im Tera- bis Petabyte-­Bereich – das sprichwörtliche Big Data. Dies ist auf zwei Ebenen relevant: Kosten und Datenmanagement. «Kostentechnisch geht es für die Forschung heute vor allem um Aufbewahrungskosten, denn die Sequenzierung wird immer günstiger – 100 Dollar sind realistisch», meint Genomsys-CTO und -Mitgründer Claudio Alberti. Auf Ebene des Datenmanagements geht es vor allem um die Bereitstellung der richtigen Daten. Denn je nach Untersuchung sind nur Teile der DNA relevant.

Ein neues Format als Schlüssel

Eine Lösung bietet das EPFL-Spin-off Genomsys. Das Unternehmen bietet Forschern, Krankenhäusern, Laboren und anderen die Möglichkeit, Daten effizient zu speichern, zu verwalten, zu teilen und vieles mehr. Der Clou dabei ist die Konvertierung in den neuen Kompressions­standard MPEG-G.

Wer dabei an Musik oder Video denkt, ist auf der richtigen Spur. Durch die Kompression werden die Genom-Daten nicht nur handlicher, sondern auch in standardisierte Pakete zerlegt. Diese wiederum können gezielt für Untersuchungen bereitgestellt werden. «Je nach Forschungsziel sind nur bestimmte Regionen der DNA interessant. Mit MPEG-G ist es leicht, nur die jeweils relevanten Daten zu verwenden – zum Beispiel für die Krebsforschung», erklärt Claudio Alberti. Da die Daten in der Cloud liegen, heisst Bereitstellung hier effektiv Streaming. Dies erlaubt nicht nur vergleichsweise schnelle Abfragen, sondern auch die Anonymisierung der Daten.

Zum Schutz der Privatsphäre können so die individuell identifizierenden Elemente der DNA zurückbehalten werden, während der Rest der Forschung zur Verfügung steht. Dies ist auch ein Zukunftsthema im Bereich Personalized Medicine: Genomsys entwickelt zurzeit eine App, die es Individuen ermöglicht, genau zu bestimmen, wozu ihre Daten verwendet werden und von wem.
 
Seite 1 von 2

Neuen Kommentar erfassen

Anti-Spam-Frage Wieviele Fliegen erledigte das tapfere Schneiderlein auf einen Streich?
Antwort
Name
E-Mail
SPONSOREN & PARTNER