Datenfusion von Genomdaten und Mobilfunk

Pandemie-Analyse mit Mobilitätsdaten: PANDA

Universitätsklinikum Jena, T-Systems, Thüringer Aufbaubank Gesundheit

Stichprobennahme für SARS-CoV-2-Varianten-Tracking um bis zu 1 Woche beschleunigt

Geringerer Sequenzierungsaufwand durch gezielte Mobilitätsanalyse Ergebnisse peer-reviewed publiziert: eLife, Januar 2025

Ausgangssitutation

Während der SARS-CoV-2-Pandemie stand die Gesundheitsbehörden vor einem Grundproblem: Genomsequenzierungen liefern präzise Daten darüber, welche Variante wo zirkuliert, aber sie sind teuer, zeitaufwändig und können nicht flächendeckend eingesetzt werden. Welche Proben sequenziert werden, entschied meist geografische Gleichverteilung oder Zufallsprinzip. Ob eine neue Variante gerade über Pendlerströme in eine Region eingetragen wird, war aus den Sequenzierungsdaten allein nicht erkennbar. Das Ergebnis: Surveillance-Lücken genau dort, wo Mobilitätsdynamik das Infektionsgeschehen treibt.

Kernherausforderung

Genomdaten und Mobilitätsdaten existierten in vollständig getrennten Systemen ohne gemeinsame Analyseinfrastruktur. Mobilfunkbewegungsdaten von T-Systems lagen auf Landkreisebene vor und lieferten detaillierte Pendlerverflechtungen, aber kein Werkzeug verknüpfte diese Bewegungsströme mit den Herkunftsorten sequenzierter Proben. Stichprobenentscheidungen konnten daher nicht datengetrieben priorisiert werden. Erschwerend kam hinzu, dass beide Datensätze unterschiedliche Zeitgranularitäten, Datenschutzanforderungen und institutionelle Zuständigkeiten mitbrachten. Ein fusioniertes Analysemodell musste diese Heterogenität technisch beherrschbar machen, ohne die Datenschutzgrenzen der einzelnen Quellen zu verletzen.

Lösung

epicinsights entwickelte im Rahmen des PANDA-Projekts ein Datenfusionsmodell, das Mobilfunk-Bewegungsdaten auf Landkreisebene mit dem geografischen Ursprung von Genomsequenzierungen verknüpft. Der entscheidende Schritt war dabei methodischer Art: Statt Mobilität nur als Kontextvariable zu behandeln, wurde sie als Priorisierungsgrundlage für die Stichprobenauswahl genutzt. Das Modell identifiziert, aus welchen Regionen Pendler in ein Erhebungsgebiet einströmen und gewichtet die Sequenzierungsauswahl entsprechend. So lässt sich der Eintrag einer neuen Variante früher detektieren, weil die Stichprobe dort dichter ist, wo Mobilitätsdaten ein erhöhtes Eintragsrisiko signalisieren.

Die technische Umsetzung erforderte eine datenschutzkonforme Verknüpfungsarchitektur: Mobilfunkdaten wurden ausschließlich aggregiert auf Landkreisebene verarbeitet, keine Personenidentifikation war Teil des Modells. Das Konsortium aus Universitätsklinikum Jena, T-Systems und Thüringer Aufbaubank brachte dabei Domänenwissen, Datenzugang und Förderstruktur zusammen, epicinsights die Datenfusions- und Modellierungskompetenz.

Ergebnis

Die Stichprobennahme für das SARS-CoV-2-Varianten-Tracking konnte durch die mobilitätsbasierte Priorisierung um bis zu eine Woche beschleunigt werden. Gleichzeitig sank der Sequenzierungsaufwand, weil weniger Proben aus epidemiologisch weniger relevanten Regionen gezogen werden mussten. Die Methodik wurde peer-reviewed publiziert: eLife, Januar 2025, DOI: 10.7554/eLife.94045. Das Abwasser-Monitoring-Folgeprojekt AMELAG adaptiert dieselbe Mobilitätsfusions-Methodik für die kontinuierliche Infektionssurveillance in Thüringen.

Das diesen Ergebnissen zugrundeliegende Vorhaben wurde vom Freistaat Thüringen bzw. dem Thüringer Ministerium für Wirtschaft, Wissenschaft und Digitale Gesellschaft (TMWWDG) unter der Nummer 2021 FE 9096 mit Landesmitteln gefördert.

Sie haben Daten aus mehreren Quellen, aber keine gemeinsame Analysegrundlage.

In einem Gespräch klären wir, welche Datenfusion bei Ihnen methodisch möglich ist und welcher Erkenntnisgewinn realistisch ist.

Termin mit Michael Mörs (CEO) buchen:

In 30 Minuten klären wir, wo Sie stehen und wie wir helfen können.

Termin auswählen