Artikel, Bücher und Beiträge aus der Feder der Gesundheitsredaktion

Ersetzen synthetische Daten klinische Studien? Artikel von Tanya Karrer Gesundheitsredaktion 2024

Karrer T.
Ersetzen synthetische Daten bald klinische Studien?
Gesundheitsredaktion.ch, 2.6.2024

Beitrag lesen

Ersetzen synthetische Daten klinische Studien?

So viel vorweg: Ich bin keine Expertin für synthetische Daten, da ich aber fast tagtäglich mit Studien rund um die Medizin und den darin enthaltenen Daten jongliere, nahm es mich wunder, was am Hype um die synthetischen Daten im Gesundheitswesen dran ist. Am 27. Mai 2024 besuchte ich deshalb den Synthetic Data Day der Medizinischen Fakultät der Universität Bern. Hier ein paar Erkenntnisse:

Tanya Karrer Gesundheitsredaktion Tanya Karrer ist Autorin und Informationsspezialistin Medizin und schreibt über Gesundheit, Medizin, Menschen und Organisationen.
Auf LinkedIn LinkedIn folgen.

Können synthetische Daten vorhersagen, ob eine neuartige Behandlung wirksam ist?

Forschende klagen häufig, wie teuer, aufwendig und oft auch komplex das Durchführen von klinischen Studien ist. Ein Blick in die grossen Studienregister bestätigt dies. Viele registrierte Studien verwaisen oder werden zurückgezogen, die dafür aufgeworfenen Ressourcen versanden, ohne dass eindeutige Aussagen über eine Behandlung o.ä. gemacht werden konnten.

Lösen synthetische Daten also bald das Problem? Generiert die Künstliche Intelligenz in naher Zukunft künstliche Patientendaten, mit denen wir vorhersagen können, ob eine Therapie wirksam ist?  

Was sind synthetische Daten?

Um eine Antwort zu finden, müssen wir zuerst verstehen, was unter synthetischen Daten verstanden wird. Einfach ausgedrückt:

Synthetische Daten sind künstlich generierte Daten. Im Idealfall simulieren sie die Eigenschaften von realen Daten.

Wie werden synthetische Daten generiert?

Synthetische Daten können nicht einfach aus dem Nichts hervorgezaubert werden. Einem Set von synthetischen Daten liegt stets ein Set von realen, originalen Daten zugrunde. Einfach ausgedrückt:

Man nimmt ein reales Datenset (z.B. aus einer Erhebung oder Studie) und wendet darauf ein (statistisches) Modell wie LLM oder GAN an. Das Modell erzeugt einen neuen Datensatz mit synthetischen Daten.

Trade-off bei synthetischen Daten: Privacy versus Utility

Ein vordergründiges Ziel bei der Produktion von synthetischen Daten besteht darin, die Eigenschaften der originalen Daten (Utility) beizubehalten, dabei aber die Privatsphäre (Privacy) der datengebenden Individuen zu schützen. Das heisst, es sollen keine Rückschlüsse auf die Datengeber oder Patienten möglich sein.

In der Praxis zeigte sich aber:

Schema Trade-off bei synthetischen Daten zwischen Privacy und UtilityJe besser die Privatsphäre der Datengeber beim Synthetisierungsprozess geschützt wurde, desto mehr veränderten sich die Eigenschaften der Variablen im Vergleich zu den Originaldaten. Das heisst, wurden die synthetischen Daten anschliessend mit denselben Methoden statistisch ausgewertet wie zuvor die originalen Daten, zeigten sich nicht mehr dieselben Muster. Kurz: Der Outcome bzw. das Resultat änderte sich.

Umgekehrt: Blieben die Eigenschaften der Variablen vergleichbar (Utility), ging dies tendenziell mit einem schlechteren Schutz der Privatsphäre (Privacy) einher.

Gemäss dem Gesetz der grossen Zahlen verbesserten sich aber sowohl Privacy und Utility der synthetischen Daten, je grösser das Ursprungs-Sample war.

 

Ersetzen synthetische Daten klinische Versuche?

Nein, so wie ich das verstanden habe, (noch) nicht. Synthetische Daten können helfen, eine klinische Studie besser und effizienter aufzugleisen, da mit ihnen simuliert werden kann, welche Eigenschaften Studienteilnehmer im Idealfall aufweisen sollten und wie viele Teilnehmer für eine statistisch aussagekräftige Studie benötigt werden.

Aber beim Test einer neuen Therapie braucht es immer noch eine «richtige» Studie, die originale Daten zu genau dieser neuen Therapie erzeugt.

Ob man dann seinen digitalen Zwilling* quasi als Teilnehmer in die Studie abdelegieren kann, ist eine nächste Frage für die Zukunft. Was synthetische Daten aber künftig möglicherweise können werden: Sie können den realen Datensatz erweitern. Also, das originale Sample wird mit synthetischen Daten vergrössert oder verbreitert (diversifiziert).

* ChatGPT, was ist ein digitaler Zwilling in der Medizin?
Antwort: Ein digitaler Zwilling in der Medizin ist eine präzise, digitale Nachbildung eines menschlichen Körpers oder bestimmter Organe und Systeme innerhalb des Körpers. Ganze Antwort von ChatGPT lesen.

 

Wozu sind synthetische Daten in der Medizin also gut?

  • Ausbildung: Die Referentinnen und Referenten sehen den Vorteil von synthetischen Daten vor allem in der Ausbildung. Medizinstudierende sollen lernen, synthetische Daten auszuwerten, ohne die Privatsphäre (Privacy) der Studienteilnehmer zu verletzen.
  • Reproduzierbarkeit: Auch für die Reproduzierbarkeit (Reproducibility) können synthetische Daten von Nutzen sein. Angenommen, eine Forschungsgruppe hat Daten erhoben und ausgewertet. Eine andere Forschungsgruppe möchte die Resultate überprüfen (reproduzieren). Datenschutzbestimmung behindern aber die Weitergabe der originalen Daten. Indem diese synthetisiert (und damit anonymisiert) werden, können sie nun für die Überprüfung weitergegeben werden.
  • Training Künstlicher Intelligenzen: Synthetische Daten können auch für das Training Künstlicher Intelligenzen aller Art dienen, innerhalb und ausserhalb des Gesundheitswesens.
  • Epidemiologische Studien und neue Fragestellungen: Sobald Daten von und über Menschen erhoben werden, enthalten sie meistens Variablen, die für epidemiologische und demografische Auswertungen von Interesse sein können, auch wenn dies nicht das Ursprungsinteresse war. Werden diese Daten synthetisiert, können sie auf andere Fragestellungen hin ausgewertet werden.
  • Datenjournalismus: Auch für Datenjournalisten sind synthetische Daten selbstredend interessant.

Das Problem: Zu viele verschiedene Modelle

Obwohl grosse Hoffnungen in synthetische Daten gesetzt werden, gibt es noch wenig Konsens darüber, welche Synthetisierungsmodelle verlässlich sind (Schweizerdeutsch: «verhäbe») und angewendet werden sollen. Die Referierenden sind sich einig, dass (noch) zu viel Wildwuchs besteht.

Fazit

Man darf gespannt sein, was in Bezug auf synthetische Daten noch kommen wird. Die zugrundeliegende Idee ist bestechend gut. Ob und wann synthetische Daten für die klinische Forschung und für klinische Studien wirklich praktikabel werden, muss sich noch zeigen.

 

Referierende des Synthetic Data Day's in Bern vom 27.5.2024:

Prof. Dr. Matthias Templ: Synthetization of Complex Data (🔗Video)
Prof. Dr. Randi Foraker: Expanding AI Capabilities through Synthetic Data (🔗Video)
Ass. Prof. Dr. Jean Louis Raisaro: Synthetic Data in clinical research: are we there yet? (🔗Video)
Theresa Stadler: Is Synthetic Data a good privacy technology? (🔗Video)
Prof. Dr. Mihaela van der Schaar: Synthetic Data: Powerful Creation, Not Second Rate Copy (🔗Video)
Prof. Dr. Murat Sariyar: Comparing LLMs and GANs for Tabular Data Generation (🔗Video)
Lucy Mosquera: Synthetic Health Data: facilitating sharing and enhancement (🔗Video)
Dr. Bram Stieltjes, Pascal Schär, Prof. Dr. Marcel Egger: Round Table Discussion

Synthetische Daten | Klinische Studien | Künstliche Intelligenz | Forschung


Für Newsletter anmelden:

Möchten Sie keinen Beitrag der Gesundheitsredaktion mehr verpassen? Dann abonnieren Sie den Newsletter, der Sie per E-Mail über Neuigkeiten informiert.

Sie erhalten eine Bestätigungmail. Ihre E-Mail-Adresse wird einzig für den Versand des Newsletters verwendet und nicht weitergegeben. Sie haben in jedem Newsletter die Möglichkeit, sich davon abzumelden.