Saba Amiri

Universiteit van Amsterdam

Deel dit project

Publicatiedatum: 25 juni 2026

Universiteit: Universiteit van Amsterdam

From Patient to Pattern

Samenvatting

Dit proefschrift behandelt fundamentele uitdagingen bij de ontwikkeling en implementatie van Digital Health Twin (DHT)-raamwerken voor de gedistribueerde analyse van medische data. Het toenemende volume en de groeiende complexiteit van gezondheidszorgdata, in combinatie met strikte privacyregelgeving en beleid rond datagovernance, maken innovatieve benaderingen van datatoegang en datagebruik noodzakelijk. Wij presenteren en evalueren methodologieën voor het genereren van hoogwaardige synthetische data met behulp van geavanceerde generatieve modellen, als alternatief voor directe toegang tot gevoelige patiëntinformatie.

Het concept van de Digital Health Twin biedt een veelbelovend raamwerk voor gepersonaliseerde geneeskunde, doordat het virtuele representaties van de individuele gezondheidstoestand mogelijk maakt die continu kunnen worden bijgewerkt met uiteenlopende datastromen. De verwezenlijking van dit potentieel wordt echter bemoeilijkt door praktische problemen bij de toegang tot en verwerking van medische data uit de praktijk in verschillende administratieve domeinen. Hoewel federated learning-benaderingen deze uitdagingen gedeeltelijk ondervangen door de berekeningen naar de data te brengen in plaats van gevoelige informatie te centraliseren, kampen zij nog steeds met aanzienlijke obstakels op het gebied van het verkrijgen van toestemmingen, de coördinatie van trainingsiteraties en de continue beschikbaarheid van data.

Om deze beperkingen te ondervangen, onderzoeken wij het gebruik van generatieve modellen om synthetische data te creëren die de eigenschappen van patiëntdata uit de praktijk statistisch weerspiegelen, zonder feitelijke informatie over individuen te bevatten. Deze benadering creëert een privacybeschermende abstractielaag tussen gevoelige data en het modeltrainingsproces. In tegenstelling tot federated learning, dat gedurende het iteratieve modelontwikkelingsproces herhaaldelijk toegang tot echte data vereist, vergt het genereren van synthetische data slechts één enkele autorisatiefase. Daarna kan de modelontwikkeling zelfstandig doorgaan zonder verdere toegang tot gevoelige informatie. Daarnaast maakt synthetische data asynchrone modelontwikkeling tussen gedistribueerde knooppunten mogelijk, waardoor de coördinatieproblemen verdwijnen die inherent zijn aan federated benaderingen waarbij alle deelnemers gelijktijdig beschikbaar moeten zijn. Deze fundamentele verschuiving in patronen van datatoegang biedt belangrijke praktische voordelen in zorgomgevingen waar het verkrijgen en behouden van datatoestemmingen bijzonder complex en tijdrovend is.

Gezien de potentiële voordelen van synthetische data voor de implementatie van DHT richt ons onderzoek zich op het verbeteren van de bruikbaarheids- en privacy-eigenschappen van generatieve modellen, specifiek voor toepassingen in de gezondheidszorg. Gezondheidszorgdata brengen unieke uitdagingen met zich mee die met standaard generatieve benaderingen moeilijk adequaat kunnen worden aangepakt, wat de praktische waarde van synthetische data in klinische contexten mogelijk beperkt. Ons werk behandelt vier kritieke uitdagingen om de geschiktheid van synthetische data voor DHT-raamwerken te vergroten: (1) het nauwkeurig modelleren van mixed-tail-gedrag in gezondheidszorgdata, waarbij variabelen binnen dezelfde dataset fundamenteel verschillende distributiekenmerken vertonen; (2) het in evenwicht brengen van fidelity en diversity bij het genereren van synthetische data, om zowel een accurate representatie van de oorspronkelijke data als voldoende variatie te waarborgen; (3) het waarborgen van privacy met behoud van databruikbaarheid; en (4) het omgaan met dataheterogeniteit in geografisch gedistribueerde omgevingen.

Voor de uitdaging van mixed-tail-modellering ontwikkelen wij tail-adaptive normalizing flows die zowel heavy-tailed als light-tailed verdelingen gelijktijdig binnen één uniform raamwerk kunnen accommoderen. Deze benadering is erop gericht de instabiliteit in de optimalisatie, beperkingen in flexibiliteit en problemen met likelihood-balancering te overwinnen die vaak voorkomen bij standaard generatieve modellen wanneer deze worden toegepast op gezondheidszorgdata met uiteenlopende distributiekenmerken.

Om de balans tussen fidelity en diversity te optimaliseren, presenteren wij een modelagnostisch raamwerk voor het ongesuperviseerd leren van semantische beperkingen in de betreffende datasets. Dit omvat een validatorcomponent die generatieve modellen zo stuurt dat zij zowel expliciete als impliciete grenzen in de echte data respecteren, waardoor de kwaliteit van synthetische uitkomsten wordt verbeterd met behoud van passende variatie.

Voor privacybescherming introduceren wij een ruisvrij mechanisme voor het genereren van differentially private tabulaire synthetische data met behulp van normalizing flows. Deze methode vormt een verbetering ten opzichte van huidige benaderingen waarin ruis wordt toegevoegd en biedt mogelijk sterkere privacygaranties, terwijl belangrijke statistische eigenschappen van de oorspronkelijke data behouden blijven.

Ten slotte tonen wij, om dataheterogeniteit in gedistribueerde omgevingen te kunnen hanteren, eerst de gevoeligheid aan van privacybeschermende federated learning-opstellingen voor verschuivingen in datadistributies en hun nadelige effecten op bruikbaarheids- en fairness-metrieken. Voortbouwend op deze inzichten ontwikkelen en evalueren wij een proof-of-concept-implementatie met private gezondheidszorgdata uit de praktijk, die laat zien hoe synthetische data echte data effectief kunnen vervangen in gedistribueerde analysepijplijnen. Wij evalueren deze benadering empirisch door prestatiemetrieken tussen scenarios met synthetische en echte data te vergelijken, om zo de praktische haalbaarheid van oplossingen op basis van synthetische data te kwantificeren bij het aanpakken van uitdagingen rond dataheterogeniteit, met behoud van zowel bruikbaarheid als fairness.

Het proefschrift demonstreert de praktische toepassing van deze wetenschappelijke methodologieën aan de hand van een proof-of-concept DHT-raamwerk dat is geoptimaliseerd voor klinische zorgpaden. Onze bevindingen suggereren dat zorgvuldig ontworpen generatieve modellen synthetische data van voldoende kwaliteit kunnen produceren om diverse downstreamtaken te ondersteunen, waarbij tegelijkertijd tegemoet wordt gekomen aan privacyzorgen en regelgevende vereisten. De voorgestelde benaderingen kunnen helpen het potentieel van gedistribueerde gezondheidszorgdata voor gepersonaliseerde geneeskunde en preventieve zorg te ontsluiten, met respect voor de fundamentele principes van dataprivacy en datasoevereiniteit.

Dit onderzoek levert een bijdrage aan de bredere vakgebieden van gedistribueerde data-analyse, privacybehoudend machine learning en gezondheidsinformatica door nieuwe technische oplossingen te bieden voor al lang bestaande uitdagingen op het gebied van datatoegang en datagebruik. De ontwikkelde methodologieën kunnen mogelijk ook worden toegepast buiten de gezondheidszorg, in andere domeinen waar gevoelige data en gedistribueerde verwerking vergelijkbare uitdagingen met zich meebrengen.

Lees meer