{"id":15701,"date":"2026-06-02T08:55:28","date_gmt":"2026-06-02T08:55:28","guid":{"rendered":"https:\/\/www.proefschriftmaken.nl\/portfolio\/saba-amiri\/"},"modified":"2026-06-02T08:55:36","modified_gmt":"2026-06-02T08:55:36","slug":"saba-amiri","status":"publish","type":"us_portfolio","link":"https:\/\/www.proefschriftmaken.nl\/en\/portfolio\/saba-amiri\/","title":{"rendered":"Saba Amiri"},"content":{"rendered":"","protected":true},"excerpt":{"rendered":"","protected":true},"author":7,"featured_media":15702,"comment_status":"closed","ping_status":"closed","template":"","meta":{"_acf_changed":false,"footnotes":""},"us_portfolio_category":[45],"class_list":["post-15701","us_portfolio","type-us_portfolio","status-publish","post-password-required","hentry","us_portfolio_category-new-template"],"acf":{"naam_van_het_proefschift":"From Patient to Pattern","samenvatting":"Dit proefschrift behandelt fundamentele uitdagingen bij de ontwikkeling en implementatie van Digital Health Twin (DHT)-raamwerken voor de gedistribueerde analyse van medische data. Het toenemende volume en de groeiende complexiteit van gezondheidszorgdata, in combinatie met strikte privacyregelgeving en beleid rond datagovernance, maken innovatieve benaderingen van datatoegang en datagebruik noodzakelijk. Wij presenteren en evalueren methodologie\u00ebn voor het genereren van hoogwaardige synthetische data met behulp van geavanceerde generatieve modellen, als alternatief voor directe toegang tot gevoelige pati\u00ebntinformatie.\n\nHet concept van de Digital Health Twin biedt een veelbelovend raamwerk voor gepersonaliseerde geneeskunde, doordat het virtuele representaties van de individuele gezondheidstoestand mogelijk maakt die continu kunnen worden bijgewerkt met uiteenlopende datastromen. De verwezenlijking van dit potentieel wordt echter bemoeilijkt door praktische problemen bij de toegang tot en verwerking van medische data uit de praktijk in verschillende administratieve domeinen. Hoewel federated learning-benaderingen deze uitdagingen gedeeltelijk ondervangen door de berekeningen naar de data te brengen in plaats van gevoelige informatie te centraliseren, kampen zij nog steeds met aanzienlijke obstakels op het gebied van het verkrijgen van toestemmingen, de co\u00f6rdinatie van trainingsiteraties en de continue beschikbaarheid van data.\n\nOm deze beperkingen te ondervangen, onderzoeken wij het gebruik van generatieve modellen om synthetische data te cre\u00ebren die de eigenschappen van pati\u00ebntdata uit de praktijk statistisch weerspiegelen, zonder feitelijke informatie over individuen te bevatten. Deze benadering cre\u00ebert een privacybeschermende abstractielaag tussen gevoelige data en het modeltrainingsproces. In tegenstelling tot federated learning, dat gedurende het iteratieve modelontwikkelingsproces herhaaldelijk toegang tot echte data vereist, vergt het genereren van synthetische data slechts \u00e9\u00e9n enkele autorisatiefase. Daarna kan de modelontwikkeling zelfstandig doorgaan zonder verdere toegang tot gevoelige informatie. Daarnaast maakt synthetische data asynchrone modelontwikkeling tussen gedistribueerde knooppunten mogelijk, waardoor de co\u00f6rdinatieproblemen verdwijnen die inherent zijn aan federated benaderingen waarbij alle deelnemers gelijktijdig beschikbaar moeten zijn. Deze fundamentele verschuiving in patronen van datatoegang biedt belangrijke praktische voordelen in zorgomgevingen waar het verkrijgen en behouden van datatoestemmingen bijzonder complex en tijdrovend is.\n\nGezien de potenti\u00eble voordelen van synthetische data voor de implementatie van DHT richt ons onderzoek zich op het verbeteren van de bruikbaarheids- en privacy-eigenschappen van generatieve modellen, specifiek voor toepassingen in de gezondheidszorg. Gezondheidszorgdata brengen unieke uitdagingen met zich mee die met standaard generatieve benaderingen moeilijk adequaat kunnen worden aangepakt, wat de praktische waarde van synthetische data in klinische contexten mogelijk beperkt. Ons werk behandelt vier kritieke uitdagingen om de geschiktheid van synthetische data voor DHT-raamwerken te vergroten: (1) het nauwkeurig modelleren van mixed-tail-gedrag in gezondheidszorgdata, waarbij variabelen binnen dezelfde dataset fundamenteel verschillende distributiekenmerken vertonen; (2) het in evenwicht brengen van fidelity en diversity bij het genereren van synthetische data, om zowel een accurate representatie van de oorspronkelijke data als voldoende variatie te waarborgen; (3) het waarborgen van privacy met behoud van databruikbaarheid; en (4) het omgaan met dataheterogeniteit in geografisch gedistribueerde omgevingen.\n\nVoor de uitdaging van mixed-tail-modellering ontwikkelen wij tail-adaptive normalizing flows die zowel heavy-tailed als light-tailed verdelingen gelijktijdig binnen \u00e9\u00e9n uniform raamwerk kunnen accommoderen. Deze benadering is erop gericht de instabiliteit in de optimalisatie, beperkingen in flexibiliteit en problemen met likelihood-balancering te overwinnen die vaak voorkomen bij standaard generatieve modellen wanneer deze worden toegepast op gezondheidszorgdata met uiteenlopende distributiekenmerken.\n\nOm de balans tussen fidelity en diversity te optimaliseren, presenteren wij een modelagnostisch raamwerk voor het ongesuperviseerd leren van semantische beperkingen in de betreffende datasets. Dit omvat een validatorcomponent die generatieve modellen zo stuurt dat zij zowel expliciete als impliciete grenzen in de echte data respecteren, waardoor de kwaliteit van synthetische uitkomsten wordt verbeterd met behoud van passende variatie.\n\nVoor privacybescherming introduceren wij een ruisvrij mechanisme voor het genereren van differentially private tabulaire synthetische data met behulp van normalizing flows. Deze methode vormt een verbetering ten opzichte van huidige benaderingen waarin ruis wordt toegevoegd en biedt mogelijk sterkere privacygaranties, terwijl belangrijke statistische eigenschappen van de oorspronkelijke data behouden blijven.\n\nTen slotte tonen wij, om dataheterogeniteit in gedistribueerde omgevingen te kunnen hanteren, eerst de gevoeligheid aan van privacybeschermende federated learning-opstellingen voor verschuivingen in datadistributies en hun nadelige effecten op bruikbaarheids- en fairness-metrieken. Voortbouwend op deze inzichten ontwikkelen en evalueren wij een proof-of-concept-implementatie met private gezondheidszorgdata uit de praktijk, die laat zien hoe synthetische data echte data effectief kunnen vervangen in gedistribueerde analysepijplijnen. Wij evalueren deze benadering empirisch door prestatiemetrieken tussen scenarios met synthetische en echte data te vergelijken, om zo de praktische haalbaarheid van oplossingen op basis van synthetische data te kwantificeren bij het aanpakken van uitdagingen rond dataheterogeniteit, met behoud van zowel bruikbaarheid als fairness.\n\nHet proefschrift demonstreert de praktische toepassing van deze wetenschappelijke methodologie\u00ebn aan de hand van een proof-of-concept DHT-raamwerk dat is geoptimaliseerd voor klinische zorgpaden. Onze bevindingen suggereren dat zorgvuldig ontworpen generatieve modellen synthetische data van voldoende kwaliteit kunnen produceren om diverse downstreamtaken te ondersteunen, waarbij tegelijkertijd tegemoet wordt gekomen aan privacyzorgen en regelgevende vereisten. De voorgestelde benaderingen kunnen helpen het potentieel van gedistribueerde gezondheidszorgdata voor gepersonaliseerde geneeskunde en preventieve zorg te ontsluiten, met respect voor de fundamentele principes van dataprivacy en datasoevereiniteit.\n\nDit onderzoek levert een bijdrage aan de bredere vakgebieden van gedistribueerde data-analyse, privacybehoudend machine learning en gezondheidsinformatica door nieuwe technische oplossingen te bieden voor al lang bestaande uitdagingen op het gebied van datatoegang en datagebruik. De ontwikkelde methodologie\u00ebn kunnen mogelijk ook worden toegepast buiten de gezondheidszorg, in andere domeinen waar gevoelige data en gedistribueerde verwerking vergelijkbare uitdagingen met zich meebrengen.","summary":"This thesis addresses fundamental challenges in the development and implementation of Digital Health Twin (DHT) frameworks for distributed medical data analytics. The increasing volume and complexity of healthcare data, combined with stringent privacy regulations and data governance policies, necessitate innovative approaches to data access and utilization. We propose and evaluate methodologies for generating high-quality synthetic data using advanced generative models as an alternative to direct access of sensitive patient information.\n\nThe Digital Health Twin concept offers a promising framework for personalized medicine, enabling virtual representations of individual health status that can be continuously updated with diverse data streams. However, realizing this potential is hampered by practical difficulties in accessing and processing real-world medical data across different administrative domains. While federated learning approaches partially address these challenges by bringing computation to the data rather than centralizing sensitive information, they still face significant hurdles related to permission acquisition, coordination of training iterations, and continuous data availability.\n\nTo overcome these limitations, we investigate the use of generative models to create synthetic data that statistically mirrors the properties of real-world patient data without containing actual information about individuals. This approach creates a privacy-preserving abstraction layer between sensitive data and the model training process. Unlike federated learning, which requires repeated access to real data throughout the iterative model development process, synthetic data generation requires only a single authorization phase, after which model development can proceed independently without further access to sensitive information. Additionally, synthetic data enables asynchronous model development across distributed nodes, eliminating the coordination challenges inherent in federated approaches where all participants must be simultaneously available. This fundamental shift in data access patterns offers significant practical advantages in healthcare settings where obtaining and maintaining data permissions is particularly complex and time-consuming.\n\nGiven the potential advantages of synthetic data for DHT implementation, our research focuses on enhancing the utility and privacy characteristics of generative models specifically for healthcare applications. Healthcare data presents unique challenges that standard generative approaches struggle to address adequately, potentially limiting the practical value of synthetic data in clinical contexts. Our work addresses four critical challenges to increase the suitability of synthetic data for DHT frameworks: (1) accurately modeling mixed-tail behavior in healthcare data, where variables within the same dataset exhibit fundamentally different distributional characteristics; (2) balancing fidelity and diversity in synthetic data generation to ensure both accurate representation of the original data and sufficient variation; (3) preserving privacy while maintaining data utility; and (4) handling data heterogeneity in geographically distributed environments.\n\nFor the mixed-tail modeling challenge, we develop tail-adaptive normalizing flows that can simultaneously accommodate both heavy-tailed and light-tailed distributions within a unified framework. This approach aims to overcome the optimization instability, flexibility limitations, and likelihood balancing issues common in standard generative models when applied to healthcare data with diverse distributional characteristics.\n\nTo address the fidelity-diversity trade-off, we propose a model-agnostic framework for unsupervised learning of semantic constraints in target datasets. This includes a validator component that guides generative models toward respecting both explicit and implicit boundaries in the real data, enhancing the quality of synthetic outputs while maintaining appropriate variation.\n\nFor privacy preservation, we introduce a noise-free mechanism for generating differentially private tabular synthetic data using normalizing flows. This method improves upon current noise-adding approaches, potentially offering stronger privacy guarantees while preserving important statistical properties of the original data.\n\nFinally, to handle data heterogeneity in distributed environments, we first demonstrate the sensitivity of privacy-preserving federated learning setups to data distribution shifts and their adverse impacts on utility and fairness metrics. Building on these insights, we develop and evaluate a proof-of-concept implementation using real-world private healthcare data that demonstrates how synthetic data can effectively replace real data in distributed analytics pipelines. We empirically evaluate this approach, comparing performance metrics between synthetic and real data scenarios to quantify the practical viability of synthetic data solutions in addressing challenges of data heterogeneity while maintaining both utility and fairness.\n\nThe thesis demonstrates the practical application of these methodologies through a proof-of-concept DHT framework optimized for clinical pathways. Our findings suggest that appropriately designed generative models can produce synthetic data with sufficient quality to support various downstream tasks while addressing privacy concerns and regulatory requirements. The proposed approaches may help unlock the potential of distributed healthcare data for personalized medicine and preventive care while respecting the fundamental principles of data privacy and sovereignty.\n\nThis research contributes to the broader fields of distributed data analytics, privacy-preserving machine learning, and healthcare informatics by offering novel technical solutions to long-standing challenges in data access and utilization. The methodologies developed may be applicable beyond healthcare to other domains where sensitive data and distributed processing present similar challenges.","auteur":"Saba Amiri","auteur_slug":"saba-amiri","publicatiedatum":"25 juni 2026","taal":"EN","url_flipbook":"https:\/\/ebook.proefschriftmaken.nl\/ebook\/sabaamiri?iframe=true","url_download_pdf":"https:\/\/ebook.proefschriftmaken.nl\/download\/e7a7046e-8443-474a-bcaf-17ee165d5dc8\/optimized","url_epub":"","ordernummer":"19018","isbn":"","doi_nummer":"","naam_universiteit":"Universiteit van Amsterdam","afbeeldingen":15703,"naam_student:":"","binnenwerk":"","universiteit":"Universiteit van Amsterdam","cover":"","afwerking":"","cover_afwerking":"","design":""},"_links":{"self":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio\/15701","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio"}],"about":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/types\/us_portfolio"}],"author":[{"embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/users\/7"}],"replies":[{"embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/comments?post=15701"}],"version-history":[{"count":1,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio\/15701\/revisions"}],"predecessor-version":[{"id":15704,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio\/15701\/revisions\/15704"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/media\/15702"}],"wp:attachment":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/media?parent=15701"}],"wp:term":[{"taxonomy":"us_portfolio_category","embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio_category?post=15701"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}