{"id":15845,"date":"2026-06-05T07:31:19","date_gmt":"2026-06-05T07:31:19","guid":{"rendered":"https:\/\/www.proefschriftmaken.nl\/portfolio\/clair-blacketer\/"},"modified":"2026-07-08T15:00:02","modified_gmt":"2026-07-08T13:00:02","slug":"clair-blacketer","status":"publish","type":"us_portfolio","link":"https:\/\/www.proefschriftmaken.nl\/en\/portfolio\/clair-blacketer\/","title":{"rendered":"Clair Blacketer"},"content":{"rendered":"","protected":false},"excerpt":{"rendered":"","protected":false},"author":7,"featured_media":15846,"comment_status":"closed","ping_status":"closed","template":"","meta":{"_acf_changed":false,"footnotes":""},"us_portfolio_category":[45],"class_list":["post-15845","us_portfolio","type-us_portfolio","status-publish","has-post-thumbnail","hentry","us_portfolio_category-new-template"],"acf":{"naam_van_het_proefschift":"Strengthening the Foundations of Real-World Evidence","samenvatting":"Florence Nightingale staat bekend om haar hero\u00efsche inspanningen in de Krimoorlog en innovaties in de verpleegkundige praktijk, maar was ook een begaafd statisticus. Ze was van mening dat de gegevens die werden verzameld in Londense ziekenhuizen konden en moesten worden gebruikt om bewijs te genereren dat bijdraagt aan verbeterde pati\u00ebntenzorg. In haar werk \u201cNotes on Hospitals\u201d gaat ze dieper in op dit idee en beschrijft ze hoe de toekomst van de medische informatica afhangt van de behoefte aan gestandaardiseerde terminologie en datastructuur. Tegenwoordig is de reikwijdte van de gegevens uitgebreid van ziekenhuizen in \u00e9\u00e9n stad naar databases over de hele wereld die miljoenen pati\u00ebnten vertegenwoordigen, maar de behoefte aan hoogwaardige kwaliteit van gegevens ter ondersteuning van onderzoek is niet veranderd. Dit proefschrift richt zich op het verbeteren van de fundamentele wetenschap van standaardisatie van gegevens, gegevenskwaliteit en doelgeschiktheid in gefedereerde netwerken om het vertrouwen in bewijs te vergroten en uiteindelijk het leven van de pati\u00ebnt te verbeteren.\n\nStandaardisatie van gegevens\nHoofdstuk 1 onderzoekt de praktische aspecten van het standaardiseren van diverse gegevensbronnen naar het OMOP Common Data Model (CDM) aan de hand van de ervaring van het bouwen van het European Health Data and Evidence Network (EHDEN). Anekdotisch kenden we de uitdagingen en valkuilen van het extract, transform en load (ETL) proces, maar dankzij dit onderzoek konden we vijfentwintig datapartners uit 11 landen observeren en ondersteunen bij het standaardiseren van hun gegevens. De grootste factor die bijdroeg aan het succes van een datapartner was de samenstelling van het team. Bij het samenstellen van het team moet een balans gevonden worden tussen verschillende expertises: grondige kennis van de brongegevens, expertise in het OMOP CDM en vocabulaires en technische vaardigheden om de gegevenstransformatie te implementeren. De meest voorkomende hindernis voor teams was het mappen van de vocabulaires, waarbij broncodes die niet automatisch konden worden toegewezen aan standaardconcepten handmatig moesten worden beoordeeld. Grote taalmodellen worden nu ingezet om deze last te verminderen, en de introductie van community-driven mappings door het OHDSI vocabulaire team is een belangrijke stap naar een meer adaptieve en collaboratieve toekomst voor standaardisatie van vocabulaires. ETL-teams worstelden ook met kwesties als granulariteit, gelijkwaardigheid en de praktische vraag hoeveel moeite te investeren in het oplossen van zeldzame of dubbelzinnige codes, hoewel deze uitdagingen vaak kunnen worden beperkt door middel van use case-gedreven mappingstrategie\u00ebn waarbij de inspanning gericht is op de grootste analytische relevantie. Ten slotte benadrukte dit werk de noodzaak van duidelijke overeenkomsten rondom datagovernance voorafgaand aan de start van gegevensstandaardisatie. Deelname aan een gefedereerd netwerk veronderstelt immers de deelname van de datapartner aan netwerkonderzoek. De governancevereisten om een dergelijke deelname mogelijk te maken moeten duidelijk en ondubbelzinnig zijn. Zonder duidelijkheid kunnen er later tijdens analyse of publicatie barri\u00e8res aan het licht komen .\n\nHoofdstuk 2 laat zien dat het mogelijk is standaardmethodologie\u00ebn te implementeren om aannames over de onderliggende populatie van een database te beoordelen die voorheen aangepakt werden op het moment van analyse. Uit 11 databases werden 80 definities van observeerbare tijd gebruikt om incidentiecijfers van vijf verschillende uitkomsten van interesse te genereren. De analyse toonde aan dat zelfs relatief kleine verschillen in het defini\u00ebren wanneer observatie begint en eindigt voor een pati\u00ebnt, de schattingen van de incidentie aanzienlijk kunnen veranderen. Belangrijk is dat standaardisatie een mechanisme biedt om consistente benaderingen van observeerbare tijd te implementeren in verschillende databases, terwijl er nog steeds ruimte blijft voor variatie in methoden voor het vastleggen van gegevens .\n\nKwaliteit van gegevens\nStandaardisatie maakt niet alleen methodologische innovatie en gefedereerd onderzoek mogelijk, maar schept ook de voorwaarden voor systematische kwaliteitsbeoordeling. Terwijl wetenschappers studies kunnen ontwerpen en testen zonder toegang te krijgen tot gegevens op pati\u00ebntniveau, moeten gegevenseigenaren nog steeds analyses uitvoeren en resultaten terugsturen naar onderzoeksleiders. Om dit proces betrouwbaar te maken, moet er een manier zijn om te evalueren of elke database voldoet aan minimale kwaliteitsstandaarden zonder de privacy van de pati\u00ebnt in gevaar te brengen. Hoofdstuk 3 beschrijft de ontwikkeling van het Data Quality Dashboard (DQD) om aan deze behoefte te voldoen. Het gestandaardiseerde raamwerk van het OMOP CDM biedt een basis voor het uitvoeren van kwaliteitscontroles op grote schaal, waardoor datapartners transparante, reproduceerbare beoordelingen van hun databases kunnen genereren. De resultaten kunnen vervolgens worden gedeeld met de co\u00f6rdinerende instanties zonder dat informatie op pati\u00ebntniveau wordt onthuld. Het vereisen dat databases die het CDM gebruiken de DQD uitvoeren is een belangrijke eerste stap richting consistente rapportage van gegevenskwaliteit, waardoor het vertrouwen in de gegevens die worden gebruikt in observationele studies in gefedereerde netwerken wordt versterkt.\n\nHoofdstuk 4 maakt vervolgens gebruik van de standaardisatie van gegevens die plaatsvindt tussen datapartners in EHDEN om te meten hoe de DQD de kwaliteit van databases in gefedereerde netwerken verbetert. De tool is toegepast op 25 databases die zijn geconverteerd naar het OMOP CDM en die verschillende gegevensbronnen, methoden voor gegevensvastlegging en onderliggende populaties omvatten. Door van datapartners te eisen om de DQD te voltooien, werd ervoor gezorgd dat elke database voldeed aan de basiskwaliteitsverwachtingen voordat ze deelnamen aan gefedereerde studies. De tool presteerde met name goed bij het beoordelen van de conformiteit aan de structurele eisen van het CDM en bood ook de zekerheid dat gestandaardiseerde studiepakketten foutloos konden worden uitgevoerd. Hoewel studiespecifieke controles essentieel blijven, heeft de DQD een consistente basis gelegd van conformiteit, volledigheid en plausibiliteit in het hele netwerk. Deze applicatie toonde de waarde van de DQD niet alleen voor individuele datapartners, maar ook voor gefedereerde netwerken, waardoor de gegevens klaar zijn als ze nodig zijn.\n\nGeschiktheid voor het doel\nHoofdstuk 5 geeft een overzicht van de meer dan 200 gegevensbronnen uit 29 landen die deelnemen aan het EHDEN netwerk. De verscheidenheid van gezondheidszorgsystemen, methoden voor gegevensverzameling en populaties die in deze bronnen vertegenwoordigd zijn, benadrukt het belang van het gebruik van meerdere datasets om inzicht te geven in het volledige scala aan pati\u00ebntervaringen in Europa. Tegelijkertijd benadrukt deze diversiteit de uitdaging dat van geen enkele database kan worden verwacht dat deze elke (of zelfs de meeste) onderzoeksvragen ondersteunt die aan een netwerk worden gesteld. Bepalen of een database geschikt is voor het beoogde doel is daarom een essenti\u00eble stap voordat studies worden gestart. Vertrouwen op haalbaarheidsbeoordelingen per locatie op basis van gegevens op pati\u00ebntniveau is niet duurzaam of schaalbaar, gezien de benodigde tijd en middelen. Aangezien gefedereerde netwerken zowel qua omvang als qua zichtbaarheid toenemen, ook binnen regelgevende initiatieven zoals DARWIN EU\u00ae, zijn nieuwe benaderingen nodig om de geschiktheid van databases voor het beoogde doel te beoordelen op een manier die zowel effici\u00ebnt is als de privacy beschermt.\n\nHoofdstuk 6 biedt een oplossing voor deze uitdaging door een methode te introduceren en te valideren voor het uitvoeren van vroege doelgeschiktheidsbeoordelingen in gefedereerde netwerken gebruikmakend van alleen vooraf berekende samenvattende statistieken. Door het elimineren van de noodzaak om toegang te krijgen tot gegevens op pati\u00ebntniveau tijdens de studieplanning, vermindert deze aanpak aanzienlijk de tijd, middelen en governancelasten die in deze fase doorgaans nodig zijn. De methode, bekend als Database Diagnostics, gaat verder dan een eenvoudige ja-of-nee haalbaarheidscontrole door diagnostische inzichten te bieden in waarom een bepaald onderzoek al dan niet mogelijk is in een bepaalde database. Deze inzichten kunnen als leidraad dienen voor zowel inspanningen op het gebied van datacuratie als verfijningen in de onderzoeksopzet, waardoor de effici\u00ebntie en interpreteerbaarheid van netwerkonderzoek wordt verbeterd. Database Diagnostics vervult hierdoor een belangrijke methodologische en operationele leemte op door een schaalbare en privacybeschermende manier om de gereedheid van de database te evalueren en uiteindelijk het genereren van real-world bewijs in gefedereerde netwerken te versterken.\n\n\u2749 \u2749 \u2749\n\nDit proefschrift trok parallellen met het historische werk van Florence Nightingale om te illustreren dat de behoefte aan gestandaardiseerde gegevens van hoge kwaliteit niet nieuw is op het gebied van medische informatica. Met de ongekende hoeveelheid beschikbare gegevens en technologie\u00ebn hebben we echter zowel de mogelijkheid als de verplichting om de wetenschap van gegevensstandaardisatie, kwaliteit en geschiktheid voor het doel te verbeteren om zo de betrouwbaarheid van bewijs te waarborgen. Dit proefschrift stelt dat deze elementen het fundament vormen van gedegen gefedereerd observationeel gezondheidsonderzoek. Het is door kritische toetsing, toepassing en transparantie hiervan dat we als onderzoekers kunnen vertrouwen op de wetenschap die op deze fundamenten is gebouwd om bruikbare inzichten te bieden die de pati\u00ebntenzorg verbeteren. Het begint wellicht met de gegevens, maar het eindigt bij de pati\u00ebnt.","summary":"Well known for her heroic efforts in the Crimean war and innovations in nursing practice, Florence Nightingale was also a gifted statistician. She believed that data collected from London hospitals could and should be used to generate evidence in pursuit of improved patient care. In her work \u201cNotes on Hospitals\u201d she expands on this idea, describing how the future of medical informatics hinges on the need for standardized terminology and data structure. Today, the scope of data has expanded from hospitals in one urban city to databases around the world representing millions of patients, but the need for high-quality data to support research has not changed. This thesis focuses on improving the foundational science of data standardization, data quality, and fitness-for-purpose in federated networks to increase trust in evidence and ultimately improve patient lives.\n\nData Standardization\nChapter 1 examines the practicalities of standardizing diverse data sources to the OMOP Common Data Model (CDM) through the experience of building the European Health Data and Evidence Network (EHDEN). Anecdotally, we knew the challenges and pitfalls of the extract, transform, and load (ETL) process, but this study allowed us to observe and support twenty-five data partners from 11 countries as they standardized their data. The largest factor that contributed to a data partners\u2019 success was team composition. Such groups should be balanced with individuals with deep knowledge of the source data, individuals with expertise in the OMOP CDM and vocabularies, and individuals with the technical skills to implement the data transformation. The most consistent hurdle for teams was vocabulary mapping, where source codes that could not be automatically assigned to standard concepts required manual review. Large language models are now being leveraged to reduce this burden, and the introduction of community-driven mappings by the OHDSI vocabulary team marks an important step toward a more adaptive and collaborative future for vocabulary standardization. ETL teams also wrestled with issues of granularity, equivalency, and the practical question of how much effort to invest in resolving rare or ambiguous codes, though these challenges can often be mitigated through use case\u2013driven mapping strategies that focus effort where it has the greatest analytical relevance. Finally, this work highlighted the need for clear data governance agreements prior to the initiation of data standardization. Membership in a federated network presupposes the participation of the data partner in network research. Governance requirements to allow such participation should be clear and unambiguous. Without clarity, barriers can emerge later during analysis or publication.\n\nChapter 2 showcases an opportunity to implement standard methodologies to address assumptions about the underlying population of a database that were previously handled at the time of analysis. 80 definitions of observable time across 11 databases were used to generate incidence rates of five different outcomes of interest. The analysis showed that even relatively minor differences in defining when observation begins and ends for a patient can materially alter incidence rate estimates. Importantly, standardization offers a mechanism to implement consistent approaches to observable time across diverse databases while still accommodating variation in data capture methods.\n\nData Quality\nStandardization not only enables methodological innovation and federated research but also creates the conditions for systematic quality assessment. While scientists can design and test studies without accessing patient-level data, data owners must still execute analyses and return results to study leads. For this process to be trustworthy, there must be a way to evaluate whether each database meets minimum quality standards without compromising patient privacy. Chapter 3 describes the development of the Data Quality Dashboard (DQD) to meet this need. The standardized scaffold of the OMOP CDM provides a foundation for implementing quality checks at scale, allowing data partners to generate transparent, reproducible assessments of their databases. Results can then be communicated to coordinating bodies without exposing patient-level information. Requiring databases mapped to the CDM to run the DQD represents an important first step toward consistently reporting data quality, thereby strengthening confidence in the data used to support observational studies in federated networks.\n\nChapter 4 then utilizes the data standardization exercises taking place among data partners in EHDEN to measure how well the DQD improves the quality of databases in federated networks. The tool was applied to 25 databases mapped to the OMOP CDM spanning diverse data origins, data capture methods, and underlying populations. Requiring partners to complete the DQD ensured that each database met baseline quality expectations before participating in federated studies. In particular, the tool performed well in assessing conformance to CDM structural requirements, providing assurance that standardized study packages could run without error. While study-specific checks remain essential, the DQD established a consistent foundation of conformance, completeness, and plausibility across the network. This application demonstrated the value of the DQD not only for individual data partners but also for federated networks, ensuring the data are ready when the needs arise.\n\nFitness for Purpose\nChapter 5 gives an overview of the more than 200 data sources from 29 countries participating in the EHDEN network. The breadth of healthcare systems, data capture methods, and populations represented across these sources underscores the importance of drawing on multiple datasets to capture the full range of patient experiences in Europe. At the same time, this diversity highlights the persistent challenge that no single database can be expected to support every (or even most) research questions posed to a network. Determining whether a database is fit-for-purpose therefore is an essential step before initiating studies. Relying on site-level feasibility assessments based on patient-level data is neither sustainable nor scalable, given the time and resource demands. As federated networks expand in both size and visibility, including within regulatory initiatives such as DARWIN EU\u00ae, new approaches are needed to assess database fitness-for-purpose in a way that is both efficient and privacy-preserving.\n\nChapter 6 offers a solution to this challenge by introducing and validating a method for performing early fit-for-purpose assessments in federated networks using only precomputed summary statistics. By eliminating the need to access patient-level data during study planning, this approach substantially reduces the time, resources, and governance burdens typically required at this stage. The method, known as Database Diagnostics, goes beyond a simple yes-or-no feasibility check by providing diagnostic insights into why a particular study may not be viable in a given database. These insights can guide both data curation efforts and refinements in study design, improving the efficiency and interpretability of network research. In doing so, Database Diagnostics fills an important methodological and operational gap, offering a scalable and privacy-preserving way to evaluate database readiness and ultimately strengthen the generation of real-world evidence across federated networks.\n\n\u2749 \u2749 \u2749\n\nThis thesis drew parallels to the historical work of Florence Nightingale to illustrate that the needs for high-quality standardized data are not new to the field of medical informatics. However, with the unprecedented amount of data and technologies available, we have both the opportunity and obligation to improve the science of data standardization, quality, and fitness-for-purpose to ensure the reliability of evidence. This thesis argues that these elements make up the foundation of federated observational health research. It is through their interrogation, application, and transparency that we as researchers can trust the science built on these foundations to provide actionable insights that improve patient care. It may start with the data, but it ends with the patient.","auteur":"Clair Blacketer","auteur_slug":"clair-blacketer","publicatiedatum":"8 juli 2026","taal":"EN","url_flipbook":"https:\/\/ebook.proefschriftmaken.nl\/ebook\/clairblacketer?iframe=true","url_download_pdf":"https:\/\/ebook.proefschriftmaken.nl\/download\/35fbce74-ca6f-4a4c-80c8-dccfb751df5d\/optimized","url_epub":"","ordernummer":"19066","isbn":"978-94-6534-441-6","doi_nummer":"","naam_universiteit":"Erasmus Universiteit Rotterdam","afbeeldingen":15847,"naam_student:":"","binnenwerk":"","universiteit":"Erasmus Universiteit Rotterdam","cover":"","afwerking":"","cover_afwerking":"","design":""},"_links":{"self":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio\/15845","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio"}],"about":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/types\/us_portfolio"}],"author":[{"embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/users\/7"}],"replies":[{"embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/comments?post=15845"}],"version-history":[{"count":1,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio\/15845\/revisions"}],"predecessor-version":[{"id":15848,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio\/15845\/revisions\/15848"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/media\/15846"}],"wp:attachment":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/media?parent=15845"}],"wp:term":[{"taxonomy":"us_portfolio_category","embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio_category?post=15845"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}