{"id":14941,"date":"2026-05-06T12:34:04","date_gmt":"2026-05-06T12:34:04","guid":{"rendered":"https:\/\/www.proefschriftmaken.nl\/portfolio\/afsana-khan\/"},"modified":"2026-05-06T12:34:22","modified_gmt":"2026-05-06T12:34:22","slug":"afsana-khan","status":"publish","type":"us_portfolio","link":"https:\/\/www.proefschriftmaken.nl\/en\/portfolio\/afsana-khan\/","title":{"rendered":"Afsana Khan"},"content":{"rendered":"","protected":true},"excerpt":{"rendered":"","protected":true},"author":7,"featured_media":14942,"comment_status":"closed","ping_status":"closed","template":"","meta":{"_acf_changed":false,"footnotes":""},"us_portfolio_category":[45],"class_list":["post-14941","us_portfolio","type-us_portfolio","status-publish","post-password-required","hentry","us_portfolio_category-new-template"],"acf":{"naam_van_het_proefschift":"UNLOCKING VALUE OF DATA WITH VERTICAL FEDERATED LEARNING","samenvatting":"Organisaties genereren en bewaren steeds grotere hoeveelheden data door hun dagelijkse activiteiten. Klantinteracties, financi\u00eble gegevens, medische informatie en digitale diensten leveren allemaal data op die organisaties kunnen helpen patronen te herkennen, betere beslissingen te nemen en hun bedrijfsvoering te ondersteunen. Machine learning is een belangrijke manier geworden om deze data te benutten. Door te leren van bestaande data kan een machine learning-model relevante patronen herkennen en voorspellingen doen voor nieuwe situaties. Hierdoor zijn organisaties geholpen risico\u2019s te detecteren, de planning te verbeteren en een duidelijker beeld te krijgen van de factoren die verschillende uitkomsten be\u00efnvloeden. Hoewel de waarde van data algemeen erkend wordt, is optimaal gebruik ervan vaak niet mogelijk omdat de informatie die nodig is voor een robuust model zelden in handen is van \u00e9\u00e9n enkele organisatie. Vaak is de informatie verspreid over verschillende partijen, en zou het meest waardevol zijn als deze delen met elkaar worden gecombineerd. Echter, organisaties zijn dikwijls niet in staat of bereid hun data te delen omdat deze gevoelige informatie bevat, onderworpen is aan wettelijke verplichtingen of commerci\u00eble waarde heeft. Wanneer gegevens op deze manier in afzonderlijke systemen worden opgeslagen, kunnen ze niet op \u00e9\u00e9n centrale plek worden verwerkt en kan conventionele machine learning niet worden toegepast. Daarom is een behoefte ontstaan voor methoden waarmee organisaties kunnen samenwerken zonder hun ruwe data met elkaar te delen of openbaar te maken. Federated learning biedt organisaties de mogelijkheid om een gezamenlijk model te trainen, terwijl hun data lokaal blijft. Elke organisatie (ook wel partij genoemd in federated learning) traint met haar eigen data en deelt alleen inzichten, niet de ruwe data. Hoe deze samenwerking werkt, hangt af van hoe de gegevens zijn verdeeld zijn over de samenwerkende partijen. Bij horizontal federated learning (HFL) bewaren organisaties dezelfde kenmerken voor verschillende individuen, zodat elke partij een compleet lokaal model kan trainen en de updates eenvoudig kunnen worden gecombineerd. Dit maakt het proces relatief eenvoudig. Bij vertical federated learning (VFL) beschikken organisaties over verschillende kenmerken van dezelfde individuen, waardoor geen enkele partij over alle informatie beschikt die nodig is om een volledig model te trainen. Het model moet daarom worden opgesplitst en tijdens de training moeten tussenliggende representaties worden uitgewisseld. Deze opzet vergroot de behoefte aan co\u00f6rdinatie, leidt tot zorgen over communicatie en privacy, en maakt het moeilijker om te beoordelen welke partijen nuttige informatie verstrekken. Ondanks deze moeilijkheden maakt VFL het voor organisaties mogelijk om complementaire informatie te gebruiken die niet direct kan worden gedeeld. Deze kenmerken maken VFL zowel uitdagend als waardevol, en daarom staat VFL centraal in dit proefschrift. In hoofdstuk 2 defini\u00ebren we federated learning en leggen we uit hoe het dezelfde principes toepast als conventionele machine learning (zoals loss-minimalisatie en gradient descent), maar dan in een gedistribueerde omgeving waar data lokaal blijven en nooit tussen partijen worden gedeeld. Het hoofdstuk definieert ook horizontal en vertical federated learning en laat zien hoe ze technisch van elkaar verschillen. Horizontal federated learning stelt elke partij in staat een volledig lokaal model te trainen, terwijl vertical federated learning de uitwisseling van tussenliggende representaties vereist, omdat geen enkele partij over alle kenmerken beschikt. Hoofdstuk 3 beantwoordt de eerste onderzoeksvraag door middel van een gestructureerd overzicht van de literatuur over vertical federated learning. Dit hoofdstuk bood een systematisch overzicht aan de hand van een gestructureerd literatuuronderzoek in belangrijke databases en was georganiseerd volgens een levenscyclusmodel met fasen die de basis, ontwikkeling, evaluatie & beheer en implementatie omvatten. Deze organisatie verduidelijkte hoe het werk binnen VFL samenhangt en bracht belangrijke tekortkomingen in de wetenschappelijke literatuur aan het licht. Deze tekortkomingen vormden de basis voor de resterende hoofdstukken van het proefschrift.\n\nHoofdstuk 4 richt zich op het selecteren van geschikte deelnemers in voor een vertical federated learning model. Dit probleem is belangrijk omdat elke partij verschillende kenmerken inbrengt, en het opnemen van irrelevante of overbodige kenmerken de communicatie vergroot zonder veel voordeel op te leveren. Dit proefschrift introduceert VFL-RPS, een privacybeschermende methode die de relevantie van de kenmerken van elke partij schat voordat de training begint. Het combineert een veilige berekening van de correlatie tussen de kenmerken van de partijen, redundantiedetectie en een voorwaartse selectiestrategie om complementaire deelnemers te identificeren. De resultaten tonen aan dat de methode de modelprestaties kan behouden of zelfs verbeteren met veel minder betrokken partijen, waardoor zowel de rekenkracht als de communicatie worden verminderd. De aanpak vermijdt bovendien de hoge computationele eisen van technieken die gebaseerd zijn op mutual-information en is geschikt voor realistische scenario\u2019s met overlappende of irrelevante kenmerken. Hoofdstuk 4 behandelt de effici\u00ebntie van communicatie in VFL. Normaal gesproken vereist VFL herhaalde uitwisselingen van tussentijdse resultaten tijdens de training, wat onpraktisch is veel situaties, bijvoorbeeld in omgevingen met trage netwerken, beperkte bandbreedte of veel deelnemers. Om deze last te verlichten, stelt het proefschrift een eenmalige methode voor waarbij elke partij zijn lokale gegevens comprimeert tot latente representaties en deze eenmalig deelt met de actieve partij. Er worden twee benaderingen onderzocht: PCA voor lineaire patronen en autoencoders voor niet-lineaire patronen. Dit vervangt veel iteratieve uitwisselingen door \u00e9\u00e9n enkele communicatieronde. Experimenten met verschillende datasets laten zien dat het geaggregeerde model consistent beter presteert dan het lokale model en dicht bij het gecentraliseerde model blijft, met de verwachte kleine afname in nauwkeurigheid. Een hogere compressie verbetert ook de privacy door de details in de gedeelde representaties te beperken. Dit toont aan dat praktische VFL niet afhankelijk hoeft te zijn van kostbare iteratieve communicatie en kan worden aangepast aan omgevingen met beperkte middelen. Hoofdstuk 6 behandelt hoe de stimulansen om te participeren eerlijk verdeeld kunnen worden onder deelnemers. In veel VFL-situaties profiteert de actieve partij het meest direct van het uiteindelijke model, omdat zij de labels bezit, terwijl passieve partijen aanvullende functionaliteiten leveren. Zonder een eerlijke manier om de voordelen te delen, is het moeilijk om langdurige samenwerking te handhaven. Dit hoofdstuk herformuleert het probleem als een faillissementsspel, waarbij de totale prestatiewinst de nalatenschap is en de marginale bijdrage van elke partij haar vordering is. Omdat bijdragen elkaar kunnen overlappen, kan de som van de vorderingen de totale winst overschrijden, waardoor deze formulering geschikt is. De Talmoed- of \"betwiste kledingregel wordt gebruikt om de nucleolus-allocatie effici\u00ebnt te verkrijgen, waarbij eerlijkheid behouden blijft zonder exponenti\u00eble coalitieberekeningen te vereisen. Experimenten tonen aan dat deze methode stabiele en intu\u00eftieve allocaties oplevert, daadwerkelijke bijdragen proportioneel beloont en robuust blijft ten opzichte van strategisch gedrag. Vergeleken met bestaande basismodellen biedt het een duidelijkere en gelijkmatigere stimuleringsmechanismen die duurzame federaties ondersteunt. Hoofdstuk 7 onderzoekt hybride datapartitioneringen, waarbij verticale en horizontale splitsingen samen voorkomen. Veel praktijksituaties omvatten organisaties met verschillende kenmerken en die verschillende individuen observeren. Dit hoofdstuk stelt een hybride federated learning-methode voor, waarbij elke partij een embedding van haar eigen kenmerken cre\u00ebert en de actieve partij deze embeddings combineert met haar eigen representatie om voorspellingen te doen. Een scenario voor de detectie van financi\u00eble criminaliteit illustreert hoe transacties gedeelde samples cre\u00ebren over anderszins gescheiden klantengroepen, waardoor een hybride structuur ontstaat. Experimenten tonen aan dat de methode effectief kan leren van dergelijke partities, waarbij modellen die alleen op lokale kenmerken zijn getraind, worden overtroffen en de prestaties van een gecentraliseerd model worden benaderd, terwijl de data lokaal blijven. Dit breidt federated learning uit naar meer realistische en complexe dataomgevingen.\n\nHoofdstuk 8 sluit het proefschrift af door de inzichten uit alle hoofdstukken samen te vatten en mogelijkheden voor toekomstig onderzoek te schetsen, zoals het omgaan met drift in VFL, het verklaarbaarder maken van VFL en het gebruik van VFL in grote taalmodellen. De hoofdstukken laten gezamenlijk zien dat VFL waarde kan ontsluiten die ontoegankelijk blijft wanneer organisaties hun data in silo\u2019s bewaren. Door geschikte partners te identificeren, de communicatie te verminderen, incentives eerlijk te verdelen en hybride datapartitionering te ondersteunen, maken de in dit proefschrift ontwikkelde methoden het mogelijk om gedistribueerde informatie te gebruiken zonder de privacy in gevaar te brengen. Deze elementen vormen een praktische basis voor samenwerkingen waarbij data niet gedeeld kunnen worden, maar waar het combineren van inzichten kan leiden tot resultaten die geen enkele organisatie alleen zou kunnen bereiken.","summary":"Organisations generate and store increasing amounts of data through their daily activities. Customer interactions, financial records, medical information, and digital services all produce data that can help organisations understand patterns, improve decisions and support their operations. Machine learning has become an important way to make use of this data. By learning from existing data, a machine learning model can identify relevant patterns and make predictions for new situations. This has helped organisations detect risks, improve planning, and gain a clearer view of the factors that influence different outcomes. Although the value of data is widely recognised, its best use is often not possible because the information needed for a strong model is rarely held by one organisation alone. Different parties possess different parts of the information, and these parts would be most useful when combined. However, they are not able or willing to share their data because it contains sensitive details, is subject to legal requirements, or has commercial importance. When data remains siloed in this way, it cannot be gathered in a single place, and conventional machine learning cannot be applied. This situation has increased the need for methods that allow organisations to collaborate without revealing their raw data. Federated learning offers a way for organisations to train a shared model while keeping their data local. Each party trains on its own data and shares only insights, not the raw data. How this collaboration works depends on how the data are partitioned. In horizontal federated learning (HFL), organisations hold the same features for different individuals, so each can train a complete local model, and the updates can be combined easily. This makes the process relatively simple. In vertical federated learning (VFL), organisations hold different features about the same samples, so no single party has all the information needed to train a full model. The model must therefore be split, and intermediate representations must be exchanged during training. This setup increases coordination needs, raises communication and privacy concerns, and makes it harder to judge which parties provide useful information. Despite these difficulties, vertical federated learning allows organisations to use complementary information that cannot be shared directly. These characteristics make VFL both challenging and valuable, and they form the focus of this dissertation. In Chapter 2, we define federated learning and explain how it applies the same loss-minimisation and gradient descent principles used in conventional machine learning, but in a distributed setting where data remain local and are never shared between parties. The chapter also defines horizontal and vertical federated learning and shows how they differ technically. Horizontal learning allows each party to train a full local model, while vertical learning requires the exchange of intermediate representations because no single party has all the features. Chapter 3 answers the first guiding question through a structured review of the vertical federated learning literature. This chapter provided a systematic overview using a structured literature review across major databases and was organised into a lifecycle view with stages covering foundations, development, evaluation & management, and deployment. This organisation clarified how work in VFL fits together and revealed important gaps. These gaps shaped the remaining chapters of the dissertation.\n\nChapter 4 focuses on selecting suitable participants in a vertical federation. This problem matters because each party contributes different features, and including irrelevant or redundant features increases communication and provides little benefit. This dissertation proposes VFL-RPS, a privacy-preserving method that estimates the relevance of each party\u2019s features before training begins. It combines secure computation of correlation among features of the parties, redundancy detection, and a forward selection strategy to identify complementary participants. The results show that the method can preserve or improve model performance while involving far fewer parties, reducing both computation and communication. The approach also avoids the heavy requirements of mutual-information-based techniques and handles realistic scenarios with overlapping or irrelevant features. Chapter 5 addresses communication efficiency in VFL. Standard VFL requires repeated exchanges of intermediate results during training, which is impractical in settings with slow networks, limited bandwidth, or many participants. To reduce this burden, the dissertation proposes a one-shot method in which each party compresses its local data into latent representations and shares these once with the active party. Two approaches are explored: PCA for linear and autoencoders for nonlinear patterns. This replaces many iterative exchanges with a single round of communication. Experiments across several datasets show that the aggregated model consistently performs better than the local model and remains close to the centralised model, with the expected small trade-off in accuracy. Higher compression also improves privacy by limiting the detail in the shared representations. This demonstrates that practical VFL does not need to rely on expensive iterative communication and can be adapted to constrained environments. Chapter 6 considers how incentives can be shared fairly among participants. In many VFL settings, the active party gains the most direct benefit from the final model because it holds the labels, while passive parties provide additional features. Without a fair way to share benefits, it is difficult to maintain long-term collaboration. This chapter reframes the problem as a bankruptcy game, where the total performance gain is the estate, and each party\u2019s marginal contribution is its claim. Because contributions can overlap, the sum of claims can exceed the total gain, making this framing suitable. The Talmud or contest-garment rule is used to obtain the nucleolus allocation efficiently, keeping fairness without requiring exponential coalition computations. Experiments show that this method provides stable and intuitive allocations, rewards genuine contributions proportionally, and remains robust to strategic behaviour. Compared with existing baselines, it offers a clearer and more balanced incentive structure that supports sustained federations. Chapter 7 explores hybrid data partitions, where vertical and horizontal splits appear together. Many real-world settings involve organisations that hold different features and observe different individuals. This chapter proposes a hybrid federated learning method in which each party creates an embedding of its own features, and the active party combines these embeddings with its own representation to make predictions.\n\nA financial crime detection scenario illustrates how transactions create shared samples across otherwise disjoint customer groups, forming a hybrid structure. Experiments show that the method can effectively learn from such partitions, outperforming models trained only on local features and approaching the performance of a centralised model while keeping data local. This extends federated learning to more realistic and complex data environments.\n\nChapter 8 concludes the dissertation by bringing together the insights from all chapters and outlining directions for future work in handling drift in VFL, making VFL more explainable, and the use of VFL in large language models. The chapters collectively show that VFL can unlock value that remains inaccessible when organisations keep their data siloed. By identifying suitable partners, reducing communication, sharing incentives fairly, and supporting hybrid data partitions, the methods developed in this dissertation make it possible to use distributed information without compromising privacy. These elements form a practical foundation for collaborations in which data cannot be shared but where combining insights can lead to outcomes that no single organisation could achieve alone.","auteur":"Afsana Khan","auteur_slug":"afsana-khan","publicatiedatum":"11 juni 2026","taal":"EN","url_flipbook":"https:\/\/ebook.proefschriftmaken.nl\/ebook\/afsanakhan?iframe=true","url_download_pdf":"https:\/\/ebook.proefschriftmaken.nl\/download\/0f6110a6-8c93-4c74-8d87-d4d89a301379\/optimized","url_epub":"","ordernummer":"18809","isbn":"978-94-6534-390-7","doi_nummer":"","naam_universiteit":"Universiteit Maastricht","afbeeldingen":14943,"naam_student:":"","binnenwerk":"","universiteit":"Universiteit Maastricht","cover":"","afwerking":"","cover_afwerking":"","design":""},"_links":{"self":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio\/14941","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio"}],"about":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/types\/us_portfolio"}],"author":[{"embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/users\/7"}],"replies":[{"embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/comments?post=14941"}],"version-history":[{"count":1,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio\/14941\/revisions"}],"predecessor-version":[{"id":14944,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio\/14941\/revisions\/14944"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/media\/14942"}],"wp:attachment":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/media?parent=14941"}],"wp:term":[{"taxonomy":"us_portfolio_category","embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio_category?post=14941"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}