Afsana Khan

Universiteit Maastricht

Deel dit project

Download PDF

Publicatiedatum: 11 juni 2026

Universiteit: Universiteit Maastricht

ISBN: 978-94-6534-390-7

UNLOCKING VALUE OF DATA WITH VERTICAL FEDERATED LEARNING

Samenvatting

Organisaties genereren en bewaren steeds grotere hoeveelheden data door hun dagelijkse activiteiten. Klantinteracties, financiële gegevens, medische informatie en digitale diensten leveren allemaal data op die organisaties kunnen helpen patronen te herkennen, betere beslissingen te nemen en hun bedrijfsvoering te ondersteunen. Machine learning is een belangrijke manier geworden om deze data te benutten. Door te leren van bestaande data kan een machine learning-model relevante patronen herkennen en voorspellingen doen voor nieuwe situaties. Hierdoor zijn organisaties geholpen risico’s te detecteren, de planning te verbeteren en een duidelijker beeld te krijgen van de factoren die verschillende uitkomsten beïnvloeden. Hoewel de waarde van data algemeen erkend wordt, is optimaal gebruik ervan vaak niet mogelijk omdat de informatie die nodig is voor een robuust model zelden in handen is van één enkele organisatie. Vaak is de informatie verspreid over verschillende partijen, en zou het meest waardevol zijn als deze delen met elkaar worden gecombineerd. Echter, organisaties zijn dikwijls niet in staat of bereid hun data te delen omdat deze gevoelige informatie bevat, onderworpen is aan wettelijke verplichtingen of commerciële waarde heeft. Wanneer gegevens op deze manier in afzonderlijke systemen worden opgeslagen, kunnen ze niet op één centrale plek worden verwerkt en kan conventionele machine learning niet worden toegepast. Daarom is een behoefte ontstaan voor methoden waarmee organisaties kunnen samenwerken zonder hun ruwe data met elkaar te delen of openbaar te maken. Federated learning biedt organisaties de mogelijkheid om een gezamenlijk model te trainen, terwijl hun data lokaal blijft. Elke organisatie (ook wel partij genoemd in federated learning) traint met haar eigen data en deelt alleen inzichten, niet de ruwe data. Hoe deze samenwerking werkt, hangt af van hoe de gegevens zijn verdeeld zijn over de samenwerkende partijen. Bij horizontal federated learning (HFL) bewaren organisaties dezelfde kenmerken voor verschillende individuen, zodat elke partij een compleet lokaal model kan trainen en de updates eenvoudig kunnen worden gecombineerd. Dit maakt het proces relatief eenvoudig. Bij vertical federated learning (VFL) beschikken organisaties over verschillende kenmerken van dezelfde individuen, waardoor geen enkele partij over alle informatie beschikt die nodig is om een volledig model te trainen. Het model moet daarom worden opgesplitst en tijdens de training moeten tussenliggende representaties worden uitgewisseld. Deze opzet vergroot de behoefte aan coördinatie, leidt tot zorgen over communicatie en privacy, en maakt het moeilijker om te beoordelen welke partijen nuttige informatie verstrekken. Ondanks deze moeilijkheden maakt VFL het voor organisaties mogelijk om complementaire informatie te gebruiken die niet direct kan worden gedeeld. Deze kenmerken maken VFL zowel uitdagend als waardevol, en daarom staat VFL centraal in dit proefschrift. In hoofdstuk 2 definiëren we federated learning en leggen we uit hoe het dezelfde principes toepast als conventionele machine learning (zoals loss-minimalisatie en gradient descent), maar dan in een gedistribueerde omgeving waar data lokaal blijven en nooit tussen partijen worden gedeeld. Het hoofdstuk definieert ook horizontal en vertical federated learning en laat zien hoe ze technisch van elkaar verschillen. Horizontal federated learning stelt elke partij in staat een volledig lokaal model te trainen, terwijl vertical federated learning de uitwisseling van tussenliggende representaties vereist, omdat geen enkele partij over alle kenmerken beschikt. Hoofdstuk 3 beantwoordt de eerste onderzoeksvraag door middel van een gestructureerd overzicht van de literatuur over vertical federated learning. Dit hoofdstuk bood een systematisch overzicht aan de hand van een gestructureerd literatuuronderzoek in belangrijke databases en was georganiseerd volgens een levenscyclusmodel met fasen die de basis, ontwikkeling, evaluatie & beheer en implementatie omvatten. Deze organisatie verduidelijkte hoe het werk binnen VFL samenhangt en bracht belangrijke tekortkomingen in de wetenschappelijke literatuur aan het licht. Deze tekortkomingen vormden de basis voor de resterende hoofdstukken van het proefschrift.

Hoofdstuk 4 richt zich op het selecteren van geschikte deelnemers in voor een vertical federated learning model. Dit probleem is belangrijk omdat elke partij verschillende kenmerken inbrengt, en het opnemen van irrelevante of overbodige kenmerken de communicatie vergroot zonder veel voordeel op te leveren. Dit proefschrift introduceert VFL-RPS, een privacybeschermende methode die de relevantie van de kenmerken van elke partij schat voordat de training begint. Het combineert een veilige berekening van de correlatie tussen de kenmerken van de partijen, redundantiedetectie en een voorwaartse selectiestrategie om complementaire deelnemers te identificeren. De resultaten tonen aan dat de methode de modelprestaties kan behouden of zelfs verbeteren met veel minder betrokken partijen, waardoor zowel de rekenkracht als de communicatie worden verminderd. De aanpak vermijdt bovendien de hoge computationele eisen van technieken die gebaseerd zijn op mutual-information en is geschikt voor realistische scenario’s met overlappende of irrelevante kenmerken. Hoofdstuk 4 behandelt de efficiëntie van communicatie in VFL. Normaal gesproken vereist VFL herhaalde uitwisselingen van tussentijdse resultaten tijdens de training, wat onpraktisch is veel situaties, bijvoorbeeld in omgevingen met trage netwerken, beperkte bandbreedte of veel deelnemers. Om deze last te verlichten, stelt het proefschrift een eenmalige methode voor waarbij elke partij zijn lokale gegevens comprimeert tot latente representaties en deze eenmalig deelt met de actieve partij. Er worden twee benaderingen onderzocht: PCA voor lineaire patronen en autoencoders voor niet-lineaire patronen. Dit vervangt veel iteratieve uitwisselingen door één enkele communicatieronde. Experimenten met verschillende datasets laten zien dat het geaggregeerde model consistent beter presteert dan het lokale model en dicht bij het gecentraliseerde model blijft, met de verwachte kleine afname in nauwkeurigheid. Een hogere compressie verbetert ook de privacy door de details in de gedeelde representaties te beperken. Dit toont aan dat praktische VFL niet afhankelijk hoeft te zijn van kostbare iteratieve communicatie en kan worden aangepast aan omgevingen met beperkte middelen. Hoofdstuk 6 behandelt hoe de stimulansen om te participeren eerlijk verdeeld kunnen worden onder deelnemers. In veel VFL-situaties profiteert de actieve partij het meest direct van het uiteindelijke model, omdat zij de labels bezit, terwijl passieve partijen aanvullende functionaliteiten leveren. Zonder een eerlijke manier om de voordelen te delen, is het moeilijk om langdurige samenwerking te handhaven. Dit hoofdstuk herformuleert het probleem als een faillissementsspel, waarbij de totale prestatiewinst de nalatenschap is en de marginale bijdrage van elke partij haar vordering is. Omdat bijdragen elkaar kunnen overlappen, kan de som van de vorderingen de totale winst overschrijden, waardoor deze formulering geschikt is. De Talmoed- of "betwiste kledingregel wordt gebruikt om de nucleolus-allocatie efficiënt te verkrijgen, waarbij eerlijkheid behouden blijft zonder exponentiële coalitieberekeningen te vereisen. Experimenten tonen aan dat deze methode stabiele en intuïtieve allocaties oplevert, daadwerkelijke bijdragen proportioneel beloont en robuust blijft ten opzichte van strategisch gedrag. Vergeleken met bestaande basismodellen biedt het een duidelijkere en gelijkmatigere stimuleringsmechanismen die duurzame federaties ondersteunt. Hoofdstuk 7 onderzoekt hybride datapartitioneringen, waarbij verticale en horizontale splitsingen samen voorkomen. Veel praktijksituaties omvatten organisaties met verschillende kenmerken en die verschillende individuen observeren. Dit hoofdstuk stelt een hybride federated learning-methode voor, waarbij elke partij een embedding van haar eigen kenmerken creëert en de actieve partij deze embeddings combineert met haar eigen representatie om voorspellingen te doen. Een scenario voor de detectie van financiële criminaliteit illustreert hoe transacties gedeelde samples creëren over anderszins gescheiden klantengroepen, waardoor een hybride structuur ontstaat. Experimenten tonen aan dat de methode effectief kan leren van dergelijke partities, waarbij modellen die alleen op lokale kenmerken zijn getraind, worden overtroffen en de prestaties van een gecentraliseerd model worden benaderd, terwijl de data lokaal blijven. Dit breidt federated learning uit naar meer realistische en complexe dataomgevingen.

Hoofdstuk 8 sluit het proefschrift af door de inzichten uit alle hoofdstukken samen te vatten en mogelijkheden voor toekomstig onderzoek te schetsen, zoals het omgaan met drift in VFL, het verklaarbaarder maken van VFL en het gebruik van VFL in grote taalmodellen. De hoofdstukken laten gezamenlijk zien dat VFL waarde kan ontsluiten die ontoegankelijk blijft wanneer organisaties hun data in silo’s bewaren. Door geschikte partners te identificeren, de communicatie te verminderen, incentives eerlijk te verdelen en hybride datapartitionering te ondersteunen, maken de in dit proefschrift ontwikkelde methoden het mogelijk om gedistribueerde informatie te gebruiken zonder de privacy in gevaar te brengen. Deze elementen vormen een praktische basis voor samenwerkingen waarbij data niet gedeeld kunnen worden, maar waar het combineren van inzichten kan leiden tot resultaten die geen enkele organisatie alleen zou kunnen bereiken.

Lees meer