{"id":14532,"date":"2026-04-29T09:46:51","date_gmt":"2026-04-29T09:46:51","guid":{"rendered":"https:\/\/www.proefschriftmaken.nl\/portfolio\/moritz-zanger\/"},"modified":"2026-04-29T09:47:16","modified_gmt":"2026-04-29T09:47:16","slug":"moritz-zanger","status":"publish","type":"us_portfolio","link":"https:\/\/www.proefschriftmaken.nl\/en\/portfolio\/moritz-zanger\/","title":{"rendered":"Moritz Zanger"},"content":{"rendered":"","protected":true},"excerpt":{"rendered":"","protected":true},"author":7,"featured_media":14533,"comment_status":"closed","ping_status":"closed","template":"","meta":{"_acf_changed":false,"footnotes":""},"us_portfolio_category":[45],"class_list":["post-14532","us_portfolio","type-us_portfolio","status-publish","post-password-required","hentry","us_portfolio_category-new-template"],"acf":{"naam_van_het_proefschift":"Efficient Uncertainty Quantification in Deep Reinforcement Learning","samenvatting":"Deze dissertatie betreft de effici\u00ebnte kwantificatie van onzekerheid binnen het domein van deep reinforcement learning. Op het moment van schrijven wordt kunstmatige intelligentie snel ge\u00efntegreerd in de kritieke processen van talloze wetenschappelijke en maatschappelijke domeinen \u2014 van autonoom rijden en medische diagnostiek tot wetenschappelijke ontdekkingen. Een specifieke klasse van machine learning-modellen, diepe neurale netwerken, is bepalend geweest voor deze recente ontwikkeling, dankzij hun buitengewone schaalbaarheid en expressieve kracht. Dergelijke modellen leren door het optimaliseren van een groot aantal parameters om voorspellingen te vormen op basis van eerdere metingen uit omvangrijke datasets. Wanneer we zulke geleerde modellen inzetten in praktische toepassingen, worden ze echter geconfronteerd met nieuwe invoer die niet voorkwam in hun trainingsgegevens. Dergelijke voorspellingen zijn het resultaat van inductieve generalisatie \u2014 het afleiden van inzichten over toekomstige situaties op basis van eerdere ervaring \u2014 en zijn van nature onderhevig aan onzekerheid. Opdat deze voorspellingen bruikbaar zijn, moeten ze vaak vergezeld gaan van een betrouwbare maat voor vertrouwen. Een autonoom voertuig moet niet alleen een voetganger herkennen, maar ook weten wanneer zijn waarneming te onzeker is om veilig door te gaan; een diagnostisch model moet niet alleen een tumor classificeren, maar ook weten wanneer het beter is de beslissing over te laten aan een menselijke expert. Deze noodzaak om te weten wat men niet weet wordt aangepakt via de kwantificatie van epistemische onzekerheid: epistemische onzekerheid ontstaat uit de imperfectie van een geleerd model, doorgaans als gevolg van een tekort aan relevante data. Het is belangrijk om dit type onzekerheid te onderscheiden van aleatorische onzekerheid, die voortkomt uit inherente willekeur in een proces, en niet kan worden verminderd door het verzamelen van meer data.\n\nDe uitdaging van het inschatten van epistemische onzekerheid wordt bijzonder tastbaar in de context van sequenti\u00eble besluitvormingsproblemen. In zulke situaties kunnen de acties van een agent langetermijngevolgen hebben die zich opstapelen in de tijd, en zo toekomstige uitkomsten en keuzes be\u00efnvloeden. Reinforcement learning, een paradigma waarbij agenten dergelijke beslissingsstrategie\u00ebn leren door directe interactie met een omgeving, kent diverse fundamentele uitdagingen die afhangen van betrouwbare onzekerheidsinschatting. Een agent met een goed gekalibreerd besef van zijn eigen onwetendheid kan actief op zoek gaan naar nieuwe situaties om informatie te vergaren en betere strategie\u00ebn te ontdekken. Daarentegen zijn er toepassingen waarin men juist vraagt om agenten die zulke situaties vermijden: we willen geen robotassistenten in de ouderenzorg die onbekend gedrag gaan verkennen omwille van informatievergaring, maar eerder agenten die zich voorzichtig gedragen binnen de grenzen van hun kennis. Ten grondslag aan zowel effici\u00ebnte exploratie als veilige besluitvorming ligt een principieel begrip van epistemische onzekerheid \u2014 het centrale onderwerp van dit proefschrift.\n\nBij het verkennen van het huidige onderzoekslandschap rond onzekerheidskwantificatie in deep learning, zien we een aanhoudende spanning tussen theoretisch goed onderbouwde maar computationeel dure technieken enerzijds, en computationeel effici\u00ebnte maar minder begrepen methoden anderzijds. Bayesiaanse inferentie, algemeen beschouwd als de gouden standaard voor het redeneren over epistemische onzekerheid, is doorgaans onpraktisch voor moderne, grootschalige neurale netwerken. Dit heeft geleid tot een spectrum van benaderingen \u2014 waaronder diepe ensembles, geavanceerde sampling-technieken, en variationale inferentie \u2014 die elk in meer of mindere mate deze afruil proberen te navigeren. Meer pragmatische oplossingen bieden vaak aanzienlijke computationele voordelen, maar missen een diepere theoretische onderbouwing van wat hun onzekerheidsschattingen precies representeren of hoe ze zich in de praktijk gedragen. Uit dit landschap volgt de onderzoeksmissie van deze dissertatie: om deze afweging direct aan te pakken door onzekerheidskwantificatiemethoden te ontwikkelen en analyseren die zowel computationeel tractabel als theoretisch goed gemotiveerd zijn. Daartoe wil dit proefschrift afstappen van een \u201cblack-box\u201d-benadering van neurale netwerken, en in plaats daarvan methoden ontwikkelen die gebaseerd zijn op \u2014 en gebruikmaken van \u2014 hun intrinsieke generalisatie-eigenschappen.\n\nOnze eerste onderzoekslijn, gepresenteerd in Hoofdstuk 3, begint met het analyseren van een de facto standaard voor epistemische onzekerheidsinschatting in deep learning: diepe neurale netwerkensembles. We stellen de hypothese dat de effectiviteit van ensembles niet slechts wordt bepaald door het aantal modellen, maar door de kwaliteit van hun diversiteit. In het bijzonder richten we ons op distributionele reinforcement learning, waarin bepaalde architecturale componenten \u2014 namelijk de projectie-operatoren die gebruikt worden om retourverdelingen te benaderen \u2014 sterke inductieve vooroordelen kunnen opleveren die het generalisatiegedrag aanzienlijk be\u00efnvloeden. Op basis van dit inzicht ontwikkelen we diverse projection ensembles, die diversiteit van nature afdwingen door leden met architectonisch verschillende projectie-operatoren te combineren. We tonen empirisch aan dat deze aanpak robuustere onzekerheidssignalen oplevert, waardoor kleinere ensembles betere exploratieprestaties behalen in uitdagende omgevingen dan grotere, homogene ensembles.\n\nOnze tweede onderzoekslijn, in Hoofdstukken 4 en 5, streeft het ambitieuzere doel na om de onzekerheidseigenschappen van een volledig ensemble na te bootsen met \u00e9\u00e9n enkel, effici\u00ebnt model. In Hoofdstuk 4 introduceren we een nieuwe techniek \u2014 contextual similarity distillation \u2014 die geschikt is voor epistemische onzekerheidsinschatting met een enkel model dat getraind wordt via gradient descent. Door de leerdynamiek en generalisatie-eigenschappen van brede neurale netwerken te analyseren via de neural tangent kernel, herformuleren we het onoplosbare probleem van analytische ensemblevarianties als een oplosbare, contextuele kernelregressietaak \u2014 uitvoerbaar met \u00e9\u00e9n functiebenaderaar, zoals een neuraal netwerk. In Hoofdstuk 5 hanteren we een complementaire aanpak door een ontbrekende theoretische basis te leveren voor een bestaande, wijdverbreide single-model-methode voor onzekerheidskwantificatie: random network distillation. Onze analyse toont aan dat de onzekerheidsschatting van random network distillation niet slechts een heuristiek is, maar in de ge\u00efdealiseerde oneindig-brede limiet formeel gelijkwaardig is aan de voorspellende variantie van een diep ensemble. Op basis van dit inzicht ontwikkelen we een nieuwe Bayesian random network distillation-algoritme waarvan het foutsignaal zodanig kan worden gevormd dat het exact overeenkomt met de posterior voorspellende variantie van een oneindig breed Bayesiaans neuraal netwerk. Hiermee plaatsen we de methode op solide theoretische grond binnen het kader van Bayesiaanse inferentie.\n\nOns onderzoek wordt afgesloten in Hoofdstuk 6, waarin we inzichten uit voorafgaand werk synthetiseren om een centrale uitdaging in onzekerheidskwantificatie binnen reinforcement learning aan te pakken: de directe inschatting van langetermijn- of cumulatieve onzekerheid. De eerder ontwikkelde methoden zijn weliswaar effici\u00ebnt, maar richten zich voornamelijk op onmiddellijke, \u00e9\u00e9n-stap-onzekerheden. In contrast daarmee ontwikkelen we in dit hoofdstuk een nieuwe single-model methode \u2014 universal value-function uncertainties \u2014 die direct de cumulatieve onzekerheid in waarde-functies inschat, inclusief alle toekomstige onzekerheden onder een gegeven beleid. De methode meet onzekerheid als het verschil tussen een online waarde-functie, getraind via temporal difference learning, en een vaste doelfunctie, waaruit een synthetisch beloningssignaal wordt afgeleid. Onze theoretische analyse, gebaseerd op neural tangent kernel-theorie, bewijst dat deze procedure onzekerheidsschattingen oplevert die equivalent zijn aan de variantie van een volledig ensemble van universele waarde-functies. Daarnaast tonen we empirisch aan dat onze benadering zich gedraagt als een betrouwbare onzekerheidsschatting in veeleisende multi-taak offline reinforcement learning-settings, waarbij langetermijnonzekerheid wordt geleverd met de effici\u00ebntie van een enkel model.\n\nConcluderend volgt deze dissertatie een samenhangend pad van wetenschappelijke verkenning, gaande van het verbeteren van multi-model ensembles tot het ontwikkelen van een reeks theoretisch gefundeerde en computationeel effici\u00ebnte single-model-alternatieven. De bijdragen die hier gepresenteerd worden, bieden zowel een praktische gereedschapskist voor gebruikers als nieuwe theoretische inzichten in onzekerheidsinschatting binnen deep learning. Het overkoepelende doel van dit werk is om een beslissende stap te zetten richting betrouwbare, onzekerheidsbewuste autonome agenten. Door deze agenten uit te rusten met een principieel begrip van hun eigen kennis en de grenzen daarvan, leggen we het fundament niet alleen voor veilige en verantwoorde inzet in de echte wereld, maar ook voor effici\u00ebntere exploratie en autonome ontdekking.","summary":"This dissertation concerns the efficient quantification of uncertainty in the field of deep reinforcement learning. At the time of this writing, artificial intelligence is being adopted rapidly into the critical pipelines of numerous scientific and societal domains \u2014 from autonomous driving and medical diagnostics to scientific discovery. A particular class of machine learning models, deep neural networks, has been pivotal in this recent development due to their extraordinary scalability and expressive power. Such models learn by optimizing vast sets of parameters to shape predictions according to previous measurements, captured in large datasets. When we deploy such learned models for practical applications, however, they are asked to make predictions for novel inputs not represented in their training data. Such predictions are the result of inductive generalization \u2014 deriving insights about future situations from past experience \u2014 and are inherently subject to uncertainty. For these predictions to be actionable, they must often be accompanied by a reliable measure of confidence. An autonomous vehicle must not only recognize a pedestrian but also know when its perception is too uncertain to proceed safely; a diagnostic model must not only classify a tumor but also know when to defer to a human expert. This need to know what one does not know is addressed by the quantification of epistemic uncertainty, which arises from the imperfection of a learned model, often due to a lack of sufficient relevant data. This stands in contrast to aleatoric uncertainty \u2014 the irreducible, inherent randomness in a process \u2014 and it is this reducible, model-centric epistemic uncertainty that forms the central object of inquiry for this dissertation.\n\nThe challenge of epistemic uncertainty estimation becomes especially tangible in the context of sequential decision-making problems. In such settings, an agent\u2019s actions can have long-term consequences that compound over time, shaping downstream outcomes and choices. Reinforcement learning, a paradigm in which agents learn such decision-making strategies through direct interaction with an environment, faces several fundamental challenges that hinge on reliable uncertainty estimation. An agent with a well-calibrated sense of its own ignorance can actively seek out novel situations to gain information and discover superior strategies. Conversely, some applications demand agents that are naturally averse to such situations: we do not seek robotic assistants in elderly care to explore unfamiliar behaviors for the sake of information gain, but rather ones that operate conservatively within the bounds of their knowledge. Underpinning both efficient exploration and safe decision-making is a principled understanding of an agent\u2019s own epistemic uncertainty \u2014 the central topic of this thesis.\n\nExamining the current research landscape of uncertainty quantification in deep learning, we observe a persistent tension between theoretically well-motivated yet computationally expensive techniques on one hand, and computationally efficient yet less understood methods on the other. Bayesian inference, widely regarded as the gold standard for reasoning about epistemic uncertainty, is generally intractable for modern, large-scale neural networks. This has led to a spectrum of approximate methods \u2014 including deep ensembles, advanced sampling techniques, and variational inference \u2014 that navigate this trade-off to varying degrees. More pragmatic solutions, meanwhile, often offer substantial computational savings but lack a deeper theoretical understanding of what their uncertainty estimates represent, or how they behave in practice. From this landscape, we derive the research mission for this dissertation: to engage directly with this trade-off by developing and analyzing uncertainty quantification methods that are both computationally tractable and theoretically well-motivated. To this end, this thesis aims to depart from a \u201cblack-box\u201d treatment of neural networks, instead pursuing methods that are grounded in and seek to leverage their inherent generalization properties.\n\nOur first line of inquiry, presented in Chapter 3, begins by investigating a de facto standard for epistemic uncertainty estimation in deep learning: deep neural network ensembles. We hypothesize that the efficacy of ensembles is constrained not merely by the number of constituent models but by the quality of their diversity. Focusing on distributional reinforcement learning, we observe that specific architectural components \u2014 namely, the projection operators used to approximate return distributions \u2014 can induce strong inductive biases that significantly shape generalization behavior. Building on this insight, we develop diverse projection ensembles, which induce diversity by construction through the use of members with architecturally distinct projection operators. We show empirically that this approach yields more robust uncertainty signals, enabling smaller ensembles to achieve superior exploration performance in challenging environments compared to larger, homogeneous ensembles.\n\nOur second line of inquiry, spanning Chapters 4 and 5, pursues the more ambitious goal of emulating the uncertainty properties of an entire deep neural network ensemble within a single, efficient model. In Chapter 4, we develop a novel technique \u2014 contextual similarity distillation \u2014 that is amenable to epistemic uncertainty estimation with a single model trained with gradient descent. By analyzing the learning dynamics and generalization properties of wide neural networks through the lens of the neural tangent kernel, we reframe the intractable problem of computing analytical ensemble variances as a tractable, contextualized kernel regression task \u2014 solvable with a single function approximator, such as a neural network. In Chapter 5, we take a complementary approach by establishing a missing theoretical foundation for an existing, widely used single-model uncertainty quantification method: random network distillation. Our analysis reveals that the uncertainty produced by random network distillation is not merely a heuristic signal but is, in the idealized infinite-width limit, formally equivalent to the predictive variance of a deep ensemble. Building on this insight, we devise a novel Bayesian random network distillation algorithm whose error signal can be shaped to exactly match the posterior predictive variance of an infinitely wide Bayesian neural network. This places the method on principled theoretical footing within the framework of Bayesian inference.\n\nOur research concludes in Chapter 6, which synthesizes insights from the preceding work to address a central challenge of uncertainty quantification in reinforcement learning: the direct estimation of long-term, cumulative uncertainty. The methods developed previously, while efficient, primarily quantify immediate, one-step uncertainties. In contrast, this chapter develops a novel single-model method \u2014 universal value-function uncertainties \u2014 that directly quantifies the cumulative uncertainty of value functions, accounting for all future uncertainties encountered under a given policy. The method measures uncertainty as the error between an online value function, trained via temporal difference learning, and a fixed target function, from which a synthetic reward signal is derived. Our theoretical analysis, grounded in neural tangent kernel theory, proves that this procedure yields uncertainty estimates equivalent to the variance of a full ensemble of universal value functions. We furthermore demonstrate empirically that our approach serves as a reliable uncertainty estimator in challenging multi-task offline reinforcement learning settings, providing long-term value uncertainty with the efficiency of a single model.\n\nIn conclusion, this dissertation follows a coherent path of scientific inquiry, progressing from the enhancement of multi-model ensembles to the development of a suite of theoretically grounded and computationally efficient single-model alternatives. The contributions presented herein provide both a practical toolkit for practitioners and novel theoretical insights toward a more thorough understanding of uncertainty estimation in deep learning. The overarching goal of this work is to take a definitive step towards creating more reliable, uncertainty-aware autonomous agents. By equipping agents with a principled understanding of their own knowledge and its limitations, we lay the foundation not only for their safe and responsible deployment in real-world applications but also for more efficient exploration and autonomous discovery.","auteur":"Moritz Zanger","auteur_slug":"moritz-zanger","publicatiedatum":"11 mei 2026","taal":"EN","url_flipbook":"https:\/\/ebook.proefschriftmaken.nl\/ebook\/moritzzanger?iframe=true","url_download_pdf":"https:\/\/ebook.proefschriftmaken.nl\/download\/f3ed84f0-053c-4e58-8b24-1d4da61d682b\/optimized","url_epub":"","ordernummer":"18925","isbn":"978-94-6384-959-3","doi_nummer":"","naam_universiteit":"Overig","afbeeldingen":14534,"naam_student:":"","binnenwerk":"","universiteit":"Overig","cover":"","afwerking":"","cover_afwerking":"","design":""},"_links":{"self":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio\/14532","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio"}],"about":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/types\/us_portfolio"}],"author":[{"embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/users\/7"}],"replies":[{"embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/comments?post=14532"}],"version-history":[{"count":1,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio\/14532\/revisions"}],"predecessor-version":[{"id":14535,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio\/14532\/revisions\/14535"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/media\/14533"}],"wp:attachment":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/media?parent=14532"}],"wp:term":[{"taxonomy":"us_portfolio_category","embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio_category?post=14532"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}