{"id":15053,"date":"2026-05-11T12:21:54","date_gmt":"2026-05-11T12:21:54","guid":{"rendered":"https:\/\/www.proefschriftmaken.nl\/portfolio\/pascal-van-der-vaart\/"},"modified":"2026-05-11T12:22:13","modified_gmt":"2026-05-11T12:22:13","slug":"pascal-van-der-vaart","status":"publish","type":"us_portfolio","link":"https:\/\/www.proefschriftmaken.nl\/en\/portfolio\/pascal-van-der-vaart\/","title":{"rendered":"Pascal van der Vaart"},"content":{"rendered":"","protected":true},"excerpt":{"rendered":"","protected":true},"author":7,"featured_media":15054,"comment_status":"closed","ping_status":"closed","template":"","meta":{"_acf_changed":false,"footnotes":""},"us_portfolio_category":[45],"class_list":["post-15053","us_portfolio","type-us_portfolio","status-publish","post-password-required","hentry","us_portfolio_category-new-template"],"acf":{"naam_van_het_proefschift":"BAYESIAN MODEL-FREE DEEP REINFORCEMENT LEARNING","samenvatting":"Het doel van reinforcement learning is het trainen van agenten om taken uit te voeren met minimale supervisie. Taken worden gespecificeerd door een beloningsfunctie en een transitiefunctie, die aangeven hoeveel beloning de agent ontvangt voor zijn actie in een bepaalde toestand, en hoe de omgevingstoestand verandert op basis van de actie die de agent heeft ondernomen. Reinforcement learning gaat doorgaans uit van geen voorkennis over de belonings- en transitiefunctie, wat betekent dat agenten de omgeving moeten verkennen en in wezen moeten leren door middel van trial and error. Modelvrije methoden proberen te leren welke acties tot goede uitkomsten leiden, zonder de beloning of de omgeving precies te modelleren. Het effici\u00ebnt selecteren van veelbelovende acties is een actieve onderzoeksrichting die het totale aantal benodigde interacties voor een agent om een taak te leren aanzienlijk kan verminderen, waardoor mogelijk nieuwe toepassingen mogelijk worden waarbij experimenten of simulaties kostbaar zijn of de rekenkracht beperkt is.\n\nKwantificering van onzekerheid is een centraal mechanisme in dergelijke effici\u00ebnte exploratiemethoden. Met een schatting van hoe zeker de agent is over de uitkomst van een actie, kan hij op intelligente wijze afwegen of het de moeite waard is om te verkennen. Het Bayesiaans paradigma is \u00e9\u00e9n methode om onzekerheid in kunstmatige intelligentie te kwantificeren; het modelleert de onzekerheid met een kansverdeling over modellen, waarbij wordt aangegeven hoe waarschijnlijk een model is op basis van de data die de agent heeft verzameld.\n\nWij nemen een Bayesiaans standpunt in bij modelvrij reinforcement learning en ontwikkelen een dieper inzicht in wanneer Bayesiaanse reinforcement learning-methoden naar verwachting goed werken en welke uitdagingen er nog resteren. In dat kader stellen we in Hoofdstuk 2 voor om ensembles te trainen via Sequential Monte Carlo, waarbij een steekproef wordt verkregen uit de posteriorverdeling van een deep Q-learning agent. We stellen vast dat agenten gerichte exploratie kunnen uitvoeren, hoewel niet noodzakelijkerwijs effici\u00ebnter dan standaard ensembles in elke taak. Verder analyseren we in Hoofdstuk 3 theoretisch bestaande Bayesiaanse diepe modelvrije reinforcement learning-methoden en verenigen we deze in \u00e9\u00e9n theoretisch raamwerk dat we Epistemic Bellman Operators noemen. We bewijzen dat deze operatoren contracties zijn, waarmee de convergentie van afgeleide algoritmen in een vereenvoudigde omgeving wordt aangetoond. Tot slot analyseren we in Hoofdstuk 4 de aannames in bestaande diepe Bayesiaanse modelvrije reinforcement learning-methoden, en stellen via statistische toetsen vast dat de standaard aannames worden geschonden in elk benchmark dat we hebben getest. We stellen ook vast dat we de prestaties van Bayesiaanse modelvrije reinforcement learning-methoden kunnen verbeteren door andere priors te kiezen op basis van empirische gegevens uit niet-gerelateerde taken.\n\nDit proefschrift stelt verschillende wenselijke eigenschappen van Bayesiaanse diepe modelvrije reinforcement learning vast, maar brengt ook een aantal belangrijke kwesties aan het licht, met name misspecificatie van aannames in Hoofdstuk 4. We hopen dat onze bevindingen andere Bayesiaanse reinforcement learning-onderzoekers ervan overtuigen zich meer te richten op de onderliggende aannames.","summary":"The goal of reinforcement learning is to train agents to perform tasks under little supervision. Tasks are specified by a reward function and transition function, which state how much reward the agent gets for its action in a state, and how the environment state changes based on the action the agent took. Typically reinforcement learning assumes no prior knowledge over the reward and transition function, meaning that agents need to explore the environment and learn essentially through trial and error. Model-free methods attempt to learn which actions lead to good outcomes without modeling the reward or environments itself. Efficiently selecting that actions are promising is an active research direction which can greatly reduce the number of total interactions needed for an agent to learn the task, potentially opening the door to new applications where trials or simulations are expensive or compute is limited.\n\nUncertainty quantification is a central mechanism in such efficient exploration methods. Provided with an estimate of how certain the agent is about the outcome of an action, it can intelligently weigh whether it is worth exploring. The Bayesian paradigm is one method to quantify uncertainty in machine learning. It models the uncertainty with a probability distributions over models, specifying how likely a model is based on the data the agent has collected.\n\nWe adopt a Bayesian point of view in model-free reinforcement learning, and develop a deeper understanding on when Bayesian reinforcement learning methods can be expected to work well and challenges that remain. To this end, in Chapter 2 we propose training ensembles through Sequential Monte Carlo, obtaining a sample from the posterior distribution of a deep Q-learning agent. We observe that agents are able to perform directed exploration, although not necessarily more efficiently than standard ensembles in every environment. Furthermore, in Chapter 3 we theoretically analyze existing Bayesian Deep model-Free Reinforcement Learning methods, and unify them into a single theoretical framework we call Epistemic Bellman Operators. We prove that these operators are contractions, establishing convergence of derived algorithms in a simplified setting. Finally, in Chapter 4 we analyze the likelihood and prior assumptions in existing Bayesian deep model-free reinforcement learning methods, and find through statistical tests that the standard likelihood assumptions are violated on every benchmark we tested. We also find that we can improve performance of Bayesian model-free reinforcement learning methods by picking different priors based on empirical data from unrelated tasks, which transfer to new environments.\n\nThis dissertation establishes several desirable properties of Bayesian Deep model-free reinforcement learning, but also raises some key issues, most notably misspecification in Chapter 4. We hope our findings convince other Bayesian reinforcement learning researchers to give more attention to assumptions about priors and likelihoods.","auteur":"Pascal van der Vaart","auteur_slug":"pascal-van-der-vaart","publicatiedatum":"22 mei 2026","taal":"EN","url_flipbook":"https:\/\/ebook.proefschriftmaken.nl\/ebook\/pascalvandervaart?iframe=true","url_download_pdf":"https:\/\/ebook.proefschriftmaken.nl\/download\/77cca88f-e70a-41b1-822c-2be027fadea9\/optimized","url_epub":"","ordernummer":"19006","isbn":"978-94-6384-961-6","doi_nummer":"","naam_universiteit":"Overig","afbeeldingen":15055,"naam_student:":"","binnenwerk":"","universiteit":"Overig","cover":"","afwerking":"","cover_afwerking":"","design":""},"_links":{"self":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio\/15053","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio"}],"about":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/types\/us_portfolio"}],"author":[{"embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/users\/7"}],"replies":[{"embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/comments?post=15053"}],"version-history":[{"count":1,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio\/15053\/revisions"}],"predecessor-version":[{"id":15056,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio\/15053\/revisions\/15056"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/media\/15054"}],"wp:attachment":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/media?parent=15053"}],"wp:term":[{"taxonomy":"us_portfolio_category","embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio_category?post=15053"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}