{"id":15713,"date":"2026-06-02T09:26:04","date_gmt":"2026-06-02T09:26:04","guid":{"rendered":"https:\/\/www.proefschriftmaken.nl\/portfolio\/robert-jan-bruintjes\/"},"modified":"2026-06-02T09:26:11","modified_gmt":"2026-06-02T09:26:11","slug":"robert-jan-bruintjes","status":"publish","type":"us_portfolio","link":"https:\/\/www.proefschriftmaken.nl\/en\/portfolio\/robert-jan-bruintjes\/","title":{"rendered":"Robert Jan Bruintjes"},"content":{"rendered":"","protected":true},"excerpt":{"rendered":"","protected":true},"author":7,"featured_media":15714,"comment_status":"closed","ping_status":"closed","template":"","meta":{"_acf_changed":false,"footnotes":""},"us_portfolio_category":[45],"class_list":["post-15713","us_portfolio","type-us_portfolio","status-publish","post-password-required","hentry","us_portfolio_category-new-template"],"acf":{"naam_van_het_proefschift":"LEARNING WITH SPATIAL BIASES IN VISION MODELS","samenvatting":"Een groot deel van de menselijke ervaring is vastgelegd in de steeds grotere hoeveelheden data die wij mensen genereren. Deze data wordt gebruikt om AI-modellen te bouwen die mensen ondersteunen, bijvoorbeeld bij het bewerken van tekst, het in de gaten houden van omringend verkeer door een zelfrijdende auto of het detecteren van kanker in MRI-scans. Doorgaans worden AI-modellen beter wanneer er meer trainingsdata wordt toegevoegd. Echter, de hoeveelheid data in de wereld is niet oneindig, en er zijn aanwijzingen dat de beschikbare data voor AI-datasets al begint op te raken. Dit is zorgwekkend, aangezien AI-modellen slecht presteren in situaties waarin weinig data beschikbaar is (data-defici\u00ebnte settings), waaronder belangrijke toepassingen zoals medische diagnostiek, waar het verzamelen van grote datasets kostbaar is en privacyproblemen met zich meebrengt. We streven daarom naar data-effici\u00ebnte AI-modellen: modellen die minder data nodig hebben, maar toch goed presteren.\n\nDit proefschrift onderzoekt hoe ontwerpkeuzes van neurale netwerkarchitecturen (inductieve biases) de data-effici\u00ebntie van visuele modellen be\u00efnvloeden. In het bijzonder onderzoeken we de effecten van het modelleren van ruimtelijke biases die aanwezig zijn in trainingsdatasets. Zulke ruimtelijke biases uiten zich in variatie in de posities en schalen van geobserveerde objecten in de trainingsdata.\n\nVisuele modellen verschillen in hoe ze positieinformatie modelleren. Convolutional Neural Networks (CNNs) zijn translatie-invariant door het gebruik van gedeelde convolutionele filters, waardoor objecten op verschillende posities kunnen worden herkend met minimale hoeveelheid data. Deze inductive bias verwijdert echter ook positie-informatie, wat nadelig kan zijn voor taken die ruimtelijk redeneren vereisen. Vision Transformers (ViTs) daarentegen hebben geen ingebouwde ruimtelijke priors en vertrouwen op expliciete positionele embeddings om ruimtelijke structuur vast te leggen, waarbij ze data-effici\u00ebntie inruilen voor globale receptive fields.\n\nNaast positie vormt schaalvariatie een fundamentele uitdaging: objecten die op verschillende groottes verschijnen vereisen dat modellen hun geleerde herkenningsfuncties over schalen heen generaliseren. Conventionele CNN\u2019s leren vaak afzonderlijke representaties voor elke schaal, wat de noodzaak aan data en rekenkracht vergroot. Schaal-equivariante architecturen pakken dit aan door representaties over schalen te delen, en methoden met adaptieve receptive fields stellen modellen in staat de kernelgroottes te optimaliseren voor de verdeling van objectschalen in de data, wat de robuustheid en effici\u00ebntie verbetert.\n\nOm de uitdagingen van het modelleren van beide typen ruimtelijke datasetbiases te verzoenen, introduceert dit proefschrift flexibele inductieve biases: mechanismen die structurele priors inbedden, terwijl ze het model toestaan hun invloed te modelleren op basis van de kenmerken van de dataset. In tegenstelling tot vaste inductive biases kunnen flexibele inductive biases worden geactiveerd wanneer ze voordelig zijn en onderdrukt wanneer ze irrelevant zijn, waardoor het risico op negatieve transfer afneemt en de data-effici\u00ebntie toeneemt.\n\nAl met al toont dit proefschrift aan dat ruimtelijke biases het beste kunnen worden gemodelleerd als adaptieve, dataset-afhankelijke mechanismen in plaats van als vaste architecturale beperkingen. Door positie- en schaalbiases in datasets systematisch te modelleren en hun flexibele inzet mogelijk te maken, biedt dit werk een principieel kader voor het ontwerpen van data-effici\u00ebnte visuele modellen die robuust generaliseren over diverse visuele domeinen.","summary":"Much of the human experience is captured in the ever-increasing amounts of data that we humans generate. This data is used to build AI models that aid humans, e.g. by editing text, tracking traffic surrounding a self-driving car or detecting cancer in MRI scans. AI models typically get better when adding more training data. However, data cannot be sourced infinitely, and there are signs we are already running out of data to add to AI datasets. This is a concern, since AI models do not work well in settings where there is little data available (data-deficient settings), including important settings such as medical applications where gathering large datasets is costly and yields privacy concerns. We therefore desire data-efficient AI models: models that need less data, while still doing well.\n\nThis thesis investigates how design choices of neural network architectures (inductive biases) influence the data efficiency of vision models. In particular, we investigate the effects of modeling spatial biases apparent in training datasets. Such spatial biases are apparent through variability in positions and scales of imaged objects in the training data.\n\nVision models differ in their approach to modeling position information. Convolutional Neural Networks (CNNs) encode translation invariance through shared convolutional filters, enabling recognition of objects across positions with minimal data. However, this inductive bias removes positional information, which can hinder tasks requiring spatial reasoning. Vision Transformers (ViTs), in contrast, lack built-in spatial priors and rely on explicit positional embeddings to capture spatial structure, trading off data efficiency for global receptive fields.\n\nBeyond position, scale variation presents a fundamental challenge: objects appearing at different sizes require models to generalize its learned recognition functions across scales. Conventional CNNs often learn separate representations for each scale, increasing data and compute demands. Scale-equivariant architectures address this by sharing representations across scales, and adaptive receptive field methods allow models to optimize kernel sizes for the observed distribution of object scales, improving robustness and efficiency.\n\nTo reconcile the challenges of modeling both types of spatial dataset biases, this thesis introduces flexible inductive biases: mechanisms that embed structural priors while allowing the model to modulate their influence based on dataset characteristics. Unlike fixed inductive biases, flexible inductive biases can be activated when beneficial and suppressed when irrelevant, reducing the risk of negative transfer and improving data-efficiency.\n\nOverall, the thesis demonstrates that spatial biases should be modelled as adaptive, dataset-dependent mechanisms rather than fixed architectural constraints. By systematically modeling position and scale biases in datasets and enabling their flexible use, this work provides a principled framework for designing data-efficient vision models that generalize robustly across diverse visual domains.","auteur":"Robert Jan Bruintjes","auteur_slug":"robert-jan-bruintjes","publicatiedatum":"24 juni 2026","taal":"EN","url_flipbook":"https:\/\/ebook.proefschriftmaken.nl\/ebook\/robertjanbruintjes?iframe=true","url_download_pdf":"https:\/\/ebook.proefschriftmaken.nl\/download\/8aa07bf5-f4d1-412a-a611-4626ea3e2123\/optimized","url_epub":"","ordernummer":"19124","isbn":"978-94-6518-343-5","doi_nummer":"","naam_universiteit":"Overig","afbeeldingen":15715,"naam_student:":"","binnenwerk":"","universiteit":"Overig","cover":"","afwerking":"","cover_afwerking":"","design":""},"_links":{"self":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio\/15713","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio"}],"about":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/types\/us_portfolio"}],"author":[{"embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/users\/7"}],"replies":[{"embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/comments?post=15713"}],"version-history":[{"count":1,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio\/15713\/revisions"}],"predecessor-version":[{"id":15716,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio\/15713\/revisions\/15716"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/media\/15714"}],"wp:attachment":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/media?parent=15713"}],"wp:term":[{"taxonomy":"us_portfolio_category","embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio_category?post=15713"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}