{"id":15689,"date":"2026-06-01T14:54:22","date_gmt":"2026-06-01T14:54:22","guid":{"rendered":"https:\/\/www.proefschriftmaken.nl\/portfolio\/michele-tufano\/"},"modified":"2026-06-01T14:54:30","modified_gmt":"2026-06-01T14:54:30","slug":"michele-tufano","status":"publish","type":"us_portfolio","link":"https:\/\/www.proefschriftmaken.nl\/en\/portfolio\/michele-tufano\/","title":{"rendered":"Michele Tufano"},"content":{"rendered":"","protected":true},"excerpt":{"rendered":"","protected":true},"author":7,"featured_media":15690,"comment_status":"closed","ping_status":"closed","template":"","meta":{"_acf_changed":false,"footnotes":""},"us_portfolio_category":[45],"class_list":["post-15689","us_portfolio","type-us_portfolio","status-publish","post-password-required","hentry","us_portfolio_category-new-template"],"acf":{"naam_van_het_proefschift":"Artificial intelligence and computer vision for quantitative assessment of eating behavior and urban food landscapes","samenvatting":"Eetgedrag en de toegankelijkheid van de voedselomgeving zijn fundamentele determinanten van de voedingsinname en gezondheidsuitkomsten, maar traditionele beoordelingsmethoden \u2014 handmatige video-annotatie voor eetgedrag en observationele audits voor de voedselomgeving \u2014 blijven arbeidsintensief, tijdrovend en moeilijk op te schalen. Dit proefschrift onderzocht hoe kunstmatige intelligentie de beoordeling van eetgedrag en stedelijke voedsellandschappen kan automatiseren om voedingsonderzoek op zowel individueel- als populatieniveau te ondersteunen.\n\nOp populatieniveau werd een datagestuurde methodologie ontwikkeld om stedelijke voedsellandschappen te beoordelen met behulp van restaurantmenugegevens van online bezorgplatforms in Boston, Londen en Dubai (Hoofdstuk 2). Machine learning koppelde menu-items aan de Amerikaanse FoodData Central-database, waardoor de berekening van voedingsindices op buurtniveau mogelijk werd. De database-dekking varieerde aanzienlijk per stad \u2014 Boston (71%), Londen (56%) en Dubai (42%) \u2014 wat beperkingen in de beschikbaarheid van regiospecifieke voedingsgegevens weerspiegelt. Voedingsvezels vertoonden significante omgekeerde associaties met obesitas in zowel Londen (p=0,001) als Boston (p=0,004), terwijl buurten met een hogere sociaaleconomische status consequent een betere toegang tot voedingsrijke producten lieten zien. Deze methodologie biedt een schaalbaar alternatief voor traditionele beoordelingen van de voedselomgeving, waardoor beleidsmakers buurten kunnen identificeren die risico lopen op onvoldoende toegang tot gezonde voeding.\n\nOp individueel niveau identificeerde een systematische review volgens de PRISMA-richtlijnen vijf methodologische categorie\u00ebn voor automatische detectie van eetgedrag op basis van video-opnames: gezichtsori\u00ebntatiepunten (facial landmarks), deep learning, optical flow, active appearance models en videofluoroscopie (Hoofdstuk 3). Gezichtsori\u00ebntatiepunten bleken de meest veelbelovende benadering voor het detecteren van zowel happen (bites) als kauwbewegingen (chews). Voortbouwend op deze bevindingen werd een computationeel effici\u00ebnt rule-based systeem ontwikkeld dat gebruikmaakt van 468 3D-gezichtspunten voor het automatisch tellen van happen. Dit systeem behaalde een nauwkeurigheid van 79% met beschikbare annotatie en 71,4% zonder annotatie-input over 164 video's van 15 deelnemers, met consistente prestaties bij verschillende voedseltexturen (Hoofdstuk 4).\n\nOm de nauwkeurigheid van de detectie te verbeteren, werden vervolgens op transformers gebaseerde architecturen ontwikkeld met behulp van 103 geannoteerde video's van 36 deelnemers die gestandaardiseerde maaltijden consumeerden (Hoofdstuk 5). Het Vision Transformer-model behaalde een nauwkeurigheid per frame van 98,45% en een nauwkeurigheid van 86,2% bij het tellen van happen, door effectief globale ruimtelijke relaties vast te leggen via self-attention mechanismen. Voor de detectie van kauwbewegingen presteerde een CNN-LSTM-architectuur beter dan de Vision Transformer (85,56% versus 69,21% nauwkeurigheid), omdat sequenti\u00eble modellen de temporele dynamiek die inherent is aan kauwgedrag beter vastlegden. De detectie van slokken met behulp van een getrainde VideoMAE behaalde een nauwkeurigheid van 61%, beperkt door een kleine dataset en uitdagingen bij de annotatie.\n\nDeze gevalideerde modellen werden ge\u00efntegreerd in de Automated Meal Video Analysis (AMVA) Toolkit, een open-source cloud-native platform ingezet op een AWS serverless infrastructuur met AVG-conforme gegevensverwerking en privacy-beschermende gezichtsmaskering (Hoofdstuk 6). Het systeem verminderde de handmatige annotatietijd met een factor 40 \u2014 van zes weken naar zes uur voor 118 video's \u2014 terwijl de verwerkingsschaalbaarheid lineair bleef met de videoduur.\n\nDit proefschrift toont aan dat kunstmatige intelligentie de beoordeling van eetgedrag en stedelijke voedsellandschappen succesvol kan automatiseren, waardoor arbeidsintensieve handmatige processen worden getransformeerd in schaalbare, objectieve meetsystemen. Huidige beperkingen zijn onder meer geografische beperkingen in voedingsdatabases, culturele bias richting westerse voedingspatronen en onvoldoende trainingsgegevens voor drinkgedrag (Hoofdstuk 7). Toekomstig werk zou prioriteit moeten geven aan het uitbreiden van de weergave van culturele gegevens, het verbeteren van de generaliseerbaarheid van modellen over diverse eetcontexten en het ontwikkelen van ge\u00efntegreerde multimodale AI-systemen voor uitgebreide gedragsbeoordeling. Door de voedselomgeving, eetgedrag en gezondheidsuitkomsten te overbruggen, positioneert dit proefschrift kunstmatige intelligentie als een fundamentele methodologie voor schaalbare, datagestuurde voedingswetenschap, die analyses mogelijk maakt die voorheen onhaalbaar waren vanwege kosten-, tijd- en schaalbaarheidsbeperkingen.","summary":"Eating behavior and food environment accessibility are fundamental determinants of nutritional intake and health outcomes, yet traditional assessment methods\u2014manual video annotation for eating behavior and observational audits for food environments\u2014remain labor-intensive, time-consuming, and difficult to scale. This thesis investigated how artificial intelligence can automate assessment of eating behavior and urban food landscapes to support nutrition research at both individual and population levels.\n\nAt the population level, a data-driven methodology was developed to assess urban food landscapes using restaurant menu data from online delivery platforms in Boston, London, and Dubai (Chapter 2). Machine learning matched menu items to the U.S. FoodData Central database, enabling calculation of nutritional indices at neighborhood level. Database coverage varied substantially by city\u2014Boston (71%), London (56%), and Dubai (42%)\u2014reflecting limitations in region-specific nutritional data availability. Dietary fiber demonstrated significant inverse associations with obesity in both London (p=0.001) and Boston (p=0.004), while higher socioeconomic neighborhoods consistently showed better access to nutrient-rich foods. This methodology provides a scalable alternative to traditional food environment assessment, enabling policymakers to identify neighborhoods at risk for inadequate nutritional access.\n\nAt the individual level, a systematic review following PRISMA guidelines identified five methodological categories for automated eating behavior detection from video recordings: facial landmarks, deep learning, optical flow, active appearance model, and video fluoroscopy (Chapter 3). Facial landmarks emerged as the most promising approach for detecting both bites and chews. Building on these findings, a computationally efficient rule-based system utilizing 468 3D facial keypoints was developed for automated bite counting, achieving 79% accuracy with available annotation and 71.4% accuracy without annotation input across 164 videos from 15 participants, with consistent performance across varying food textures (Chapter 4).\n\nTo improve detection accuracy, transformer-based architectures were subsequently developed using 103 annotated videos from 36 participants consuming standardized meals (Chapter 5). The Vision Transformer model achieved 98.45% frame accuracy and 86.2% counting accuracy for bite detection, effectively capturing global spatial relationships through self-attention mechanisms. For chew detection, a CNN-LSTM architecture outperformed the Vision Transformer (85.56% versus 69.21% accuracy), as sequential models better captured the temporal dynamics inherent to chewing behaviors. Sip detection using pretrained VideoMAE achieved 61% accuracy, constrained by limited training data and annotation challenges.\n\nThese validated models were integrated into the Automated Meal Video Analysis (AMVA) Toolkit, an open-source cloud-native platform deployed on AWS serverless infrastructure with GDPR-compliant data handling and privacy-preserving facial masking capabilities (Chapter 6). The system reduced manual annotation time 40-fold\u2014from six weeks to six hours for 118 videos\u2014while maintaining processing scalability linear with video duration.\n\nThis thesis demonstrates that artificial intelligence can successfully automate assessment of eating behavior and urban food landscapes, transforming labor-intensive manual processes into scalable, objective measurement systems. Current limitations include geographic constraints in nutritional databases, cultural bias toward Western dietary patterns, and insufficient training data for drinking behaviors (Chapter 7). Future work should prioritize expanding cultural data representation, improving model generalizability across diverse eating contexts, and developing integrated multimodal AI systems for comprehensive behavioral assessment. By bridging food environments, eating behavior, and health outcomes, this thesis positions artificial intelligence as a foundational methodology for scalable, data-driven nutrition science, enabling analyses previously infeasible due to cost, time, and scalability constraints.","auteur":"Michele Tufano","auteur_slug":"michele-tufano","publicatiedatum":"19 juni 2026","taal":"EN","url_flipbook":"https:\/\/ebook.proefschriftmaken.nl\/ebook\/micheletufano?iframe=true","url_download_pdf":"https:\/\/ebook.proefschriftmaken.nl\/download\/ce4c9691-d150-4a2d-81bd-886de65a79e7\/optimized","url_epub":"","ordernummer":"17772","isbn":"","doi_nummer":"","naam_universiteit":"Wageningen University","afbeeldingen":15691,"naam_student:":"","binnenwerk":"","universiteit":"Wageningen University","cover":"","afwerking":"","cover_afwerking":"","design":""},"_links":{"self":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio\/15689","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio"}],"about":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/types\/us_portfolio"}],"author":[{"embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/users\/7"}],"replies":[{"embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/comments?post=15689"}],"version-history":[{"count":1,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio\/15689\/revisions"}],"predecessor-version":[{"id":15692,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio\/15689\/revisions\/15692"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/media\/15690"}],"wp:attachment":[{"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/media?parent=15689"}],"wp:term":[{"taxonomy":"us_portfolio_category","embeddable":true,"href":"https:\/\/www.proefschriftmaken.nl\/en\/wp-json\/wp\/v2\/us_portfolio_category?post=15689"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}