Koen Neijenhuijs

Vrije Universiteit Amsterdam

Deel dit project

Download PDF

Publicatiedatum: 8 april 2020

Universiteit: Vrije Universiteit Amsterdam

ISBN: 978-94-6380-736-4

Patient reported measures in eHealth

Samenvatting

Patient Reported Measures (PRMs), door de patiënt ingevulde instrumenten, worden ingezet om verscheidene constructen te meten. PRMs kunnen verdeeld worden in twee hoofdcategorieën: Patient Reported Outcome Measures (PROMs), gebruikt om Health Related Quality of Life (HRQoL) en symptomen van de individuele patiënt te meten, terwijl Patient Reported Experience Measures (PREMs) de kwaliteit van de gezondheidszorg evalueren vanuit het perspectief van de patiënt. In dit proefschrift ligt de focus op PROMs en PREMs die gebruikt worden in eHealth, het aanbieden van gezondheidszorg door middel van digitale media. Het Oncokompas is een eHealth zelfmanagement applicatie om kankerpatiënten te ondersteunen in het vinden en verkrijgen van optimale ondersteunende zorg, aangepast aan hun persoonlijke gezondheid en voorkeuren. Om persoonlijk advies te kunnen geven maakt het Oncokompas gebruik van 29 veelgebruikte PRMs (naast enkele nieuw ontwikkelde PRMs). Het eerste doel van dit proefschrift is het onderzoeken van de psychometrische eigenschappen van verscheidende PRMs opgenomen in het Oncokompas.

Psychometrische eigenschappen verwijzen naar de validiteit en betrouwbaarheid van een meetinstrument en zijn cruciaal om te bepalen of een meetinstrument in de praktijk gebruikt kan worden. Validiteit is “de mate waarin een instrument het construct meet waarvan wordt beweerd dat het wordt gemeten” en betrouwbaarheid is “de mate waarin het instrument vrij is van meetfout”. Validiteit en betrouwbaarheid kunnen opgedeeld worden in subcategorieën (ook wel psychometrische eigenschappen genoemd). De COnsensus-based Standards for the selection of health status Measurement INstruments (COSMIN) taxonomie en COSMIN richtlijnen verschaffen een kader voor het bespreken en interpreteren van verschillende van deze subcategorieën, specifiek voor PRMs. Om de psychometrische eigenschappen van 29 bestaande PROMs en één PREM gebruikt in het Oncokompas te onderzoeken is een systematische review uitgevoerd aan de hand van de COSMIN richtlijnen. Hoewel de volledige bespreking van de resultaten van deze systematische review buiten de reikwijdte van dit proefschrift ligt, zal ik me in dit proefschrift verdiepen in de psychometrische eigenschappen van twee PROMs gericht op seksualiteit (de International Index of Erectile Function in hoofdstuk 2 en de Female Sexual Function Index in hoofdstuk 3), en één PREM gericht op het meten van tevredenheid met intramurale zorg in kankerpatiënten (de EORTC IN-PATSAT32 in hoofdstuk 4).

Bij de evaluatie van eHealth applicaties komen erg specifieke problemen voor. Wetenschappelijke evaluaties door middel van randomized controlled trials of diepte interviews gericht op de ervaringen van patiënten kosten veel tijd en middelen. Ondertussen staat de ontwikkeling van eHealth applicaties niet stil, resulterend in een continue uitdaging om bij te blijven voor eHealth ontwikkelaars. De eHealth Impact Questionnaire (eHIQ) is een PREM gericht op het meten van de houding van patiënten ten opzichte van eHealth. Het tweede doel van dit proefschrift is het vertalen en valideren van de eHIQ voor de Nederlandse populatie van eHealth gebruikers (hoofdstuk 5).

Het gebruik van gevalideerde en betrouwbare PRMs in de gezondheidszorg creëert opwindende mogelijkheden. Zoals hierboven genoemd, wordt het gebruik van PRMs aangemoedigd in de reguliere gezondheidszorg in Nederlands. PRMs worden ingevuld door patiënten in verscheidene behandelstadia, in de huidige tijd dikwijls doormiddel van een eHealth applicatie (zoals een PRM gepresenteerd op een website). Door middel van deze gedigitaliseerde PRMs wordt een enorme hoeveelheid data verzameld. Deze grote datasets kunnen gebruikt worden om theoretische vragen te verkennen, die tot op heden niet op een dergelijk grote schaal onderzocht konden worden. Het derde en laatste doel van dit proefschrift is het onderzoeken van symptoomclusters binnen kankerpatiënten door het gebruik van een grote dataset verzameld binnen het Oncokompas (hoofdstuk 6).

De International Index of Erectile Function (IIEF) is een PROM om erectieproblemen en andere seksuele problemen bij mannen te evalueren. We hebben een systematische review uitgevoerd naar de psychometrische eigenschappen van de IIEF-15 en de IIEF-5. Een systematische doorzoeking van de wetenschappelijke literatuur tot en met april 2018 werd uitgevoerd. Data werd geëxtraheerd en geanalyseerd volgens de COSMIN richtlijnen voor structurele validiteit, interne consistentie, betrouwbaarheid, meetfout, hypothese testen voor construct validiteit en responsiviteit. Bewijs voor psychometrische eigenschappen werd gecategoriseerd in voldoende, onvoldoende, inconsistent, of niet-bepaaldbaar. De kwaliteit van bewijs was erg hoog, hoog, gemiddeld of laag. Veertig studies werden geïncludeerd. Het bewijs voor criterium validiteit (van de Erectile Function subschaal), en responsiviteit van de IIEF-15 was voldoende (hoge kwaliteit), maar inconsistent (gemiddelde kwaliteit) voor structurele validiteit, interne consistentie, construct validiteit, en test-hertest betrouwbaarheid. Bewijs voor structurele validiteit, test-hertest betrouwbaarheid, construct validiteit en criterium validiteit van de IIEF-5 was voldoende (gemiddelde kwaliteit), maar niet bepaaldbaar voor interne consistentie, meetfout en responsiviteit. De afwezigheid van bewijs voor, en de aanwezigheid van bewijs tegen een aantal psychometrische eigenschappen van de IIEF-15 en IIEF-5 benadrukken het belang van verder onderzoek naar de validiteit van dergelijke vragenlijsten in klinisch onderzoek en de klinische praktijk. Een kracht van de review was het gebruik van vooraf-gedefinieerde richtlijnen (COSMIN). Een beperking van de review was het gebruik van een precieze, in plaats van een sensitieve, zoekfilter met betrekking op psychometrische eigenschappen voor het identificeren van studies. De IIEF vereist verder onderzoek naar structurele validiteit (IIEF-15), interne consistentie (IIEF-15 en IIEF-5), construct validiteit (IIEF-15), meetfout (IIEF-15 en IIEF-5) en responsiviteit (IIEF-5). De meest urgente kwestie voor vervolgonderzoek is de bepaling van unidimensionaliteit van de IIEF-5 en de exacte factor structuur van de IIEF-15.

De Female Sexual Function Index (FSFI) is een PROM om seksuele stoornissen bij vrouwen te meten. DE FSFI-19 werd in 2000 ontwikkeld met zes theoretische subschalen. In 2010 kwam een verkorte versie beschikbaar (FSFI-6). Een systematische doorzoeking van Embase, Medline en Web of Science werd uitgevoerd naar studies gericht op psychometrische eigenschappen van de FSFI-19 en FSFI-6 tot en met april 2018. Data werd geëxtraheerd en geanalyseerd volgens de COSMIN richtlijnen. Bewijs werd gecategoriseerd in voldoende, onvoldoende, inconsistent, of niet-bepaalbaar, en de kwaliteit van het bewijs als erg hoog, hoog, gemiddeld of laag. De belangrijkste uitkomstmaat was bewijs voor een psychometrische eigenschap, en de kwaliteit van dit bewijs volgens de COSMIN richtlijnen. Drieëntachtig studies werden geïncludeerd. Met betrekking tot de FSFI-19, was het bewijs voor interne consistentie voldoende en van gemiddelde kwaliteit. Het bewijs voor betrouwbaarheid was voldoende maar van lage kwaliteit. Het bewijs voor criterium validiteit was voldoende en van hoge kwaliteit. Het bewijs voor structurele validiteit was inconsistent en van lage kwaliteit. Het bewijs voor construct validiteit was inconsistent en van gemiddelde kwaliteit. Met betrekking tot de FSFI-6, werd het bewijs voor criterium validiteit beoordeeld als voldoende en van gemiddelde kwaliteit. Het bewijs voor interne consistentie werd beoordeeld als niet bepaalbaar. Het bewijs voor betrouwbaarheid was inconsistent en van lage kwaliteit. Het bewijs voor construct validiteit was inconsistent en van erg lage kwaliteit. Er was geen informatie beschikbaar met betrekking tot structurele validiteit van de FSFI-6 en meetfout, responsiviteit en cross-culturele validiteit van zowel de FSFI-6 en FSFI-19. Tegenstrijdig bewijs en de afwezigheid van bewijs voor een aantal psychometrische eigenschappen van de FSFI-19 en FSFI-6 benadrukken het belang van verder onderzoek naar de validiteit van dergelijke PROMs. We adviseren onderzoekers die gebruikmaken van FSFI-19 om confirmatieve factor analyses uit te voeren en de gevonden factorstructuur in hun steekproef te rapporteren. Los van deze zorgen hebben de FSFI-19 en de FSFI-6 sterke criterium validiteit. Pragmatisch gezien zijn het goede screeningsinstrumenten voor de huidige definitie van seksuele stoornissen bij vrouwen. Een kracht van de review was het gebruik van vooraf-gedefinieerde richtlijnen (COSMIN). Een beperking van de review was het gebruik van een precieze, in plaats van een sensitieve, zoekfilter. De FSFI vereist verder onderzoek naar structurele validiteit (FSFI-19 en FSFI-6), betrouwbaarheid (FSFI-6), construct validiteit (FSFI-19), meetfout (FSFI-19 en FSFI-6) en responsiviteit (FSFI-19 en FSFI-6). Verdere bevestiging van de meetinvariantie (zowel tussen culturen als tussen subpopulaties) in de factorstructuur van de FSFI-19 is noodzakelijk, net als tests voor de unidimensionaliteit van de FSFI-6.

De EORTC IN-PATSAT32 is een PROM om de tevredenheid met intramurale zorg van kankerpatiënten te meten. We onderzochten of de eerste goede psychometrische eigenschappen van de IN-PATSAT32 bevestigd werden in nieuwe onderzoeken. Binnen een grotere systematische review studie (Prospero ID 42017057237), werd een systematische doorzoeking van Embase, Medline, PsycINFO en Web of Science uitgevoerd naar studies gericht op de psychometrische eigenschappen van de IN-PATSAT32 tot juli 2017. Kwaliteit van de studies werd bepaald, data geëxtraheerd en samengevat volgens de COSMIN methodologie. Negen studies werden geïncludeerd in de review. Het bewijs met betrekking tot betrouwbaarheid en construct validiteit werd beoordeeld als voldoende en de kwaliteit als gemiddeld. Het bewijs voor structurele validiteit werd beoordeeld als onvoldoende en van lage kwaliteit. Het bewijs voor interne consistentie was niet bepaalbaar. Meetfout, responsiviteit, criterium validiteit en cross-culturele validiteit werden niet gerapporteerd in de geïncludeerde studies. Meetfout kon voor twee studies berekent worden en werd beoordeeld als niet bepaalbaar. Samenvattend presteert de IN-PATSAT32 zoals verwacht met betrekking tot betrouwbaarheid en construct validiteit. Er kunnen op dit moment geen harde conclusies getrokken worden over de prestatie van de IN-PATSAT32 met betrekking tot structurele validiteit en interne consistentie. Verder onderzoek is noodzakelijk naar de meetfout, responsiviteit, criterium validiteit en cross-culturele validiteit van deze PROM. Voor toekomstige validiteitsstudies, is het raadzaam om de COSMIN methodologie in acht te nemen.

Meetfout vertegenwoordigt de minimale hoeveelheid verandering gemeten bij een meetinstrument, waarvan we zeker zijn dat het geen artefact is van systematische error. In een grootschalige systematische review vonden we dat enkel 4.14% van de validiteitsartikelen rapporteren over meetfout, en dat de meetfout daarnaast berekent kon worden voor 3.82% van de artikelen. Om de implicaties van meetfout op klinisch onderzoek te illustreren, werd een simulatie studie uitgevoerd. Simulaties werden uitgevoerd op een hypothetische randomized controlled trial gericht op de behandeling van depressie zoals gemeten door de BDI-II. Beginwaarden en een vermindering van symptomen bij onbehandelde depressie (controle conditie) werden geëxtraheerd uit de literatuur. De Minimal Clinically Important Difference (MCID) werd gebruikt als maat van effectgrootte voor de verdere afname van symptomen over tijd bij behandelde depressie (behandel conditie). Drie parameters werden systematisch gevarieerd binnen de simulaties: steekproefgrootte (250 / 500 / 750), effectgrootte (0*MCID / 1*MCID / 2*MCID / 3*MCID) en meetfout (0% / 10% / 20% / 30% / 40%). Elke combinatie van parameters werd 5000 keer gesimuleerd. Relatieve bias is de afwijking van de coëfficiënt van belang. De relatieve bias werd meer afwijkend van bijna 0 (zonder meetfout) naar -0.5 (met een meetfout van 30% en 40%). Daarnaast lieten effectgroottes meer relatieve bias zien. ETA squared is een maat van effectgrootte. De ETA squared reikt van 0 tot 0.525 wanneer er 0% meetfout is, afhankelijk van de parameter van effectgrootte. Iedere ETA squared gleed dichter naar nul voor meer toegevoegde meetfout. De resultaten van de simulatie toonden een stijging in bias met de toevoeging van meer meetfout. Daarnaast leek dit effect sterker voor grotere effectgroottes. Het resultaat van deze bias is een afname van effectgrootte, iets wat vooral ongunstig is bij 20% of meer meetfout. Het lijkt erop dat meetfout de mogelijkheid om een echt effect te detecteren beïnvloed.

De eHealth Impact Questionnaire (eHIQ) verschaft een gestandaardiseerde methode om de houding van eHealth gebruikers ten opzichte van eHealth te meten. Het is eerder gevalideerd in een populatie van eHealth gebruikers uit het Verenigd Koninkrijk en bestaat uit 2 delen en 5 subschalen. Deel 1 meet houdingen ten opzichte van eHealth in het algemeen en bestaat uit de subschalen: Attitudes omtrent online gezondheidsinformatie (5 items) en Attitudes omtrent het online delen van gezondheidservaringen (6 items). Deel 2 meet de houding ten opzichte van een specifieke eHealth applicatie en bestaat uit de subschalen Vertrouwen en identificatie (9 items), Informatie en presentatie (8 items) en Begrip en motivatie (9 items). De eHIQ is vertaald en gevalideerd in overeenstemming met de COSMIN criteria. De validatie bestond uit 3 steekproeven met in totaal 1287 deelnemers. Structurele validiteit werd vastgesteld door middel van confirmatieve factor analyses en exploratieve factor analyses. Interne consistentie werd beoordeeld met hierarchische omega (in alle 3 de steekproeven). Test-hertest betrouwbaarheid werd vastgesteld na 2 weken, waarbij gebruik gemaakt werd van tweewegs-intraclass correlatie coefficienten (steekproef 1). Meetfout werd beoordeeld door de kleinst waarneembare verandering te berekenen (steekproef 1). Convergente en divergente validiteit werden beoordeeld door middel van correlaties met overige variabelen (alle 3 de steekproeven). Een graded response model werd toegepast en item informatie curves werden weergegeven om de informatie per item over item trait levels te beschrijven (alle 3 de steekproeven). De originele factor structuur liet een slechte fit zien bij alle drie de steekproeven. EFAs lieten een goede fit zien voor een gemodificeerde factor structuur in de eerste steekproef. Deze factor structuur werd daarna getest in steekproef 2 en 3 en liet een aanvaardbare tot goede fit zien. Interne consistentie, test-hertest betrouwbaarheid, convergente validiteit en divergente validiteit waren aanvaardbaar tot goed voor zowel de originele als de gemodificeerde factor structuur, behalve voor test-hertest betrouwbaarheid van één van de originele subschalen en de twee afgeleide subschalen in de gemodificeerde factor structuur. De graded response model liet zien dat sommige items verminderd presteren in zowel de originele als de gemodificeerde factor structuur. De Nederlandse versie van de eHIQ (eHIQ-NL) laat een andere factor structuur zien in vergelijking met de Engelse versie. Deel 1 van de eHIQ-NL bestaat uit 3 subschalen: Attitudes omtrent online gezondheidsinformatie (5 items), Comfort omtrent het delen van gezondheidservaringen (3 items) en Nut van het online delen van gezondheidservaringen (3 items). Deel 2 van de eHIQ-NL bestaat uit drie subschalen: Motivatie en vertrouwen om te handelen (10 items), Informatie en presentatie (13 items) en Identificatie (3 items).

Kennis over symptoomclusters zou gerichte interventies kunnen informeren. We onderzochten symptoomclusters van kankerpatiënten door middel van machine learning technieken op een grote dataset. Hiervoor werd data gebruikt van kankerpatiënten die deelnamen aan de volledig geautomatiseerde online applicatie het Onkokompas. Deze applicatie was ondersteunend in hun zelfmanagement, door 1) hun symptomen te monitoren door middel van PROMs; 2) een gerichte terugkoppeling te geven op aan de hand van hun scores met een persoonlijk overzicht van ondersteunende zorgopties, gericht op het verminderen van symptomen en het verbeteren van gezondheid-gerelateerde kwaliteit van leven. In onze studie werd data over 26 algemene symptomen (fysiek en psychosociaal) meegenomen. Resultaten van de PROM van ieder symptoom worden aan de gebruiker gepresenteerd als geen welzijnsrisico, een gemiddeld welzijnsrisico, of een hoog welzijnsrisico. Data van 1032 kankerpatiënten werden geanalyseerd middels Hierarchical Densitiy-Based Spatial Clustering of Applications with Noise (HDBSCAN) op hoge risico scores en gemiddeld-tot-hoge risico scores afzonderlijk. Bij de analyse van de hoog risico scores werden zeven clusters onttrokken: één hoofdcluster met daarin de meest voorkomende fysieke en psychosociale symptomen en zes subclusters met verschillende combinaties van deze symptomen. Bij de analyse van de gemiddeld-tot-hoge risico scores werden drie clusters onttrokken: twee hoofdclusters werden geïdentificeerd, die onderscheid maakten tussen fysieke symptomen (en gevolgen daarvan) and psychosociale symptomen, en één subcluster met slechts problemen gerelateerd aan lichaamsgewicht. Er lijkt een inherent verschil te zijn in de co-morbiditeit van symptomen afhankelijk van de ernst van de symptomen. Bij kankerpatiënten met hoge risico scores liet de data een clustering met meer verbindingen tussen fysieke en psychosociale symptomen in verschillende subclusters zien. In kankerpatiënten met gemiddeld-tot-hoge risico scores zagen we minder verbindingen in de clustering van fysieke en psychosociale symptomen.

In hoofdstukken 2, 3 en 4 onderzochten we de psychometrische eigenschappen van drie PRMs. We beoordeelden de meerderheid van de psychometrische eigenschappen over deze drie PRMs ofwel als niet bepaalbaar (37.5%) ofwel inconsistent (25%); met iets meer dan één derde als voldoende (37.5%). We beoordeelden ook de kwaliteit van het bewijs voornamelijk als erg laag, laag of gemiddeld (81.8%), met de minderheid beoordeeld als hoog (18.2%). Bovendien, in een bredere systematische review naar de 29 PRMs gebruikt binnen het Oncokompas, vonden we dat voor een groot deel van deze PRMs onvoldoende informatie beschikbaar was met betrekking tot verschillende psychometrische eigenschappen. Dit is zorgwekkend, aangezien PRMs vaak toegepast worden in praktijk en wetenschap om informatie te verschaffen over de gezondheid van de patiënt en om gezondheidszorg te evalueren. In het bijzonder is er meer onderzoek noodzakelijk naar betrouwbaarheid, meetfout, responsiviteit en cross-culturele validiteit. De validatie studie uitgevoerd betreffende de eHIQ (hoofdstuk 5) dient als een voorbeeld van hoe een validatie studie uitgevoerd kan worden volgens de COSMIN richtlijnen.

Hoofdstuk 6 illustreert de mogelijkheden om PRM data in te zetten voor het onderzoeken van relevante theoretische onderzoeksvragen. Door de toename van eHealth gebruik, en de inzet van PRMs door Nederlandse ziekenhuizen en zorgverzekeraars in de implementatie en focus op waarde-gedreven zorg, worden grote datasets met antwoorden op PRMs verzameld. Deze datasets kunnen ingezet worden om onderzoeksvragen te beantwoorden die normaal gesproken veel middelen vereisen om te onderzoeken. Het onderzoek naar symptoom clusters is een voorbeeld van een dergelijke onderzoeksvraag, en routinematig verzamelde data kan ingezet worden om aan deze onderzoekslijn bij te dragen. Routinematig verzamelde data kan tevens gebruikt worden voor validiteitsanalyses, met name in het onderzoek naar structurele validiteit, waarvoor bewijs vaak ontbreekt. Open datasets, gepubliceerd op platformen zoals Dataverse, LinkedScience en het Open Science Framework kunnen op eenzelfde manier ingezet worden. Onderzoek naar de test-hertest betrouwbaarheid, meetfout en responsiviteit vereisen een meer specifieke methodologische opzet. Om de inzet van middelen voor dergelijke studies te verminderen kan crowsourching worden ingezet. Resultaten van dergelijk onderzoek moet daarnaast toegankelijker overgebracht worden op de clinici en onderzoekers die daadwerkelijk gebruik maken van het meetinstrument. In een weerspiegeling van open data platforms en in lijn met de beweging van de Europese Unie naar open science, zou een platform kunnen worden ontwikkeld voor het uploaden van resultaten van validiteitsstudies, bij voorkeur inclusief de gebruikte dataset. Door gebruik te maken van machine readable formats zou dan een automatische, en kwalitatieve samenvatting van psychometrische eigenschappen kunnen worden gecreëerd.

Lees meer