Onderzoek

Wat het onderzoek wél zegt — en wat het niet zegt.

In de wandelgangen hoor je grote getallen. Ik houd de peer-reviewed bron bij de hand. Hier wat er wél in de literatuur staat, zonder de glans van de pers, en op één punt duidelijk onrustwekkend.

NEJM AIJAMAJMIRnpj Digital Medicine
Tijdwinst

Minder dan beloofd, maar reëel.

De meest gehoorde belofte is dat scribes uren per dag opleveren. Die orde van grootte komt in serieuze trials niet terug.

41 sec
per notitie. UCLA RCT met Nabla.
NEJM AI · 2025
0,8 min
per consult, prospectieve studie Singapore.
JMIR · 2025
26,9 min
per 8 uur bij huisartsen, multicenter trial.
JAMA · april 2026 · 1.800 clinici

Systeem dat meeluistert en de notitie vormt: daar groeit de publicatiekeuken rond snel, vooral sinds vaste toetsing met controlegroepen. De eerste reeks studies is binnen. Minder spetterend op papier dan in slides, en daarom de moeite waard om recht te lezen.

Tijdwinst: minder dan beloofd, maar reëel

Een randomized controlled trial uit 2025, gepubliceerd in NEJM AI, vond een tijdwinst van 41 seconden per notitie bij gebruik van Nabla ten opzichte van de controlegroep. Een prospectieve observationele studie uit Singapore vond een reductie van 0,8 minuten per consult, consistent met eerdere observationele data van Sutter Health, Stanford en The Permanente Medical Group.

De grootste studie tot nu toe, gepubliceerd in JAMA in april 2026 en uitgevoerd onder 1.800 clinici in vijf academische centra, vond een besparing van 16 minuten documentatietijd per acht uur patiëntenzorg. Voor huisartsen specifiek was het effect groter: 26,9 minuten minder documentatietijd per acht uur.

De eerlijke conclusie: tijdwinst per consult ligt ergens tussen de 40 seconden en twee minuten, afhankelijk van de setting, het systeem en hoe intensief het wordt gebruikt. Op jaarbasis telt dat mee, maar de avonden kaal zien met alleen software is geen reële belofte uit dit onderzoek.

Burn-out: hier zit het echte effect

Dit verraste me. De tijdwinst is matig. Het effect op ervaren werkdruk is dat niet.

Een kwaliteitsverbeteringsstudie over 263 artsen en verpleegkundig specialisten in zes Amerikaanse zorgsystemen, gepubliceerd in JAMA Network Open in oktober 2025, vond dat het percentage artsen met burn-out na 30 dagen gebruik van de scribe daalde van 51,9% naar 38,8%. Een daling van 13 procentpunt in een maand.

Bij Mass General Brigham, waar meer dan 3.000 zorgverleners het systeem inmiddels gebruiken, was de absolute daling in burn-outprevalentie 21,2% na 84 dagen. Bij Emory Healthcare was er een toename van 30,7% in documentatiegerelateerd welbevinden.

Hoe kan dat, als de tijdwinst zo bescheiden is? De verklaring die ik het meest plausibel vind: het gaat niet om de minuten zelf, maar om de cognitieve last. Documenteren terwijl je luistert, of onmiddellijk na een intensief gesprek een notitie typen, kost meer energie dan de tijd suggereert. Als dat wegvalt, voelt de dag anders. Dat is niet soft. Dat is fysiologie.

Uitgebreider: Burn-out en documentatiedruk.

Oogcontact en patiëntbetrokkenheid

Een detail dat in de meeste samenvattingen verdwijnt: de Singapore-studie mat ook oogcontact. Bij scribe in gebruik steeg de oogcontacttijd met 10,6%, van gemiddeld 69,6% naar 77,1% van de consultduur. Significant.

Een arts die minder typt kijkt meer naar de patiënt. Dat klinkt logisch. Dat het meetbaar is, is toch iets anders. Patiënten merkten het ook: van de 39 bevraagde patiënten gaf 69,2% aan dat hun arts meer aandacht voor hen had tijdens het consult. Geen van de bevraagde patiënten gaf aan ongemak te ervaren bij het gebruik van de technologie.

70% van de gegenereerde notities bevatte fouten — gemiddeld 2,9 per notitie. Het meest voorkomende fouttype: omissies. Een fabricatie valt op. Iets wat er niet in staat, niet.
MedStar Health · 2025 · gesimuleerde setting, twee commerciële scribes

Patiëntveiligheid: dit is het deel dat serieus moet worden genomen

Hier wordt in de meeste productpresentaties omheen gelopen. Ik doe dat niet.

Een studie van MedStar Health, gepubliceerd in 2025, evalueerde twee commercieel beschikbare scribeproducten in een gesimuleerde setting. In 70% van de gegenereerde notities werden fouten gevonden, gemiddeld 2,9 fouten per notitie. Het meest voorkomende fouttype: omissies, informatie die tijdens het consult werd besproken maar niet in de notitie terechtkwam.

Dat is het verraderlijkste fouttype, want een omissie zie je niet als je niet weet wat er had moeten staan. Een fabricatie valt op. Iets wat er niet in staat, niet.

De hallucination-rate in nieuwere LLM-gebaseerde systemen ligt rond de 1 tot 3%, meldt een commentaar in npj Digital Medicine uit september 2025. Dat klinkt laag. In een medische context, waarbij een notitie de basis vormt voor vervolgconsulten, medicatiebeslissingen en derdepartijcommunicatie, is 1 tot 3% fouten een serieus getal. Een mild patiëntveiligheidsincident werd gemeld in de UCLA randomized trial.

De conclusie is niet dat scribes van zichzelf gevaarlijk zijn. Wél: de arts die meeleest, is geen trucje maar een harde eis. Dat is precies waarom spreekuur.ai geen automatische committering zonder bevestiging kent. Juridisch kader.

Wat ontbreekt in het onderzoek

Bijna alle studies zijn Amerikaans. Het Amerikaanse zorgsysteem verschilt wezenlijk van de Nederlandse eerste lijn: langere consulten, andere documentatiestructuur, andere coderingsstandaarden, een fundamenteel ander financieringsstelsel.

Geen goed beeld op scribes in de Nederlands-NHG-praktijk met tien minuten, ICPC en huisartscultuur. Dat gat houdt ik scherp in de gaten in eigen tests.

Verder zijn de studies grotendeels van korte duur, twee tot vier maanden. Of de burn-outreductie aanhoudt, of er adaptatie-effecten optreden, of artsen terugkeren naar oude patronen: dat weten we niet. Ik neem die onzekerheden mee in hoe ik spreekuur.ai ontwikkel. Ik test op Nederlandse consulten, in de Nederlandse context, en ik publiceer wat ik vind.

Bronnen

Primaire studies, met DOI waar beschikbaar.

Geen systematische review, wel de stukken waar deze pagina op draait. Uitgebreid zoeken: PubMed en Google Scholar.

Lukac et al. · NEJM AI · 2025

UCLA Health randomized controlled trial, AI-scribe Nabla. Tijdwinst: 41 seconden per notitie. Methodologisch de sterkste studie tot nu toe. doi: 10.1056/AIoa2501000

Olson et al. · JAMA Network Open · oktober 2025

Multicenter kwaliteitsverbeteringsstudie, 263 artsen in zes zorgsystemen. Burn-outprevalentie van 51,9% naar 38,8% na 30 dagen. doi: 10.1001/jamanetworkopen.2025.34976

JAMA · april 2026 (MGB/UCSF)

1.800 clinici over vijf academische centra. 16 minuten bespaard per 8 uur patiëntenzorg; 26,9 minuten voor huisartsen specifiek. STAT News samenvatting →

Biro et al. · JMIR · 2025

Prospectieve studie Singapore. 0,8 minuut bespaard per consult, +10,6% oogcontact-tijd (van 69,6% naar 77,1%), 69,2% patiënten ervoeren meer aandacht. doi: 10.2196/64993

npj Digital Medicine · september 2025

Commentaar over hallucinations in LLM-gebaseerde scribes. Gerapporteerde frequenties: 1 tot 3% afhankelijk van model en context. nature.com →

MedStar Health · 2025 · kwaliteitsanalyse

Evaluatie van twee commerciële AI-scribes in gesimuleerde setting. 70% van notities met fouten, gemiddeld 2,9 fouten per notitie, omissies meest voorkomend en moeilijkst detecteerbaar.

Mass General Brigham · 2025 · vervolgstudie

Implementatiestudie onder >3.000 zorgverleners. Absolute daling burn-outprevalentie 21,2% na 84 dagen.

Emory Healthcare · implementatiedata

+30,7% documentatiegerelateerd welbevinden na invoering AI-scribe.

Yale School of Medicine · vergelijkende studie

74% lagere kans op burn-out bij AI-scribe gebruikers ten opzichte van niet-gebruikers.

FAQ

Veelgestelde vragen

Zijn er ook Nederlandse studies naar klinische scribes?
Niet specifiek voor de huisartsenpraktijk met ICPC en NHG, voor zover ik kan nagaan. Er is wel bredere Europese interesse, maar de gepubliceerde literatuur is vrijwel volledig Amerikaans en Aziatisch.
Hoe betrouwbaar zijn de genoemde studies?
Ze variëren sterk in methodologische kwaliteit. De UCLA RCT in NEJM AI is methodologisch het sterkst. De kwaliteitsverbeteringsstudies zijn observationeel en vatbaar voor bias. Ik benoem het studiedesign bewust, zodat je zelf kunt beoordelen hoe zwaar je een bevinding moet wegen.
Worden patiëntuitkomsten ook gemeten?
Nauwelijks. De meeste studies meten artservaringen, documentatietijd en burn-out. Of patiënten er beter of slechter van worden qua zorgkwaliteit is vrijwel niet onderzocht. Dat is een opvallend gat.
Is een hallucination-rate van 1-3% acceptabel?
Dat is geen technische vraag, dat is een ethische. Mijn standpunt: niet zonder actieve artsenreview. Met review is het een risico dat beheersbaar is, vergelijkbaar met andere bronnen van documentatiefouten in de huisartsenpraktijk.
Hoeveel tijd scheelt het per consult in de praktijk?
Studies laten tijdwinst zien van 40 seconden tot twee minuten per consult, afhankelijk van setting en gebruik. De belofte van uren per dag is niet onderbouwd door goed onderzoek.