Generatieve AI en risico-inschatting in de ambulancezorg, een Safe End?

DossierHT.KIEM.01.019
StatusAfgerond
Subsidie€ 39.951
Startdatum1 mei 2024
Einddatum30 april 2025
RegelingKIEM HighTech 2024-2026
Thema's
  • Gezondheid en Welzijn
  • Sleuteltechnologieën en duurzame materialen
  • Gezondheidszorg
  • Sleuteltechnologieën 20-23

De bereikbaarheid en beschikbaarheid van de ambulancezorg staat onder druk. Een belangrijke ingangsklacht van de mensen die 112 bellen is een kortdurende bewusteloosheid. Als deze bewusteloosheid het gevolg is van een verminderde bloedtoevoer in de hersenen noemen we het syncope. Syncope kan onschuldig of ernstig van aard zijn. De risico-inschatting en besluitvorming bij patiënten met syncope in de ambulancezorg is complex. Ambulanceprofessionals moeten in een kort tijdsbestek en onder hoge druk, met veel onderliggende informatie en onzekerheden risico’s inschatten en besluiten of een patiënt ingestuurd moet worden naar de spoedeisende hulp. Bij twee-derde van de ingestuurde syncope patiënten blijkt het niet ernstig te zijn. Twee HAN lectoraten ontwikkelden praktische en onderbouwde handvatten voor de praktijk (RAAK.PUB05.017 en RAAK.IMP.01.036). Deze zijn sinds juli 2022 onderdeel van de landelijke werkwijze.
In vervolg hierop heeft de praktijk de lectoraten gevraagd om te kijken of de inzet van digitale- en informatietechnologie, specifiek generatieve kunstmatige intelligentie (AI) op basis van Large Language Models (LLM), hen nog verder kan ondersteunen bij het inschatten van risico’s en besluiten maken bij patiënten met syncope in de ambulancezorg.

Deze KIEM-aanvraag is een proof of concept studie. We onderzoeken in hoeverre generatieve AI op basis van LMM technisch goed tekstbestanden kan analyseren op belangrijke medische- en omgevingsfactoren bij patiënten met een syncope.
We kiezen voor een pilot concurrente validatiestudie door kwalitatieve tekstanalyse, in combinatie met aanvullende focusgroepinterviews voor de interpretatie van de uitkomsten. Voor de pilot concurrente validatiestudie gebruiken we tekstbestanden uit de Safe End studie. De eerdere analyse van deze tekstbestanden uit de Safe End studie fungeert als de gouden standaard. Zo wordt de validiteit van de generatieve AI-analyse op basis van LMM vastgesteld. In focusgroepinterviews bespreken we de impact en ethische aspecten van de bevindingen voor de praktijk, wetenschap, onderwijs en de (door)ontwikkeling van beslissingsondersteuningsinstrumenten voor de toekomst.

Eindrapportage

Deze KIEM-aanvraag betrof een proof-of-conceptstudie naar de inzet van generatieve AI op basis van Large Language Models (LLM) voor de analyse van interviewverslagen met ambulancezorgprofessionals. Het doel was te onderzoeken in hoeverre het AI-model medische en omgevingsfactoren bij patiënten met een syncope kon identificeren uit tekst en of deze analyses overeenkwamen met die van de menselijke onderzoekers (concurrente validiteit).

Gedurende het gehele onderzoek bleef een menselijke expert betrokken (“human in the loop”) en was een ethisch adviseur actief in alle fasen.

Er werden twintig LLM’s geïdentificeerd en beoordeeld op criteria als coherentie, relevantie, grammaticale correctheid, context gevoeligheid, bias, reproduceerbaarheid en realisme. Slechts drie modellen bleken technisch en inhoudelijk geschikt voor analyse van Nederlandstalige interviews (november 2024). Veel modellen presteerden onvoldoende door een beperkte beheersing van het Nederlands, een klein context window of hallucinaties.
Het model ChatGPT Plus werd geselecteerd en getraind via specifieke prompts, ontwikkeld met een inhoudsdeskundige syncope-expert voor de ambulancezorg. In de eerste test bleek ChatGPT Plus technisch in staat om inhoudelijk juiste samenvatting te genereren van evaluatiegesprekken over risicobeoordeling en besluitvorming bij syncope. De AI leverde geen hallucinaties, en de resultaten kwamen sterk overeen met de originele analyses van onderzoekers. De tweede test, waarin ChatGPT werd getraind voor kwalitatieve analyse (open, axiaal en selectief coderen), mislukte. Na acht van de vijftien pagina’s tekst liep het model vast. Hoewel ChatGPT contextuele risicofactoren kon herkennen, slaagde het er niet in om subtiele verschillen in medische diagnoses of symptomen correct te onderscheiden en kon het model de opdracht in combinatie met de hoeveelheid tekst niet aan.

Ambulancezorgprofessionals waren positief over de resultaten van de eerste test en zagen groot potentieel voor verdere doorontwikkeling van de generatieve AI ter ondersteuning van de dagelijkse praktijk. De tweede test toonde aan dat ChatGPT momenteel (maart 2025) nog niet geschikt is als basis voor de doorontwikkeling van een beslissingsondersteuningsmodel in de ambulancezorg.

Contactinformatie

HAN University of Applied Sciences

Sivera Berben, contactpersoon

Consortiumpartners

bij aanvang project

Netwerkleden

bij aanvang project