full credits: HealthTech360
I chatbot basati sull’Intelligenza Artificiale hanno attirato l’attenzione nel campo dell’assistenza sanitaria per la loro promessa di migliorare l’accessibilità e l’efficacia dei servizi medici. Tuttavia, il loro utilizzo come dispositivi medici regolamentati si scontra con un ostacolo significativo: l’affidabilità delle risposte.
L’approvazione dei chatbot come dispositivi medici richiede una solida base scientifica e un’elevata precisione nella valutazione dei sintomi, delle diagnosi e delle raccomandazioni di trattamento, ma le attuali limitazioni tecnologiche e le sfide nell’addestramento degli algoritmi rendono difficile garantire la loro affidabilità completa.
I Large Language Models (LLM) sono modelli di linguaggio basati su reti neurali tra cui il Pre-trained Transformer (GPT) di OpenAI e il Pathways Language Model (PaLM) di Google. ChatGPT è un chatbot, basato su LLM, lanciato nel novembre 2022 da OpenAI, che ha una notevole capacità di conversazione e la capacità di imitare, quasi istantaneamente e in modo creativo, diversi stili di conversazione umana in base alle richieste dell’utente. È stato proposto che i chatbot LLM possano essere utilizzati in Medicina. Dopotutto, nell’ambito sanitario, lo scambio di informazioni, la consulenza e il collegamento dei flussi informativi sono parti cruciali della fornitura di servizi.
Un aspetto che spicca in GPT-4 è la sua abilità nell’editing e nell’analisi delle informazioni.
Sebbene non sia altrettanto efficace nella generazione di contenuti originali, la sua forza risiede nella revisione e valutazione di vari aspetti. Ciò che colpisce, in particolare, è la sua capacità di individuare incongruenze, mancanza di citazioni e scarsa inclusività in articoli scientifici e documenti medici. Questo apre interessanti possibilità, come l’utilizzo di GPT-4 come strumento per individuare errori e garantire la qualità delle pratiche mediche. Inoltre, GPT-4 dimostra sorprendenti capacità empatiche. È in grado di offrire supporto ai pazienti e mostrare empatia nei confronti dei medici di fronte a situazioni complesse. Ci sono stati casi in cui ha superato i medici umani in termini di sensibilità e risposte di alta qualità. Questo solleva interrogativi sul potenziale utilizzo della tecnologia per migliorare la comunicazione tra operatori sanitari e pazienti, nonostante la convinzione comune che l’empatia dovrebbe provenire esclusivamente dai medici umani.
Mentre si apprezzano i benefici di GPT-4, si riconosce anche la necessità di regolamentazione, soprattutto nel settore sanitario. Sebbene la Medicina abbia una lunga tradizione di rispetto delle normative, l’avvento delle tecnologie dell’intelligenza artificiale richiede un quadro regolatorio dedicato. È fondamentale che la comunità medica se ne assuma la responsabilità partecipando attivamente nella definizione del corretto utilizzo delle tecnologie come GPT-4. Questo implica la conduzione di ricerche per stabilire basi solide per normative oculate, linee guida e standard etici, tenendo conto dei potenziali rischi e limitazioni associate all’AI nel settore sanitario. Inoltre, l’accesso democratico alla conoscenza medica e l’abilitazione dei pazienti con informazioni accurate tramite GPT-4 sono temi che richiedono attenzione. Ciò consente ai pazienti di accedere a informazioni mediche specialistiche, contribuendo alla formazione di una popolazione di pazienti più informata aumentando la health literacy.
La garanzia di affidabilità e fiducia nella suddetta tecnologia presenta sfide che richiedono un’attenta considerazione. Durante questo percorso, infatti, sorge la questione se GPT-4 comprenda realmente o se sia semplicemente un sofisticato ripetitore di informazioni. Come scienziati, è fondamentale basarsi su prove ed evidenze. La comunità scientifica deve ancora fornire test definitivi che dimostrino in modo coerente i suoi limiti: cercando di evitare di attribuire ai chatbot caratteristiche umane è possibile condurre test maggiormente oggettivi. Le ricerche e i progressi in corso in questo campo contribuiranno senza dubbio a una comprensione più approfondita delle tecnologie di intelligenza artificiale.
Oggi, tuttavia, gli sviluppatori di chatbot LLM riconoscono che questi possono generare affermazioni altamente convincenti ma che sono sbagliate, nonché – talvolta – generare informazioni fittizie o risposte inappropriate alle domande. I chatbot LLM producono una “continuazione ragionevole” del testo, a partire da un prompt, utilizzando il risultato dell’apprendimento ottenuto dall’analisi del contenuto di miliardi di pagine Web e libri generici non identificati. Il loro sviluppo include l’apprendimento per tentativi ed errori, sia non supervisionato che supervisionato, per ottimizzare la loro plausibilità e ragionevolezza. Oggi non c’è modo di essere certi della qualità, del livello di evidenza o della coerenza delle informazioni cliniche o delle prove a sostegno di qualsiasi risposta dei LLM. I LLM, semplicemente, riassemblano ciò che è stato scritto più comunemente dagli esseri umani. Inoltre, quando viene loro chiesto di produrre una fonte, spesso inventano una citazione plausibile, ma inesistente. Questo era ancor più vero fino a pochissimo tempo fa, anche se il progresso è estremamente rapido in questo ambito e nuovi plug-in di ChatGPT – come ScholarAI – a disposizione nella versione a pagamento – permettono di citare fonti scientifiche in modo sempre più affidabile.
Il software che esegue qualcosa di più delle semplici funzioni di database per assistere nella diagnosi, prevenzione, monitoraggio, previsione, prognosi, trattamento o alleviamento della malattia è classificato come dispositivo medico e, quindi, si applicano controlli normativi, incluso il requisito che gli strumenti siano sviluppati in un sistema di gestione della qualità. L’UE richiede anche la sorveglianza post-commercializzazione e il follow-up clinico, che sono particolarmente impegnativi per i LLM. Poiché non hanno garanzia di qualità ereditabile dai loro sviluppatori, sono esclusi dall’uso come componenti “plug-in” esterni di dispositivi medici, ad esempio attraverso un’interfaccia di programmazione dell’applicazione (API). Poiché, inoltre, i LLM hanno una gamma quasi infinita di input e output, è difficile testarne l’usabilità e le prestazioni sul mercato, quindi è discutibile se la loro tendenza a suggerire informazioni dannose o false, ma altamente plausibili, possa mai essere controllata. Allo stato attuale, gli LLM trascurano il fatto che le informazioni mancanti siano necessarie per fornire una risposta accurata, non forniscono alcuna indicazione di accompagnamento di relativa certezza o fiducia e, generalmente, non forniscono fonti autentiche.
Quanto sopra esclude il loro uso negli Stati Uniti per il supporto decisionale clinico. Inoltre, ciò rende estremamente impegnativo verificare i risultati del processo di progettazione, mitigare tutti i rischi identificati e dimostrare una valida associazione clinica tra input e output, sia prima dell’approvazione che nel monitoraggio continuo, dopo il loro rilascio sul mercato. I suddetti problemi escludono, di fatto, una commercializzazione degli LLM – quali ChatGPT & Co. – valida come dispositivo medico ai sensi dell’attuale regolamentazione dell’UE. Del resto, si potrebbe fare un parallelismo con i motori di ricerca: essi possono avere un ruolo nel processo decisionale, ma questo non li rende dispositivi medici regolamentati, poiché i loro sviluppatori – in fase di progettazione – non avevano previsto come scopo dei motori quello di fornire uno strumento per la diagnosi medica, il supporto decisionale o la pianificazione della terapia.