Чи варто довіряти штучному інтелекту, коли йдеться про здоров’я? Нове масштабне дослідження дає привід замислитися: чатботи, які стрімко ввірвалися у медичну сферу, нерідко помиляються і можуть навіть нашкодити.
У світі, де пошук порад про здоров’я все частіше починається з чатботів або Google, вчені вирішили перевірити, чи дійсно новітні технології стали кращими за традиційні інструменти. Експеримент, результати якого опублікували в журналі Nature Medicine, охопив понад 1200 учасників з Великої Британії. Більшість із них не мала медичної освіти — саме вони дедалі частіше стають першими “пацієнтами” штучного інтелекту.
Кожен учасник отримав детальний сценарій: набір симптомів, дані про спосіб життя, історію хвороби. Завдання просте — отримати консультацію у чатбота і визначити правильний алгоритм дій. До експерименту залучили популярні моделі на кшталт ChatGPT та Llama.
Результати здивували навіть дослідників. У менш ніж половині випадків після спілкування з чатботом люди обирали правильну тактику, визначену лікарями. Правильний діагноз був встановлений приблизно у третині ситуацій. Цікаво, що це не перевершило показники контрольної групи, яка користувалася звичайним Google.
Технологія з ризиком
ШІ не тільки не випереджає класичні пошуковики, а й несе свої специфічні ризики. Вчені фіксували випадки, коли чатботи підбирали різні рекомендації залежно від дрібних змін у запитанні, або ж вигадували інформацію, якої насправді не існує.
“Попри весь ажіотаж, ШІ просто ще не готовий узяти на себе роль лікаря”, – коментує лікарка Ребекка Пейн.
Дослідники одноголосно стверджують: жодна із сучасних моделей не може застосовуватись для безпосереднього догляду за пацієнтами. Це перше масштабне рандомізоване дослідження, яке прямо вказує на слабкі місця таких систем.
Пацієнт, чатбот і діагноз
Під час експерименту стало очевидно, що джерело помилок не лише у ШІ. В половині випадків саме користувачі не зазначали ключових симптомів або давали неповну інформацію. Це призводило до хибних порад.
- ШІ міг недооцінити серйозність болю через відсутність уточнень.
- Детальний сценарій, введений лікарями, давав значно кращий результат — до 94% правильних діагнозів.
- Були випадки, коли чатбот вигадував неіснуючі екстрені номери телефонів.
- Навіть невеликі зміни у формулюванні симптомів радикально змінювали рекомендації.
“Пацієнти мають усвідомлювати, що звернення до великої мовної моделі із запитаннями про свої симптоми може бути небезпечним: вона може поставити неправильний діагноз і не розпізнати ситуацію, коли потрібна термінова допомога”, – наголошує дослідниця Ребекка Пейн.
Що далі?
Автори експерименту не відкидають потенціал технологій, але підкреслюють — на даний момент це скоріше інструмент для отримання загальної інформації, а не для медичних рішень. Представники компанії OpenAI запевняють, що їхні нові моделі стали точнішими та безпечнішими, проте науковці радять залишати вирішення складних питань лікарям.
Тенденція очевидна: штучний інтелект навчається стрімко, але медицина — не та сфера, де можна дозволити собі помилки. Остаточна відповідальність за здоров’я, як і раніше, лежить на людині.







