Исследователи из Массачусетского технологического института (MIT) нашли серьезную уязвимость в современных визуально-языковых моделях искусственного интеллекта: они практически не распознают отрицания в текстах. Это означает, что системы, задачей которых является анализ изображений и соответствующих им описаний, могут допускать критические ошибки в понимании, особенно в сферах, где точность играет ключевую роль — в том числе, в медицине или промышленности.
В качестве примера ученые привели ситуацию с рентгеновским снимком пациента. Если врач использует модель ИИ, чтобы найти аналогичные случаи в базе данных, но модель не распознает, что в описании указано «отек тканей без увеличения сердца», она может подобрать случаи и без увеличения сердца, и с ним — и таким образом допустить серьезную ошибку. В условиях, когда наличие или отсутствие одного симптома может полностью изменить медицинское заключение, подобные сбои недопустимы.
Проблема кроется в том, что визуально-языковые модели (VLM), обученные на огромных массивах изображений и сопроводительных подписей, практически не сталкиваются с примерами, в которых четко указано, чего на изображении нет. Подписи обычно описывают только то, что есть: «собака прыгает через забор», а не «собака прыгает через забор, без вертолетов на фоне». Отсюда возникает так называемое «подтверждающее смещение» — модели просто игнорируют слова вроде «не» и «без», сосредотачиваясь исключительно на упомянутых объектах.
В рамках своего исследования команда MIT создала два теста, чтобы проверить способность моделей распознавать отрицания. В первом они использовали крупную языковую модель, чтобы переформулировать существующие описания изображений, добавив упоминания об объектах, которых нет. Затем модели просили найти изображения, где одни объекты присутствуют, а другие отсутствуют. Во втором тесте предлагался выбор из подписей, различающихся только наличием или отсутствием отрицания — например, «на фото есть кошка» против «на фото нет кошки».
Результаты оказались удручающими: при наличии отрицаний точность выбора моделей резко падала, иногда до уровня случайного угадывания. Некоторые модели вообще не справлялись с заданиями. В результате исследователи создали новый набор данных, в котором было 10 миллионов пар «изображение-подпись» с включенными отрицаниями. Это позволило повторно обучить модели, что дало заметное улучшение: точность поиска изображений выросла на 10%, а точность в вопросах с несколькими вариантами ответов — на 30%.
Однако авторы подчеркивают, что их метод — лишь первая попытка решения проблемы. Архитектура моделей не менялась, в обучающую выборку лишь добавили более разнообразные примеры. Тем не менее, результаты уже показали, что уязвимость преодолима. Более того, ученые надеются, что их работа заставит разработчиков и пользователей задуматься о потенциальных рисках и проводить более тщательную проверку моделей перед их внедрением.
Особую тревогу вызывает то, что подобные модели уже используются в областях, где ошибки могут стоить человеческой жизни: от медицины до систем контроля качества на производстве. Пока машины не научатся надежно понимать такие базовые конструкции языка, как отрицания, пользоваться ими без дополнительных мер предосторожности может быть опасно. Исследователи призывают относиться к искусственному интеллекту с умом: если модель не распознает даже короткое «нет», можно ли доверять ей принятие решений в критических ситуациях?
Тем временем ученые выяснили, что хайп вокруг ИИ буквально вредит IT-продуктам.
- Искусственный интеллект
- Нейросети
Источник: hi-tech.mail.ru