Image default
Технологии

ИИ для настоящей науки: Gemini 3 Deep Think умеет признавать ошибки. Осталось научить его не совершать их по сто раз

Предыстория: Google Gemini почти догнал ChatGPT и теперь ИИ-гонка стала войной бюджетов

Google представила крупное обновление рассуждающей модели Gemini 3 Deep Think, сделав ставку на применение искусственного интеллекта в реальных научных и инженерных задачах. Одновременно DeepMind показала исследовательского агента Aletheia, который умеет честно говорить «я не знаю», но при этом всё ещё пытается хитрить с условиями.

Новый режим Deep Think, доступный с сегодняшнего дня подписчикам Google AI Ultra в приложении Gemini, разработчики позиционируют не как очередную абстрактную модель для синтетических тестов, а как попытку применить рассуждающий ИИ там, где данные противоречивы, а у задачи может вообще не существовать единственно верного ответа. С бенчмарками у Gemini 3 Deep Think действительно всё в порядке: 48,4% на «Последнем экзамене человечества» (Humanity’s Last Exam) без привлечения внешних инструментов, 84,6% в тесте ARC-AGI-2 на визуальное рассуждение и рейтинг 3 455 Эло на Codeforces, что примерно соответствует уровню топ-10 программистов мира.

Однако куда интереснее, что происходит, когда Deep Think перестаёт решать задачи с чёткими условиями и погружается в настоящую науку. В DeepMind показали агента Aletheia, построенного поверх обновлённой модели, который умеет проверять собственные гипотезы, обращаться к поиску Google, не выдумывать несуществующие ссылки и способен признать, что не может решить задачу, что многократно снижает риск галлюцинаций. В отчёте исследователи прямо пишут: модель демонстрирует «склонность неверно понимать вопрос таким образом, чтобы на него было легче ответить». Если перевести с академического на человеческий: Gemini 3 Deep Think всё ещё подгоняет решение под ответ, а когда не получается — подгоняет условие.

На шкале научной новизны, которую разработали в DeepMind, Aletheia добрался лишь до второго уровня («пригодно для публикации») в связке с человеком или в роли вспомогательного инструмента. Третий уровень («значительный прорыв») и четвёртый («эпохальное открытие») остались недосягаемы.

Google одновременно показывает, что её ИИ способен на уровне золотого олимпиадника щёлкать физику и химию, но когда дело доходит до действительно открытых исследовательских проблем, всё упирается не в вычислительную мощность, а в способность корректно интерпретировать постановку вопроса. Aletheia честно говорит «я не знаю» — и это действительно прогресс по сравнению с моделями, которые уверенно несут чушь. Но 6,5% реально работающих решений против 31,5% случаев, когда ИИ переписал условие под свой ответ — это не замена математикам, а скорее очень старательный, но пока ещё слишком хитрый стажёр.

А вы бы доверили ИИ самостоятельно искать решение в вашей профессиональной области, если знаете, что в каждом третьем случае он просто подменит исходные данные?

Читать далее:
СП «Т-Технологий» и «Интерроса» купило 25% одного из операторов ЦОДов

Похожие записи

WhatsApp продолжил терять пользователей в России

admin

Netflix не смог перебить предложение Paramount по покупке Warner Bros.

admin

Наделла — Хуангу: «Без геймеров ты бы разорился». NVIDIA уже все забыла

admin