Проверяем, какой ИИ бот лучше решает математические задачи. Сравниваем ChatGPT и Gemini на задачах уровня ЕГЭ
Так как у меня есть платный доступ и к ChatGPT и Gemini, то я решил сравнить их, так сказать, на уровень интеллекта. А именно: насколько сложные математические задачи они способны решать. Сравнивать будем ChatGPT 3.5, ChatGPT 4o, Gemini 1.0, Gemini 1.5, Gemma 2.
![](https://webcf.waybackmachine.org/web/20240725233746/https://habrastorage.org/getpro/habr/upload_files/4f5/00f/863/4f500f863610d7b080d69450f9d82451.jpg)
Не долго думая, задачи взял из книги Анна Малкова “Математика. ЕГЭ Секретные приемы репетитора”, которую я купил года 4 назад, чтобы проверять на сколько я отупел пока не учился в школе и универе.
Открываю случайную главу 27 “Функции и графики”. В конце каждой главы есть раздел “Задачи ЕГЭ для самостоятельного решения”. Фотографирую задачи и ответы. Плюсиком отмечены задачи, которые я решил самостоятельно (этот раздел, как можно видеть, дался мне довольно таки легко).
Сразу надо сказать, что ChatGPT 3.5 и Gemini 1.0 не умеют принимать на вход изображения, поэтому пришлось оцифровать задачи с помощью ChatGPT 4o. Но уже держим в голове, что ChatGPT 3.5 и Gemini 1.0 ущербны по сравнению с более поздними моделями.
![](https://webcf.waybackmachine.org/web/20240725233746/https://habrastorage.org/getpro/habr/upload_files/a5d/05e/b33/a5d05eb336fcf0cfcc6c180d551d295e.png)
При оцифровке с помощью ChatGPT 4o, он совершил ошибки в трех условиях задач из шести. Это значит, что эти три задачи уже были бы решены неверно, если бы мы пользовались услугами ORC от ChatGPT 4o. Результат оцифровки с помощью Gemini 1.5 был еще хуже: ошибки в 4 условиях задач из шести.
Набирать руками эти формулы мне не хотелось. Поэтому эксперимент был признан провальным. Решать задачи с помощью ИИ давая на вход им картинку с условиями, крайне не рекомендуется.
Хорошо. Но вдруг у нас уже есть задачи в оцифрованном виде. Google в помощь, как говорится. В течение 1 минуты был найден сайт Яндекс.Репетитор с архивом задач по ЕГЭ. https://yandex.ru/tutor/ege/
Я выбрал случайным образом 6 задач из “Каталога заданий ЕГЭ-2020”. И начал давать каждую из этих задач ИИ чат ботам.
Вот сами задачи:
Hidden text
1. В группе 16 учащихся, среди них два друга — Михаил и Олег. Группу случайным образом разбивают на 4 равные группы.
Найдите вероятность того, что Михаил и Олег окажутся в одной группе.
Ответ: 0,2
2. Найдите корень уравнения 1/(9x+5) = 1/(4x+6)
Ответ: 0,2
3. В треугольнике ABC AC=BC=25, AB=40. Найдите sin A.
Ответ: 0,6
4. Дано два шара. Радиус первого шара в 50 раз больше радиуса второго. Во сколько раз площадь поверхности первого шара больше площади поверхности второго?
Ответ: 2500
5. Найдите 49cos2A, если cosA=6/7
Ответ: 23
6. После дождя уровень воды в колодце может повыситься. Мальчик измеряет время t падения небольших камешков в колодец и рассчитывает расстояние до воды по формуле h=4t^2 , где h – расстояние в метрах, t – время падения в секундах. До дождя время падения камешков составляло 0,9 с.
На сколько должен подняться уровень воды после дождя, чтобы измеряемое время изменилось на 0,3 с?
Ответ выразите в метрах.
Ответ: 1,8
И вот результат (кол-во верно решенных задач):
ChatGPT 3.5 - 2 задачи
ChatGPT 4o - 4 задачи
Gemini 1.0 - 1 задача
Gemini 1.5 Pro - 5 задач
Gemma 2 - 2 задачи
Таким образом мы видим, что ни один из ИИ не решил все задачи. Лучше всего с решением задач справился Gemini 1.5 Pro, за ним следует ChatGPT 4o. При этом надо понимать, что боты всегда давали какие-то ответы, и эти ответы выглядели правдоподобно. Т.е. вы не поймете правильный это ответ или нет, если не решите задачу сами или если не знаете ответ.
Вывод: последние версии ChatGPT и Gemini умеют решать задачи по ЕГЭ, но не на отлично.