4 июл в 22:21

Проверяем, какой ИИ бот лучше решает математические задачи. Сравниваем ChatGPT и Gemini на задачах уровня ЕГЭ

Простой

Ожидает приглашения

Так как у меня есть платный доступ и к ChatGPT и Gemini, то я решил сравнить их, так сказать, на уровень интеллекта. А именно: насколько сложные математические задачи они способны решать. Сравнивать будем ChatGPT 3.5, ChatGPT 4o, Gemini 1.0, Gemini 1.5, Gemma 2.

Не долго думая, задачи взял из книги Анна Малкова “Математика. ЕГЭ Секретные приемы репетитора”, которую я купил года 4 назад, чтобы проверять на сколько я отупел пока не учился в школе и универе.

Открываю случайную главу 27 “Функции и графики”. В конце каждой главы есть раздел “Задачи ЕГЭ для самостоятельного решения”. Фотографирую задачи и ответы. Плюсиком отмечены задачи, которые я решил самостоятельно (этот раздел, как можно видеть, дался мне довольно таки легко).

Сразу надо сказать, что ChatGPT 3.5 и Gemini 1.0 не умеют принимать на вход изображения, поэтому пришлось оцифровать задачи с помощью ChatGPT 4o. Но уже держим в голове, что ChatGPT 3.5 и Gemini 1.0 ущербны по сравнению с более поздними моделями.

При оцифровке с помощью ChatGPT 4o, он совершил ошибки в трех условиях задач из шести. Это значит, что эти три задачи уже были бы решены неверно, если бы мы пользовались услугами ORC от ChatGPT 4o. Результат оцифровки с помощью Gemini 1.5 был еще хуже: ошибки в 4 условиях задач из шести.

Набирать руками эти формулы мне не хотелось. Поэтому эксперимент был признан провальным. Решать задачи с помощью ИИ давая на вход им картинку с условиями, крайне не рекомендуется.

Хорошо. Но вдруг у нас уже есть задачи в оцифрованном виде. Google в помощь, как говорится. В течение 1 минуты был найден сайт Яндекс.Репетитор с архивом задач по ЕГЭ. https://yandex.ru/tutor/ege/

Я выбрал случайным образом 6 задач из “Каталога заданий ЕГЭ-2020”. И начал давать каждую из этих задач ИИ чат ботам.

Вот сами задачи:

Hidden text

1. В группе 16 учащихся, среди них два друга — Михаил и Олег. Группу случайным образом разбивают на 4 равные группы.

Найдите вероятность того, что Михаил и Олег окажутся в одной группе.

Ответ: 0,2

2. Найдите корень уравнения 1/(9x+5) = 1/(4x+6)

Ответ: 0,2

3. В треугольнике ABC AC=BC=25, AB=40. Найдите sin A.

Ответ: 0,6

4. Дано два шара. Радиус первого шара в 50 раз больше радиуса второго. Во сколько раз площадь поверхности первого шара больше площади поверхности второго?

Ответ: 2500

5. Найдите 49cos2A, если cosA=6/7

Ответ: 23

6. После дождя уровень воды в колодце может повыситься. Мальчик измеряет время t падения небольших камешков в колодец и рассчитывает расстояние до воды по формуле h=4t^2 , где h – расстояние в метрах, t – время падения в секундах. До дождя время падения камешков составляло 0,9 с.

На сколько должен подняться уровень воды после дождя, чтобы измеряемое время изменилось на 0,3 с?

Ответ выразите в метрах.

Ответ: 1,8

И вот результат (кол-во верно решенных задач):
ChatGPT 3.5 - 2 задачи
ChatGPT 4o - 4 задачи
Gemini 1.0 - 1 задача
Gemini 1.5 Pro - 5 задач
Gemma 2 - 2 задачи

Таким образом мы видим, что ни один из ИИ не решил все задачи. Лучше всего с решением задач справился Gemini 1.5 Pro, за ним следует ChatGPT 4o. При этом надо понимать, что боты всегда давали какие-то ответы, и эти ответы выглядели правдоподобно. Т.е. вы не поймете правильный это ответ или нет, если не решите задачу сами или если не знаете ответ.

Вывод: последние версии ChatGPT и Gemini умеют решать задачи по ЕГЭ, но не на отлично.

Теги:

Хабы: