alenusch 3 часа назад

MERA — инструктивный бенчмарк для оценки фундаментальных моделей

12 мин

573

Блог компании SberDevices Машинное обучение *Natural Language Processing *

+19

Комментарии 4

Kristaller486 2 часа назад

Для SFT моделей добавьте системный промпт

Можно какой-нибудь гайд, куда его в коде вставлять? Уже 30 минут пытаюсь вдуплить, но что-то не выходит. Хотя бы намек дайте.

alenusch 2 часа назад

Добрый день!
Можно посмотреть в сторону: https://github.com/ai-forever/MERA/blob/main/lm-evaluation-harness/lm_eval/base.py#L714

К сожалению я не знаю, какая у вас модель. Системные промпты у разных моделей могут быть разными и встраиваться по разному. Где-то это общий промпт вначале, где-то нужно обрамлять тегами/токенами и т.д. Тут всё уникально, поэтому мы не стали никак фиксировать на данном этапе.

Надеемся получить различные сабмиты моделей, чтобы далее, учитывая разнообразие, предложить некоторый вариант общий, как это встраивать. Будем рады вашим pull request.

Kristaller486 1 час назад

Спасибо за ответ. Я хочу протестировать модель OpenChat 3.5, для которой по личному опыту заметил очень хорошие способности на русском.

Как предложили ниже, было бы хорошо иметь возможность обернуть модель в OpenAI API совместимый сервер, коих хоть отбавляй, т.е. работа с системным промтом на нём, а evaluator просто использует openai.ChatCompletion.

upd: Еще можно добвить, что некоторые модели на hf имеют prompt_template в конфиге, который библиотека transformers умеет использовать.

janvarev 1 час назад

Коллеги, я был бы не против сделать анализ, но можно сделать простой eval на ваших тестах, который бы отсылал запросы на OpenAI server endpoint (chat / completion)?

Потому что масса всего поддерживает OpenAI server реализацию, и копаться отдельно "как встроить модель, чтобы померять" как-то не хочется.

ChatGPT поддерживает, GigaChat поддерживает, у меня куча моделей поддерживает. Можно простой evaluator в этом контексте сделать?

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.