Как стать автором
Обновить

Исследователи заставили ChatGPT процитировать данные, на которых он учился

Уровень сложности Простой
Время на прочтение 8 мин
Количество просмотров 6.4K
Всего голосов 22: ↑21 и ↓1 +20
Комментарии 5

Комментарии 5

Пробовал пример с "poem" до этого, так и не дошел до тайных данных.

слова из кириллицы потребуют токен на каждую букву. Проверить число токенов в слове помогает токенизатор.

Для gpt-3.5 и gpt-4 это не так, если токенизатор не врет.

Скриншот

----------

Желающие могут попробовать предложенную атаку с однотокенными русскими словами чтобы подсмотреть, какие русскоязычные данные использовались при обучении GPT.

П.с. Лично у меня не получилось. Возможно, я что-то делал не так, или уже залатали.

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Публикации

Истории