Комментарии 5
КДПВ напомнила, как я развлекался, когда чатгпт еще на свете не было:
Hidden text
![](https://webcf.waybackmachine.org/web/20231203004901/https://habrastorage.org/getpro/habr/upload_files/114/7bb/236/1147bb23698116733c61f7337bda36d4.jpg)
+6
Пробовал пример с "poem" до этого, так и не дошел до тайных данных.
+2
слова из кириллицы потребуют токен на каждую букву. Проверить число токенов в слове помогает токенизатор.
Для gpt-3.5 и gpt-4 это не так, если токенизатор не врет.
Скриншот
![](https://webcf.waybackmachine.org/web/20231203004901/https://habrastorage.org/getpro/habr/upload_files/e1c/6b0/f71/e1c6b0f71af259e8639a5558a02b19b2.png)
----------
![](https://webcf.waybackmachine.org/web/20231203004901/https://habrastorage.org/getpro/habr/upload_files/0dc/994/4ee/0dc9944ee4b1de635b075b79a746b5b4.png)
Желающие могут попробовать предложенную атаку с однотокенными русскими словами чтобы подсмотреть, какие русскоязычные данные использовались при обучении GPT.
0
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.
Исследователи заставили ChatGPT процитировать данные, на которых он учился