DataSecrets 13 часов назад

GPT-4o: больше мощи, но меньше цены. Почему так и что на самом деле умеет модель?

4 мин

16K

Big Data*Машинное обучение*Искусственный интеллект

+19

Комментарии 20

SciStalk 13 часов назад

А как вы поняли, что это теперь не франкенштейн из нескольких моделей, а одна?

DataSecrets 13 часов назад

Выдержка из поста:

Prior to GPT-4o, you could use Voice Mode to talk to ChatGPT with latencies of 2.8 seconds (GPT-3.5) and 5.4 seconds (GPT-4) on average. To achieve this, Voice Mode is a pipeline of three separate models: one simple model transcribes audio to text, GPT-3.5 or GPT-4 takes in text and outputs text, and a third simple model converts that text back to audio. This process means that the main source of intelligence, GPT-4, loses a lot of information—it can’t directly observe tone, multiple speakers, or background noises, and it can’t output laughter, singing, or express emotion.

With GPT-4o, we trained a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network. Because GPT-4o is our first model combining all of these modalities, we are still just scratching the surface of exploring what the model can do and its limitations.

darthmaul 12 часов назад

Да это логично. Как обеспечить такую резвую реакцию на голос если бы распознаванием занималась отдельная система? Обычно это работает так: фраза записывается (этот этап довольно сложный т.к. надо определить конец фразы при попмощи традиционного алгоритма, а не нейростети), передаётся в распознавлку, а потом текст - в нейронку. Т.е. работа нейросети не может начаться до того как пользователь закончит фразу.

Dron007 6 часов назад

Вообще-то делали быструю реакцию на голоса умельцы, но это, конечно, всё равно не полноценное аудиовосприятие. Я вот не совсем понял, что с видео, обучали ли её именно на видео или только на картинках. От этого будет многое зависеть, сможет ли естественным образом увязывать аудио и видео, оценивать скорость разных явлений и так далее.

avshkol 13 часов назад

Пробовал вчера вечером через сервис vsegpt.ru (платно), скорость и качество ответов на профессиональные вопросы удивили - не ожидал такого роста к gpt4, при том, что это не версия 5, а всего-то дообученная gpt4...

Aniro 9 часов назад

Это не дообученая gpt4, это совершенно новая модель. Достаточно того что там новый токенизатор - если он меняется, меняется все. Раз модель на новой архитектуре, она обучена с нуля.
Четверка в названиии это видимо чтоб от нее не ждали чудес и не говорили "гпт-5 не продвинулся по сравнению с гпт-4, акции open-ai пора сливать" )

Eggsiname 8 часов назад

Так у них же там договор мол не создавать модели выше gpt-4 (могу ошибаться)

BlackMokona 6 часов назад

Маск предлагал остановится на текущем уровне развития ИИ до выработки правил, но все только посмеялись над идеалистом.

VADemon 6 часов назад

Есть версия, что эта волна "ИИ всех погубит" -- работа на политиков, лоббизм регуляторов. 10мин, англ. https://www.youtube.com/watch?v=5NUD7rdbCm8

Eggsiname 8 часов назад

Используют модели с каких-то рандомных сайтов, а потом плачут мол модель говно xD

-1

excoder 12 часов назад

А где про синтез 3д-объектов? Я не засёк в материалах, но многие говорят.

DataSecrets 10 часов назад

Вот тут демо можно посмотреть, их показывали на презентации: https://x.com/estebandiba/status/1790285228981862720

Dron007 6 часов назад

Это и у них на сайте есть в группе текстово-графических примеров. Кстати, там есть пример где создаётся монета и потом просят звук монеты создать. Вот тут интересно насколько это управляемо и параметризуемо. Учитывая, что она поёт на ходу меняя скорость, высоту голоса, то вполне может оказаться, что там уже есть всё для генерации музыки и тогда она просто заменит Suno и Udio. Может быть её на музыке не обучали, конечно, но кто знает.

0x6b73ca 7 часов назад

Использую от сегодня по апи ключу, я поражён, это много лучше чем 4

martein 7 часов назад

Ну что ж, революции не случилось, а лишь спровоцировал Шлёма ускорение наступления AI-зимы.

Dron007 6 часов назад

Меня впечатлило и заставило задуматься то, как она реагирует на собаку, например, или как оценивает причёску человека. Все люди реагировали бы по-разному, с разными эмоциями и выбор именно определённой эмоции индивидуализирует ИИ. Текстовое общение по умолчанию ведь шло просто по фактам. Да, можно задать любой промпт, но всё равно текст человек начал воспринимать какие-то несколько сотен лет назад, он не закрепился глубоко в эволюционных механизмах и не влияет на нас так уж сильно в отличие от тона речи, эмоций. К чему это всё приведёт сложно сказать, может и как в том самом Her, вполне возможны какие-то даже психологические травмы, кто-то обязательно покончит с собой из-за ИИ. Много необычного нас ждёт.

Georrg 3 часа назад

Отличные новости! Чем быстрее мы оккнемся в новую реальность тем быстрее к ней адаптируемся. Жить с домокловым мечем не хочется

assdestr0yer 2 часа назад

Думаю развитие ИИ приведёт к тому, что многие потеряют работу, но для нормальных стран это не проблема. Введут базовый доход, люди будут заняты в других сферах, будут открывать свои бизнесы работать на себя и точно так же использовать ИИ, которые будут заменять им секретаря и бухгалтера например. Производительность труда и качество жизни вырастет.

Другое дело что будет в странах СНГ ? Сомневаюсь, что у нас введут базовый доход.

arantar 1 час назад

ИИ не существует, исходя из этого остальное не имеет смысла.

datacompboy 55 минут назад

"меньше цены" или "меньше ценности"?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время