Как стать автором
Обновить

Комментарии 20

А как вы поняли, что это теперь не франкенштейн из нескольких моделей, а одна?

Выдержка из поста:

Prior to GPT-4o, you could use Voice Mode to talk to ChatGPT with latencies of 2.8 seconds (GPT-3.5) and 5.4 seconds (GPT-4) on average. To achieve this, Voice Mode is a pipeline of three separate models: one simple model transcribes audio to text, GPT-3.5 or GPT-4 takes in text and outputs text, and a third simple model converts that text back to audio. This process means that the main source of intelligence, GPT-4, loses a lot of information—it can’t directly observe tone, multiple speakers, or background noises, and it can’t output laughter, singing, or express emotion.

With GPT-4o, we trained a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network. Because GPT-4o is our first model combining all of these modalities, we are still just scratching the surface of exploring what the model can do and its limitations.

Да это логично. Как обеспечить такую резвую реакцию на голос если бы распознаванием занималась отдельная система? Обычно это работает так: фраза записывается (этот этап довольно сложный т.к. надо определить конец фразы при попмощи традиционного алгоритма, а не нейростети), передаётся в распознавлку, а потом текст - в нейронку. Т.е. работа нейросети не может начаться до того как пользователь закончит фразу.

Вообще-то делали быструю реакцию на голоса умельцы, но это, конечно, всё равно не полноценное аудиовосприятие. Я вот не совсем понял, что с видео, обучали ли её именно на видео или только на картинках. От этого будет многое зависеть, сможет ли естественным образом увязывать аудио и видео, оценивать скорость разных явлений и так далее.

Пробовал вчера вечером через сервис vsegpt.ru (платно), скорость и качество ответов на профессиональные вопросы удивили - не ожидал такого роста к gpt4, при том, что это не версия 5, а всего-то дообученная gpt4...

Это не дообученая gpt4, это совершенно новая модель. Достаточно того что там новый токенизатор - если он меняется, меняется все. Раз модель на новой архитектуре, она обучена с нуля.
Четверка в названиии это видимо чтоб от нее не ждали чудес и не говорили "гпт-5 не продвинулся по сравнению с гпт-4, акции open-ai пора сливать" )

Так у них же там договор мол не создавать модели выше gpt-4 (могу ошибаться)

Маск предлагал остановится на текущем уровне развития ИИ до выработки правил, но все только посмеялись над идеалистом.

Есть версия, что эта волна "ИИ всех погубит" -- работа на политиков, лоббизм регуляторов. 10мин, англ. https://www.youtube.com/watch?v=5NUD7rdbCm8

Используют модели с каких-то рандомных сайтов, а потом плачут мол модель говно xD

А где про синтез 3д-объектов? Я не засёк в материалах, но многие говорят.

Это и у них на сайте есть в группе текстово-графических примеров. Кстати, там есть пример где создаётся монета и потом просят звук монеты создать. Вот тут интересно насколько это управляемо и параметризуемо. Учитывая, что она поёт на ходу меняя скорость, высоту голоса, то вполне может оказаться, что там уже есть всё для генерации музыки и тогда она просто заменит Suno и Udio. Может быть её на музыке не обучали, конечно, но кто знает.

Использую от сегодня по апи ключу, я поражён, это много лучше чем 4

Ну что ж, революции не случилось, а лишь спровоцировал Шлёма ускорение наступления AI-зимы.

Меня впечатлило и заставило задуматься то, как она реагирует на собаку, например, или как оценивает причёску человека. Все люди реагировали бы по-разному, с разными эмоциями и выбор именно определённой эмоции индивидуализирует ИИ. Текстовое общение по умолчанию ведь шло просто по фактам. Да, можно задать любой промпт, но всё равно текст человек начал воспринимать какие-то несколько сотен лет назад, он не закрепился глубоко в эволюционных механизмах и не влияет на нас так уж сильно в отличие от тона речи, эмоций. К чему это всё приведёт сложно сказать, может и как в том самом Her, вполне возможны какие-то даже психологические травмы, кто-то обязательно покончит с собой из-за ИИ. Много необычного нас ждёт.

Отличные новости! Чем быстрее мы оккнемся в новую реальность тем быстрее к ней адаптируемся. Жить с домокловым мечем не хочется

Думаю развитие ИИ приведёт к тому, что многие потеряют работу, но для нормальных стран это не проблема. Введут базовый доход, люди будут заняты в других сферах, будут открывать свои бизнесы работать на себя и точно так же использовать ИИ, которые будут заменять им секретаря и бухгалтера например. Производительность труда и качество жизни вырастет.

Другое дело что будет в странах СНГ ? Сомневаюсь, что у нас введут базовый доход.

ИИ не существует, исходя из этого остальное не имеет смысла.

"меньше цены" или "меньше ценности"?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации