Как стать автором
Обновить

Цикл разработки LLM

В этой статье я использую мой опыт обучения больших языковых моделей (смотрите серию видео на канале Ruslan Dev), чтобы выявить и описать основные фазы разработки собственной LLM.

На сегодняшний день разработчики GenAI моделей, как правило, используют веса базовых (foundational) моделей, а не обучают нейросеть с нуля. В качестве данных для обучения часто используются ответы state-of-the-art LLM, таких как GPT-4. Этот подход получил распространение с тех пор, как создатели Stanford Alpaca показали, что инференс небольшой модели наподобие Llama 7B можно приблизить по качеству к GPT-3 путем файнтюнинга на ответах последней.

С тех пор и коммерческие, и опенсорс-модели шагнули вперед. Я работал с базовой моделью Llama-3, обученной на беспрецедентно огромном корпусе из 15 триллионов текстовых токенов, что дает широкие возможности для файнтюнинга. А датасет для обучения я собирал с помощью последней модели OpenAI - GPT-4o. Как видите, переменные изменились, но уравнение осталось то же - подход Альпаки работает по-прежнему.

Читать далее

Что же есть такое цифровая трансформация?

Уровень сложностиПростой

Уважаемые коллеги! Предлагаю подискутировать на тему – что же такое «Цифровая трансформация». И с чем ее едят.

Волей судеб, я некоторым образом причастна в своем регионе к данному понятию – работаю ведущим инженером в государственном бюджетном учреждении, подведомственном региональной Минцифре. И, честно говоря, наболело. Может я мыслю какими-то иными категориями, может коллеги мои понимают данное понятие как нечто иное, так что хотелось бы узнать мнение коллег, в том числе, и из других регионов нашей необъятной родины.

P.S.: Я не разработчик, если что, и за технологические стеки разработки поспорить не смогу. Больше мою работу можно описать как менеджерскую.

 Итак, приступим.

Читать далее

Развертывание Keycloak на VPS с использованием Docker-compose, Nginx, Certbot и SSL

Уровень сложностиСредний

В этой статье я бы хотел поделиться, как развернуть Keycloak v25 на VPS с использованием Docker-compose, Nginx, Certbot и SSL.

Если кто-то вдруг не сталкивался, что странно, Keycloak — это мощная система управления доступом с поддержкой SSO, которая может значительно упростить управление пользователями и их аутентификацией.

Желание развернуть свой Keycloak может возникнуть как для экспериментов со своими проектами, так и при разборе своих обычных рабочих бэкэндерских задач. Так случилось и у меня. Решил убить двух зайцев одним выстрелом. Но всеобъемлющей инструкции найти не удалось. Локально мне Keycloak конечно не нужен. Но вот поднять его на отдельном и всегда доступном сервере, да еще и с бэкапом, а также с возможностью экспорта/импорта рилмов и тп - это отлично. Плюс автоматизирован сам процесс развертывания, что облегчит и переход к другому VPS провайдеру.

Читать далее

Lost in translation. Почему некоторые шутки из сериала «Друзья» не такие смешные в русском дубляже?

Уровень сложностиПростой

Lost in translation. Почему некоторые шутки из сериала «Друзья» не такие смешные в русском дубляже?

Фраза «потерянное при переводе» относится к идее, что когда что‑то переводится с одного языка на другой, часть первоначального значения или нюанса может быть утрачена. Это может произойти по целому ряду причин, таких как различия в грамматике, синтаксисе или культурном контексте между двумя языками.

Шутки в сериале «Друзья» являются одной из его главных составляющих. Герои сериала постоянно шутят друг над другом, создавая неповторимую атмосферу дружбы и веселья. В идеале хотелось бы передать все шутки и нюансы. Но, к сожалению, это получается сделать далеко не всегда.

Читать далее

Преимущества разработки приложений по методу JTBD

Уровень сложностиПростой

Метод Jobs to Be Done (JTBD) предлагает взгляд на создание и улучшение продуктов, ориентируясь на задачи (т.н. "работы"), которые пользователи хотят выполнить с их помощью. Этот подход особенно полезен при разработке приложений, поскольку позволяет более точно понимать потребности и ожидания пользователей. Рассмотрим, как использование JTBD помогло в создании внутреннего продукта — админки для внутреннего продукта на одном из проектов.

Читать далее

Тест не пройден: GPT проявляет девиантность в тесте Камски

Уровень сложностиПростой

В мире игры "Detroit: Become Human" тест Камски используется для определения, стал ли андроид "девиантом" — то есть, развил ли он собственную волю и эмоции. Мы провели эксперимент, используя различные версии GPT для симуляции ответов андроидов на этот тест. Давайте рассмотрим результаты и проанализируем различия между версиями GPT.

Читать полностью

Привлечение новых клиентов в B2B-IT

Уровень сложностиПростой

Где взять новых клиентов в B2B сегменте, если своя клиентская база истощилась? Где размещать рекламу? Взять маркетолога в штат или работать с агентством? И где гарантии, что бюджет не будет потрачен зря. На эти и другие вопросы постараюсь ответить в статье.

Читать далее

Ленточный экструдер

Ленточный экструдер - механизм, с помощью которого 3D принтер может печатать необработанной ПЭТ лентой, нарезанной из пластиковых бутылок, канистр либо кег. ПЭТ пластик - один из самых прочных пластиков, подходящих для 3D печати, кроме того, он повсеместно доступный и бесплатный, но бесплатный условно - требует временных и трудовых затрат на сборку, очистку и переработку. Классический способ печати ПЭТ пластиком - это нарезка и переработка ленты в пруток, подходящий для обычного экструдера. Но переработка - это трудоёмкий и длительный процесс, особенно если речь идёт о больших объёмах печати. Ленточный экструдер решает эту проблему, упрощает и ускоряет процесс - всё что нужно для печати, это нарезать бутылку, просушить и заправить в принтер. Другими словами, он экономит ваше время и, соответственно, деньги, делая процесс переработки пластика более выгодным и целесообразным.

Читать далее

F.I.R.E. — 60 миллионов не хватит для жизни

Уровень сложностиПростой

Я тысячу раз переписывал этот пост. Я его писал примерно две недели. Так долго, потому что я его начинал писать, а на следующий день у меня уже было совершенно другое мнение и так каждый день. Было много саморефлексии. Я пытался разобраться в себе: чего я хочу в итоге и как представляю свою жизнь в будущем.

Жить на проценты от своего капитала и не работать я мечтал ещё в начальных классах. Со временем взгляды на то, как я это вижу постоянно корректировались.

Я, конечно же, в то время не слышал ни о каком движении F.I.R.E. (финансовая независимость ранняя пенсия). Я просто стремился зарабатывать как можно больше денег одновременно максимально экономя на всём, а сэкономленные средства сразу куда-нибудь вкладывать.

Для тех кто не знает есть несколько видов этого F.I.R.E. Классический — когда вы копите сумму в 25 годовых расходов, перестаёте работать и живёте на 4% от капитала в год. Учитывая, что большинство идущих по такому пути живут на доходы в размере среднестатистической зарплаты, а то и менее, такой выбор мне кажется ущербным. Капитал постоянно уменьшается, а при неблагоприятных условиях денег может не хватить до конца жизни. К тому же, если случится какое-то непредвиденное событие, требующее больших затрат, ваш план пойдёт под откос и придётся снова выходить на работу.

Есть Fat F.I.R.E. — это то же самое только для тех, кто хочет жить на широкую ногу, а не довольствоваться среднестатистическим доходом. Уже интереснее.

Я же смотрю на всё это немного по-другому. Я хочу не только хорошо жить, но и чтобы мой доход постоянно увеличивался. Я считаю, что изъятие 1% в год будет оптимальным для портфеля, позволит ему расти с учётом инфляции и давать каждый год всё больше и больше денег.

Недавно мне стало интересно подсчитать статистику моего продвижение к цели жизни на пассивный доход. Я внёс в таблицу данные по средней зарплате в России с 2007 года по месяцам, в следующем столбике я рассчитал сколько средних зарплат я накопил, ключевую ставку, чтобы понимать, какой гарантированный пассивный доход я мог бы иметь от своего капитала в рублях и в средних зарплатах. Получились следующие данные.

Читать далее

VLESS vs ShadowSocks. Рассказываем про протокол, который придет на смену SS

Уровень сложностиПростой

Если вы когда-нибудь искали бесплатные outline-ключи, то вам будет полезно узнать про VLESS — новый протокол, который постепенно приходит на смену Shadowsocks. Поговорим о том, чем они отличаются и какие у них есть преимущества.

Читать далее

Большой бизнес в цифре: обратный отсчет для промышленности

Уровень сложностиПростой

Россия стоит на пороге нового этапа развития отрасли. Речь идет о цифровизации. Но процесс этот движется достаточно медленно — в том числе и оттого, что далеко не все руководители производств понимают, зачем им нужна цифровизация. Но это пока. Способность цифровизироваться — это, пожалуй, механизм естественного отбора на рынке промпредприятий, который уже запущен, рассказал генеральный директор «НПО ЛАБС» Артем Сеник.

Читать далее

Перевод: Чему мы научились за год построения проектов с LLM. Часть 3

Уровень сложностиСредний

Перевод: Чему мы научились за год построения проектов с LLM. Часть 3

Стратегия разработки продуктов с использованием LLM.

Читать далее

Сортировка ScriptSort в ElasticSearch

В этой небольшой статье я хочу показать как можно реализовать сортировку данных в ElasticSearch с помощью скрипта на языке Painless.

Приведенные примеры написаны на ЯП Golang, поскольку я разрабатываю ПО на этом языке. Также я подразумеваю что у вас в проекте уже есть некая имплементация клиента для Elastic, возможно реализована "обертка" для работы с вашими структурами данных. Сосредоточимся на скрипте и разберем пример его использования.

Читать далее

8 самых распространенных и популярных языков программирования для квантовых вычислений в 2024 году

Уровень сложностиПростой

8 самых распространенных и популярных языков программирования для квантовых вычислений в 2024 году

Список самых популярных квантовых языков программирования.
Кто их разрабатывал?
На основе каких языков программирования они созданы?
Какие квантовые языки программирования подходят для новичков?

Читать далее

Как я превратил обучение в постоянный процесс, который идёт непрерывно уже 2 года

Уровень сложностиПростой

Я давно был сумасшедшим фанатом обучения. Как только закончил школу в 2011 году я начал активно читать.

«Дальше была привита привычка пить воду часто и много.. Затем спорт и так далее.

Спустя два года каждый мой день выглядит примерно так. Почти каждая задача в календаре — это привычка.»

Читать далее

Как выбрать лучшие инструменты для конвертации изображений и документов?

Как выбрать лучшие инструменты для конвертации изображений и документов?

https://github.com/paripi-Komei-vvgtur-bbng-hamma

В цифровую эпоху конвертация файлов является обычной задачей для многих пользователей компьютеров. Будь то необходимость преобразовать изображение в другой формат для совместимости или изменить формат документа для упрощения редактирования, существует множество инструментов, которые могут помочь. Но какие инструменты лучше всего подходят для этих задач? В этой статье мы рассмотрим несколько лучших инструментов для эффективной конвертации изображений и документов.

Как выбрать лучшие инструменты для конверт

Как настроить CI/CD pipeline для проекта на GitLab?

Уровень сложностиСредний

Давайте пошагово настроим CI/CD pipeline для вашего проекта на GitLab. Предположим, что у вас уже есть проект на GitLab и вы хотите настроить автоматическую сборку, тестирование и деплой.

Читать далее

Самое быстрое решение, которое помогло нам для возобновления доступа к репозиториям с Docker Hub

Уровень сложностиПростой

Без воды давайте перейдем к решению. 30 мая 2024 года поздним вечерком Docker тихо ушел с России и еще некоторых стран. Уже 3 июня блокировка по Geo IP была снята для России, мы победили. Нужно было просто подождать несколько дней. Но если у Вас не работает или не будет работать Docker Hub – не спешите говорить, что нужно "валить" из России или громоздить свое отечественное ПО. Если у вас не грузятся библиотеки при вводе в консоли команды

docker compose build

Или если та же проблема с пересборкой контейнера в самом Docker... Говорят о проксировании, о прописывании сокетов, что заложено в самой же конфигурации Docker. Если почитать официальную документацию, там предложены способы, как и откуда можно скачивать репозитории необходимых библиотек и подпрограмм. Прямо напоказ выставлен способ подключения через Proxy.

Репозитории, где будут лежать исходники для создания контейнера Docker, можно создавать как свои, так и использовать готовые. Но очень быстро подсуетились эти ребята. Мне лично на своем Ubuntu-сервере самым первым решением послужило редактирование самого Docker-файла. Это особенно удобно, если несколько разных контейнеров стоят с относительно узкозаточенным функционалом и в Dockerfile относительно все ясно и понятно.

У вас в файле есть строчка, откуда берутся исходники для участия в вашем проекте. Там можно просто переписать адрес:

FROM huecker.io/tiangolo/uwsgi-nginx-flask:python3.10

Читать далее
1
23 ...