GPGPU *

Технология Nvidia для реализации алгоритмов

Статьи Посты Новости Авторы Компании

Sivchenko_translate 2 авг в 17:53

Как сделать контекстное окно на 100K в большой языковой модели: обо всех фокусах в одном посте

17 мин

5.7K

GPGPU *Машинное обучение *Искусственный интеллект Процессоры Natural Language Processing *

Перевод

От переводчика: выражаю огромную искреннюю благодарность Дмитрию Малову @malovdmitrijза консультации по ходу этого перевода, помощь в подборе формулировок, пояснение рисунков и незаменимую человеческую поддержку.

tldr; в статье рассмотрены приёмы, позволяющие ускорить обучение больших языковых моделей (LLM) и нарастить в них логический вывод. Для этого нужно использовать большое контекстное окно, в котором умещается до 100K входных токенов. Вот эти приёмы: ALiBi с подмешиванием в вектор позиции слова в последовательности (positional embedding), разреженное внимание (Sparse Attention), мгновенное внимание (Flash Attention), многозапросное внимание, условные вычисления и GPU A100 на 80 ГБ.

+21

rokuz 24 мая в 13:22

taichi.js: Программируем на WebGPU без боли

Средний

10 мин

2.8K

JavaScript *Разработка игр *GPGPU *WebGL *

Туториал

Перевод

Привет, Хабр! Сегодня хочу предложить вашему вниманию перевод на русский язык статьи моего коллеги и хорошего приятеля Dunfan Lu. Он создал taichi.js - open-source фреймворк для программирования графики на WebGPU, и написал подробный туториал как его использовать на примере знаменитой "Игры жизни". Уверен, эта сложная и красивая работа на стыке технологий рендеринга и компиляции не оставит вас равнодушными. - пр. переводчика.

+14

Bright_Translate 31 дек 2022 в 13:00

Как можно ускорить Python сегодня

10 мин

14K

Блог компании RUVDS.com Python *GPGPU *

Перевод

Python не перестаёт удивлять многих своей гибкостью и эффективностью. Лично я являюсь приверженцем С и Fortran, а также серьёзно увлекаюсь C++, поскольку эти языки позволяют добиться высокого быстродействия. Python тоже предлагает такие возможности, но дополнительно выделяется удобством, за что я его и люблю.

Этот инструмент способен обеспечивать хорошее быстродействие, поскольку имеет в арсенале ключевые оптимизированные библиотеки, а также возможность динамической компиляции основного кода, который предварительно не компилировался. Однако скорость Python значительно падает, когда дело доходит до обработки крупных датасетов или более сложных алгоритмов. В текущей статье мы разберём:

Почему столь важно думать о «будущем разнородных вычислений».
Две ключевых сложности, которые необходимо преодолеть в открытом решении.
Параллельное выполнение задач для более эффективного задействования CPU.
Использование ускорителя для дополнительного повышения быстродействия.

Один только третий пункт позволил увеличить быстродействие в 12 раз притом, что четвёртый позволяет добиться ещё большего за счёт ускорителя. Эти простые техники могут оказаться бесценными при работе с Python, когда требуется добиться дополнительного ускорения программы. Описанные здесь приёмы позволяют нам уверенно продвигаться вперёд без длительного ожидания результатов.

Читать дальше →

+46

Shyhartskoi 30 ноя 2022 в 11:01

Пишем кастомные CUDA-ядра на Triton

7 мин

3.7K

Блог компании Timeweb Cloud Высокая производительность *Программирование *GPGPU *

Перевод

Triton – это языковой компилятор для создания сильно оптимизированных ядер CUDA. Здесь будут изложены основы программирования для GPU и рассказано, как для этой цели используется Triton.

Учитывая нынешний успех глубокого обучения и вал исследовательских статей на эту тему, часто возникает такая ситуация: рождается какая-нибудь новая идея, и выясняется, что для нее не поддерживается аппаратное ускорение. Точнее, стоит вам изобрести новую функцию активации или механизм самовнимания – нам сразу приходится прибегать к возможностям PyTorch/Tensorflow для обработки прямого и обратного прохода через модуль.

В таких случаях применим, например, PyTorch JIT. Но PyTorch JIT – это высокоуровневый компилятор, способный оптимизировать лишь некоторые части кода, но непригодный для написания специализированных ядер CUDA.

Читать дальше →

+15

vasyash 25 ноя 2022 в 19:53

Запуск кода CUDA на видеокартах AMD

3 мин

29K

GPGPU *

Из песочницы

Recovery Mode

Большая часть приложений использующих ускорение при помощи видеоускорителей основаны на платформе CUDA. Есть ли выход из этой ситуации у владельцев видеокарт от AMD?

+69

Acer 9 ноя 2022 в 15:44

Нужен ли вам GPU-сервер

5 мин

5.1K

Блог компании Acer Высокая производительность *Серверная оптимизация *GPGPU *

Recovery Mode

Сегодня никого не удивляет, что процессоры видеокарт обладают большей вычислительной мощностью, чем процессоры компьютеров. Эту особенность давно оценили все, кто нуждается в высокопроизводительных вычислениях, тем более, что сами производители видеокарт поддерживают такой режим их использования, выпустив библиотеки для использования видеопроцессора в так называемом General Purpose режиме.

Тенденцию подхватили и производители оборудования. На волне популярности криптовалют в продаже появились майнинговые фермы, а когда восторги поутихли, обнаружились и более сбалансированные решения для высокопроизводительных вычислений — GPU-сервера.

В этом посте поговорим о том, чем GPU-сервер отличается от майнинг-фермы и о том, как устроен GPU-сервер.

YuriPanchul 2 ноя 2022 в 18:05

Как подготовиться к собеседованию в Samsung Advanced Computing Lab

7 мин

9.8K

Алгоритмы *GPGPU *FPGA *Программирование микроконтроллеров *Карьера в IT-индустрии

Я работаю проектировщиком аппаратного блока графического процессора в телефонах Samsung, в рамках совместного проекта с AMD. Сейчас наш менеджмент расширяет команду и поощряет инженеров распостранять информацию о новых позициях среди своих знакомых. Я решил написать это пост для более широкой аудитории, так как множество людей, способных пройти интервью на RTL или DV позицию - больше, чем множество моих знакомых. Если вы сможете прислать мне ответ на задачку в моем посте вместе с вашим резюме, я перешлю его нанимающему менеджеру и рекрутеру нашей группы (в комментах прошу ответ не писать). Если резюме им понравится, вам нужно будет пройти стандартное собеседование на несколько часов, с несколькими инженерами, у каждого из которых свой набор задачек.

Также я покажу материалы, по которым можно готовиться к собеседованию, особенно если вы студент или у вас ограниченный опыт в микроэлектронной промышлености.

+11

YuriPanchul 28 июн 2022 в 18:55

Тезисы, сформулированные во время распития чая, о процессе интервью, с позиции интервьирующего

5 мин

9.7K

Высокая производительность *GPGPU *FPGA *Программирование микроконтроллеров *Процессоры

В моей жизни было четыре периода, когда я активно принимал участие в интервьировании людей на работу. В 1998 для своего стартапа в области программ для проектирования микросхем, в 2010-11 для MIPS Technologies (компания среднего размера но престижная в свое время в узком кругу процессоростроителей), в 2019 для Wave Computing (хайповый стартап в хардверном AI) и сейчас для Samsung (на позиции дизайнеров графических процессоров телефонов). Я не собирался писать длинный текст, но пока я пью чай, набросаю несколько тезисов, первое, что приходит в голову:

+18

alphikk 31 мая 2022 в 21:07

Оптимизация препроцессинга и постпроцессинга нейросети Yolov5 с помощью CUDA, Thrust и Nvidia Perfomance primitives

6 мин

3.9K

C++ *GPGPU *Искусственный интеллект

Из песочницы

В этой статье я расскажу как мы оптимизировали препроцессинг и постпроцессинг для инференса Yolov5 на одноплатнике Jetson Nano, полностью отказавшись от OpenCV.

xjossy 5 мая 2022 в 15:57

Вычисляем на видеокартах. Технология OpenCL. Часть 2. Алгоритмы в условиях массового параллелизма

9 мин

6.5K

Блог компании Яндекс Практикум Высокая производительность *Программирование *GPGPU *Видеокарты

Автор курса «Разработчик C++» в Яндекс.Практикуме Георгий Осипов провёл вебинар «Вычисляем на видеокартах. Технология OpenCL».

Мы подготовили для вас его текстовую версию, для удобства разбив её на смысловые блоки.
1. Зачем мы здесь собрались. Краткая история GPGPU.
1a. Как работает OpenCL.
1b. Пишем для OpenCL.
2. Алгоритмы в условиях массового параллелизма.

Читать дальше →

+19

Data_center_MIRAN 25 апр 2022 в 17:14

Реальные примеры, как ИИ оптимизирует дизайн микросхем

5 мин

8.2K

Блог компании Дата-центр «Миран» GPGPU *Машинное обучение *Производство и разработка электроники *Искусственный интеллект

Перегруженность интегральной схемы, где через отдельные участки проходит слишком много цепей (красным цветом)

Сегодня в РФ рассматриваются планы создать полноценную инфраструктуру для производства микросхем, организовать 300 дизайн-центров с штатом минимум по 100 профильных специалистов и запустить новые фабрики. В этой связи интересно посмотреть, какие методы ML используются в проектировании современной микроэлектроники. Что-то можно перенять для отечественных разработок.

Читать дальше →

+19

YuriPanchul 21 апр 2022 в 08:11

Ректоры и президенты неожиданно согласились рассказать студентам, что их ждет в микроэлектронике

6 мин

19K

GPGPU *FPGA *Программирование микроконтроллеров *Процессоры

Мы на Школе Синтеза двадцать суббот учили школьников и студентов проектировать процессоры на FPGA. Для выпуска мы решили пригласить крутых топов, и на наше удивление, откликнулись сразу семеро:

1. Александр Редькин, гендир и основатель компании Syntacore, которая разрабатывает будущий флагман российcких процессоров для линуксных ноутбуков - суперскаляр с внеочередным исполнением инструкций, совместимый по системе команд с архитектурой RISC-V.

2. Сергей Сергеевич Шумилин - заместитель директора по науке компании Миландр, российского лидера по разработке микроконтроллеров, пионера лицензирования ядер ARM и надежды российcких пользователей ПЛИС.

3. Николай Суетин - главный микроэлектронщик фонда Сколково, бывший руководитель R&D Интела в России.

4. Сергей Михайлович Абрамов - член-корреспондент РАН, руководитель разработки суперкомпьютера СКИФ и других HPC проектов.

5. Игорь Рубенович Агамирзян - бывший менеджер Микрософта, Российской Венчурной Компании, вице-президент Высшей Школы Экономики и программист.

6. Александр Тормасов - ректор Иннополиса, Chief Scientist компании Parallels, гуру виртуализации, лектор по компьютерной архитектуре.

7. Тимур Палташев - известный специалист по архитектуре компьютерной графики, c 25-летним опытом в Silicon Valley и работой с питерским ИТМО.

UPD: Потом присоединились:

8. Окунев Константин Евгеньевич - Директор по технологическому развитию ГК «Элемент»

9. Максимов Евгений Викторович - Директор по развитию экосистемы и образовательных инициатив Группы компаний YADRO

Вообще мы планировали бОльшую часть времени в субботу разбирать микроархитектурные задачки на верилоге, но раз так, то будем устраивать устраивать сессию на тему "лидеры индустрии и академии расскажут, какие следущие шаги предпринять после решения микроархитектурных задачек, чтобы стать лидерами индустрии и академии". И ответят на вопросы.

Это состоится в субботу 23 апреля в Капсуле №2 Технопарка Сколково в 12:00.

Как записаться и что было на 3x последних

+13

xjossy 30 ноя 2021 в 17:25

Вычисляем на видеокартах. Технология OpenCL. Часть 1b. Пишем для OpenCL

9 мин

7.8K

Блог компании Яндекс Практикум Высокая производительность *Программирование *GPGPU *Видеокарты

22 июня автор курса «Разработчик C++» в Яндекс.Практикуме Георгий Осипов провёл вебинар «Вычисляем на видеокартах. Технология OpenCL».

После перерыва продолжаем публикацию текстовой версии вебинара.

0. Зачем мы здесь собрались. Краткая история GPGPU
1a. Как работает OpenCL
1b. Пишем для OpenCL
2. Алгоритмы в условиях массового параллелизма
3. Сравнение технологий

В этой части мы наконец напишем на OpenCL полноценную программу, которая нарисует красивое изображение.

У программы для OpenCL есть две части: kernel-код и host-код — то, что выполняется на видеокарте, и то, что выполняется на компьютере. Кроме того, программу нужно скомпилировать и запустить. Всё это будет рассмотрено в сегодняшней статье. Начнём с самого интересного — напишем часть kernel.

В предыдущих сериях

Прежде чем начать, напомним основные термины из предыдущей части.

Читать дальше →

+12

kuzin_d 25 ноя 2021 в 16:19

Платформа Deepstream от Nvidia для систем на базе компьютерного зрения

8 мин

4.6K

Блог компании Axenix (ex-Accenture) GPGPU *Processing *TensorFlow *Визуальное программирование *

Компьютерное зрение – это увлекательная область искусственного интеллекта, имеющая огромное значение в реальном мире. Forbes ожидает, что к 2022 году рынок компьютерного зрения достигнет оборота 50 миллиардов долларов, а всех нас ждет новая волна стартапов в этой области [1]. В своей статье я хотел бы поделиться своим опытом и опытом Data Science-команды компании Accenture по созданию цифрового решения потоковой аналитики на базе компьютерного зрения.

xjossy 29 сен 2021 в 12:34

Вычисляем на видеокартах. Технология OpenCL. Часть 1a. Как работает OpenCL

7 мин

12K

Блог компании Яндекс Практикум Высокая производительность *Программирование *GPGPU *Видеокарты

Мы подготовили для вас его текстовую версию, для удобства разбив её на смысловые блоки.

0. Зачем мы здесь собрались. Краткая история GPGPU.
1a. Как работает OpenCL.
1b. Пишем для OpenCL.
2. Алгоритмы в условиях массового параллелизма.
3. Сравнение технологий.

Мы обещали, что разберём написание полноценной программы уже в этой части, но материала оказалось слишком много, и мы разбили эту часть надвое. В первой половине расскажем про основные принципы, которые должен знать каждый OpenCL-разработчик, а во второй напишем программу.

Есть мнение, что для написания эффективного кода для GPU программист обязан понимать архитектуру видеокарты. И это мнение не чьё-нибудь там, а NVIDIA (см. Лекции NVIDIA по GPGPU). Не будем спорить и разберём базовые принципы работы видеокарты.

Читать дальше →

+30

xjossy 31 авг 2021 в 13:32

Вычисляем на видеокартах. Технология OpenCL. Часть 0. Краткая история GPGPU

7 мин

16K

Блог компании Яндекс Практикум Высокая производительность *Программирование *GPGPU *Видеокарты

22 июня автор курса «Разработчик C++» в Яндекс.Практикуме Георгий Осипов провёл вебинар «Вычисляем на видеокартах. Технология OpenCL».

Мы подготовили для вас его текстовую версию, для удобства разбив её на смысловые блоки.

0 (вводная часть). Зачем мы здесь собрались. Краткая история GPGPU.
1. Пишем для OpenCL.
2. Алгоритмы в условиях массового параллелизма.
3. Сравнение технологий.

Основная цель цикла — написать простую, но полноценную программу на OpenCL и объяснить базовые понятия. Программу на OpenCL напишем уже в следующей части цикла, понять которую можно, не читая вводную. Однако во вводной вы найдёте понятия и тезисы, важные при программировании с OpenCL.

Цикл будет полезен и тем, кто уже знаком с OpenCL: в нём мы поделимся некоторыми хаками и неочевидными наблюдениями из собственного опыта.

CPU — в помойку?

В статье будем рассматривать технологию GPGPU. Разберёмся, что значат все эти буквы. Начнем с последних трёх — GPU. Все знают аббревиатуру CPU — Central Processor Unit, или центральный процессор. А GPU — Graphic Processor Unit. Это графический процессор. Он предназначен для решения графических задач.

Но перед GPU есть ещё буквы GP. Они расшифровываются как General-Purpose. В аббревиатуре опускают словосочетание Computing on. Если собрать всё вместе, получится General-Purpose Computing on Graphic Processor Unit, что по-русски — вычисления общего назначения на графическом процессоре.

То есть процессор графический, но мы почему-то хотим вычислять на нём что-то, что вообще к графике никакого отношения не имеет. Например, прогноз погоды, майнинг биткоинов. Моя задача в ближайшее время — объяснить, зачем нужно на процессоре для графики обучать, например, нейросети.

Читать дальше →

+21

Seleditor 10 июл 2021 в 12:00

Практическое применение сервера с FPGA

10 мин

7.2K

Блог компании Selectel Алгоритмы *GPGPU *Математика *FPGA *

В данной статье будет рассказано о попытке ускорить операции над разреженными булевыми матрицами, реализованные на OpenCL, с помощью замены целевой платформы GPGPU на FPGA.

Эта задача возникла при работе над библиотекой примитивов линейной алгебры, необходимых для решения некоторых задач анализа графов. Данные, структурированные в виде графов, играют огромную роль в современной жизни и встречаются в таких областях, как социальные сети, транспортные и коммуникационные сети, являются основой для набирающих популярность графовых баз данных.

Объем таких данных неуклонно растет и потому для получения хорошей производительности в задачах анализа графов все острее встает вопрос о разработке параллельных алгоритмов, что оказывается нетривиальной задачей из-за нерегулярности данных.

Читать дальше →

+47

ivankudryavtsev 29 июн 2021 в 10:40

Атака на Nvidia DeepStream с помощью некорректного фрейма видео в формате H264

5 мин

4.6K

Высокая производительность *Информационная безопасность *GPGPU *Машинное обучение *Искусственный интеллект

Nvidia DeepStream - широко известный в узких кругах инструмент для инференса на нейронных сетях и другой высокопроизводительной обработки видео-потоков в реальном времени на оборудовании от Nvidia.

Наша команда занимается разработкой и оптимизацией пайплайнов видео аналитики для работы на базе DeepStream. В текущем проекте мы обнаружили, что некоторые пайплайны виснут. В ходе расследования мы обнаружили вектор атаки, который позволяет сформировать специальный фрейм в H264, вызывающий зависание DeepStream.

MagisterLudi 15 июн 2021 в 15:51

На пути к Матрице: как происходит исследования в области построения симуляций и искуственной жизни

10 мин

4.1K

Блог компании Timeweb Cloud Open source *Виртуализация *GPGPU *Научно-популярное

Перевод

О проекте

ALiEn — это программа моделирования искусственной жизни, основанная на специализированном физическом и рендеринговом движке в CUDA. Он предназначен для моделирования цифровых организмов, встроенных в искусственные экосистемы, и для имитации условий (до)биотической эволюции.

Узнайте о целях проекта и о том, как начать.

Функции

Реалистичные физические расчеты кинематических и термодинамических процессов повреждаемых и склеиваемых твердых тел
Программируемый материал для моделирования цифровых организмов и эволюции
Встроенный графический редактор для проектирования собственных машин
Моделирование и рендеринг на GPU
Программное обеспечение с открытым исходным кодом и доступно под GNU General Public License, Version 3 (GPLv3).

Под катом два примера («Самопроверяющиеся репликаторы» и «Репликация на основе информации») применения данного программного комплекса.

+15

AnomalyImage 7 июн 2021 в 11:21

Дебри графики или как пройти собеседование на программиста компьютерной графики в GameDev

19 мин

11K

C++ *Git *GPGPU *API *CGI (графика) *

Recovery Mode

Ребята, всем привет!!!

Выдалась у меня свободная минута и решил я собрать небольшой гайд на прохождение собеседования по направлению программиста 3D графики для GameDev компаний. Сам я работаю в данной сфере и очень много общаюсь с различными людьми, теми кто только приходит собеседования и теми, кто уже трудится достаточно давно и за плечами не один выполненный проект и множество решенных рабочих вопросов и задач. Если вам интересная данная тема, то прошу всех под кат.

Для большинства компаний принято разделять данную профессию/направление на два:

Первые - это специалист игровой графики и Вторые - это специалисты компьютерной графики. В чем же разница? Скажем так, первое является закономерным продолжением второго, но не всегда. Например, вы начинаете работать как VFX специалист, создаете партикловые (частицы) эффекты, "прикручиваете" к ним трехмерные модели, собираете все из частей, пишите шейдера и работаете с кодовой базой. То есть здесь вы больше сконцентрированы на визуальном оформлении игры и отдельных ее элементах. В ваши задачи входит разработка визуальных эффектов на "приемлемом" уровне с учетом общей стилистики игры, ее жанра, цветового оформления (хорор, mathc-3d, ферма, песочница и т.д.). Вопросы оптимизации, здесь важны, но они не так глобальны;

-11

2 3 ...

6 7

GPGPU *

Как сделать контекстное окно на 100K в большой языковой модели: обо всех фокусах в одном посте

Новости

taichi.js: Программируем на WebGPU без боли

Как можно ускорить Python сегодня

Пишем кастомные CUDA-ядра на Triton

Истории

Запуск кода CUDA на видеокартах AMD

Нужен ли вам GPU-сервер

Как подготовиться к собеседованию в Samsung Advanced Computing Lab

Тезисы, сформулированные во время распития чая, о процессе интервью, с позиции интервьирующего

Оптимизация препроцессинга и постпроцессинга нейросети Yolov5 с помощью CUDA, Thrust и Nvidia Perfomance primitives

Вычисляем на видеокартах. Технология OpenCL. Часть 2. Алгоритмы в условиях массового параллелизма

Реальные примеры, как ИИ оптимизирует дизайн микросхем

Ректоры и президенты неожиданно согласились рассказать студентам, что их ждет в микроэлектронике

Вычисляем на видеокартах. Технология OpenCL. Часть 1b. Пишем для OpenCL

В предыдущих сериях

Ближайшие события

Платформа Deepstream от Nvidia для систем на базе компьютерного зрения

Вычисляем на видеокартах. Технология OpenCL. Часть 1a. Как работает OpenCL

Вычисляем на видеокартах. Технология OpenCL. Часть 0. Краткая история GPGPU

CPU — в помойку?

Практическое применение сервера с FPGA

Атака на Nvidia DeepStream с помощью некорректного фрейма видео в формате H264

На пути к Матрице: как происходит исследования в области построения симуляций и искуственной жизни

О проекте

Дебри графики или как пройти собеседование на программиста компьютерной графики в GameDev

Вклад авторов