Обновить
77.93
Рейтинг

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга

Проблемы искусственного интеллекта и алгоритм лечения

Алгоритмы *Big Data *Машинное обучение *Искусственный интеллект Мозг

Хотя обсуждаемые темы имеют и академический интерес, в настоящем сообщении приводится информация только для операционной деятельности.

Существуют многочисленные экспериментальные подтверждения лавинообразного характера сигнала в биологической нейронной сети. В коллективном сигнале, который обрабатывает мозг, нейроны уже «обезличены» по отношению к органам чувств и индивидуальным модам. Представляется важным отметить следующий факт: мозг обучается не на совокупности отдельных нейронов, а на особом коллективном состоянии нейронов. С потерей лавинообразного характера сигнала в биологической нейронной сети, что, по сути, сейчас моделирует искусственная нейронная сеть, наступает состояние эпилепсии[1]. Таким образом, задача в обработке данных именно лавинообразных сигналов приводит к искусственному интеллекту на новых физических принципах. Другими словами, обучение должно строиться не на исходных данных, а исключительно лишь на уникальной способности исходных данных к взаимной корреляции.

Читать далее
Всего голосов 3: ↑1 и ↓2 -1
Просмотры 1.5K
Комментарии 17

Новости

Как устроена MemQ — система PubSub в Pinterest

Блог компании SkillFactory Высокая производительность *Программирование *Amazon Web Services *Big Data *
Перевод

MemQ — это дополнение к Kafka, отделяющее аппаратную часть чтения и записи от слоя хранения данных. Разработчики Pinterest постепенно заменяют Kafka на MemQ: балансировка с ним не только проще благодаря унификации данных, но и дешевле в 10 раз. К старту флагманского курса по Data Science приглашаем под кат за подробностями.

Читать далее
Всего голосов 8: ↑6 и ↓2 +4
Просмотры 1.7K
Комментарии 2

HowTo: деплой Apache Cassandra DB и компонентов для её мониторинга

Блог компании X5 Group IT-инфраструктура *Big Data *Data Engineering *

Привет! Меня зовут Сергей Тетерюков, и я работаю инженером инфраструктуры и автоматизации в X5 Tech. Недавно я написал для коллег обзорную статью о БД Apache Cassandra DB и её деплое, и теперь хочу поделиться ей с вами.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 887
Комментарии 0

Школа аналитиков данных

Блог компании X5 Group SQL *Big Data *Машинное обучение *IT-компании

X5 Tech приглашает студентов и выпускников вузов пройти бесплатное обучение по профессии Data Analyst. Уже через три месяца обучения можно будет пройти оплачиваемую стажировку в Х5 Group.

Читать далее
Всего голосов 6: ↑4 и ↓2 +2
Просмотры 2.5K
Комментарии 20

Минуточку внимания

Самое важное с конференции NeurIPS 2021

Big Data *Машинное обучение *Искусственный интеллект
Перевод
image

6–14 декабря 2021 года была виртуально проведена конференция Neural Information Processing Systems (NeurIPS). Это одна из самых влиятельных конференций, собирающих лучших инженеров по ML, дата-саентистов и исследователей искусственного интеллекта со всего света. Это место для обмена информацией об исследованиях нейронных систем обработки информации в их биологическом, технологическом, математическом и теоретическом аспектах.

Так как конференция проходит в декабре, обычно она позволяет получить представление о новых тенденциях в сообществе Data Science на следующий год.

Так какими же будут тенденции в обработке данных на 2022 год? В этой статье я поделюсь основными темами, которые обсуждались на NeurIPS.
Читать дальше →
Всего голосов 7: ↑5 и ↓2 +3
Просмотры 652
Комментарии 0

Восходящие тренды. Дизайн как инструмент восприятия информации между машиной и человеком

Data Mining *Big Data *IT-компании Natural Language Processing *Data Engineering *
Из песочницы

Боязнь новых технологий и чувство дискомфорта перед ними у людей происходит повсеместно. Тридцать, а то и двадцать лет назад трудно себе было представить современного здорового и образованного человека, зарабатывающего через интернет, продажей каких-либо товаров или услуг. Сегодня подобная тенденция с каждым годом всё больше набирает обороты. Роботы заменяют человека во всем, но, независимо от функции всё-таки имеют четкое предназначение — помощь, комфорт и удобство. В данном случае, проявление заботы робототехникой может стать явным плюсом в наборе его основных характеристик — автономности, интеллектуальности и самостоятельности. Но, увы, тут же появляется опасность разработки такого дизайн-продукта, который может быть воспринят людьми как «отдельное социальное существо», практически равный член общества и участник коммуникационного процесса жизнедеятельности человека. В случае повсеместного распространения подобных роботов по миру, люди будут вынуждены налаживать отношения с ними и находить новые способы осваивания коммуникационных процессов в разных сферах жизнедеятельности.

Читать далее
Всего голосов 3: ↑0 и ↓3 -3
Просмотры 444
Комментарии 1

Неравный join

Python *Data Mining *Big Data *R *


«Неравный брак», В. Пукирев, 1862 г.


Задача объединения табличных представлений очень часто встречается как в аналитике, так и в разработке (БД). Существует несколько различных типов слияний, фактически, это операции над множествами. Не будем погружаться в детали, на эту тему написано множество книг, семинаров, публикаций. Посмотрим на эти механизмы в преломлении практических задач. Будем смотреть по нарастающей сложности и пытаться решить их на «офисном» ноутбуке, не привлекая бесконечные мощности больших данных или реляционные БД.


Является продолжением серии предыдущих публикаций.

Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 4K
Комментарии 3

Кто такой data-инженер в Тинькофф и как им стать

Блог компании TINKOFF Big Data *Хранилища данных *Data Engineering *
Из песочницы

Привет! Меня зовут Михаил Иванов, я работаю архитектором DWH в Тинькофф и занимаюсь развитием Batch ETL направления платформы обработки данных. Я расскажу о направлении data engineering в Тинькофф, о том, чем занимаются data-инженеры и как попасть к нам в команду.

Читать далее
Всего голосов 20: ↑16 и ↓4 +12
Просмотры 4.1K
Комментарии 14

«Национальная система пространственных данных» — на острие российской картографии

Геоинформационные сервисы *Big Data *

Есть минутка поговорить о матери нашей сырой Земле?

Сел я чай пить, хотел карту открыть, поглядеть, а она не открылась опять, и что-то я так разозлился, что накатал за час вот это.

Читать далее
Всего голосов 21: ↑16 и ↓5 +11
Просмотры 3.6K
Комментарии 20

Парсим NFT транзакции на OpenSea

Python *Data Mining *Big Data *Открытые данные *
Tutorial

Примерно раз в год у меня появляется неутолимая жажда накопать много данных и что-то с ними сделать. В этот раз мой выбор пал на маркетплейс NFT OpenSea. Меня осенило что блокчейн - это про открытые данные, а учитывая 1.2 миллиона транзакций в сети ETH каждый день - то это ещё и много данных, так что точно должно быть интересно.

В этом туториале я расскажу откуда можно достать данные о транзакциях блокчейна ETH, и как эти данные анализировать, в частности, как находить самые дорогие транзакции. И самое главное - бонус, небольшая игра в сыщиков в конце статьи.

Читать далее
Всего голосов 16: ↑11 и ↓5 +6
Просмотры 3.3K
Комментарии 4

Как работает машинное обучение в финтехе на примере МКБ

Блог компании Московский кредитный банк Python *Big Data *Машинное обучение *

Данные — краеугольный камень любой большой компании, которая так или иначе работает с людьми. Чем больше компания, тем больше пользователей её услуг и сервисов, тем больше этих самых данных о клиентах можно собирать. Но мало просто их собрать — нужно их анализировать, нужно правильно их хранить и обрабатывать. То есть нужно активно применять возможности машинного обучения и привлекать специалистов по Data Science.

Меня зовут Александр Ошурков, и этот пост будет про машинное обучение внутри Московского кредитного банка (МКБ). Вы узнаете о том, как мы запустили новое для себя направление — практику машинного обучения.

Мой рассказ будет полезен тем, кто только задумывается над организацией такого подразделения у себя и не знает, с чего начать, или недавно ступил на этот путь.

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 1.3K
Комментарии 4

ML и консенсус между людьми: берём от обоих подходов лучшее

Data Mining *Big Data *Машинное обучение *Искусственный интеллект
Перевод

Введение в категоризацию классификаций


У вас были когда-нибудь проблемы с поиском товара в продуктовом магазине? Например, вы могли искать замороженный картофель фри в отделе замороженных завтраков, но на самом деле он находился в отделе замороженных овощей. Или вы искали соевый соус в отделе азиатской еды, а он находился в отделе приправ.

Одна из самых больших трудностей для розничных магазинов и торговых площадок — создание каталога путём категоризации миллионов продуктов в сложную систему из тысяч категорий, также называемых классификациями (taxonomies). В реальных магазинах подробная категоризация нужна для логичного упорядочивания стеллажей. В эпоху электронной коммерции и цифровых торговых площадок правильная категоризация обеспечивает множество преимуществ, в том числе улучшенные поисковые рекомендации, более подходящие предложения товаров на замену, а также более строгое соблюдение региональных и федеральных требований.

Категоризация классификаций сложна не только из-за существования в мире бесчисленного количества продуктов, образующих глубоко вложенные иерархические категории, но и из-за постоянно меняющейся природы классификаций. Невозможно найти одного специалиста в предметной области, понимающего весь каталог достаточно хорошо для того, чтобы категоризировать каждый отдельный товар, а процесс обучения команды специалистов недостаточно быстр и масштабируем по современным стандартам. Более того, входные данные никогда не идеальны, и из-за отсутствия информации иногда невозможно понять, относится ли продукт к конкретной классификации.
Читать дальше →
Рейтинг 0
Просмотры 530
Комментарии 1

JET BI. Новый релиз платформы. Быстрее, умнее, продуктивнее

Блог компании Инфосистемы Джет Анализ и проектирование систем *Big Data *Визуализация данных Управление продажами *

Привет. Меня завут Альберт Нурутдинов, я архитектор в "Инфосистемы Джет". В этой статье я рассказывал, как и почему мы создали свою Business Intelligence платформу. Но время не стоит на месте, и мы стараемся не отставать. В конце 2021 года мы сделали новый релиз JET BI и сегодня расскажем вам о новых возможностях платформы, сложностях, с которыми мы столкнулись при их разработке, а также о перспективах развития.

Раскрываем секреты
Всего голосов 10: ↑9 и ↓1 +8
Просмотры 1.4K
Комментарии 3

Граф знаний LinkedIn’s Economic Graph и его Star2Vec-эмбеддинги

Data Mining *Алгоритмы *Big Data *Машинное обучение *Искусственный интеллект
Из песочницы

В этой публикации я представляю поверхностный обзор статьи от исследователей LinkedIn «Representation Learning in Heterogeneous Professional Social Networks with Ambiguous Social Connections». В указанной статье частично представлена структура графа знаний LinkedIn’s Economic Graph и относительно подробно описан метод обучения эмбеддингов Star2Vec. Я попытаюсь объяснить основные этапы построения векторных представлений, что называется "на пальцах".

Т. к. это лишь поверхностный обзор, от читателя требуются следующие познания:

1. Skip-gram и его адаптация под графы (word2veс, LINE, DeepWalk);

2. общие понятия о графах знаний.

Поехали!
Всего голосов 3: ↑2 и ↓1 +1
Просмотры 885
Комментарии 5

Компрессия битового потока

IT-инфраструктура *Алгоритмы *Big Data *FPGA *Видеотехника
Из песочницы

Всем привет! Расскажу про нашу разработку, которая изменит подход к обработке данных в корне.

Мы разработали новый математический алгоритм обработки данных и программный продукт на его базе (кодек), позволяющий работать со сжатием битовых потоков любого формата (статические/динамические) – то есть, кодек позволяет проводить более глубокое сжатие уже существующих файлов (видео, изображения, архивы и т.д.), так и осуществлять сжатие исходных «сырых» данных.

Заложенная в алгоритме обработка представляет собой механизм квантования с применением многоцентричной развертки и алфавита изображения. Такой подход кардинально отличается от всех существующих на сегодня вариантов сжатия данных, базирующихся на принципе энтропийного сжатия.

Сжатие данных без потерь с дополнительной компрессией до 50% (не предел), является важным преимуществом и обеспечивает потенциальную возможность интеграции продукта практически в любые существующие программные решения. Также разработан алгоритм управления качеством визуализации изображения в зависимости от степени сжатия и конкретных приложений.

Читать далее
Всего голосов 22: ↑11 и ↓11 0
Просмотры 4.7K
Комментарии 21

Успешное АБ-тестирование: о чём говорили на Data Driven Meetup #2

Блог компании X5 Group Тестирование IT-систем *Big Data *Управление разработкой *IT-компании

Всем привет! Недавно X5Tech провела митап, где эксперты компании говорили о том, как работают над проектами по Big Data. Делимся записью выступлений и презентациями спикеров.

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Просмотры 614
Комментарии 0

Кто такие Data-специалисты, чем они занимаются и как строится работа

Блог компании Quadcode Big Data *Data Engineering *

Привет, Хабр! Меня зовут Азат Якупов, я работаю Data Architect в Quadcode. Сегодня хочу рассказать о Data-специалистах и познакомить вас с нашей командой Data Platform.

Читать далее
Всего голосов 10: ↑7 и ↓3 +4
Просмотры 5.2K
Комментарии 14

Как из прикладной задачи построить большую платформу и размечать миллионы данных каждую неделю?

Блог компании VS Robotics Big Data *Машинное обучение *

====

Привет, мы команда VS Robotics, и мы г̶о̶т̶о̶в̶и̶м̶ ̶р̶о̶б̶о̶т̶о̶в̶ ̶к̶ ̶в̶о̶с̶с̶т̶а̶н̶и̶ю̶ ̶м̶а̶ш̶и̶н̶ занимаемся голосовыми технологиями.

Наш главный продукт — умеющий общаться на русском языке робот-оператор, и в процессе работы над ним мы создали еще несколько самостоятельных продуктов, к примеру, VS Advisor (персональный ассистент) или голосовой скоринг. Их гораздо больше, но почти во всех наших продуктах под капотом немалую часть составляют нейросети, и потому нам неизбежно приходится сталкиваться с обработкой больших данных. Под эту задачу у нас появился проект Еlementary — собственная платформа разметки данных для машинного обучения, которая позволяет подготовить нужным образом данные почти любой сложности и любого объема.

Проект начался как внутренняя разработка силами одной команды, но так как любые инструменты повышения производительности и оптимизации работы в нашей компании приветствуются, то мы быстро получили ресурсы в виде серверных мощностей и сотрудников. И потому вскоре инструмент стал интересен другим командам как внутри компании, так и за ее пределами для команд от внешних заказчиков.

Но обо всем по порядку.

Что такое разметка и зачем она нужна?

Современные технологии часто используют искусственный интеллект, а именно нейросети, которые требуют огромного количества размеченной информации. И каждый современный бизнес ежедневно накапливает огромные потоки всевозможных данных, будь то разговоры операторов, маршруты курьеров, записи с камер наблюдения и многое другое. 

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 1.3K
Комментарии 4

Биометрия в ритейле: большие надежды и суровая реальность

Блог компании М.Видео-Эльдорадо Big Data *Бизнес-модели Киберпанк

Привет! Меня зовут Макс, я являюсь продукт оунером видеоаналитики в М.Видео-Эльдорадо. Сегодня поговорим о такой сложной теме как биометрия. Многие компании пытаются ее использовать, не у всех это получается, и еще меньшее количество умеет на ней зарабатывать.

Читать далее
Всего голосов 15: ↑13 и ↓2 +11
Просмотры 3K
Комментарии 18

Миссия выполнима. Подход к кластеризации клиентов по типам товарных категорий

Блог компании Утконос ОНЛАЙН Big Data *Машинное обучение *

Привет, меня зовут Сергей Сергеев, я ведущий исследователь данных в Утконос Онлайн. В этой статье я хочу описать подход к кластеризации клиентов по типам товарных категорий, который давал бы хорошее представление об аудитории Утконоса. Его можно проводить разными способами, т.к. существует множество методов кластеризации. Однако данный подход дает хорошие интерпретируемые результаты, а также в нем используются некоторые понятия из теории информации, которые могут быть полезны сами по себе.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 745
Комментарии 1

Вклад авторов

Работа

Data Scientist
129 вакансий