Data Mining *

Глубинный анализ данных

Опыт извлечения обучающих данных из генеративных языковых моделей

Python *Программирование *Data Mining *Big Data *Машинное обучение *

Вдохновившись опытом зарубежных коллег по извлечению данных из больших языковых моделей из следующих источников:

A. Extracting Training Data from Large Language Models/Извлечение обучающих данных из больших языковых моделей (генеративных)/Authors: Nicholas Carlini, Florian Tramèr, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee1, Adam Roberts, Tom Brown, Dawn Song, Úlfar Erlingsson, Alina Oprea, Colin Raffel (https://arxiv.org/abs/2012.07805)

B. The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks/Открывающий секреты: оценка и тестирование непреднамеренного запоминания в нейронных сетях/ Nicholas Carlini, Chang Liu, Úlfar Erlingsson, Jernej Kos, Dawn Song. (https://arxiv.org/abs/1802.08232).

C. Membership Inference Attacks Against Machine Learning Models/Атаки на определение членства против моделей машинного обучения/ Reza Shokri, Marco Stronati, Congzheng Song, Vitaly Shmatikov (https://arxiv.org/abs/1610.05820).

D. An Attack on InstaHide: Is Private Learning Possible with Instance Encoding?/Атака на InstaHide: Возможно ли частное (приватное/не допускающее утечек) обучение с помощью кодировния экземпляра при обучении моделей / Nicholas Carlini, Samuel Deng, Sanjam Garg, Somesh Jha, Saeed Mahloujifar, Mohammad Mahmoody, Shuang Song, Abhradeep Thakurta, Florian Tramèr (https://arxiv.org/abs/2011.05315).

E. Comprehensive Privacy Analysis of Deep Learning: Passive and Active White-box Inference Attacks against Centralized and Federated Learning/ Всесторонний анализ конфиденциальности глубокого обучения: Пассивные и активные атаки вывода обучающего набора данных на модель в белом ящике при централизованном и федеративном обучении/ Milad Nasr, Reza Shokri, Amir Houmansadr (https://arxiv.org/abs/1812.00910).

404

nologin 12 октября в 09:19

ML-модели в BI: интеграция с Python через JupyterHub

Блог компании Visiology Python *Data Mining *Машинное обучение *Искусственный интеллект

Привет, Хабр! Мы продолжаем рассматривать конкретный практический вопрос — интеграцию Python для внедрения ML-моделей и расширенной аналитики в BI. В прошлом посте мы уже рассуждали о том, зачем это нужно, и как можно реализовать подобное расширение. Сегодня же мы остановимся на том, как реализована поддержка Python в популярных BI-системах. И сразу спойлер: в существующих системах (в том числе в Visiology) это было сделано неудобно, и чтобы решить эту проблему, мы придумали новую штуку, а именно — интеграцию с JupyterHub. Под катом — подробный рассказ о том, какие мы знаем подходы к работе с Python, и что меняется в этом процессе при подключении Jupyter Hub. Если вы еще не пробовали эту схему, то скорее давайте читать наш пост, а если уже работали таким образом — давайте обсуждать новый подход в комментариях.

1.4K

kvsman 8 октября в 19:43

«Форсайт» – история длиною в жизнь

Блог компании Форсайт Data Mining *Хранилища данных *История IT IT-компании

Привет, Хабр! Меня зовут Константин Шимановский. Почти 20 лет своей жизни я работаю с российской BI-платформой «Форсайт. Аналитическая платформа», и сейчас возглавляю Департамент управления продуктами одноименной компании «Форсайт». Мы с моей командой продуктовых менеджеров, архитекторов, методологических и технологических экспертов определяем вектор развития нашей платформы и вырабатываем best-practice ее применения. Всем своим опытом мы хотим поделиться в цикле статей на Хабре. Следите за новыми публикация. Будет интересно!

В нашем первом посте мы расскажем о истории развития нашей платформы. Сразу наберитесь терпения. История у нас длинная, и статья получилась не очень короткой. Далее обещаем исправиться и будем публиковать более компактные тематические обзоры. А сейчас, если вам интересно, как ИТ-компания за несколько десятков лет прошла путь от маленькой лаборатории в университете до широкого мирового признания, как совершенствовались и развивались ее технологии, чем сейчас живет и «дышит» наша BI-платформа — добро пожаловать под кат!

2.8K

Bee_brightside 5 октября в 17:00

Нам нужны не дата-саентисты, а дата-инженеры

Блог компании Билайн Бизнес Data Mining *Big Data *Хранение данных *Data Engineering *

Перевод

Данные. Они повсюду и их становится только больше. За последние 5-10 лет data science привлекла множество новичков, пытающихся ощутить вкус этого запретного плода.

Но как сегодня выглядит ситуация с наймом в data science?

Вот краткое изложение статьи в двух предложениях.

TLDR: в компаниях на 70% больше вакансий на должности дата-инженеров, чем на должности дата-саентистов. Так как мы обучаем новое поколение практиков в сфере обработки данных и машинного обучения, давайте сделаем больший упор на инженерные навыки.

Так как моя работа заключается в разработке обучающей платформы для профессионалов в области данных, я много думаю о том, как эволюционирует рынок вакансий, связанных с данными (машинное обучение и data science).

Общаясь с десятками перспективных новичков в сфере данных, в том числе и со студентами лучших вузов мира, я увидел серьёзное недопонимание того, какие навыки являются наиболее важными, помогают выделиться из толпы и подготовиться к карьере.

Дата-саентист может работать в любом сегменте следующих сфер: моделирование машинного обучения, визуализация, очистка и обработка данных (например, преобразование данных для SQL), проектирование и развёртывание на производстве.

С чего вообще начинать рекомендации курса обучения для новичков?

Данные говорят громче слов. Поэтому я решил провести анализ должностей в сфере данных, на которые есть вакансии у компаний, выходивших из Y-Combinator с 2012 года. Вопросы, которыми я руководствовался в своих исследованиях:

+12

5.1K

kucev 5 октября в 11:36

Руководство по типам аннотирования изображений

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Задаётесь вопросом, какой тип аннотирования изображений лучше всего подойдёт для вашего проекта?

Аннотирование изображений — одна из наших основных специальностей, и мы с радостью поделимся информацией о плюсах и минусах каждого типа: от простых ограничивающих прямоугольников до полномасштабной попиксельной семантической сегментации.

Учтите, что это руководство относится только к типу визуального аннотирования, но на уровне изображений или объектов можно создавать дополнительные метаданные. К ним относятся строки, числа, булевы значения, выбор одного или нескольких вариантов, и т.п. Например, ограничивающий прямоугольник для автомобилей в сцене может содержать такие метки, как цвет, производителя, регистрационный номер и т.д.

Читать дальше →

622

PythonAnalyst 4 октября в 13:58

Распознаем медицинские тексты

Python *Data Mining *Big Data *Машинное обучение *Data Engineering *

Это третья публикация в рамках цикла статей по изучению московской базы ковидных больных. В настоящей работе были созданы векторные представления медицинских терминов, которые теперь доступны на Github.

1.9K

averkij 3 октября в 16:28

Моя маленькая помощь малым языкам

Python *Data Mining *Машинное обучение *Изучение языков Natural Language Processing *

Сложный был год: налоги, катастрофы, бандитизм и стремительное исчезновение малых языков. С последним мириться было нельзя...

На территории России проживает большое количество народов, говорящих более чем на 270 языках. Около 150 языков насчитывает менее 1 тысячи носителей, а за последние 20 лет 7 языков уже исчезло.

Этот проект — мои "пять копеек" по поддержке языкового разнообразия. Его цель — помощь исследователям в области машинного перевода, лингвистам, а также энтузиастам, радеющим за свой родной язык. Помогать будем добыванием параллельных корпусов, — своеобразного "топлива", при помощи которого современные модели все успешнее пытаются понять человеческий язык.

Сегодняшние языки — башкирский и чувашский, с популяризаторами которых я в последнее время тесно общался. Сначала я покажу как в принципе извлечь корпус из двух текстов на разных языках. Затем мы столкнемся с тем, что на рассматриваемых языках предобученная модель не тренировалась и попробуем ее дообучить.

Экспериментировать мы будем в среде Colab'а, чтобы любой исследователь при желании смог повторить этот подход для своего языка.

I. Извлекаем параллельный корпус

Для выравнивания двух текстов я написал на python'е библиотеку lingtrain_aligner. Код у нее открыт. Она использует ряд предобученных моделей, можно подключать и свои. Одной из самых удачных мультиязыковых моделей сейчас является LaBSE. Она обучалась на 109 языках. Так как соотношение текстов смещено в сторону популярных языков, то для них качество эмбеддингов (эмбеддингом называют вектор чисел применительно к данным, которые он описывает) будет лучше.

Colab

Попробовать извлечь корпус на нужном языке можно в этом Colab'e. Дальше пройдемся по шагам более подробно.

Установка

Установим библиотеку командой

pip install lingtrain_aligner

+54

9.7K

PythonAnalyst 3 октября в 15:01

Влияние загрязнения воздуха на тяжесть течения Covid- 19

Python *Data Mining *Машинное обучение *Экология Data Engineering *

Продолжаю цикл статей основанных на анализе базы московских больных. В настоящей второй части я буду анализировать влияние загрязнение воздуха на тяжесть течения заболевания. В этом нам поможет сайт с открытыми данными г. Москвы, на котором представлена информация небольшого количества метеорологических станций.

3.7K

30 сентября

Так вот кто все эти люди: DS-анализ результатов опроса о Data Science

Недавно мы со Сбером проводили опрос о том, кто должен заниматься работой с данными и как это организовано в ваших компаниях. Чтобы не прослыть сапожниками без сапог, для анализа результатов мы использовали DS-подход. Хотите узнать, что у нас получилось? Тогда милости просим под кат.

+20

12K

leragarashchenko 30 сентября в 12:01

Успеть за 12 минут: как мы научились прогнозировать время доставки товаров из Утконос ОНЛАЙН

Блог компании Утконос ОНЛАЙН Data Mining *Big Data *Машинное обучение *

Всем привет! Меня зовут Лера, и я Data Scientist компании Утконос ОНЛАЙН. Мы 20 лет доставляем продукты и товары для дома нашим клиентам. За последние два года требования к скорости доставки и качеству обслуживания сильно выросли. Время в нашем бизнесе — самый важный и критический фактор. Этот показатель, как и другие процессы, нужно постоянно улучшать, иначе сервис не выдержит конкуренции.

В этой статье я расскажу, как мы рассчитываем время обслуживания клиента, почему в этом нам больше помогают данные GPS-координат автомобилей, а не отметки о прибытии на точку, и какую математическую модель мы построили, чтобы оптимизировать работу курьеров.

+15

1.9K

rumatavz 29 сентября в 20:27

Как я искал вбросы на московских выборах и что-то нашел

Информационная безопасность *Data Mining *

Посмотрев видео Анастасии Брюхановой мне очень захотелось найти еще какие то подтверждения наличию вбросов. И я стал думать, что бы сделал бы я сам, если бы мне нужно было сделать вброс. Ну, я бы составил список людей, от которых шли фейковые голоса, сделал бы так, что бы они попали в списки избирателей. Дальше люди или роботы голосовали бы от имени людей по этим спискам.

А значит порядок голосования совпадал бы с порядком регистрации. Вот это гипотезу я и решил проверить.

Так что же я нашел?

+53

19K

kucev 28 сентября в 10:55

Аннотирование текста для машинного обучения

Data Mining *Big Data *Хранение данных *Машинное обучение *Искусственный интеллект

Перевод

Несмотря на масштабный переход к цифровым технологиям, часть наиболее сложных данных по-прежнему хранится в виде текста в статьях или официальных документах. В условиях изобилия публично доступной информации возникают трудности с управлением неструктурированными сырыми данными и их преобразования в понятный для машин вид. С текстом это сделать сложнее, чем с изображениями и видео. Возьмём для примера простое предложение: «They nailed it!». Люди бы поняли его как выражение одобрения, подбадривания или признания заслуг, однако традиционная модель обработки естественного языка (Natural Language Processing, NLP), скорее всего, воспримет только поверхностное понимание слова, упустив смысл. А именно, она бы ассоциировала слово «nail» с забиванием гвоздей молотком. Точные аннотации текста помогают моделям лучше понимать передаваемые им данные, что приводит к безошибочной интерпретации текста.

Читать дальше →

1.3K

sahsAGU 27 сентября в 13:23

Один человек ответил на 85+ тысяч вопросов на Stack Overflow (24,1 ответа в день)

PHP *MySQL *Программирование *SQL *Data Mining *

В среднем 24,1 ответа в день (если все 365 дней в году считать рабочими) на протяжении почти 10 лет.

Несколько дней назад на некоторых англоязычных ресурсах началось обсуждение одного очень необычного пользователя Stack Overflow. Его зовут Гордон Линофф (Gordon Linoff), он из Нью-Йорка, и за 9 лет и 8 месяцев своего присутствия на платформе он дал 85,201 ответов на различные вопросы, в основном связанные с SQL и дата-майнингом (цифра актуальна на 27.09.2021).

Что это за маг?

+21

16K

deNULL 25 сентября в 18:17

Что же не так с любыми электронными голосованиями?

Криптография *Тестирование IT-систем *Data Mining *Открытые данные *Статистика в IT

Данная публикация написана по мотивам поста «Что же не так с ДЭГ в Москве?». Его автор описывает, как можно выгрузить и расшифровать данные по электронному голосованию, а также приводит целый список замечаний к его текущей системе.

Статья хорошая, её выводы и замечания я полностью поддерживаю, но мне захотелось дополнить её в обеих частях. Первая — с анализом того, как в процессе голосования менялись отданные за различных кандидатов голоса (и обнаруженные в этом аномалии); вторая — моя позиция о фундаментальных недостатках любого электронного голосования, которые неустранимы на практике (особенно в современной России).

UPD: Добавил также графики по партийным спискам + отметил некоторые странности в соотношении выданных/полученных транзакций в самом начале (возможно, это объяснимо техническими проблемами).

+181

36K

424

ohld 22 сентября в 13:40

Как спарсить любой сайт?

JavaScript *Data Mining *Big Data *Открытые данные *Тестирование веб-сервисов *

Tutorial

Меня зовут Даниил Охлопков, и я расскажу про свой подход к написанию скриптов, извлекающих данные из интернета: с чего начать, куда смотреть и что использовать.

Написав тонну парсеров, я придумал алгоритм действий, который не только минимизирует затраченное время на разработку, но и увеличивает их живучесть, робастность и масштабируемость.

Узнать как

+60

34K

kucev 22 сентября в 11:52

Лучшие платформы аннотирования изображений для компьютерного зрения на 2019 год

Data Mining *Обработка изображений *Big Data *Машинное обучение *

Перевод

Мы постоянно находимся в поиске лучших платформ аннотирования, обеспечивающих широкую функциональность, имеющих инструменты управления проектами и оптимизацию процесса аннотирования (когда нужно аннотировать 50 тысяч изображений, важна экономия даже одной секунды на каждом).

На основании своего опыта работы с каждой из платформ мы делимся своими честными обзорами, надеясь, что они будут полезны дата-саентистам, которым необходимо вручную размечать свои данные.

Мы используем следующие критерии:

Цена
Разнообразие функций, инструментов и форматов
Управление проектами и простота использования

Читать дальше →

857

i_shutov 17 сентября в 15:54

process mining: 100 строк кода и генератор логов у нас в руках

Python *Data Mining *R *Бизнес-модели

Продакт-менеджерам посвящается...

Заступая на территорию proccess mining, каждый участник рано или поздно будет нуждаться в наборе логов событий, отражающих те или иные специфические моменты в процессах. Эти логи нужны как на этапе демонстрации решения, подсвечивания определенных вопросов, так и для отработки алгоритмов или же тестов на производительность. Оба рекомендуемых сценария «взять с продуктивных систем» или «взять из интернета» терпят фиаско. Как правило, это очень
малые датасеты, слабо удовлетворяющие потребностям как по наполнению, так и по объему.

Остается вариант — написать генератор правдоподобных логов самостоятельно. Тут тоже есть два варианта.

Вариант первый — превратить эту задачу в универсальный монстроподобный продукт, содержащий визуальный конструктор в нотации BPMN 2.0, всевозможные визуальные конструкторы формул и атрибутов, полноценную имитационную машину под капотом. Годы работы, миллионы на ветер, на выходе — файл с логами. КПД близок к нулю.
Вариант второй — отнестись к этой задаче как к вспомогательной и создать инструментами data science стека упрощенный генератор в 100 строк кода.

Остановимся далее на втором варианте.

Является продолжением серии предыдущих публикаций.

Читать дальше →

1.4K

fafnir999 17 сентября в 13:28

Как определить самый авторитетный фильм всех времен и народов

Python *Data Mining *

Из песочницы

Какое произведение киноискусства оставило самый большой отпечаток в современной поп культуре? Предлагаю подумать над этим вопросом некоторое время. Может быть это Апокалипсис сегодня? Или Крестный отец? А вдруг главный фильм всех времен и народов это шедевр отечественного кинематографа - фильм Викинг?

К счастью, это можно посчитать.

+21

4.9K

ITSumma 17 сентября в 12:17

Какой софт использует ЦРУ и АНБ для дата-майнинга

Блог компании ITSumma Поисковые технологии *Data Mining *Big Data *Киберпанк

После утечки данных от Сноудена стало понятно, что АНБ собирает данные на всех граждан до совершения преступлений, а не на конкретных подозреваемых после преступления.

Аналогичную практику сбора разведданных на всех граждан до совершения преступления начали практиковать и в других странах, в том числе России. Речь идёт о длительном хранении интернет-трафика, сведений о перемещении, звонков, записей видеонаблюдения и т.д. Это очень удобно, ведь в случае необходимости найдутся улики практически на любого человека.

Разумеется, для быстрого поиска в таком огромном массиве данных требуется специальный софт.

Читать дальше →

+31

9.8K

ieBoytsov 15 сентября в 14:17

Дата Кампус: можно ли освоить машинное обучение за 10 дней?

Data Mining *Машинное обучение *Учебный процесс в IT Карьера в IT-индустрии

Всем привет. В этой статье хотим поделиться нашим опытом организации и проведения “Дата Кампуса” - буткемпа по Data Science, который проводится для старшеклассников в разных регионах России.

-1

2.3K

2 3 ...

49 50

Data Mining *

Опыт извлечения обучающих данных из генеративных языковых моделей

Новости

ML-модели в BI: интеграция с Python через JupyterHub

«Форсайт» – история длиною в жизнь

Нам нужны не дата-саентисты, а дата-инженеры

Руководство по типам аннотирования изображений

Распознаем медицинские тексты

Моя маленькая помощь малым языкам

I. Извлекаем параллельный корпус

Colab

Установка

Влияние загрязнения воздуха на тяжесть течения Covid- 19

Так вот кто все эти люди: DS-анализ результатов опроса о Data Science

Успеть за 12 минут: как мы научились прогнозировать время доставки товаров из Утконос ОНЛАЙН

Как я искал вбросы на московских выборах и что-то нашел

Аннотирование текста для машинного обучения

Один человек ответил на 85+ тысяч вопросов на Stack Overflow (24,1 ответа в день)

Что же не так с любыми электронными голосованиями?

Как спарсить любой сайт?

Лучшие платформы аннотирования изображений для компьютерного зрения на 2019 год

process mining: 100 строк кода и генератор логов у нас в руках

Как определить самый авторитетный фильм всех времен и народов

Какой софт использует ЦРУ и АНБ для дата-майнинга

Дата Кампус: можно ли освоить машинное обучение за 10 дней?

Вклад авторов

Ваш аккаунт

Разделы

Информация

Услуги