Как стать автором
Обновить

Разработка

Сначала показывать
Порог рейтинга
Уровень сложности

Как мы обучали нейросеть распознавать юридические документы

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров221

Проверка юридических документов с помощью визуальных помощников может оказаться важной задачей. Если человек способен хранить в голове одновременно в зоне его мозговых вычислений 6-8 параметров, ну может и больше, если гений... А остальные держать в блокноте. То ИИ учитывает больше параметров, те же модели LLM доступны с количеством 70 миллиардов параметров. То есть мы-то тоже ежедневно принимаем решения на основе большого количества входных параметров: купить ли сегодня эту вещь, поехать ли отдыхать на море, бросив все, доехать на такси или на автобусе. Но учитываем не все сразу, хотя что-то учитывается на подсознательном уровне. Эдакое дело вкуса, когда просто чувствуешь, что так правильнее, и в итоге не прогадал.

Правда люди еще не научились влиять на решения сети. У нейросетей особенные вкусы. Если GAN-сеть создает нам девушку, у которой 2 руки, то для каких-нибудь художников эпохи Сюрреализма это могло бы показаться гениальным. Двумя руками обнимает парня, словно вцепилась в него всей душой и влюбилась всем сердцем... К сожалению или к счастью, в задачах создания юридических документов мало необходимости творить что-либо на уровне латентного вектора в цепочке между кодировщиком и декодировщиком. Но работа с юридическими документами – тот самый скоп задач, где важно найти судебную практику, предшествующие документы и просто оформить все примерно также.

Таким образом, работа с юридическими документами – лакомый кусочек уже лет так 5, особенно на зарубежном рынке, где задача автоматизации рутинной деятельности сводится именно к тому, чтобы из исторически предшествующих документов собрать что-то стоящее, применимое к текущему документу. По семантическому окрасу и истории работы с документом можно понимать, что именно перед тобой: проигрышная трактовка, выигрышная трактовка, доводы, играющие в пользу истца или аргументы, помогающие ответчику, если дело идет о судебных исках.

Читать далее
Рейтинг0
Комментарии0

Новости

Насколько хороши диапазонные типы и btree_gist индекс в PostgreSQL

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров241

В PostgreSQL есть довольно интересный функционал - диапазонные типы данных (range). Они весьма удобны в использовании. Для индексирования этих типов данных существует GIST индекс. Однако на практике часто требуется сочетание BTREE индекса с GIST, что реализуется расширением btree_gist. Насколько эффективно удобство, предоставляемое диапазонными типами данных в сочетании с btree_gist мы и разберем в этой статье.

Для ЛЛ - с производительностью при использовании btree_gist будет плохо.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии4

Удобный CI/CD доступен каждому

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1K

Привет, Хабр! Недавно я выступал на Moscow Python Conf, где делился нашим опытом создания и использования CI/CD пайплайнов. В данной статье я расскажу об этих пайплайнах, раскрою их особенности и покажу, как они помогают нам быстро доставлять код и поддерживать высокий показатель Time To Market. Надеюсь, что наш опыт будет полезен и вам.

Читать далее
Всего голосов 4: ↑4 и ↓0+6
Комментарии1

Переход на .NET Aspire из отдельных проектов. Часть 2. Локальное развертывание с помощью Aspire

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров976

Эта статья является продолжением краткого туториала по переводу приложений на .Net Aspire. В ее рамках будет рассмотрено развертывание Aspire приложения в локальном кластере Kubernetes.

Читать далее
Всего голосов 6: ↑4 и ↓2+3
Комментарии0

Истории

Вечный покой .env: как эффективнее удалять закомиченный файл .env из Git-репозитория

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров7.1K

Всем барев дзес! На связи Гагик Антонян. Я — Frontend-разработчик и это моя первая статья на Хабре. Сегодня вы узнаете, как полноценно удалять .env, который по ошибке попал на удаленный Github-репозиторий. Буду рад, если поддержите данный материал лайками и комментариями. А теперь погнали рвать пределы IT-галактики.

Разрабатывая различные приложения, я часто сталкиваюсь с тем, как после очередного коммита, в репозитории я вижу один из важнейших файлов, когда я работаю с переменными окружениями, оказалась на странице репозитория на Github. Речь идет о файле .env, чья общедоступность может быть очень опасным. И для того, чтобы обезопасить хранение конфигурационных переменных и настроек моего приложения, используется данный текстовый файл.

Я работаю на VS Code, и я, to be honest, так и не понял, с какой стати .gitignore "не игнорирует" .env. Причем спокойно "игнорирует" другие файлы, директории.

Всё же, нужно действовать, исходя из конкретного кейса, но если вы не хотите, чтобы какой-нибудь John Doe воспользовался данными из вашего .env, то вы перешли по верной ссылке. Вы же не отдаете ключи грабителю с фразой "Грабьте мой дом", верно? Точно так же и тут. Поэтому я предлагаю потихоньку начать.

Читать далее
Всего голосов 24: ↑17 и ↓7+15
Комментарии30

Уязвимости безопасности и приватности в 5G/6G, WiFi 6 и сетях совместного использования спектра

Уровень сложностиСредний
Время на прочтение61 мин
Количество просмотров735

Перевод зарубежной статьи на тему уязвимостей в сетях 5G/6G и WiFi 6, а также о том, какие проблемы безопасности возникают при совместном использовании спектра этими сетями.

Читать далее
Всего голосов 2: ↑1 и ↓1+1
Комментарии0

Триггербот для Rainbow Six Siege на Python

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.7K

Доброго дня, если это день. Мне немного жаль тратить время на такие развлечения, как компьютерные игры, но иногда не могу отказать себе в удовольствии чуть-чуть пострелять в виртуальном пространстве. Одной из игр, которая находится в моем арсенале, является Rainbow Six Siege, онлайн шутер с элементами тактико-специальной подготовки.

Одной из "фишек" игры являются индивидуальные умения оперативников. И в данной статье рассмотрена реализация бота-помощника, написанного за 5 минут на Python, который помогает играть за российского оперативника GLAZ.

Читать далее
Всего голосов 7: ↑5 и ↓2+4
Комментарии7

Как я писал свой первый проект на Python

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров5.2K

Кто-то в качестве своего первого серьезного проекта пишет калькулятор, другие веб-сайт и в принципе идея ограничивается только скилами и вашей собственной фантазией (или фантазией преподавателя, если у вас такой есть). Калькулятор мне писать не хотелось (как минимум из-за наличия прекрасной функции eval частично заменяющей его), а для веба на тот момент я был слишком зелен и ничего не понимал в протоколах, html, фреймворках и т.д.

Но месяцы за изучением Python были пройдены, сотни задач на Stepik, Leetcode и подобных ресурсах решены, десятки часов Хирьянова и других святил на Youtube с упоением просмотрены и руки невероятно чесались написать что-то «своё, масштабное и нужное».

Чтитать далее
Всего голосов 12: ↑11 и ↓1+11
Комментарии11

Простыми словами про метрики в ИИ. Классификация. Confusion matrix, Accuracy, Precision, Recall, F-score, ROC-AUC

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров488

Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников, и я расскажу про метрики классификации! Само собой, в интернете очень много материала про эти метрики, но я попробую описать их максимально простым языком с простыми примерами.

Зачем вообще нужны метрики в моделях ИИ? Чаще всего их используют, чтобы сравнивать модели между собой, абстрагируясь от бизнес метрик. Если вы будете смотреть только на бизнес-метрики (например, NPS клиентов или выручка), то можете упустить из-за чего реально произошло снижение или повышение показателей вашего бизнеса. Например, вы сделали новую версию модели лучше предыдущей (метрики модели лучше), но в то же самое время пришёл экономический кризис и люди перестали покупать ваш продукт (упала выручка). Если бы в этой ситуации вы не замеряли показатели модели, то могли бы подумать, что из-за новой версии модели упала выручка, хотя упала она не из-за модели. Пример довольно простой, но хорошо описывает почему нужно разделять метрики модели и бизнеса.

Для начала надо сказать, что метрики моделей бывают двух типов в зависимости от решаемой задачи:

1. Классификации - это когда вы предсказываете к чему именно относится то или иное наблюдение. Например, перед вами картинка и вы должны понять, что на ней, а ответа может быть три: это либо собачка, либо кошечка, либо мышка.

К одному из под-методов классификации относится бинарная классификация: либо единичка, либо нолик. То есть мы предсказываем либо перед нами кошечка, либо это не кошечка.

Читать далее
Всего голосов 4: ↑4 и ↓0+5
Комментарии0

CVE-2024-4577: Не может быть, PHP опять под атакой

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.3K

Orange Tsai недавно запостил про «Одну из уязвимостей PHP, которая влияет на XAMPP, развернутый с настройками по умолчанию», и нам было интересно рассказать немного об этом. XAMPP - очень популярный способ администраторов и разработчиков развернуть Apache, PHP и множество других инструментов, и любая ошибка, которая может быть RCE в установке этого набора по умолчанию, звучит очень заманчиво.

Где нашлась очередная уязвимость PHP? Читайте далее.

Читать далее
Всего голосов 5: ↑3 и ↓2+1
Комментарии2

Планировщик на основе искусственного интеллекта

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров752

Часто ли нам приходится пользоваться записными книжками? Удобно ли это? Всегда ли
тот кусочек бумаги, на котором записано время и место встречи, под рукой? Насколько
 быстро можно записать необходимую информацию? Все эти вопросы не открывают
Америку, всем понятно, что цифровые планировщики гораздо практичнее, нежели
традиционные письменные. Но что может быть не так с электронными записными
книжками? Например, для внесения очередной записи необходимо произвести большое количество действий: от создания плана новой встречи до ручного ввода места и времени встреч в каждое отдельное поле. Казалось бы, пустяк, да и отнимает не так уж много времени. Но ведь нет предела совершенству! Как раз для улучшения данного аспекта: планирования повседневной (и не только) жизни, предназначен мой проект. Стоит отметить, что он будет полезен в основном для бэк‑офиса: поможет не опоздать на важную встречу, не пропустить совещание и не забыть про дедлайн. И так, перейдем от пустых слов, непосредственно к разработке. В последующей статье описан мой опыт по разработке такого рода проекта, а я это делал впервые, поэтому сильный хейт не принимается:‑)

Читать далее
Всего голосов 2: ↑0 и ↓2-2
Комментарии2

Свой VPN за 5 минут (Outline)

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров11K

Каждый, кто сталкивался с вопросом обхода блокировок таких сайтов, как Instagram, Facebook, OpenAI и других, к которым закрыт доступ в РФ, знает, что бесплатные VPN не всегда надежны. Платные VPN-сервисы тоже не всегда быстро работают, да и порой стоят не мало.

На мой взгляд, лучшее решение — это свой собственный VPN с возможностью создания неограниченного количества ключей (один ключ — одно устройство) и, как вы догадались, делать такой VPN я сегодня вас научу.

Создавать VPN мы будем через сервис Outline. Я использую его сам. Эта штука очень удобная и легко настраивается даже для новичка. Обо всем подробнее далее.

Читать далее
Всего голосов 11: ↑7 и ↓4+4
Комментарии33

От нуля до Тетриса: наше приключение с Python

Время на прочтение3 мин
Количество просмотров1.3K

Часть 1: Денис, 10 лет

Привет всем! Меня зовут Дениска, и я хочу рассказать вам о нашем с папой увлекательном проекте! Всё началось с того, что играл с другом в мобильную игру. Мне стало очень интересно, как всё это работает: персонажи, графика, всё-всё! Я побежал к папе и спросил: "Папа, ты знаешь, как это приложение работает?".

Читать захватывающее приключение!
Всего голосов 7: ↑6 и ↓1+6
Комментарии6

Ближайшие события

Конференция HR API 2024
Дата14 – 15 июня
Время10:00 – 18:00
Место
Санкт-ПетербургОнлайн
Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург
Summer Merge
Дата28 – 30 июня
Время11:00
Место
Ульяновская область

Как мы сломали языковой барьер с помощью одной модели?

Время на прочтение8 мин
Количество просмотров1.8K

В этой статье я расскажу о реализации моего бесшовного модуля мультиязычности. Технологии, способной преодолевать языковые барьеры.

Виртуальный ассистент поддерживает 109 языков, понимает на каком языке к нему обратились и генерирует ответ уже на этом языке. И все это благодаря пайплайну на основе языковой модели LaBSE (Language-agnostic BERT Sentence Embedding) и фреймворка RASA.

Читать далее
Всего голосов 3: ↑2 и ↓1+3
Комментарии0

SwiftUI уроки (часть 14)

Время на прочтение15 мин
Количество просмотров323

Теперь, когда у вас есть базовые представления о Combine, давайте рассмотрим, как Combine может улучшить SwiftUI. При разработке реального приложения часто требуется страница регистрации для создания аккаунта. В этой главе мы создадим простую экранную форму регистрации с тремя текстовыми полями. Наше внимание будет сосредоточено на валидации формы, поэтому реальная регистрация выполняться не будет. Вы узнаете, как использовать Combine для валидации каждого из полей ввода и организации кода в модели представления.

Читать далее
Всего голосов 1: ↑1 и ↓0+3
Комментарии1

Gcov/Lcov — покрытие кода и отчет по нему

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров944

Рассказываю о том, как сделать отчет о покрытии кода

Gcov
 — свободно распространяемая утилита для исследования покрытия кода. Gcov генерирует точное количество исполнений для каждого оператора в программе и позволяет добавить аннотации к исходному коду. Gcov поставляется как стандартная утилита в составе пакета GCC.

Lcov — графический интерфейс для gcov. Он собирает файлы gcov для нескольких файлов с исходниками и создает комплект HTML-страниц с кодом и сведениями о покрытии. Также генерируются страницы для упрощения навигации. Lcov поддерживает покрытие строк, функций, ветвлений.[6]

Читать далее
Всего голосов 2: ↑1 и ↓1+2
Комментарии1

Используем базу в Notion как знания для нейро-сотрудника на базе LLM (ChatGPT)

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров4.4K

Разбираем кейс по подключению к чат-боту на базе LLM (ChatGPT и другие) базы данных в Notion.

В итоге мы с вами получим нейро-сотрудника, который может работать с базой знаний неограниченного объема и 100% достоверностью ответов.

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии13

Переход на .NET Aspire из отдельных проектов. Часть 1. Перевод приложений в Aspire

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров921

Не так давно в свет вышел .NET Aspire - продукт для упрощения создания и публикации микросервисных приложений от Microsoft. В рамках данной статьи будет рассмотрен ручной переход на Aspire в "игрушечном" случае: пара небольших проектов, один из которых обращается к Postgres'у.

Читать далее
Всего голосов 4: ↑2 и ↓20
Комментарии0

Sentiment Analysis Bot на Rasa 3.1

Время на прочтение5 мин
Количество просмотров339

Начну с того, что последние 3 месяца я стажировалась в лаборатории искусственного интеллекта ООО "ОЦРВ" в группе обработки естественного языка. За это время успела поучаствовать в разработке системы сентимент-анализа для компании. В этой статье расскажу как вижу эту задачу я, что делала и с какими проблемами пришлось столкнуться.

Читать далее
Всего голосов 3: ↑3 и ↓0+5
Комментарии1

Изучаем freeware вирус на ПК

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров3.6K

Данная статья описывает вирус, который живет на компьютерах с Windows с точки зрения программиста. Посмотрим как он устроен и внедряется в систему.

После подключения флешки к некоторому ПК на неё прыгнул вирус. Если зайти на флешку, то там вместо файлов, которые должны быть, появилась ссылка на эту же флешку. Но мы знаем что ПК это детерминированная система и у него не может происходить что-то само по себе, это сработала какая-то программа.

Читать далее
Всего голосов 11: ↑6 и ↓5+4
Комментарии31
1
23 ...