Умирает ли RuTracker? Анализируем раздачи

Любая деятельность генерирует данные. Чем бы вы ни занимались, у вас наверняка на руках кладезь необработаной полезной информации, ну или хотя бы доступ к его источнику.


Сегодня побеждает тот, кто принимает решения, основываясь на объективных данных. Навыки аналитика как никогда актуальны, а наличие под рукой необходимых для этого инструментов позволяет всегда быть на шаг впереди. Это и является подспорьем появления данной статьи.


У вас есть свой бизнес? Или может… хотя, не важно. Сам процесс добычи данных бесконечен и увлекателен. И даже просто хорошо покопавшись в интернете можно найти себе поле для деятельности.


Вот, что мы имеем сегодня – Неофициальная XML-база раздач сайта RuTracker.ORG. База обновляется раз в полгода и содержит в себе информацию о всех раздачах за историю существования данного торрент-трекера.


Что она может рассказать владельцам рутрекера? А непосредственным пособникам пиратства в интернете? Или обычному юзеру, увлекающемуся аниме, например?


Понимаете о чем я?


Дисклеймер

Я не поддерживаю пиратство в интернете и против него. Прибегаю к использованию торрентов только в случае скачивания open source продуктов.


Выбор данной темы вызван исключительно интересом к аналитике и big data.


Стэк – R, Clickhouse, Dataiku


Любая аналитика проходит несколько основных этапов: извлечение данных, их подготовка и изучение данных (визуализация). Для каждого этапа — свой инструмент. Потому сегодняшний стэк:


  1. R. Да, непопулярный и уступает Python. Но до того же чистый и приятный со своим dplyr и ggplot2. Он рожден для аналитики и не пользоваться этим – преступление.
  2. Clickhouse. Колоночная аналитическая СУБД. Наверняка слышали: “clickhouse не тормозит” или “скорость на грани фантастики”. Народ не врет, и мы в этом убедимся. В ответе за моментальность.
  3. Dataiku. Платформа для обработки, визуализации и прогнозного анализа бизнес-данных.

Ревью: Dataiku работает на линуксе и маке. Доступна бесплатная версия с ограничением пользователей до 3 человек. Документация тут.


Удивительно, но на русскоязычных ресурсах и даже на Хабре до сих пор нет ажиотажа или хайпа, если хотите, на тему неотразимости данной платформы. Возьмусь исправить сие недоразумение и прошу поздравить dataiku с почином.


Big Data – big problems


На руках сжатый xml–файл весом 5 Гб. Внутри – база всех раздач сайта rutracker.org, с самого начала его существования (2005 г.) и до ноября 2019 г. А это 15 лет!


Загрузить такой объем в R Studio – ха! Не вариант. Мы люди простые, ресурсы ограничены.


Значит нужна БД, дабы подключаться и делать запросы через R. Поскольку имеем дело с Big Data, выбираем Clickhouse и … не так быстро, у нас все еще xml–файл. Надо распарсить. И опять упираемся в ресурсы.


Тут на сцену выходит наш сегодняшний дебютант. Импортировать и подготовить такой объем в Dataiku DSS не проблема. Но у нас будет ограничение на отображаемый семпл – 10 000 строк. Просмотреть аналитику также можно только в рамках семпла. Но для парсинга нам достаточно, вполне. Лимит на семпл можно и поднять, документация для корректной работы советует не больше 200 000 строк.


Создаем проект, импортируем дату. Пару минут и сырые данные готовы к предобработке.


image


Получили данные разных форматов. Самые интересные: колонка content — с описанием каждого торрента в разметке форумного движка и несколько колонок в формате массива json.


Удаляем пока колонку content, для сквозного анализа она будет нам в тягость. Но к ней мы еще вернемся – там есть где закопаться.


Создаем recipe — правила предобработки. Из соответствующих колонок достаем информацию о торренте, загружаемом файле и форуме к которому он относится. Благо датайку позволяет нам парсить json массивы.


image


Форматируем дату регистрации торрента. Отмечу, ни строчки кода еще не написано, и это огромный + для dataiku.


Запускаем наш recipe, ждем полчаса — на выходе все красиво.


image


Забираем csv с чистой датой и импортируем в Clickhouse.


Простота и фантастическая скорость


Давайте протестируем Clickhouse и охватим наконец все 15 лет существования rutracker-a.


Сколько же торрентов в нашей базе?


SELECT ROUND(uniq(torrent_id) / 1000000, 2) AS Count_M
FROM rutracker

┌─Count_M─┐
│    1.46 │
└─────────┘
1 rows in set. Elapsed: 0.247 sec. Processed 25.51 million rows, 204.06 MB (103.47 million rows/s., 827.77 MB/s.)

Итого 1.5 млн торрентов и 25 млн строк. За 0.3 с! Попробуем запрос посложнее и понаблюдаем за скоростью.


Посмотрим, к примеру, сколько книжек нам доступно для скачивания.


SELECT COUNT(*) AS Count
FROM rutracker
WHERE (file_ext = 'epub') OR (file_ext = 'fb2') OR (file_ext = 'mobi')

┌──Count─┐
│ 333654 │
└────────┘
1 rows in set. Elapsed: 0.435 sec. Processed 25.51 million rows, 308.79 MB (58.64 million rows/s., 709.86 MB/s.)

300 тыс — читать не перечитать! Но согласитесь, там есть дубли. Раз уж на то пошло узнаем их суммарный вес.


SELECT ROUND(SUM(file_size) / 1000000000, 2) AS Total_size_GB
FROM rutracker
WHERE (file_ext = 'epub') OR (file_ext = 'fb2') OR (file_ext = 'mobi')

┌─Total_size_GB─┐
│        625.75 │
└───────────────┘
1 rows in set. Elapsed: 0.296 sec. Processed 25.51 million rows, 344.32 MB (86.24 million rows/s., 1.16 GB/s.)

Итог – мы охватили 25 млн строк менее чем за пол секунды. Приятно, не правда ли?


Добыча данных в R


Продолжим добывать данные уже в R. Подключим библиотеки, в часности DBI (для работы с БД). И установим соединение с Clickhouse.


R код
library(DBI) # Для работы с БД, в.т.ч. Clickhouse
library(dplyr) # Для пайпов %>%

# Визуализация
library(ggplot2) 
library(ggrepel)
library(cowplot)
library(scales)
library(ggrepel)

# Подключимся к localhost:9000 
connection <- dbConnect(RClickhouse::clickhouse(), host="localhost", port = 9000)

Все, можно делать запросы и сразу же визуализировать. А благодаря dplyr можем легко обойтись и без переменных.


Так умирают ли торренты? Давайте посмотрим статистику их количества на rutracker.org по годам.


R код
years_stat <- dbGetQuery(connection,
                       "SELECT
                          round(COUNT(*)/1000000, 2) AS Files,
                          round(uniq(torrent_id)/1000, 2) AS Torrents,
                          toYear(torrent_registred_at) AS Year
                        FROM rutracker
                        GROUP BY Year")

ggplot(years_stat, aes(as.factor(Year), as.double(Files))) +
  geom_bar(stat = 'identity', fill = "darkblue", alpha = 0.8)+

  theme_minimal() +
  labs(title = "Сколько файлов было загружено на RuTracker", subtitle = "за  2005 - 2019\n")+

  theme(axis.text.x = element_text(angle=90, vjust = 0.5),
        axis.text.y = element_text(),

        axis.title.y = element_blank(),
        axis.title.x = element_blank(),

        panel.grid.major.x = element_blank(),
        panel.grid.major.y = element_line(size = 0.9),
        panel.grid.minor.y = element_line(size = 0.4),

        plot.title = element_text(vjust = 3, hjust = 0, family = "sans", size = 16, color = "#101010", face = "bold"),
        plot.caption = element_text(vjust = 3, hjust = 0, family = "sans", size = 12, color = "#101010", face = "bold"),
        plot.margin = unit(c(1,0.5,1,0.5), "cm"))+

    scale_y_continuous(labels = number_format(accuracy = 1, suffix = " млн"))

ggplot(years_stat, aes(as.factor(Year), as.integer(Torrents))) +
  geom_bar(stat = 'identity', fill = "#008b8b", alpha = 0.8)+

   theme_minimal() +
   labs(title = "Сколько торрентов было добавлено на RuTracker", subtitle = "за  2005 - 2019\n", caption = "*Количество уникальных торрентов")+

   theme(axis.text.x = element_text(angle=90, vjust = 0.5),
          axis.text.y = element_text(),

          axis.title.y = element_blank(),
          axis.title.x = element_blank(),

          panel.grid.major.x = element_blank(),
          panel.grid.major.y = element_line(size = 0.9),
          panel.grid.minor.y = element_line(size = 0.4),

          plot.title = element_text(vjust = 3, hjust = 0, family = "sans", size = 16, color = "#101010", face = "bold"),
          plot.caption = element_text(vjust = -3, hjust = 1, family = "sans", size = 9, color = "grey60", face = "plain"),
          plot.margin = unit(c(1,0.5,1,0.5), "cm")) +

     scale_y_continuous(labels = number_format(accuracy = 1, suffix = " тыс"))

imageimage


На каждом из графиков заметно просел 2016 год. Важно отметить, что в январе 2016 официально вступило в силу решение Роскомнадзора о блокировке rutracker.org для российских пользователей. Тогда в СМИ сообщалось о незначительном снижении посещаемости сайта, что коррелирует с нашей картиной.


Количество файлов последние года очевидно возрастает, при том что количество торрентов остается практически на одном уровне. Это значит, что на один торрент приходится все больше возможных расширений.


Пролить свет на данную картину нам поможет статистика ТОПа расширений за весь период.


R код
extention_stat <- dbGetQuery(connection,
       "SELECT toYear(torrent_registred_at) AS Year,
              COUNT(tracker_id)/1000 AS Count,
              ROUND(SUM(file_size)/1000000000000, 2) AS Total_Size_TB,
              file_ext
         FROM rutracker
         GROUP BY Year, file_ext
         ORDER BY Year, Count")

# Функция получения ТОПа расширений для каждого года
TopExt <- function(x, n) {
  res_tab <- NULL
  #Упустим 2005 и 2006, т.к. там мало торрентов
  for (i in (3:15)) {
    res_tab <-bind_rows(list(res_tab,
          extention_stat %>% filter(Year == x[i]) %>%
          arrange(desc(Count), desc(Total_Size_TB)) %>%
          head(n)
      ))
  }
  return(res_tab)
}

years_list <- unique(extention_stat$Year)
ext_data <- TopExt(years_list, 5)

ggplot(ext_data, aes(as.factor(Year), as.integer(Count),  fill = file_ext)) +
  geom_bar(stat = "identity",position="dodge2", alpha =0.8, width = 1)+

  theme_minimal() +
  labs(title = "Динамика ТОПа расширений файлов на RuTracker", 
          subtitle = "за  2005 - 2019\n", 
          caption = "*взято ТОП-5 за каждый год", fill = "") +

   theme(axis.text.x = element_text(angle=90, vjust = 0.5),
          axis.text.y = element_text(),

          axis.title.y = element_blank(),
          axis.title.x = element_blank(),

          panel.grid.major.x = element_blank(),
          panel.grid.major.y = element_line(size = 0.9),
          panel.grid.minor.y = element_line(size = 0.4),

          legend.title = element_text(vjust = 1, hjust = -1, family = "sans", size = 9, color = "#101010", face = "plain"),
          legend.position = "top",

          plot.title = element_text(vjust = 3, hjust = 0, family = "sans", size = 16, color = "#101010", face = "bold"),
          plot.caption = element_text(vjust = -4, hjust = 1, family = "sans", size = 9, color = "grey60", face = "plain"),
          plot.margin = unit(c(1,0.5,1,0.5), "cm")) +

     scale_y_continuous(labels = number_format(accuracy = 0.5, scale = (1/1000), suffix = " млн"))+guides(fill=guide_legend(nrow=1))

image


И вот ответ. Очень существенно возросло количество картинок в торрентах. Они и влияют на рост количества файлов.


Давайте погуляем по разделам rutracker-a. Узнаем их суммарный вес и количество торрентов внутри.


R код
chapter_stat <- dbGetQuery(connection, 
      "SELECT 
             substring(forum_name, 1, position(forum_name, ' -')) Chapter, 
             uniq(torrent_id) AS Count, 
             ROUND(median(file_size)/1000000, 2) AS Median_Size_MB, 
             ROUND(max(file_size)/1000000000) AS Max_Size_GB, 
             ROUND(SUM(file_size)/1000000000000) AS Total_Size_TB 
        FROM rutracker WHERE Chapter NOT LIKE('\"%') 
        GROUP BY Chapter 
        ORDER BY Count DESC")

  chapter_stat$Count <- as.integer(chapter_stat$Count)

# Функция для агрегации по разделам
AggChapter2 <- function(Chapter){
  var_ch <- str(Chapter)
  res = NULL
  for(i in (1:22)){
    select_str <-paste0(
    "SELECT 
           toYear(torrent_registred_at) AS Year, 
           substring(forum_name, 1, position(forum_name, ' -')) Chapter, 
           uniq(torrent_id)/1000 AS Count, 
           ROUND(median(file_size)/1000000, 2) AS Median_Size_MB, 
           ROUND(max(file_size)/1000000000,2) AS Max_Size_GB, 
           ROUND(SUM(file_size)/1000000000000,2) AS Total_Size_TB 
      FROM rutracker 
      WHERE Chapter LIKE('", Chapter[i], "%') 
      GROUP BY Year, Chapter 
      ORDER BY Year")
    res <-bind_rows(list(res, dbGetQuery(connection, select_str)))
                  }
  return(res)
}

chapters_data <- AggChapter2(chapter_stat$Chapter)

chapters_data$Chapter <- as.factor(chapters_data$Chapter)
chapters_data$Count <- as.numeric(chapters_data$Count)

chapters_data %>% group_by(Chapter)%>% 

ggplot(mapping = aes(x = reorder(Chapter, Total_Size_TB), y = Total_Size_TB))+
geom_bar(stat = "identity", fill="darkblue", alpha =0.8)+

  theme(panel.grid.major.x = element_line(colour="grey60", linetype="dashed"))+
  xlab('Раздел\n') + theme_minimal() +

  labs(title = "Cуммарный вес разделов RuTracker-а", 
          subtitle = "на ноябрь 2019\n")+
  theme(axis.text.x = element_text(),
       axis.text.y = element_text(family = "sans", size = 9, color = "#101010", hjust = 1, vjust = 0.5),

       axis.title.y = element_text(vjust = 2.5, hjust = 0, family = "sans", size = 9, color = "grey40", face = "plain"),
       axis.title.x = element_blank(),

       axis.line.x  = element_line(color = "grey60", size = 0.1, linetype = "solid"),

       panel.grid.major.y = element_blank(),
       panel.grid.major.x = element_line(size = 0.7, linetype = "solid"),
       panel.grid.minor.x = element_line(size = 0.4, linetype = "solid"),

       plot.title = element_text(vjust = 3, hjust = 1, family = "sans", size = 16, color = "#101010", face = "bold"),
       plot.subtitle  = element_text(vjust = 2, hjust = 1, family = "sans", size = 12, color = "#101010", face = "plain"),
       plot.caption = element_text(vjust = -3, hjust = 1, family = "sans", size = 9, color = "grey60", face = "plain"),

       plot.margin = unit(c(1,0.5,1,0.5), "cm"))+
   scale_y_continuous(labels = number_format(accuracy = 1, suffix = " ТБ"))+
   coord_flip()

image


Топ увесистых разделов вполне понятен и логичен. А вот антилидеры — Мобильные устройства и Иностранные языки — вероятно на торрентах умирают. Взглянув на распределение количества торрентов, мы в этом убедимся. Тут же, рядом расположился и раздел с Apple.


R код
chapters_data %>% group_by(Chapter)%>% 

ggplot(mapping = aes(x = reorder(Chapter, Count), y = Count))+
   geom_bar(stat = "identity", fill="#008b8b", alpha =0.8)+

   theme(panel.grid.major.x = element_line(colour="grey60", linetype="dashed"))+
   xlab('Раздел') + theme_minimal() +
   labs(title = "Распределение торрентов по разделам RuTracker-а", 
           subtitle = "на ноябрь 2019\n")+
   theme(axis.text.x = element_text(),
       axis.text.y = element_text(family = "sans", size = 9, color = "#101010", hjust = 1, vjust = 0.5),

       axis.title.y = element_text(vjust = 3.5, hjust = 0, family = "sans", size = 9, color = "grey40", face = "plain"),
       axis.title.x = element_blank(),

       axis.line.x  = element_line(color = "grey60", size = 0.1, linetype = "solid"),

       panel.grid.major.y = element_blank(),
       panel.grid.major.x = element_line(size = 0.7, linetype = "solid"),
       panel.grid.minor.x = element_line(size = 0.4, linetype = "solid"),

       plot.title = element_text(vjust = 3, hjust = 1, family = "sans", size = 16, color = "#101010", face = "bold"),
       plot.subtitle  = element_text(vjust = 2, hjust = 1, family = "sans", size = 12, color = "#101010", face = "plain"),
       plot.caption = element_text(vjust = -3, hjust = 1, family = "sans", size = 9, color = "grey60", face = "plain"),

       plot.margin = unit(c(1,0.5,1,0.5), "cm"))+
    scale_y_continuous(limits = c(0, 300), labels = number_format(accuracy = 1, suffix = " тыс"))+
    coord_flip()

image


Уяснив ранее, что торренты с годами не умирают, у вас вероятно возник вопрос: а как же тогда время влияет на понятие торрент-трекера.
Тут мы можем использовать агрегацию по разделам и просмотреть тенденции за ~15 лет.


R код
library("RColorBrewer")
getPalette = colorRampPalette(brewer.pal(19, "Spectral"))

chapters_data %>% #filter(Chapter %in% chapter_stat$Chapter[c(4,6,7,9:20)])%>%
  filter(!Chapter %in% chapter_stat$Chapter[c(16, 21, 22)])%>%
  filter(Year>=2007)%>%

ggplot(mapping = aes(x = Year, y = Count, fill = as.factor(Chapter)))+
   geom_area(alpha =0.8, position = "fill")+

   theme_minimal() +
   labs(title = "Как изменяется характер торрент-трекера", 
           subtitle = "за ~15 лет", fill = "Раздел")+
   theme(axis.text.x = element_text(vjust = 0.5),
          axis.text.y = element_blank(),

          axis.title.y = element_blank(),
          axis.title.x = element_blank(),

          panel.grid.major.x = element_blank(),
          panel.grid.major.y = element_line(size = 0.9),
          panel.grid.minor.y = element_line(size = 0.4),

          plot.title = element_text(vjust = 3, hjust = 0, family = "sans", size = 16, color = "#101010", face = "bold"),
          plot.caption = element_text(vjust = -3, hjust = 1, family = "sans", size = 9, color = "grey60", face = "plain"),
          plot.margin = unit(c(1,1,1,1), "cm")) +

     scale_x_continuous(breaks = c(2008, 2010, 2012, 2014, 2016, 2018),expand=c(0,0)) +
     scale_fill_manual(values = getPalette(19))

image


Кино-пиратство на торрентах умирает — это факт. С ним за руку — Apple и мобильные устройства, которых почти и не видно.
При этом в последнее время явно возрастает количество игр и сериалов. Вероятно эта тенденция будет сохраняться.


Отойдя немного в сторону и взглянув на данные под новым углом, можно обнаружить еще пару скелетов Rutracker-a. Посмотрим-ка на тепловую карту ежедневного появления торрентов на rutracker.org.


R код
unique_torr_per_day <- dbGetQuery(connection, 
          "SELECT toDate(torrent_registred_at) AS date, 
                          uniq(torrent_id) AS count
           FROM rutracker 
           GROUP BY date
           ORDER BY date")

unique_torr_per_day %>% 
ggplot(aes(format(date, "%Y"), format(date, "%j"), fill = as.numeric(count)))+
  geom_tile() +

  theme_minimal() +
  labs(title = "Тепловая карта пополняемости RuTracker-a", 
          subtitle = "за ~15 лет\n\n", 
          fill = "К-во уникальных торрентов \n")+
      theme(axis.text.x = element_text(vjust = 0.5),
          axis.text.y = element_text(),

          axis.title.y = element_blank(),
          axis.title.x = element_blank(),

          panel.grid.major.y = element_blank(),
          panel.grid.major.x = element_line(size = 0.9),
          panel.grid.minor.x = element_line(size = 0.4),

          legend.title = element_text(vjust = 0.7, hjust = -1, family = "sans", size = 10, color = "#101010", face = "plain"),
          legend.position = c(0.88, 1.30),
          legend.direction = "horizontal",

          plot.title = element_text(vjust = 3, hjust = 0, family = "sans", size = 16, color = "#101010", face = "bold"),
          plot.caption = element_text(vjust = -3, hjust = 1, family = "sans", size = 9, color = "grey60", face = "plain"),
          plot.margin = unit(c(1,1,1,1), "cm"))+ coord_flip(clip = "off") +
          scale_y_discrete(breaks = c(format(as.Date("2007-01-15"), "%j"), 
                                      format(as.Date("2007-02-15"), "%j"), 
                                      format(as.Date("2007-03-15"), "%j"), 
                                      format(as.Date("2007-04-15"), "%j"), 
                                      format(as.Date("2007-05-15"), "%j"), 
                                      format(as.Date("2007-06-15"), "%j"), 
                                      format(as.Date("2007-07-15"), "%j"),
                                      format(as.Date("2007-08-15"), "%j"),
                                      format(as.Date("2007-09-15"), "%j"),
                                      format(as.Date("2007-10-15"), "%j"),
                                      format(as.Date("2007-11-15"), "%j"),
                                      format(as.Date("2007-12-15"), "%j")), 
          labels = c("янв", "фев", "мар", "апр", "май", "июн","июл", "авг", "сен", "окт","ноя","дек"), position = 'right') +
          scale_fill_gradientn(colours = c("#155220", "#c6e48b"))  + 

       annotate(geom = "curve", x = 16.5, y = 119, xend = 13, yend = 135, 
                   curvature = .3, color = "grey15", arrow = arrow(length = unit(2, "mm"))) +
       annotate(geom = "text", x = 16, y = 45, 
label = "Релиз приложения для борьбы с «замедлителем торрентов» Роскомнадзора\n", 
hjust = "left", vjust = -0.75, color = "grey25") + 

       guides(x.sec = guide_axis_label_trans(~.x)) + 
       annotate("rect", xmin = 11.5, xmax = 12.5, ymin = 1, ymax = 366,
                       alpha = .0, colour = "white", size = 0.1) + 
       geom_segment(aes(x = 11.5, y = 25, xend = 12.5, yend = 25, colour = "segment"), 
                                  show.legend = FALSE)

image


Сразу бросается в глаза всплеск активности в 2017 году. (ред. В мае того года на GitHub было выложено приложение для борьбы с попытками российских властей замедлять скорость скачивания файлов). А вот блокировка сайта в 2016 году отнюдь не очевидна, т.к существенно не повлияла на активность добавления торрентов.


Закопаться можно и хочется в любую из найденных выше закономерностей. Добывать данные можно до бесконечности. А писать и читать статью – нет.
Давайте еще немного поиграем, вернем весьма информативную колонку content и посмотрим, что нам расскажут данные, к примеру, об аниме за последние 15 лет.


Её величество Dataiku


Создаем новую ветку, оставляем все видео файлы касательно аниме и парсим колонку с описанием торрентов: вытягиваем режиссера, страну, жанр, продолжительность и год выхода анимешки.


image


Отфильтруем картинки, субтитры и инфо-файлы. Также поднимем лимит отображаемого семпла. Пару кликов – все красиво.


image


Предлагаю взглянуть на года выхода наших анимешек и в тоже время потрогать удобнейшую функцию датайку – внутриколоночную аналитику.


image


Резюмирую: на rutracker.org доступно для скачивания аниме, снятое за последние пол века Если быть точнее, уникальных годов выпуска — 60. При этом наиболее продуктивными оказались 2009 — 2014 года.


Платформа также позволяет моментально визуализировать данные. И при этом, напомню, никакого кода. Просто выбираем нужные фильтры.


К примеру, агрегируем Японию и возьмем топ самых продуктивных режиссеров. Получаем тепловую карту их активности простым перетаскиванием переменных.


image


К чему я веду, dataiku — отличный инструмент для аналитика любого уровня. Импорт, подготовка, анализ и визуализация данных реализуется как кодом (R, Python), так и кликаньем мышки. Но это уже совсем другая история и отличная тема для следующей статьи.


А пока, возвращаясь к RuTracker, констатируем: торренты не умирают, даже в условиях блокировок. Сама же база раздач невероятно емкая и может ответить еще не на один вопрос. Могу пообещать сделать больше аналитики, при проявленном интересе. Предлагайте свои гипотезы в комментариях.


UPD: В ответ на один из комментариев, опишу детальнее этап формирования recipe в dataiku.


Условно, приведенный в данной статье recipe, можно разделить на две части: подготовка данных для анализа в R и подготовка данных об аниме для анализа непосредственно на платформе.


Этап подготовки к анализу в R

Состоит из блоков парсинга json-колонок и даты.


image


Блоки парсинга json-колонок

Блоки однотипны. Задаем колонку из которой нужно достать переменную и ее название.


image


Блок парсинга даты

Парсим и форматируем timestamp указав удобный формат.


image


Этап подготовки данных об аниме

Этап в основном состоит из фильтров, нацеленных на отбор только видео файлов, связанных с аниме. Также он содержит блок парсинга колонки content — Descr_Data.


image


Блок парсинга колонки content

С помощью regexp достаем данные о режиссере, стране, жанре, продолжительности и дате выхода аниме. Отмечу, что синтаксис regexp в dataiku немного специфичный и к нему нужно приловчиться.


image



AdBlock похитил этот баннер, но баннеры не зубы — отрастут

Подробнее
Реклама

Комментарии 261

    +3
    Было бы интересно узнать как карантин сказался на активности )
      +6
      Да, с карантином работы у аналитиков прибавилось )
      Хорошая идея, ждем обновления базы.
        0
        Для полноценной картины нужна информация по обеим базам
          0
          «Кино-пиратство на торрентах умирает — это факт»
          Потому что все перебрались на кинозал, после того как rutracker заблокировал hevc на трекере. Сейчас разрешили, так что скоро все обратно хлынут.
            +1
            А чем мотивировали запрет (я просто «в анабиозе» был)?
              0
              Железо не тянет. Плюс у них давно были рекомендуемые параметры, так их просто банально не обновляли под современные реалии.
                0
                А там ведь еще есть dolby vision с двумя, ха, видио потоками. Это тоже разрешили. А есть и однослойный. А есть с неправильными цветами IPTPQc2. Который только с помощью проприетарного приложения воспроизводится. И т.д.
              0
              а почему блокировали hevc?
                0
                Думали не станет next gen форматом, ошиблись прям очень серьёзно.
                0
                Я не очень понимаю, откуда взялся такой вывод. Информация идет в процентах.
                В последние годы на торрентах ЗНАЧИТЕЛЬНО вырос процент сериалов, причем одновременно доступно несколько вариантов перевода, разное качество.
                Также значительно вырос процент аудиокниг.

                Я бы хотел, чтобы автор пересчитал не в процентном, а в абсолютном количестве (кол-во, общий объем в тб) и положил графики рядом, а уже потом делал выводы.
            +3
            до ноября 2019 г

            Вот реально стал активно пользоваться торрентами с марта. Рутракер в меньшей степени. В основном nnm-club. До этого момента дежурно висели раздачи 10-летней давности с небольшим количеством скачек по необходимости в последующие годы.
            Думаю провайдер в шоке с трафика.
              –1
              Главное чтобы роутер не был в шоке от трафика. Хотя в современных железо должно тянуть. Но иногда бывает, что обновив роутер можно повысить скорость у большого количества одновременных соединений.
                0
                Мой например просто не тянет провайдеровские 100 мегабит, спасибо устаревшему PPTP.
                  0
                  Можно узнать модель вашего роутера?
                    0
                    Старичок Zyxel Keenetic Giga.
                      0
                      Да, у меня был такой, там CPU слабоват. В моём случае роутер упирался в CPU при активной работе с USB-диском.
                        0
                        Протокол не тот, по сетке он может близкое к заявленному гигабиту гонять.
                0
                Рутракер в меньшей степени. В основном nnm-club

                Странно… на ннм вагон рекламы (если кто ткнет носом в фильтьр-правило для ublock, которое ее таки сможет порезать, будет здорово).

                А еще у них часто выкладывают медиа без оригинальной дороги, и не указывают языки в наименовании. На рутрекере тоже с этим не фонтан, но он гораздо ближе к некой униформности.

                И сильно раздражает на ннм, когда промахиваюсь мимо «правильного» (маленького) поля поиска, и ввожжу в большое и заметное — результатами такого поиска пользховаться невозможно.

                Единственное, что удобно делать на ннм — когда хочется чего-то скачать из свежего, но не знаешь, чего — проскроллить первые пару страниц, иногда что-то находится. На рутрекере для этого надо скакать по форумам «новинки», причемс по нескольким сразу (может, упустил из виду, и что-то типа ленты последних релизов есть, но если и да, то ее куда-то глубоко запрятано).
                  0
                  Честно говоря не вижу на nnm рекламы. Но у меня и на компьютере и на телефоне лежит антирекламный hosts. На роутере работает adblock Openwrt. Еще есть PiHole, но только для телевизора и похоже теперь не нагружен с началом использования adblock Openwrt.
                    0
                    стоит AdBlock — никакой рекламы на nnm не показывается
                      +1
                      Странно… на ннм вагон рекламы (если кто ткнет носом в фильтьр-правило для ublock, которое ее таки сможет порезать, будет здорово).

                      nnmclub.to/forum/profile.php?mode=editprofile
                      Внизу
                      Отключить рекламу на сайте: да.
                        0
                        Как раз у них очень слабенькие списки топов, даже просил их сделать отдельную страницу, но не судьба. Идеальные списки топов по категориям и периодам на рутор инфо
                          0
                          На nnm тоже есть раздел новинок, хочешь экраны без рекламы, хочешь с рекламой.
                        +28
                        Пиратство это, конечно, плохо (но не точно!), но если хочется послушать диск, который вышел лет 20 назад тиражом в 300 экземпляров и больше не переиздавался — что делать? Автор переизданием не занимается, по причине чего сам диск — коллекционная редкость.
                          +30
                          Уже не раз бывало, что игры из стима выпиливали как будто никогда там не было.
                          А ещё, например, стим перестал поддерживать XP — в то время, как многие игры только на ней нормально и работают.
                          Так что это не пиратсво, а бэкапы. А то и просто возможность поиграть в честно купленное.
                            +2
                            Со стороны Стима это вообще подлость
                              +4

                              Справедливости ради: у купивших игру в стиме остаётся возможность игру заново скачать в стиме. По какой бы причине игра не была удалена — вы свои деньги не потеряли, игра при вас.


                              Вот с XP конечно досадно, но опять же, справедливости ради: настолько старые игры часто не защищены стимовским DRM. Т.е. их можно скачать на современной ОС, а потом тупо скопировать папку с игрой на старую машину — и всё заработает. Опять таки, "часто" не значит "всегда" и даже "в большинстве случаев", но тем не менее.


                              "Справедливости ради" номер три, "многие игры из стим, нормальное работающие только на XP" явно в меньшинстве в стиме. Большинство таки нормально работают на современных ОС. Слабое оправдание для ситуации, когда ты хочешь поиграть в конкретную игру, но тем не менее.

                                +1
                                их можно скачать на современной ОС, а потом тупо скопировать папку с игрой на старую машину

                                «можно» в смысле просто технически, или это действительно не нарушает соглашения стима?
                                  +5
                                  Зачастую в Steam'е есть издания старых игр, но в них нет локализации (ну ладно не беда, английский то не такой уж сложный, да и часто в руководствах уже есть русификатор сделанный фанатами), нету оптимизации под современные операционные системы(!), нет поддержки широких экранов, вообще ничего нет. А если в этот же момент зайти на любой трекер и скачать репак от любой более менее вменяемой релиз-группы, то там внезапно все есть и работает из коробки.

                                  Поэтому ко многим старым играм после релиза можно видеть негативные отзывы, часть из которых из-за отсутствия локализации, а другая часть из-за невозможности запустить в современном программном и аппаратном окружении.
                                    0
                                    У меня такой прикол был с оригинальной копией старой call of duty mw1, купленной в стиме. Игра легенда и в нее до сих пор рубится армия преданных фанатов.
                                    Что бы поиграть в нее — нужно установить старое античитерское ПО, которое уже давным давно не работает через стим
                                    И единственный выход — это играть на пиратке
                                    +1
                                    у купивших игру в стиме остаётся возможность игру заново скачать в стиме

                                    редко, но бывает кейс, когда стим изымает игру из библиотеки в принципе. если почитать договор со стимом — игры мы берем в бессрочную аренду у платформы.

                                    2. ЛИЦЕНЗИИ

                                    A. Общая лицензия на Контент и Услуги

                                    Для использования Steam и Ваших Подписок требуется загрузка и установка на Ваш компьютер Контента и Услуг. Настоящим Valve передает Вам, а Вы принимаете неэксклюзивное право пользования Контентом и Услугами в личных некоммерческих целях (за исключением случаев, когда коммерческое использование разрешено в прямой форме в настоящем документе или в соответствующих Условиях подписки). Лицензия утрачивает силу по окончании срока действия (a) данного Соглашения или (b) Подписки, включающей лицензию. Настоящим передается право пользования Контентом и Услугами, а не какие-либо иные вещные права. Передаваемое право не порождает никакого титула или права собственности на Контент и Услуги. Чтобы использовать Контент и Услуги, Вы должны иметь Аккаунт в Steam, а также Вам может потребоваться запустить клиентское приложение Steam и поддерживать соединение с Интернетом.

                                      +8
                                      Дело даже не столько в удалении всей игры. Из игры могут исчезнуть ресурсы, на которые была только временная лицензия. К примеру, для GTA IV на десятилетие игры выкатили «подарочек»: поскольку лицензия была только на 10 лет, то удалили часть песен, большая часть — русскоязычные. Изменилось каноничное интро игры, поскольку теперь песни Глюкозы из таксо Романа на раздаётся. Удалили даже песню Русланы на «Владивостоке ФМ», которую она часто упоминает на радиостанции. Ситуация интересная: заплатил я за полную игру, а сейчас она урезана.

                                      Что-то подобное было с переизданием Mafia. Сейчас в «Стиме» можно купить только издание без музыки.

                                      Разумеется, есть небольшие моды, которые возвращают музыку на место. Хотя формально это нарушение авторского права, лично я ничего аморального в них не вижу.
                                        0
                                        К примеру, для GTA IV на десятилетие игры выкатили «подарочек»

                                        А где-нибудь можно почитать подробности?

                                        0
                                        В GTA IV такая процедура активации, что я десять раз пожалел, что купил лицензию, а не скачал с торрентов.
                                      +2
                                      да даже необязательно стим. Вот захотелось мне поиграть в классические NFS, но нигде купить я не могу. Только б/у диски. Вот в подобных ситуациях вообще ничего плохого в пиратстве не вижу. Иначе контент никак не получишь.
                                      Отчасти поэтому пугает потенциальный облачный гейминг (да и вообще стриминговые сервисы по подписке). Если правообладателю в голову что-нибудь ударит, и он захочет удалить контент по каким-либо причинам, то ты не сможешь никак это сохранить для себя
                                        0
                                        Я некоторые игры купил уже по два-три раза — сначала лицензию на диске, потом — некоторые ещё раз, когда первый диск спёрли\зацарапался, и наконец, по причине отсутствия привода в компе — очередную версию купил в стиме со скидкой. Особенно обидно, когда она после этого не идёт даже после плясок с бубном(привет, Wizardry 8).
                                        Будет ли нарушением с моей стороны скачать версию с торрента если что? Я считаю, что нет.
                                          0

                                          Я думаю, что проблема не в происхождении игры (т.е. откуда она скачана), а в юридическим аспектах возможности ее запуска.

                                          +1
                                          В чём вообще смысл покупать старые игры в Steam когда есть GOG? Там и бэкапы никто не мешает делать, ибо нет DRM.
                                          +12

                                          На рутрекере в раздаче Группа "Реки" / Дискография есть вот такая благодарность:


                                          Ну вот, докатился… Собственные песни с торрентов скачиваю....)))) Лирика сдулась вместе с буком) Кстати на ютубе пару самопальных клипов недавно выложил.
                                          Спасибо. Лаптев
                                            +5
                                            Поддерживаю! Считаю что в законах об авторском праве давно пора закрепить — если автор/издатель перестал продавать некоторое произведение (фильм/игру/музыкальный альбом), то разрешить его свободное распространение. Хочешь зарабатывать — продавай и зарабатывай, не хочешь — так какая тебе разница пиратит кто-то или нет?
                                              +3

                                              Кому может и никакой, а кто-то может быть против распространения вообще (хоть коммерческого, хоть бесплатного), и не обязан вам даже сообщать причины такого решения. И не надо у добросовестных авторов отнимать это право.
                                              Когда подобным занимаются копирайтодержатели, не являющиеся авторами — другое дело.

                                                +1
                                                Ну как то странно выходит. Желания продавать нет, а желание судиться с «пиратами» есть.
                                                  +1

                                                  Иногда исполнитель стесняется того, что он играл в молодости, ведь тепепь он серьёзный человек, коллеги не поймут. Да, это предательство своей молодости, но это их право. Я лично удалял местную музыку из публичного доступа, которым заведовал, когда ко мне обращались с такими просьбами.

                                                    0

                                                    А через 100 лет это "играл в молодости" станет public domain и что делать будем?

                                                      +1
                                                      Мёртвым всё равно.
                                                        0

                                                        Мёртвым, может быть и всё равно, а фанатам где добыть эту чёртову удалённую запись?

                                                        0
                                                        Быть может, это станет не актуально. А вот сейчас, если у условного полицейского найдутеся условне записи гаражной панкухи десятилетней давности, где он кроет милицию разными органами, у него могут случиться проблемы.
                                                      0

                                                      Так это же вариант продаж.

                                                    0
                                                    Не вы первый, кому такое приходит в голову.
                                                    Мне идея тоже нравится, но у нее есть критическая проблема: а как определить доступность произведения?
                                                    Допустим, что если официально вещь уже не продается, но ее можно купить Б/У? А если ее можно купить Б/У в официальном магазине?
                                                    Или если купить ее можно на носителе специфического устаревшего формата, который уже ничем не поддерживается?
                                                    Что, если вещь можно купить только в одном магазине в США?
                                                    Или если ее продадут любому желающему по интернету, но не менее чем за $100k долларов? А если «всего» за $1000?
                                                    А если вещь формально продается, но ее никогда нет в наличии?
                                                    Что, если вещь не продавалась в течение года, но затем появилась? В течение месяца? В течение недели?

                                                    Где граница того, что вещь доступна для покупки?
                                                    И как обычному человеку определить, есть возможность купить вещь или нет? Не существует же никакого единого магазина или аггрегатора, где это можно проверить.
                                                      +1
                                                      Где граница того, что вещь доступна для покупки?

                                                      Вопросы действительно здравые. Но если мы говорим о формулировке «пользователь спиратил потому что не имел законной возможности купить» — то пусть правообладатель доказывает, что такая возможность на самом деле есть. И пусть суд решает, была ли на самом деле возможность покупки по адекватной цене (например по сравнению с ценой на момент первого официального релиза)
                                                      И, да, понимаю что утопия и никто такой закон принимать в обозримом будущем не будет. Ну хоть помечтать то немного можно
                                                      0

                                                      Тогда правоторговцы станут продавать все, но за миллион баксов только в одном физическом магазине с самовывозом со склада на соседнем континенте. Все, чтобы не потерять права. Кто знает, может вдруг что-то случится и на волне ностальгии, допустим, можно будет за полную цену опять всем понапродавать старую вещь.


                                                      И никогда такого закона не будет, потому что у правоторговцев до жопы денег, которые они не стесняются тратить на лоббирование своих интересов.

                                                      0
                                                      А ещё бывает, что один и тот же альбом ремастерится в разных студиях по 10 раз и переиздается в разных странах (как, например, LED Zeppelin), не покупать же их все…
                                                      0

                                                      После первого запроса, время его выполнения написано 0.03с вместо 0.3с.
                                                      Статья интересная, спасибо.

                                                        +23
                                                        Кино-пиратство на торрентах умирает — это факт.

                                                        Новых фильмов — мб, а вот старые с нормальными дорожками найти нереально ника кроме торрентов. Да и новые фильмы на торентах многие вон уже лежат а во всех магазинах даж упоминаний нет и не будет года 1.5
                                                          0
                                                          del
                                                            +3
                                                            Я, если честно, не понял фразу эту, почему умирает. Процентно не видно разницу и в среднем полоска с кино примерно одинакова по всей длине. Так по какому фактору считается что «умирает»?
                                                              +1
                                                              Многие новые фильмы сейчас достаточно легко доступны во всех возможных магазинах и не очень дорого.

                                                              Но с другой стороны есть множество фильмов (напр «Дитя погоды» умаялся уже ждать/искать) которые будут ли во всяких кинопоисках и когда будут понятия никто не имеет. Причем эту проблему никто даже не пытается решить. С каждого утюга кричат, что пираты зло, но альтернативы просто нет.
                                                                0
                                                                Надо смотреть конкретно по статистике, а то получается что фраза является личным мнением на основе «ну я так считаю» и не должно присутствовать в статье, ибо не соответствует теме.
                                                                Конкретно по графику я не вижу, что кино-пиратство умирает, потому что в среднем +- одинаковый вклад в торрент.
                                                              +8
                                                              Когда мы боролись за рутрэкер, мы ведь совершенно не преувеличивая говорили про то, что это трэкер с уникальными раздачами. Это огромный музей, в котором можно найти первые фильмы 20ых годов и старые фолианты. Помимо этого рутрэкер очень ценен своим комьюнити, в котором собралось много энтузиастов. Они всё время что-то переводят или реставрируют. Озвучивают книги. Исправляют в старых любимых играх баги, или добавляют новые фичи расширяющие игры на 300%. Над некоторыми модами энтузиасты работают по 5-10 лет.

                                                              Есть масса людей — хранителей раздач, которые специально покупали компьютеры и оборудовали их десятками жёстких дисков для того чтобы оставаться на раздачах. По моему, это прекрасно и даже жаль, что я не могу сейчас провести для вас экскурсию по таким раздачам. Но они есть и их много. Я бесконечно признателен так же моим любимым чтецам аудиокниг, которые открыли для меня, моей жены и моих детей столько потрясающих произведений.

                                                              Пользуясь случаем, передаю тем, кто относится к числу этих людей огромную свою признательность и благодарность.
                                                                +2
                                                                это трэкер с уникальными раздачами
                                                                Поддерживаю. Недавно там случайно наткнулся на полнометражный французский фильм 1919г. Был впечатлён.
                                                              0
                                                              Всегда очень привлекал анализ данных и их визуализация, но никогда, к сожалению, не любил математику, а без неё, как я понимаю, серьёзным специалистом в этой области не стать.
                                                                0
                                                                Стать, для бизнеса главное умение строить гипотезы и быстро их проверять, причем не важно какими инструментами, хоть exel.
                                                                  +2

                                                                  Как правило, тем, кому не заходит математика — легко дается статистика и, особенно легко, теория вероятности. Парадокс, но сама видела, и не раз, такую ситуацию. Надо пробовать.

                                                                  • НЛО прилетело и опубликовало эту надпись здесь
                                                                      0
                                                                      Странное утверждение. Ведь в основе теорвера и статмода лежит в первую очередь матан и линал соответственно (это все-таки базовые направления из «математики»).

                                                                      А если про частности, учитывая свой академический и рабочий опыт, встречал только обратные ситуации — не все те, кто хорошо разбираются в мат. анализе и лин. алгебре, могут освоить (или скорее даже осваивают) статистику и теорию вероятностей. Но в то же время все кто хорошо разбираются в статистике или теорвере хорошие спецы в лин. алгебре и матане.

                                                                      Да, действительно, для подготовки данных и первичного анализа, как в статье, можно обойтись и без математического бэкграунда. Как и во многих задачах BI, достаточно хорошего учебника а-ля «Статистика для экономистов» Princeton University, но про статистику и математику ИМХО не согласен.
                                                                    +38

                                                                    Пиратсво это плохо? Пиратсво это хорошо. Без пиратсва вы бы до сих пор ходили в магазин за всем тем, что можно купить онлайн. С точки зрения индустрии с пиратсвом надо бороться, но не запретами, а качественным контентом, адекватной ценой и удобством.


                                                                      –7

                                                                      Пиратство — это плохо.
                                                                      Отказ от покупки контента на не устраивающих тебя условиях — хорошо.

                                                                        +26
                                                                        Пиратство — это плохо.
                                                                        Когда я был школотой, вопрос о покупке какой-то лицензионщины не стоял вообще. Наскрести бы с карманных денег на самый вшивенький целерончик, а сдохший блок питания в первом компьютере был чуть ли не концом света. Не совсем понятно что при таком раскладе теряют жирные издатели и прочие авторы? У меня будет либо пиратка, либо не будет ничего.
                                                                        Зато нынче все любимые игры куплены просто для коллекции. Не было бы пиратства — я бы про них не узнал и не думал бы покупать.
                                                                        Так что пиратство — это плохо, если речь про морской разбой. Копирование байтов не стоит ничего. А благодарность авторам — так или иначе просто дело доброй воли.
                                                                          +1
                                                                          Копирование байтов не стоит ничего.

                                                                          А создание этих байтиков — стоит ;-)


                                                                          Да, холиварная тема. Я могу понять "пиратство" контента, который нельзя никак иначе получить — игры, который в определённую страну не завозили и не издавали, сериалы в сервисах, которые в стране не работают и т.п. Автор владеет правами на игру, но не выкладывает её в GOG, Steam или другой цифровой стор? Значит ему просто не нужны ваши деньги, ну что тут сделаешь :)


                                                                          Но вот чего не могу принять — так это принципиальной позиции "пиратство — хорошо". Вот GPL и прочие подобные движения — да, хороши. Они агититруют авторов по иному распоряжаться своим творением.

                                                                            +3
                                                                            Я так понимаю позиции lain8dono и redsh0927, что пиратство хорошо тем, что оно популяризует продукт, который люди бы иначе не купили. Своеобразное сарафанное радио. Ну, и, да, на раздачах есть другие версии аудиозаписей, которых нет на яндекс-музыке, например. Пиратские игры иногда более стабильны, чем их лицензионные версии.

                                                                            А потом можно и купить игру/песню/мерч, если понравилось.
                                                                              +1

                                                                              А вот тут согласен! Другое дело, что тот же Steam для игр упростил ситуацию с "попробуй, прежде чем купить" — всегда можно вернуть продукт, если за первые условные 2 часа игра не понравилась. А вот с кино ситуация сложнее. С другой стороны, для книг и сериалов демо-период или демо-доступ организовать не сложно (первые X серий/глав бесплатно), странно, что этим пока мало площадок пользуется.

                                                                                0

                                                                                У гугла и амазона сам видел демки книг, первые несколько глав. Причем достаточный объем, чтобы понять интересность книги.
                                                                                Проблемы демок в любой области в том, что зная момент, который в демке будет виден, можно только его сделать качественным, а остальное сделать средненько

                                                                                  –2
                                                                                  Ну да, еще можно добавить, что некоторые создатели фильмов могут включить все самые сочные кадры и сюжетные повороты прямо в первый трейлер, а во второй трейлер добавить остаток цен предполагаемую концовку, а потом они надеются, что ты будешь тратить свое время чтобы заполнить пробелы в сюжете между трейлерами :)
                                                                                  –1
                                                                                  Ну в кино продукции пошли по пути аренды, правда цена…
                                                                                    0
                                                                                    С другой стороны, для книг и сериалов демо-период или демо-доступ организовать не сложно (первые X серий/глав бесплатно), странно, что этим пока мало площадок пользуется.

                                                                                    По книгам — Amazon Kindle Store, Google Play Books, Литрес, Author.Today — везде у книг есть бесплатное начало (сколько — похоже зависит и от площадки и от автора, в тяжелых случаях может быть и 1 глава ).

                                                                                    В Amazon Kindle Store можно тупо вернуть книгу, да, файл, да — он удалится, с Kindle (читалки и приложений), нет, если вы этот файл скачали и он был без DRM(или с DRM но вы ее сняли) — ну… вы нехороший человек если не стерли и Amazon может за злоупотребление данной функцией ее отключить.
                                                                                    С Play Books все хуже — функция есть но только через техподдержку и должны быть серьезные основания вроде оно не читается.
                                                                                      0

                                                                                      Хм? Литрес и площадки типа author.today уже давно такое практикуют (точнее в первом — сами литресовцы сделали — ~30% в начале книги бесплатно, а во втором — авторы на длинных сериях первую книгу зачастую выставляют бесплатно).

                                                                                        0
                                                                                        У Author.today вообще можно и первую книгу бесплатно (влияет роль особенность получения коммерческого статуса там — он не совсем уж кому попало дается), можно любой число глава выше 0 сделать бесплатными можно вообще сделать (и мне такие книги у них встречались) «те главы что пишутся — платно но потом постепенно становятся бесплатными».
                                                                                        0
                                                                                        А потом расплодились ланчеры, и запущенный ланчер, качающий 2 часа игру, не дает вам ее вернуть нив каком виде.
                                                                                      +5
                                                                                      Но вот чего не могу принять — так это принципиальной позиции «пиратство — хорошо».
                                                                                      Пиратство (получение доступа неофициальным путём) — всего лишь инструмент, повышающий физическую доступность контента. Что, разумеется, хорошо. У тебя останется доступ, когда диск поцарапается, стим перестанет работать и т.д. А когда контент облеплен защитами, доступом по подписке и вообще только на сайте издателя — плохо, это хамство и ущемляет свободу пользователя. Вознаграждение авторам за просмотренный хороший фильм — хорошо и справедливо. А покупать у копираста, который половину твоих денег спустит на лоббирование законов против интернета — плохо. Просто не стоит пытаться сваливать разные вещи в одну кучу. Само по себе копирование никому не вредит…
                                                                                        0
                                                                                        Некоторые специализированные сайты по видеоклипам (художественные но не то что принято называть кино) тут тебе и превьюшка (похоже тоже автор решает какой длины, не трейлер с 'оптимальной' нарезкой а именно кусок видео)и более менее внятное описание. При этом прямо при покупке говорится что деньги — не возращаем! Вообще не возвращаем! В том числе потому что клипы — без DRM.
                                                                                        Да, стриминга — нету. Но можно сразу качать в Dropbox а не себе.
                                                                                        Возможность скачать через N месяцев после покупки — только через техподдержку.

                                                                                        На торрент-трекерах их контент кстати но не весь.
                                                                                          +7

                                                                                          Хамство — не то слово.
                                                                                          Заказал разок на одном сайте одну мангу любимого иллюстратора. Увидел, что есть ещё и электронная, решил — почему бы и нет, сейчас ПДФку возьму и поеду по своим делам, читая по пути, а физическую на полочку поставлю.


                                                                                          Ага, разбежался. Вместо ПДФ после покупки пришла ссылка на облепленный жаваскриптом, дико греющий телефон и садящий батарейку ридер. Ну ладно, думаю, против веб-инспектора ещё никто не отвертелся. Дёргаю картинки из таймлайна, а там страницы перемешаны на манер пятнашек, а рядом JSON бегает.


                                                                                          В итоге я сел, написал пару строчек на питоне, которые на вход берут ссылку на сессию ридера, а на выходе дают слепленный ПДФ, загрузил его в сообщество любителей этой темы, а денег подкинул просто иллюстратору на палку. Ибо он заслужил, а магазин-копирасторассадник — нет.
                                                                                          Хотели защитить книгу от пиратства? Получите, распишитесь — прямо противоположный эффект.


                                                                                          Не говоря уже, что менее прошаренный, но более упорный пират просто-напросто бы с этого ридера наделал скриншотов.

                                                                                          +5
                                                                                          А создание этих байтиков — стоит ;-)

                                                                                          Ну так надо на создание и собирать деньги, у некоторых вполне получается.
                                                                                          А вовсе не за копирование, которое ничего не стоит.
                                                                                            +2
                                                                                            Вот GPL и прочие подобные движения — да, хороши. Они агититруют авторов по иному распоряжаться своим творением.

                                                                                            Это тоже холиварная тема. Вот на мой взгляд хорошие движения — это MIT, в которых автор не ограничивает использование своих творений только в открытых продуктах.

                                                                                              +2
                                                                                              Я лично придерживаюсь мнения, что пиратство позволяет бороться с монополией.
                                                                                              Проблема в том, что все законы об авторском праве ведут просто к дичайшей монополии. Ведь, если говорить о произведениях, имеющих художественную ценность, то все они, можно сказать, уникальны. Две разные игры, в одном жанре, всегда останутся двумя разными играми. И если человек хочет поиграть в одну из них, то наличие другой не будет полноценной заменой. То же самое можно сказать про два разных музыкальных альбома, два разных сериала, два разных фильма, две разные книги и т.д. При этом, по всем законам, у автора/правообладателя есть монополия на созданный контент. Если он решит не распространять контент на какой-то платформе, в какой-то стране, запретить переводы на какой-то язык и т.д., то он может это с лёгкостью сделать. И останется только нелегальный путь.
                                                                                              Пиратство, в данном случае, является сдерживающим фактором для правообладателя-монополиста, порождая, хоть и нелегальную, но конкуренцию. Установишь драконовские ограничения — получишь повальное пиратство. Не сможешь предоставить удобного сервиса по доставке контента — его предоставят пираты. Задерёшь цены — пираты раздадут бесплатно.
                                                                                              Было бы здорово, если бы можно было обеспечить баланс интересов чисто легальными методами. Так всем было бы спокойнее. Но пока закон гласит, что права есть только у правообладателей, и при этом не накладывает на них никаких обязанностей, а у потребителя, наоборот, есть только обязанности, и никаких прав, баланс будет достигаться за пределами правового поля. Неадекватность закона, компенсируется его неисполнением.
                                                                                              GPL, как раз тем хорош, что даёт легальный способ противостояния драконовскому авторскому праву. Но свободные лицензии не решат проблему, если речь идёт о произведениях, имеющих художественную ценность. Нельзя просто взять и сделать свободный аналог такого произведения.
                                                                                              Так что, я хоть и не стану категорично заявлять, что «пиратство — хорошо», у него есть существенные недостатки, но уверен, что без пиратства, при нынешних законах, было бы намного хуже.
                                                                                              0
                                                                                              Копирование байтов не стоит ничего.

                                                                                              Доступная возможность их копировать без оплаты стоит разработчикам миллионные убытки.

                                                                                              У меня будет либо пиратка, либо не будет ничего.

                                                                                              Индустрия не ориентируется на такую аудиторию. Убытки от людей, которые бы купили, если бы не было возможности бесплатно получить — превышают сомнительные плюсы от сарафанного радио.

                                                                                              А благодарность авторам — так или иначе просто дело доброй воли.

                                                                                              Покупка ПО (а точнее его аренда) — это не знак доброй воли. Это плата за сервис, который тебе предоставляется. Будь то фильм, игра или профессиональное специфическое ПО.
                                                                                                +5
                                                                                                Как раз концепция платы за сервис отлично работает — стим и иже с ними процветает. В нём можно без особых ограничений на пользование получить игру в один клик, имея сразу интеграцию с сервисами типа воркшопа. Поэтому стало реально удобнее купить игру официально. С кино сервиса на урове пиратских сайтов никто, вроде, не предоставляет: то региональные ограничения, то нет/нельзя подключить нужные аудиодорожки и субтитры на нужном языке, то нельзя полноценно оффлайн смотреть, то могут по правилам в любой момент убрать «купленный» фильм. И при этом контент сильно разбит по разным сервисам.
                                                                                                  +4
                                                                                                  Убытки от людей, которые бы купили, если бы не было возможности бесплатно получить — превышают сомнительные плюсы от сарафанного радио.

                                                                                                  Давайте будем называть вещи своими именами — "убытки" — это когда реальные затраты превосходят реальные доходы. Т.е. выпустили фильм, потратив на него $100 млн, а собрали всего $50 млн — да, имеем убытки. Если собрали $200 млн — то уже имеем прибыль, и никакие пиратки (и даже выкладывание его в свободном доступе) не смогут сделать его убыточным.


                                                                                                  В то же время, в связи с наличием отсутствия параллельной реальности, доказать что можно было бы ещё столько же собрать (да пусть вообще хоть что-то собрать) если бы не пиратки — невозможно, равно как и невозможно доказать что именно пиратки виноваты в сборах ниже бюджета (часто они вообще не виноваты, не все произведения окупаются).

                                                                                                    0
                                                                                                    А доказывать никто и не будет. Очевидно, что потенциальная прибыль теряется, соответственно есть и заинтересованность бороться с пиратством. А судя по тому, как в той-же игровой индустрии на разработку защиты тратятся порой крупные суммы — профит в этом есть (другой вопрос что это скорее борьба с пиратками первого дня).

                                                                                                    Убытки — это не разницы прибыли и затрат. Если баржа, на которой везли твой груз на 10 тысяч долларов утонула, а у твоей фирмы оборот миллион долларов — от потери этой баржи твоя фирма не станет убыточной, но убытки равные стоимости доставки и самой продукции — будут являться все еще убытками.
                                                                                                      0
                                                                                                      это скорее борьба с пиратками первого дня

                                                                                                      Учитывая типичную политику всех крупных издателей выпускать игры с критическими багами (которые потом чинят в патчах (или не чинят, если продалось не очень)) или просто недоделанными (пользуясь случаем, передаю привет всем игрокам Anthem, а так же персональный привет Bioware и их Anthem Roadmap) — против покупок игр в первый день сами издатели борются куда лучше пиратов.

                                                                                                        0
                                                                                                        А судя по тому, как в той-же игровой индустрии на разработку защиты тратятся порой крупные суммы — профит в этом есть (другой вопрос что это скорее борьба с пиратками первого дня).

                                                                                                        Я не слежу за темой, но это до сих пор актуально? У меня было ощущение, что потихоньку отходят от сильных защит вплоть до полного отказа от них — например, многие игры в магазине GOG можно после скачивания скопировать кому угодно и будет работать.
                                                                                                          +1
                                                                                                          Насколько я знаю GOG с самого своего начала — принципиальный противник DRM в любом виде и все их игры без защиты. Или что-то уже поменялось?
                                                                                                            0
                                                                                                            Так я об этом и говорю. Просто не был уверен, там прям все игры без защиты, поэтому написал «многие».
                                                                                                      +3
                                                                                                      Убытки от людей, которые бы купили, если бы не было возможности бесплатно получить

                                                                                                      А эти убытки точно есть?
                                                                                                      Вообще, непонятен этот спор в 2020. Вот был раньше рынок пека-гейминга, который мертвый. А потом пришел габен и как-то бац — оказалось, что люди вполне готовы платить за контент и сервис, надо лишь им предоставить такую возможность. И нет никаких убытков.

                                                                                                        +1
                                                                                                        Ну давайте холивар разведем. Сколько там средняя зарплата в СШП? ну где то наверное 6-10к$. Сколько стоит подписька на тот же нетфликс или хбо? Путин сказал что у нас средний класс получает 17кр. Сколько та же подписка стоит в процентном соотношении к обеим зарплатам? Сантехник Вася не будет подписываться на нетфликс, потому-что ему тупо надо что-то весь месяц жрать, платить ипотеку и заправлять машину и бухать на что то.

                                                                                                        Я к тому, что нищим пох на ваши DRM, контент они скачают. И дело не в том, что они такие плохие. А просто цели не совпадают с возможностями. А потом уже рождается привычка.

                                                                                                        Ну ка вспомните, кто там и СССР платил за лицензии начиная с Винды 3.1 и кончая ХР? Только юрики, и только когда прижали. Тот же «программист» Петя когда идет бабушке переустанавливать винду, какую он ставит? Если к ноутбуку не привязана лицензия, то ставит свою с кмс. И даже если привязана на 8.1, к примеру, один хрен ставит десятку с кмс. Так что тут спорить можно долго, но все-таки проблема скорее в возможностях, нежели в желаниях.

                                                                                                        Есть еще один аспект — проблемы с оплатой. Иногда авторы, например, программ изобретают вычурные методы активации. Например автор ОПЕHДИAГ. Надо зайти во внутрь андроида, выслать файл, оплатить (к счастью картой). Потом по почте получить файл, положить его внутрь андроида и все будет работать. Ничего сложного. Но там можно активировать несколько десятков моделей. Это-ж даже подкованному человеку пытка, а обычному вообще смерть. Еще я ничего не покупаю в гуглсторе, потому-что не хочу светить карту. Это не говорит о том, что я пользуюсь пиратским софтом, как то не нужно было до сих пор.

                                                                                                        То есть принципов, почему для некоторых неприемлемо платить за контент много и проблема эта не совсем однозначная.
                                                                                                          0
                                                                                                          Сколько там средняя зарплата в СШП?

                                                                                                          Справедливости ради у многих подобных сервисов есть такая фича, как региональные цены. Для рф подписка на нетфликс будет стоить 560 рублей (правда насколько я знаю она столько же стоит и в США). Это подъемная сумма, её может и школьник с завтраков собрать. Если вдруг резко магической палочкой закрыть любые простые возможности получения контента от нетфликса бесплатно (а сейчас этим пользуются даже те, у кото лицензионная винда, грубо говоря) — прибыль у нетфликса увеличится на беспрецедентные суммы.

                                                                                                          Пират — это не человек с «идеей» о бесплатном софте и услугах, это обычный человек, который просто вводит в гугл «Х смотреть онлайн без регистрации и смс» и смотрит, если он это не найдет в сети — в первые разы он просто забьет, а потом купит подписку. Люди не из принципа используют бесплатные пути, просто они даже не думают об этом и им пофиг.

                                                                                                          Я к тому, что нищим пох на ваши DRM, контент они скачают.

                                                                                                          Нищие и не составляют ЦА индустрии. ЦА составляют все остальные, которые могли бы позволить себе оплатить большую часть сервисов, но просто не видят в этом смысла, когда все это можно получить бесплатно. Вы немного не в ту сторону смотрите.

                                                                                                          Есть еще один аспект — проблемы с оплатой.

                                                                                                          С этим я никогда не сталкивался за свою жизнь, так что тут сказать не могу, но думаю это достаточно малый процент ПО.

                                                                                                          Еще я ничего не покупаю в гуглсторе, потому-что не хочу светить карту

                                                                                                          Что? А что такого будет если вы «спалите» карту, на которой единовременно может пару тысяч лежать. Или вы все свои сбережения на карте храните, а не на счету в банке?

                                                                                                          То есть принципов, почему для некоторых неприемлемо платить за контент много и проблема эта не совсем однозначная.

                                                                                                          Принципиальных людей определенно мало. Большинство даже не задумывается об альтернативе, но это не значит, что если альтернативу уберут — они просто забудут о фильмах и софте. Начнут платить, и много.

                                                                                                          Я сейчас не занимаю радикальную позицию «уничтожить пиратство», я просто говорю о том, что авторы контента имеют право его защищать, и бесплатно раздавать его всем они не должны.
                                                                                                            0
                                                                                                            ничего не покупаю в гуглсторе, потому-что не хочу светить карту
                                                                                                            Можно светить виртуальную карту, например, которую пополнять непосредственно перед покупкой на сумму её (если речь о возможной краже средств).
                                                                                                        +1

                                                                                                        Меня не устраивает качество контента, качество перевода, цена, отсутствие выбора и условия приватности. Кроме того я буду бесплатно смотреть тот контент, который не стал бы покупать в любом случае. И в том и в другом случае я не заплатил за этот контент. Но я же могу посоветовать кому-то другому, для кого этот контент окажется достаточно ценным, чтоб потратить на него деньги.


                                                                                                        Кроме того вы забываете, что контент во многих случаях не сам создаёт деньги, а рекламирует всякие фигурки, наклейки, футболки, значки и прочих хлам, в том числе и цифровой. И доходы от этого хлама будут больше в разы и на порядки.

                                                                                                          +4
                                                                                                          Кроме того я буду бесплатно смотреть тот контент, который не стал бы покупать в любом случае.

                                                                                                          Если не секрет: а… зачем вы его тогда смотрите? Вам жалко денег, но не жалко времени? О_О

                                                                                                            +4
                                                                                                            Вам бы такого работодателя/заказчика.
                                                                                                            «Ты сначала сделай, отдай все нам, а мы потом будем решать устраивает нас это или нет.
                                                                                                            Кроме того ты забыл, какая реклама тебе будет. Будешь продавать всякие фигурки со своим именем»
                                                                                                            +19
                                                                                                            Зачем вы поддерживаете подмену понятий, которое насаждают правоторговцы.
                                                                                                            Никакое это не пиратство.
                                                                                                            image
                                                                                                              0

                                                                                                              Зачем вы настаиваете на том, что в русском языке нет омонимов?

                                                                                                                +4
                                                                                                                И какое слово в тезисе «copying isn't piracy» написано на русском?

                                                                                                                Вообще, почему «пиратство», если можно «изнасилование»? Омонимы-то в русском языке есть, но объявлять омонимами любые пары слов по произволу нельзя, особенно если получающиеся фразы имеют юридический смысл, тянущий на десять лет лишения свободы. Изобретая новояз, скромнее нужно быть.
                                                                                                                  0
                                                                                                                  Вообще, почему «пиратство», если можно «изнасилование»?
                                                                                                                  Потому что устоялось. И потому что, общаясь с другими людьми, мы хотим, чтобы они нас понимали. Поэтому, приходится использовать устоявшиеся термины, а не самовыдуманные. В мыслях-то у себя я могу подумать хоть «о, какая глокая куздра побокрила», но если я это скажу товарищу вместо «о, какая симпатичная девушка прошла», то он меня не поймет.

                                                                                                                  Так и тут, если вы будете употреблять «компьютерное изнасилование» вместо «компьютерное пиратство», вам будет несколько сложнее донести свои мысли до других людей, только и всего.
                                                                                                                    0
                                                                                                                    Хабрасовет: не пытайтесь повторять эту мысль под постами со словосочетанием «силиконовая долина».
                                                                                                                      0
                                                                                                                      Вы агитируете за новояз, одновременно объясняя на утрированных примерах, к чему приводит подмена слов произвольными созвучиями. Прошу прощения, но это оксюморон.

                                                                                                                      Что значит «устоялось» и в чем это выражается? Определенная группа, желающая называть вещи не своими именами, налицо. Настырности ей не занимать. Цели ее понятны. Но права по произволу реформировать русский язык (по факту — все мировые языки) она еще явно не купила. Ее влияние на узус также не стоит преувеличивать.

                                                                                                                      Самое большее, можно сказать, что с этим ярлыком происходит нечто подобное тому, что в случилось с кличкой «гезы» («оборванцы») во время войны за независимость Нидерландов: она была принята и превращена в знамя. Тому примером piratebay.
                                                                                                                        0

                                                                                                                        Не прячьте голову в песок. Термин "пиратство" устоялся и все прекрасно понимают о чём идёт речь.

                                                                                                                          +1
                                                                                                                          1) Понимай есть можливо всем очинно кучырявые спычи. С езыковой номрой однакож, заколдобина вельми есть.

                                                                                                                          2) Все прекрасно понимают, что некоторым хотелось бы представить неугодные им действия в качестве преступных прямо на уровне базовой лексики. Это и есть цель новояза, как она была определена дедушкой Орвеллом. Говорите, получается? Фу, какая гадость.
                                                                                                                            +1
                                                                                                                            Ну как бы не совсем устоялся, термин «пиратство» насаждается частью общества заинтересованной в защите информации он копирования, а сопротивляющаяся часть общества отвечает вводом термина «копирастия», клеймя жадность дистрибьюторов. Все понимают и тот и другой термин, а многие понимают также и неадекватность сложившейся ситуации. Занимайте место в своём лагере, заказывайте попкорн с доставкой на дом.
                                                                                                                    0
                                                                                                                    А если автор запрещает кому-либо копировать его картинку, при этом злобно скалясь? Или разрешает, но за определённую сумму? Что тогда делать?
                                                                                                                  0
                                                                                                                  Спасибо вам за раздачу.
                                                                                                                    0
                                                                                                                    По скриншоту он уже не раздаёт.
                                                                                                                    А вот у меня из-за работы дома теперь раздаётся по 200+ ГБ в день вместо обычных 80-ти.
                                                                                                                    0
                                                                                                                    Даже первая сотня еще не роздана =)?
                                                                                                                    +1
                                                                                                                    народ смотрит в пиратских онлайн-кинотеатрах
                                                                                                                      +5

                                                                                                                      Это правда. Многие уже даже не знают, что такое торрент. И даже подкованные технически знакомые, когда спрашивал, как они смотрят кино, отвечали: «Просто вбиваю название в поисковик и смотрю онлайн».


                                                                                                                      Ну а торрентам желаю процветания и долгой жизни. Например, когда у меня была подписка Netflix, я был в легком шоке от того, что найти там какой-то сериал с нужным языком и субтитрами — почти нерешаемая задача.


                                                                                                                      Например, для поддержания уровня испанского, стараюсь смотреть иногда сериалы на испанском. Вбиваю в поиск «сериалы на испанском», нахожу десятки сериалов, причем именно Netflix. Но в приложении и на сайте Netflix найти их не могу — просто не находит. А если что-то даже находит, то предлагает только на английском, хотя сериал испанский/латиноамериканский и был снят на этом языке.


                                                                                                                      Эти попытки все время «додумать» за меня, что мне нужно, так сильно бесят, что отменил подписку после 2-3 месяцев мучений. Понимаю, что ориентируются всегда на самого массового пользователя, в том числе и содержание фильмов/сериалов давно уже математически рассчитано на вкус самого массового зрителя, и это уже смотреть невозможно, хотя никогда не считал себя ценителем изысканного кино. И так редко смотрел кино, а если торренты исчезнут, то просто перестану смотреть вообще, и вряд ли пожалею.

                                                                                                                        +2

                                                                                                                        Там какая-то муть с региональным контентом. Ну т.е. я точно знаю, что в нетфликсе есть некоторые сериалы, но я их не могу посмотреть. Почему? Ну видимо потому что я не в страной нахождения/оплаты не вышел.

                                                                                                                          0
                                                                                                                          Всю эту информацию можно посмотреть здесь unogs.com/?q=Flash&st=bs по странам. Можно использовать специальный VPN, чтобы смотреть через другую страну.
                                                                                                                            +1
                                                                                                                            Можно использовать специальный VPN, чтобы смотреть через другую страну.

                                                                                                                            Это точно такое же нелицензионное воспроизведение как и торренты. Даже если вы на нетфликс подписаны, с точки зрения правоторговцев, смотреть через впн недоступное вам кино — это тоже "пиратство". Не знаю, где тут упущенная прибыль, правда. Может вы должны были купить ДВД или переехать в другую страну. Эти чертовы впны убивают сериалы! /sarcasm.

                                                                                                                              0
                                                                                                                              Вы самого прикола не поняли. Если через аргентину или Турцию подключать карту, оплата будет в их валюте в несколько раз (!) дешевле. Мда.
                                                                                                                                +1

                                                                                                                                Тем более! Вот и упущенная прибыль есть! Вы должны платить в несколько раз больше а смотреть в несколько раз меньше. А если вы этого не делаете, даже платя нетфликсу — вы пират и убиваете киноиндустрию. Правоторговцы так думают, по крайней мере.

                                                                                                                          0
                                                                                                                          Да, нетфликс этим немного раздражает. Причём, там есть и языки, и субтитры — но их вам не предлагают)
                                                                                                                          Отдыхал полтора года назад в Европе, снимали коттедж в котором был нетфликс. И естественно — практически всё в нетфликсе было с выбором максимум двух языков(голландский и английский) для озвучки и сабов.
                                                                                                                          +3
                                                                                                                          Самый большой минус в таких кинотеатрах — это реклама. Причём раздражают как видеовставки, так и ещё больше аудио прямо в сценах фильма. Ну и, конечно, качество звука и видео не всегда можно найти даже 1080p, про 4K как бы и так понятно )
                                                                                                                            0
                                                                                                                            4pda.ru/forum/index.php?showtopic=730699 ну правда. Кто смотрит рекламу в 21 веке?
                                                                                                                              0
                                                                                                                              Если реклама тупо вклеена в поток, то что с этим сделаешь? Я ещё видел релизы, где кроме аудио рекламы по всему видео бегали надписи. Конечно же оно было скачано не с рутрекера, где подобная фигня запрещена.
                                                                                                                                0
                                                                                                                                Дак перемотать же можно в mx player.
                                                                                                                                  0
                                                                                                                                  Так это вшито поверх видеоряда, а не рядом с ним. Так можно пол кино переметать. Я тоже не мог представить, что такое говно вообще существует и кто-то это смотрит, видимо, рутрекер расслабил.
                                                                                                                                    0
                                                                                                                                    Это на сайте. Я вам зачем приложение скинул? Оно открывает ссылку в mx player.
                                                                                                                                      0
                                                                                                                                      Это в торрент файле с ноунейма. Никакой плеер тут не поможет.
                                                                                                                                        0
                                                                                                                                        «вшито поверх видеоряда» ну не бывает такого!
                                                                                                                                          0
                                                                                                                                          Эм, вам скрины наделать что ли? Ну так я снёс с раздачи и больше не качал с пометкой «Реклама». Хотя да, сам виноват, пометка же была.
                                                                                                                                            0
                                                                                                                                            Вполне себе бывает. Недавно смотрел что-то с рекламой какого-то казино, там в тихих моментах два раза шла голосовая реклама и по экрану логотип скакал, то в одном углу, то в другом.
                                                                                                                                              0
                                                                                                                                              Ну дак это не поверх, а «в» потоке. Там и качество обычно дрянь.
                                                                                                                                                0
                                                                                                                                                Я не занимаюсь этой областью и не знаю нужных терминов.
                                                                                                                                                0
                                                                                                                                                А не вытерпел больше 6 минут, удалил не жалея, наверное единственная раздача, которую я не раздал с хотя бы х2 коэффициентом.
                                                                                                                              +6
                                                                                                                              сколько книжек нам доступно для скачивания.
                                                                                                                              300 тыс — читать не перечитать!
                                                                                                                              1 раздача:
                                                                                                                              Библиотека: Флибуста
                                                                                                                              Количество книг: 466232
                                                                                                                              Просто книги в zip'ах.
                                                                                                                                0
                                                                                                                                Library Genesis — libgen.is 2 000 000 книг. Не знаю, как автор статьи считал (ну знаю, по расширениям) учитывая, что часть базы на rutracker есть. Но вообще всё это надо на booktracker смотреть.
                                                                                                                                +3
                                                                                                                                Отличная аналитика, спасибо.
                                                                                                                                Реквестирую аналогичную по отпочковавшейся дочке RuTracker'a тогда еще Torrents.ru
                                                                                                                                  +2
                                                                                                                                  С превью самого популярного.
                                                                                                                                    0
                                                                                                                                    А это именно дочка рутрэкера? Есть история создания?
                                                                                                                                      0
                                                                                                                                      В их правоотношениях не силен. Но в свое время это был один из разделов торрентс.ру. Потом, по понятным причинам переехал на свой домен.
                                                                                                                                      Там до сих пор можно найти раздачи с торрентс.ру в наименовании торрент файла. Одно время это было правилом, чтобы домен был в названии.

                                                                                                                                      Да еще: некоторое время раздел оставался, но как ссылка, ведущая на новый домен.
                                                                                                                                        0
                                                                                                                                        Это был раздел рутрекера. Потом они склонировали сайт только с этим разделом и даже всеми пользователями с сохранением их паролей. Кому сайт не нужен — предлагали самостоятельно в него залогиниться и в профиле шмякнуть по кнопке удаления.
                                                                                                                                      +3
                                                                                                                                      с такими фильмами какие щас выходят, я и бесплатно то особо не смотрю, еще «это» покупать
                                                                                                                                        +8
                                                                                                                                        Прекрасная статья, спасибо. Я так вижу, torrents.ru живёт и процветает.
                                                                                                                                        Единственный нюанс – прошу, будьте чуть поаккуратнее с цветами иллюстраций. У меня просто неидеальное зрение и хреновая цветопередача у монитора, а кто-то другой может банально не видеть часть спектра.
                                                                                                                                        Например, эта картинка
                                                                                                                                        На первый взгляд, она мне понравилась. Но есть нюансы:
                                                                                                                                        1. Я долго пытался понять, что за самый высокий столбец в 2019 году: jpg или mkv. Кажется, всё-таки jpg.
                                                                                                                                        2. Некоторые пункты пропадают. Например, в 2007 есть что-то нежно-лососевое слева, а в 2018 и 2019 его нет.
                                                                                                                                        3. Нет чёткой границы между годами. Хотя бы два дополнительных пикселя между наборами столбцов сыграли бы роль. С учётом предыдущего пункта вообще невозможно понять, к какому году что относится на стыке.


                                                                                                                                        Или эта картинка
                                                                                                                                        Она красивая и наглядная ровно до тех пор, пока озверевший пользователь не начнёт тыкать пипеткой, чтобы понять, что та тонкая одна-из-оранжевых линий это «Джаз и Блюз», а не «Авто и Мото».
                                                                                                                                        А, и ещё тонкая полупрозрачная сетка на фоне окончательно сводит его с ума, создавая градиенты там, где их нет. :D



                                                                                                                                        Увы, я не знаю, как пофиксить эти недостатки. Делать таблицы с цифрами? Играть с цветовой схемой? Делать графики интерактивными, чтобы на них можно было наводить мышкой и смотреть, кто есть кто? (ещё бы хабр это поддерживал) Выдавать пользователю исходники, чтобы он сам смотрел, что ему надо? :)

                                                                                                                                        Кстати, количество загружаемых файлов != живости трекера. Надо где-то откопать статистику по сидам/пирам, чтобы оценить число раздающих/качающих. Но она вряд ли есть.
                                                                                                                                        Спасибо за статью, её было приятно читать.
                                                                                                                                          0
                                                                                                                                          Вот так можно, как в ч/б книгах.
                                                                                                                                          Заголовок спойлера
                                                                                                                                          image
                                                                                                                                            0

                                                                                                                                            Эти паттерны имеют гнусную привычку сливаться друг с другом. По крайней мере, лично у меня не получалось подобрать их так, чтобы больше пяти категорий были однозначно различимы.

                                                                                                                                            0
                                                                                                                                            rutracker.org/forum/viewtopic.php?t=3746347
                                                                                                                                            Если есть доступ к Рутрекеру, советую изучить эту тему. Там как раз статистика по сидам\пирам за многие годы существования ресурса. Внизу главной страницы она меняется каждые 10 минут
                                                                                                                                              0

                                                                                                                                              О, ни разу не выдел её. Впрочем, я рутрекером пользуюсь с другой целью, нежели изучать его статистику. :)
                                                                                                                                              Там немного сложно наглядно рассматривать данные, но есть минимум один сводный комментарий за 2017-2020 годы.
                                                                                                                                              <blockquote>Если есть доступ к Рутрекеру</blockquote>
                                                                                                                                              А его до сих пор блокируют? О_о

                                                                                                                                                0
                                                                                                                                                Да, Рутрекер заблокирован «навечно» на территории РФ.
                                                                                                                                                Касательно упомянутого Вами комментария: юзер ежечасно сканирует статистику с главной страницы и выдаёт её результат раз в месяц в той теме.
                                                                                                                                                  0

                                                                                                                                                  Значит, я должен боготворить своего провайдера за человечность, ибо открывается без нареканий. Надеюсь, он после этого комментария не вычислит меня по ip и не закроет доступ. Или ему не скажут закрыть доступ. %)

                                                                                                                                              +1
                                                                                                                                              В первом случае достаточно просто разделить года промежутками, во втором — не ставить похожие цвета рядом.
                                                                                                                                                +1
                                                                                                                                                Поддержу. Цвета недостаточно сильно отличаются, для того, чтобы слёту однозначно понять что каждый обозначает. Выбор пастельной гаммы не самая хорошая идея, на мой взгляд. Лучше что-то поконтрастнее.
                                                                                                                                                +1
                                                                                                                                                если смогут забороть пиратство, то люди перейдут на «Кубинский интернет», делов-то
                                                                                                                                                  +1
                                                                                                                                                  На rarbg.
                                                                                                                                                  +7
                                                                                                                                                  Надо бы ещё подобную аналитику для pornolab-a.
                                                                                                                                                    0
                                                                                                                                                    У них есть статистика на форуме, искать по «Статистика трекера по данным»
                                                                                                                                                    +4
                                                                                                                                                    Не совсем понял зачем в статье затронута тема грабежа морских судов…

                                                                                                                                                    И так и не ясно — таки умирает ли Рутрекер О_о
                                                                                                                                                      +5
                                                                                                                                                      Ответ на ваш вопрос очевиден. /Нет не умирает. Пациент скорее жив!/
                                                                                                                                                      Меня больше интересует другое: когда рутрекер прекратит уже прогибаться под копирастов и снимет эмбарго на часть размещаемого контента?
                                                                                                                                                      Из за этого он так и остаётся недо-трекером.
                                                                                                                                                      Простой пример:
                                                                                                                                                      Мне нужен релиз пиратки новой игры — я иду на русторку или skidrowreloaded.ком.
                                                                                                                                                      Мне нужен новый сериал/фильм из айтюнс (русторка либо на бабочку, реже на рутор).
                                                                                                                                                      Мне нужен аниме-тайтл из новых (тут вообще всё сложно и плохо, особенно в последнее время. но большинство беру на анимелеер.ру

                                                                                                                                                      Таким образом я хочу сказать, что на рутрекере можно найти лишь старые, архивные либо узконаправленные раздачи с материалом который нужен не всем.
                                                                                                                                                        0

                                                                                                                                                        а они разве не перестали прогибаться после бана роскомэтимсамым?

                                                                                                                                                          0
                                                                                                                                                          Меня больше интересует другое: когда рутрекер прекратит уже прогибаться под копирастов и снимет эмбарго на часть размещаемого контента?
                                                                                                                                                          Согласен. Поддержваю.
                                                                                                                                                            0
                                                                                                                                                            Я давно уже за фильмами хожу на кинозал — почему не используете?
                                                                                                                                                              0

                                                                                                                                                              Ух ты, леер. Не ожидал его здесь услышать.
                                                                                                                                                              Свежее там да, норм. Остальное может протухнуть + так же если есть рус. лицензия, то контент с сайта удаляют.

                                                                                                                                                                0
                                                                                                                                                                Так эмбарго закончилось следом после великого голосования и последующей блокировки.
                                                                                                                                                                Даже удалили страницу с информацией для правообладателей.
                                                                                                                                                              0
                                                                                                                                                              Интересно, как Clickhouse ведет себя на десатках террабайт данных?
                                                                                                                                                                +1
                                                                                                                                                                Вот у этих ребят 150 Тб. А вообще до нескольких петабайт — без проблем как и любая колоночная MPP. Правда, в отличие от проприетарных (Vertica, Teradata), требует больше усилий на администрирование и менее функциональна. Зато бесплатно)
                                                                                                                                                                  0
                                                                                                                                                                  Вполне отлично — есть «небольшая» инсталляция на 19 ТБ.
                                                                                                                                                                    0
                                                                                                                                                                    Хоть сотни петабайт, вообще не проблема. Но если не ограничивать запрос ключом партиционирования — выборка из петабайтной базы будет отрабатывать уже подольше.
                                                                                                                                                                    0
                                                                                                                                                                    Прекрасная статья: демонстрация продуктов на практической задаче.
                                                                                                                                                                    И замечательная реклама Clickhouse и Dataiku. Особенно заинтересовал Dataiku.
                                                                                                                                                                      0
                                                                                                                                                                      При этом в целом возможности Dataiku гораздо шире и покрывают как очистку и анализ данных, так и построение моделей машинного обучения на их основе и деплой этих моделей в виде API, к примеру. Как и автор сделать всё это можно без единой строчки кода, но можно и свой код писать.
                                                                                                                                                                      +4
                                                                                                                                                                      Да разве это Big Data ?:)
                                                                                                                                                                      Интересно бы распарсить все .torrent файлы оттуда, вытащить хэши всех блоков и попробовать в оптимизацию так что-бы раздавать совпадающие блоки из разных раздач. Но для этого нужна какая то-надстройка считать отдельно хэш каждого файла, а не как сейчас — от начала всей раздачи. Но я уже стар для таких революций :)
                                                                                                                                                                        –1
                                                                                                                                                                        Можно просто на ZFS с дедупликацией качать торренты :)
                                                                                                                                                                          0
                                                                                                                                                                          как полумеры — рассматривал когда то custom fs в user space, но всё это не то
                                                                                                                                                                          0

                                                                                                                                                                          Там обычно этим модераторы занимаются :)
                                                                                                                                                                          Одинаковые раздачи либо удаляются, либо поглощаются.

                                                                                                                                                                            0
                                                                                                                                                                            видимо поверхностно написал, всё хитрее
                                                                                                                                                                              0
                                                                                                                                                                              Да если бы.
                                                                                                                                                                              А в худшем случае плодятся раздачи со вшитыми озвучками. Торрент протокол это боль, куча неэффективности.
                                                                                                                                                                              0
                                                                                                                                                                              Но для этого нужна какая то-надстройка считать отдельно хэш каждого файла, а не как сейчас — от начала всей раздачи.

                                                                                                                                                                              Для этого нужно менять сам протокол торрент клиента, ну и клиенты заодно, чтобы считались хеши файлов, и плюс именно отдельные файлы транслировались по DHT. И тогда никакой дополнительной работы с торрент файлами не будет.
                                                                                                                                                                                0
                                                                                                                                                                                Поменять протокол практически не реально и не нужно в начале, а надстройка работающая для начала между своими клиентами, а потом можно уговорить и трекер какой-нибудь. Или свой поднять только для редких блоков.
                                                                                                                                                                                У меня вон болтает редкий торрент на половине 2 мес. Коллекцию биосов так и не дождался, а вроде была целая раздача.
                                                                                                                                                                                  0
                                                                                                                                                                                  Для совместимости это можно организовать как архив в формате zip, который содержит корректные торрент файлы для каждого отдельного файла с отдельным файлом метаданных. Кому делать нечего, может отдельно по файлику скачать хоть uTorrent 1.8.3.
                                                                                                                                                                              +1
                                                                                                                                                                              ClickHouse может загрузить файл и в xml формате. Обратите внимание на формат Custom или Regexp. В ссылке ниже есть презентация, в которой Алексей Миловидов рассказывает о «необыкновенных» возможностях использования. В частности, он даже продемонстрировал как пропарсить архив коммитов со всех репозиториев github.

                                                                                                                                                                              А для аналитиков любопытная фича — использование clickhouse-local. То есть кликхаус можно использовать как утилиту командной строки для запросов к неструктурированным данным в файлах.

                                                                                                                                                                              https://presentations.clickhouse.tech/highload_spb_2020/#16
                                                                                                                                                                                0
                                                                                                                                                                                Как бороться с провайдерами, режущими торрентовские коннекты?
                                                                                                                                                                                Судебное разбирательство не предлагать, т.к. есть вероятность решения суда, основанного на экспертизе, которая набрешет суду и сообщит ему о том, что провайдер ничего не режет.
                                                                                                                                                                                Поэтому интересуют технические способы противодействия провайдерам-хулиганам.
                                                                                                                                                                                  0

                                                                                                                                                                                  за 3 евро/месяц можно взять впс на овх, с характеристиками достаточными для pptpd, за 4 — на контабо, который потянет openvpn.
                                                                                                                                                                                  гайдов по настройке за 5-10 циклов copy/paste в интернете пруд пруди.

                                                                                                                                                                                    +1
                                                                                                                                                                                    Включай шифрование в uTorrent, в большинстве случаев трафик не отличим после этого. Ну и конечно, ipfilter.
                                                                                                                                                                                      +1
                                                                                                                                                                                      Уходить от них, очевидно же. Ни копейки сим нехорошим людям, пускай режут сами себе.
                                                                                                                                                                                        0
                                                                                                                                                                                        Уходить от них, очевидно же.
                                                                                                                                                                                        Это не всегда возможно. Например, йопта. Реально безлимитные тарифы, но режут р2р до нескольких кб/с. Остальные, кто по воздуху, безлимит не дают.
                                                                                                                                                                                        Выше верно про впс на овх пишут.
                                                                                                                                                                                          +1
                                                                                                                                                                                          По беспроводу я бы вообще не стал торренты качать, дорого и бесполезно забивает радиоэфир, который нифига не резиновый.
                                                                                                                                                                                            0
                                                                                                                                                                                            Вы видимо считаете, что оптику или витую пару можно протянуть куда угодно.
                                                                                                                                                                                            Речь о таких местах, где провод либо в принципе взять негде, либо дороже золота.
                                                                                                                                                                                            дорого и бесполезно забивает радиоэфир
                                                                                                                                                                                            Дорого, если тариф не безлимит.
                                                                                                                                                                                            Полагаете ютуб или онлайн кинотеатры полезнее забивают радиоэфир?
                                                                                                                                                                                              0
                                                                                                                                                                                              Как вариант торренты можно качать где-то удаленно, где есть интернет, но им практически не пользуются, особенно ночью, например «у родителей/родственников». Результат забирать по фтп. Экономия трафика налицо.
                                                                                                                                                                                              Роутер/RPI с ноутбучным HDD должны справиться с задачей.
                                                                                                                                                                                                0
                                                                                                                                                                                                Вы видимо считаете, что оптику или витую пару можно протянуть куда угодно.

                                                                                                                                                                                                В общем то да. Невозможность обычно обуславливается картельным сговором или другими искусственными ограничениями.
                                                                                                                                                                                                Ну, исключая редкие случаи, если вы вдруг проживаете в доме, представляющем историческую ценность, то сверлить дырки в нём действительно не стоит.
                                                                                                                                                                                                  0
                                                                                                                                                                                                  Есть стопицот других вариантов. Например, если живёшь в деревне. В таких случаях даже при отсутствии мобильной связи можно поставить антенну на условные +20 дБ и тянуть отличный 4G-интернет километров за 10-20 от вышки, а вот проложить кабель может быть очень сложной затеей.
                                                                                                                                                                                                    0
                                                                                                                                                                                                    километров за 10-20 от вышки, а вот проложить кабель может быть очень сложной затеей.
                                                                                                                                                                                                    Да ну, это всего лишь картельный сговор или другие искусственные ограничения, и деревенский дом представляет историческую ценность :))
                                                                                                                                                                                                      0
                                                                                                                                                                                                      Просто невыгодно прокладывать кабель. Это не значит, что это невозможно ))
                                                                                                                                                                                                        0
                                                                                                                                                                                                        Это не значит, что это невозможно
                                                                                                                                                                                                        Я сам люблю в такое занудство :)
                                                                                                                                                                                                        Но юзеру без разницы. Либо он может получить кабель за вменяемые (для него) деньги, либо нет. Во втором случае приходится обрезание торрентов лечить без смены провайдера. Что я и писал с самого начала.
                                                                                                                                                                                                        0
                                                                                                                                                                                                        Ну вот у меня на даче стоит антенна и ловит 4G из ближайшего села. На дачу копать кабель и обнаруживать время от времени что его кто-то перерезал не очень-то имеет смысл.

                                                                                                                                                                                                        Дом по документам, кстати, построен в 1928 году, скоро 100 лет будет, можно подавать на памятник архитектуры :)
                                                                                                                                                                                                          0
                                                                                                                                                                                                          Мне не надо доказывать. У самого аналогично на даче, за исключением дома.
                                                                                                                                                                                                          Это была отсылка на камент выше :)
                                                                                                                                                                                                    0
                                                                                                                                                                                                    С другой стороны, вы видимо считаете, что отличный интернет обязан быть в любой точке? Это тоже не так. Торренты не бесплатны — они потребляют траффик, и там где траффик дорогой — они будут стоить, там где траффик дешевый — не будут.

                                                                                                                                                                                                    Поэтому не очень понятно к чему у вас претензии.
                                                                                                                                                                                                      0
                                                                                                                                                                                                      Вы не ошиблись веткой при ответе? Мне не очень понятен Ваш камент.
                                                                                                                                                                                                      Я не вижу разницы между торрентами и видеотраффиком, например, с ютуба.
                                                                                                                                                                                                      Мои дети с ютуба потребляют в разы больше, чем я с торрентов. Но йопта торренты режет, а ютуб нет.
                                                                                                                                                                                                      И я считаю, что в любой точке интернет должен соответствовать заявленному в тарифе.
                                                                                                                                                                                                        0
                                                                                                                                                                                                        Торренты это не только про качать, это еще и раздавать.
                                                                                                                                                                                                        А многие сети, например построенные на docsis, очень не любят много трафика ОТ пользователя.

                                                                                                                                                                                                        Поэтому с торрентами многие провайдеры могут бороться банально потому что им это выгодно технически. Один активный клиент с безлимитным торрентом может создать проблемы для пары десятков пользователей, которые только смотрят ютуб.

                                                                                                                                                                                                        Но тут я могу ошибаться насчет йоты, в беспроводных сетях я не разбираюсь.
                                                                                                                                                                                                          0
                                                                                                                                                                                                          Теперь понял Вашу мысль. Здесь мы снова возвращаемся к «честности» декларируемых тарифов и ширины каналов. То есть вроде есть, но если начнешь использовать во всю, то порежут.
                                                                                                                                                                                                          А йота — просто LTE, как и остальные. А где своих сетей нет — по сетям мегафона.
                                                                                                                                                                                              0
                                                                                                                                                                                              Что такое «режут»? Совсем блокируют или снижают скорость?

                                                                                                                                                                                              Если блокируют, то включить шифрование в настройках торрент-клиента. Обычно — помогает.

                                                                                                                                                                                              Если снижают скорость (обычно при этом шифрование не помогает, т.к. используются всякие «интеллектуальные» методы обнаружения торрент-трафика), то рекомендую ограничить скорость скачивания.

                                                                                                                                                                                              Некоторое время назад заметил, что вначале скачивание идет достаточно шустренько, но как только скорость достигает примерно 7 Мбайт/с, сиды начинают отваливаться один за другим и скорость уходит вообще в 0.
                                                                                                                                                                                              Начал экспериментировать. Поставил ограничение 6 Мбайт/с. Все то же самое, только чуть дольше держится. Поставил 4 Мбайт/с — работает стабильно… но медленно. В качестве компромисса выставил 5 Мбайт/с. Вскоре после начала скачивания скорость провисает, но не полностью. Потом выправляется. Одни сиды отваливаются, но на их место приходят другие. Скорость держится вблизи максимума.

                                                                                                                                                                                              Думаю, шейпер анализирует не весь трафик, а только самые нагруженные UDP-порты. И рубит только наиболее активные подключения.
                                                                                                                                                                                              0
                                                                                                                                                                                              Кино-пиратство на торрентах умирает — это факт.

                                                                                                                                                                                              Не буду утверждать, но, возможно, причина этому в том, что многие пользуются другими торрент трекерами для скачивания именно фильмов, более удобными именно для кино.
                                                                                                                                                                                                0
                                                                                                                                                                                                А возможно и ещё потому что на графике отражается общее снижение интереса к кино, что есть проблемы киноиндустрии в целом и никак не характеризует сам рутрекер. Последние пару десятилетий с ростом доступности информации борьба за внимание потребителей контента только обострилась.
                                                                                                                                                                                                Условно в далеком 2000 не было youtube и видеоблогерста как явления, но уже сегодня выросло поколение в котором немало тех, кто почти ничего кроме подобных форматов и не потребляет.
                                                                                                                                                                                                Хотя пожалуй соглашусь с коментами выше — имхо смотреть тупо нечего, почти одну фигню выпускают =)
                                                                                                                                                                                                  0
                                                                                                                                                                                                  Причина этому что некоторое время назад сумасшедшие на рутрекере запретили hevc, потом конечно разрешили.
                                                                                                                                                                                                    0

                                                                                                                                                                                                    Это видео кодек, что ли? Как, зачем, почему?!

                                                                                                                                                                                                      0
                                                                                                                                                                                                      Это основной видеокодек сейчас. Если HDR — то HEVC. а сейчас все Bluray в HEVC.
                                                                                                                                                                                                        0
                                                                                                                                                                                                        Думаю из-за телевизоров и плееров, которые лет 5 назад это не воспроизводили. Хотя я лично чаще сталкивался с АС3, который на некоторых железных плеерах не воспроизводился.
                                                                                                                                                                                                      +1
                                                                                                                                                                                                      > многие пользуются другими торрент трекерами

                                                                                                                                                                                                      Какими? Список в студию, пожалуйста, если не сложно.
                                                                                                                                                                                                      0
                                                                                                                                                                                                      Хорошая статья.
                                                                                                                                                                                                        +3
                                                                                                                                                                                                        Я не поддерживаю пиратство в интернете и против него. Прибегаю к использованию торрентов только в случае скачивания open source продуктов.
                                                                                                                                                                                                        Выбор данной темы вызван исключительно интересом к аналитике и big data.

                                                                                                                                                                                                        Автор забыл заплатить за воздух, его вообще то вырабатывают деревья, которые растут на государственной земле! А значит воздух государственный, не бесплатный!

                                                                                                                                                                                                        Еще я забыл упомянуть множество отчислений ученым, философам и так далее, чьи труды мы сейчас активно используем. Правильнее сказать правда так: ученые и философы родились в государстве, государство значит заботилось о людях, вот потому они и смогли вообще на свет появиться! А значит нужно заплатить налог за пользование языком при написании статьи, за использование чисел, интернета, книг, колес у автомобиля! Да и потомки этих ученых вообще то потомки авторов этих идей! Надо бы им всем скинуться, а то не хорошо как-то выходит. В конечном счете если человека придумали инопланетяне, то неплохо бы и им скинуться, а то юзаем генетический код без лицухи! Ужос то какой!
                                                                                                                                                                                                          0
                                                                                                                                                                                                          Похоже вы уже забыли зачем вообще создавалось государство. Оно не для того чтобы налоги собирать по любому поводу. Оно как раз должно о гражданах заботиться. А у нас такой институт отсутствует, зато культ карго остался. «Нужно больше золота».
                                                                                                                                                                                                          Взгляните на те гомеопатические меры которые принимает наше государство, в опасной ситуации.
                                                                                                                                                                                                            0
                                                                                                                                                                                                            Open Source продукты (бесплатные) запрещено выкладывать на RuTracker. Платные, конечно, вроде Amber MD.
                                                                                                                                                                                                              0
                                                                                                                                                                                                              Почему бы всем интернет-пиратам, недовольным поведением копирастических компаний, вместо того чтобы пиратствовать, просто взять и создать «свой» продукт? Основать компании, где пираты создадут «своё» ПО, «свой» контент в виде музыки/фильмов и прочего? Платить за этот контент/ПО будут, как пираты любят, донатами на добровольной основе, а использовать — только для создания другого бесплатного продукта. Даже лицензии уже соответствующие есть, запрещающие коммерческое использование продукта. А копирасты пусть продают их копирастические продукты тем тупым людям, которые за этот продукт будут платить. А умненькие пираты будут заниматься бесплатным копированием байтов своих бесплатно созданных продуктов и умножать всеобщее счастье — среди пиратов, естественно. И все будут счастливы, ну а рыночек дальше порешает — тупые потребители копирастического контента, несомненно, перейдут на сторону пиратов и будут потреблять только бесплатный контент. Ведь у копирастического контента качество — полное говно, как вам скажет любой пират. Это одно из любимых всеми пиратами оправданий оснований для пиратства.

                                                                                                                                                                                                              Так в чём же дело? Почему всё, что делают пираты — это требуют бесплатный контент у тех, кто не согласен отдать его бесплатно? Почему не хотят сами создать бесплатный контент? Почему я не вижу, как значительную долю рынка захватывают компании, создающие контент бесплатно и живущие на донаты? Почему копирастические компании до сих пор не выдавлены с рынка? Почему бедные пираты постоянно живут под искушением потребить какой-то копирастический продукт, который им жизненно нужен, но не настолько чтобы заплатить за него? Что же пошло не так?
                                                                                                                                                                                                                0
                                                                                                                                                                                                                Надеюсь вы слышали краем уха об Opensource, linux, gnu
                                                                                                                                                                                                                www.patreon.com — тут вы можете поддержать свободных художников
                                                                                                                                                                                                                на www.youtube.com вываливают тонны контента можете данатить, кто вам мешает то?

                                                                                                                                                                                                                требуют бесплатный контент у тех, кто не согласен отдать его бесплатно?
                                                                                                                                                                                                                Где требуют, в каком месте? Тут?

                                                                                                                                                                                                                ps: «Повторюсь: Ложь, повторенная тысячу раз, становится правдой.»
                                                                                                                                                                                                                Пираты это совсем другое:
                                                                                                                                                                                                                image
                                                                                                                                                                                                                0
                                                                                                                                                                                                                Вы забыли о патентном праве, в котором устанавливается порядок и сроки отчислений за полезные разработки и изобретения. Так как на владение патентом отводятся определенные сроки, то потомки владеют патентом только в исключительном случае — если владелец патента не дожил до окончания срока действия патента. Вот здесь пишут, что сроки действия патента от 5 до 35 лет: Патент — Википедия
                                                                                                                                                                                                                  0
                                                                                                                                                                                                                  Что вы хотите с юзера, который зарегался на Хабре 3 дня назад специально для опубликования этой статьи?
                                                                                                                                                                                                                  Кто это на самом деле и пользуется ли торрентами мы не узнаем.
                                                                                                                                                                                                                  0
                                                                                                                                                                                                                  Кто-нибудь в курсе, почему в последнее время RuTracker недоступен в РК?
                                                                                                                                                                                                                    0
                                                                                                                                                                                                                    Вполне возможно, что в РК (Казахстан?) коннекты сейчас идут через Россию.
                                                                                                                                                                                                                      0
                                                                                                                                                                                                                      Вполне возможно

                                                                                                                                                                                                                      И в чем причина?
                                                                                                                                                                                                                        0
                                                                                                                                                                                                                        Причина чего? Если блокировок, то в России рутрекер заблокирован, и, возможно, этому помогает магистральный провайдер, к которому подключён Казахстан. Если про подключение через Россию, то так тупо проще и дешевле.
                                                                                                                                                                                                                          0
                                                                                                                                                                                                                          Спасибо за информацию.
                                                                                                                                                                                                                          Если блокировок, то в России рутрекер заблокирован, и, возможно, этому помогает магистральный провайдер, к которому подключён Казахстан

                                                                                                                                                                                                                          Грустно, если это так…
                                                                                                                                                                                                                      0
                                                                                                                                                                                                                      Здесь небольшое обсуждение. Похоже действительно блочат где-то в России.
                                                                                                                                                                                                                        0
                                                                                                                                                                                                                        Спасибо…
                                                                                                                                                                                                                      0
                                                                                                                                                                                                                      Ваше исследование отвечает на вопрос «уменьшилось ли количество регистрируемых торрентов». Да, оно уменьшилось незначительно, и это логично, т.к. остались те же самые авторы раздач, которые как до, так и после блокировок раздавали терабайты. Но количество раздач не равно количеству активных сидов и пиров. До блокировок ссылки на рутрекер были доступны любому пользователю поисковиков, и любой человек с компьютером и интернетом мог скачать торрент и файлы. После — для этого стали необходимы технические инструменты (плагины, vpn и т.д.). Что привело к снижению активности на торрентах.
                                                                                                                                                                                                                      Что если провести лонгитюдиальный эксперимент — зафиксировать количество активных сидов/пиров сейчас и, скажем, через полгода-год? Или это вне вашего инструментария?
                                                                                                                                                                                                                        0

                                                                                                                                                                                                                        Тут в дискуссиях выше это упоминалось. Выяснилось, что на самом трекере есть люди, ведущие счёт с 2011 года: https://habr.com/ru/post/498260/#comment_21524944 Правда, парсер написать надо.

                                                                                                                                                                                                                        0
                                                                                                                                                                                                                        Удивительно, но на русскоязычных ресурсах и даже на Хабре, до сих пор нет ажиотажа или хайпа, если хотите, на тему неотразимости данной платформы. Возьмусь исправить сие недоразумение и прошу поздравить dataiku с почином.

                                                                                                                                                                                                                        Мне кажется вся проблема в том, какая платформа выбрана для программы. Если бы была версия под Винду, она была бы более популярна. Как минимум, среди новичков или не желающий углубляться в вопрос.
                                                                                                                                                                                                                          0
                                                                                                                                                                                                                          Это правда, Dataiku в основном фокусируется на Linux дистрибутиве. Но при этом есть всё таки инструкция как установить на Windows 10
                                                                                                                                                                                                                          www.dataiku.com/product/get-started/windows
                                                                                                                                                                                                                          +1
                                                                                                                                                                                                                          а можете показать recipe подробнее?
                                                                                                                                                                                                                            0
                                                                                                                                                                                                                            Обновила статью и показала детальнее этап формирования recipe )
                                                                                                                                                                                                                            0
                                                                                                                                                                                                                            На руках сжатый xml–файл весом 5 Гб

                                                                                                                                                                                                                            Сейчас каждая версия весит меньше 3 Гб


                                                                                                                                                                                                                            Формат изменился или часть данных пропала?

                                                                                                                                                                                                                              0
                                                                                                                                                                                                                              В распакованном виде — 5 Гб.
                                                                                                                                                                                                                                0

                                                                                                                                                                                                                                Ого.


                                                                                                                                                                                                                                Это в ноябрьском файле так?


                                                                                                                                                                                                                                А не поделитесь? Хочу сравнить с мартовским.


                                                                                                                                                                                                                                Он из 3 гигов разжимается в 20.


                                                                                                                                                                                                                                Интересно, чего именно они туда понаписали что xml увеличился с 5 до 20 гигабайт.

                                                                                                                                                                                                                                  +1
                                                                                                                                                                                                                                  Была не права. Т.к. датайку для импорта принимает сжатые файлы, я базу так и не распаковала. Ноябрьский файл был 5 Гб в сжатом виде.
                                                                                                                                                                                                                                  Не уверена, что будет правильно и законно выкладывать такую базу, но могу попробовать скачать новую версию и посмотреть чем они отличаются.
                                                                                                                                                                                                                                    0

                                                                                                                                                                                                                                    Ок.
                                                                                                                                                                                                                                    Понял.

                                                                                                                                                                                                                              0
                                                                                                                                                                                                                              К сожалению, только благодаря «пиратству», я могу быть хотя бы виртуальным обладателем какого-нибудь первопресса японского издания диска 30-и летней давности.
                                                                                                                                                                                                                              Во многом благодаря «пиратству» я смог узнать о десятках групп и исполнителей, а в последствии купить CD диски наиболее понравившихся… да, к великому сожалению, возможности выкупа ограничены, но их могло и не быть вовсе.



                                                                                                                                                                                                                              image
                                                                                                                                                                                                                                0

                                                                                                                                                                                                                                очень интересно — какие ресурсы были задействованы в этом анализе? Это все было на локальной машинке? Или все-таки машинка в облаке с пробросом нужным сервисов на локаль? Возможно ли такое на самом обычном средненьком десктопе за разумное время?

                                                                                                                                                                                                                                  0
                                                                                                                                                                                                                                  Все локально. Была виртуалка с линуксом, на ней необходимый стек и база раздач.
                                                                                                                                                                                                                                  В первое время для работы с виртуалкой выделяла 4 Гб озу, т.к. ноут мой именно средненький — с 6 Гб оперативки всего и установленной виндой. В таких условиях подготовка данных в датайку занимала порядка 2 часов, но надо признать, иногда вылетала.
                                                                                                                                                                                                                                  Позже, когда добавила на ноут оперативки, смогла выделить на виртуалку 8 Гб. Теперь подготовка такого обьема занимает полчаса. + удалось увеличить размер отображаемого семпла до 300 000 строк (ранее получалось работать с не более 10 000)
                                                                                                                                                                                                                                  А чтобы датайку не вылетала можно уменьшать размер семпла, для парсинга не обязательно отображение всего сета. На конечный результат это не влияет.
                                                                                                                                                                                                                                  0

                                                                                                                                                                                                                                  очень крутая статья, спасибо

                                                                                                                                                                                                                                    0
                                                                                                                                                                                                                                    А что с ним случилось кстати? Захожу как раньше через туннель (ssh -D за пределы мордора) а там написано что он заблокирован и висит реклама нескольких VPN через которые предлагается зайти.
                                                                                                                                                                                                                                    Это на последнем зеркале. А на орге давно заглушка на итальянском о блокировке.
                                                                                                                                                                                                                                      0
                                                                                                                                                                                                                                      С рутрекером ничего не случилось, он работает.
                                                                                                                                                                                                                                      0
                                                                                                                                                                                                                                      Перечитал еще раз статью и только понял, что Вы мощнейший Dataiku использовали исключительно как конвертер из xml в csv, верно?
                                                                                                                                                                                                                                      Но ведь можно было все это сделать прямо в нем?
                                                                                                                                                                                                                                      Ну, допустим на файлах это было бы медленно. Dataiku к Clickhouse разве не может подключаться? И графики он строит прекрасно…
                                                                                                                                                                                                                                        0
                                                                                                                                                                                                                                        Отвечу сам на свой вопрос — в бесплатной версии нельзя коннектиться к Clickhouse.
                                                                                                                                                                                                                                          0
                                                                                                                                                                                                                                          Согласна, в идеале из датайку можно и не выходить. Тут уже вопрос ресурсов и мощности машины.
                                                                                                                                                                                                                                          А что касается визуализации, то любая готовая платформа ставит нас в некие рамки. Работая с R, чувствую себя свободной, в этом плане.
                                                                                                                                                                                                                                        0
                                                                                                                                                                                                                                        Рутрекер жив, жил и будет жить. Пришёл туда ещё в далёком 2007 году, создал много полезных раздач, сам много чем воспользовался. Раздел музыки содержит настоящие шедевры, которые сейчас уже вообще нигде не найти, даже за деньги.
                                                                                                                                                                                                                                        Рутрекер — это цифровой архив будущего и бэкап всего важного, что стоит сохранить для будущего.
                                                                                                                                                                                                                                          +4
                                                                                                                                                                                                                                          Проблема в том что целостность раздач находится в прямой зависимости от добросовестности сидирования простых юзеров сайта.
                                                                                                                                                                                                                                          Если бы Вы знали сколько ценнейшего материала улетело в архив из-за отсутствия раздающих, не было бы фразы о «цифровом архиве будущего».
                                                                                                                                                                                                                                          Для архива зависимомть от внешних факторов неприемлема
                                                                                                                                                                                                                                          И это при том что на ресурсе есть группа «Хранители», участники которой и занимаются сидированием раздач, которые всеми брошены или вот-вот будут брошены. К сожалению ресурсов группы недостаточно для того, чтобы сохранить хотя бы половину Рутрекера.
                                                                                                                                                                                                                                            0
                                                                                                                                                                                                                                            Сейчас вроде как ограничили вылет в архив по отсутствию сидов, так как не все сиды могут соединится с заблокированными анонсерами. Хотя это не поможет тем раздачам, у которых сиды не ищутся даже по DHT.
                                                                                                                                                                                                                                              +1
                                                                                                                                                                                                                                              Сейчас вроде как ограничили вылет в архив по отсутствию сидов
                                                                                                                                                                                                                                              Нет — обеспечили лишь возможность скачать торрент-файл из архива.
                                                                                                                                                                                                                                              А по осутствию сидов, как и раньше — раздача полгода без сидеров, стало быть добро пожаловать в архив.
                                                                                                                                                                                                                                              Хотя это не поможет тем раздачам, у которых сиды не ищутся даже по DHT.
                                                                                                                                                                                                                                              Как правило это означает что на раздаче сидов нет вообще. Хотя есть небольшая вероятность что торрент-клиент используемый сидом uTorrent, и сидируемых раздач в нём больше 500. Особенность этого клиента в том что более чем с пятьюстами раздачами по DHT он не может работать одновременно.
                                                                                                                                                                                                                                                0
                                                                                                                                                                                                                                                Особенность этого клиента в том что более чем с пятьюстами раздачами по DHT он не может работать одновременно.

                                                                                                                                                                                                                                                Это знаю, у самого почти 1,5к раздач.
                                                                                                                                                                                                                                                  +3
                                                                                                                                                                                                                                                  Больше 50k раздач на двух компах в 9-ти торрент-клиентах…
                                                                                                                                                                                                                                                  image
                                                                                                                                                                                                                                                    0
                                                                                                                                                                                                                                                    Герой нашего времени.
                                                                                                                                                                                                                                                      0
                                                                                                                                                                                                                                                      >На редких
                                                                                                                                                                                                                                                      Хранитель?
                                                                                                                                                                                                                                                      Блин, в 25 раз больше, чем раздал я всего, и в 5 раз больше ежедневно, с учётом того, что в карантин я начал раздавать в 2 раза больше.
                                                                                                                                                                                                                                                      +1
                                                                                                                                                                                                                                                      Орден святого сидера этому господину!
                                                                                                                                                                                                                                                        0
                                                                                                                                                                                                                                                        Товарищу, всего лишь товарищу.))
                                                                                                                                                                                                                                            +3
                                                                                                                                                                                                                                            Некоторые вещи не купить легально вообще, только пиратство в помощь приходит.
                                                                                                                                                                                                                                            Например сериал Вавилон 5 в дубляже канала ТВ-6 ( сам дубляж уже не сохранился ибо канал тв-6 прекратил свое существование) так что благодоря торрентам и сохраняются редкие дубляжи, фильмы, игры, программы, книги, если бы не торренты многие вещи просто исчезли бы.

                                                                                                                                                                                                                                            А лицухи пусть покупают лицушники у которых денег уйма или мажоры ака папенькины сынки, обычный слесарь дяда Вася с зарплатой в 8-10 тыщ рублей хоть лбом расшибется но лицуху не сможет на свою зарплату купить.
                                                                                                                                                                                                                                              0
                                                                                                                                                                                                                                              Автор не включил в таблицу топ расширений формат.ts Он популярен в разделах Документкльный и Сериалы. Формат .mp4 запрещен в раздачах, неудивительно, что его стало меньше.
                                                                                                                                                                                                                                                0
                                                                                                                                                                                                                                                Часом нет такого же анализа, но для википедии?
                                                                                                                                                                                                                                                  +1
                                                                                                                                                                                                                                                  С чего бы он умирал вообще? Глупости какие-то. Откуда еще скачивать все фильмы/сериалы и программы. Ваши нетфликсы и прочее можете даже не предлагать, делать нечего еще деньги платить за просмотр. Еще более глупая вещь это платить за подписку, чтобы иметь возможность слушать(!) музыку.
                                                                                                                                                                                                                                                    +2
                                                                                                                                                                                                                                                    Согласен полностью с вами если за все платить то можно вообще без штанов остаться да еще и в кредиты влезть.

                                                                                                                                                                                                                                                    Что бы все легальное юзать надо иметь зарплату от 100 тыщ, особенно если покупать диски с фильмами и сериалами, один сериал LOST в блюрей стоит 400 баксов на амазоне, на нашу мизерную зарплату такое не купить.

                                                                                                                                                                                                                                                    Знал одного чела, он всю зарплату свою 20 тысячную потратил на лицушные диски + сбережения у жены которые были а это примерно 15 тыщ тоже все спустил на эти куски пластика. Это насколько надо быть нелогичным в своих поступках что бы всю зарплату + сбережения семейные тратить на диски, не понимаю этих лицушников, торренты наше все.
                                                                                                                                                                                                                                                    0

                                                                                                                                                                                                                                                    Есть аналог Dataiku, который и на винде работает — exploratory.io

                                                                                                                                                                                                                                                      +2
                                                                                                                                                                                                                                                      Я вижу два важных фактора снижения популярности торрентов.

                                                                                                                                                                                                                                                      1. Поколение постарше, которое с компьютерами на глубокое «вы», фильмы и сериалы смотрит через всякие бесплатные онлайн сервисы, музыку слушает тоже из бесплатного вконтакте/яндекс-музыки

                                                                                                                                                                                                                                                      2. Уровень знания настольных компьютеров у нынешего молодого поколения также падает, по сравнению с нашим поколением. Молодёжь всё чаще закрывает все свои потребности по потреблению контента через телефоны, используя те же онлайн сервисы. И мало кому нужно искать какое-нибудь редкий виниловый альбом 1969 года какой-нибудь старой рок-группы, подавляющему большинству хватает современных исполнителей, которые в этих сервисах представлены.
                                                                                                                                                                                                                                                      Всяческие учебные курсы — тоже сейчас всё онлайн.

                                                                                                                                                                                                                                                      Основные пользователи торрентов — мы, представители среднего поколения, выросшие в эпоху расцвета персональных настольных ЭВМ. Но нас всё меньше, мы сами потихоньку умираем. Так что торренты, скорее всего, будут постепенно умирать вместе с нами.

                                                                                                                                                                                                                                                      Единственный шанс на взлёт их популярности это если онлайн-сервисы вдруг станут недоступны большинству (например вдруг все станут по платной подписке, а финансовый кризис ударит ещё сильнее и беднеющее население не сможет эту подписку тянуть, особенно с ухудшающимся курсом доллара)
                                                                                                                                                                                                                                                        0

                                                                                                                                                                                                                                                        А меня больше бесит мигалков с днс. То есть они наплевали на презумпцию невиновности и обвинили всех, кто что-то там купил, пиратами. С какого хуя? То есть они прямо нарушают своими действиями закон.

                                                                                                                                                                                                                                                        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.