Cez víkend 12. a 13. júla 2014 sa v Bratislave a Brne uskutočnila akcia Open
Scraper Challenge (OSC), ktorú organizovala SOIT v spolupráci s
iniciatívou OpenData.sk. Išlo už o jej druhé opakovanie.
Cieľom OSC je odstraňovanie mreží údajom, ktoré sú uväznené v súboroch vo formátoch rtf a pdf alebo sú porozsýpané po rôznych html stránkach. Takéto údaje sú síce čitateľné pre človeka, ale nie sú použiteľné na ďalšie spracovanie a analýzu. Na to je potrebné, aby údaje mali zrozumiteľnú štruktúru - treba z nich vytvoriť štruktúrovaný dataset.
Účastníci OSC 2014 sa popasovali s viacerými zdrojmi údajov, ktoré sú dostupné na českom a slovenskom webe, a vytvorili z nich nasledujúce štruktúrované datasety:
Vytiahnuté dáta si z horeuvedených odkazov môžete na ďalšie použitie stiahnuť vo formáte sqlite databázy alebo vo formáte csv. Aktuálny a kompletný zoznam zrealizovaných scraperov tiež môžete nájsť na adrese https://morph.io/soit-sk/.
Na adrese scrapers (na) soit.sk vítame akékoľvek otázky, pripomienky či patche k existujúcim
scraperom, či nové scrapery.
Ďakujeme všetkým účastníkom Open Scraper Challenge 2014 a tešíme sa na ďalšie kolo! Ďakujeme aj Marekovi Mahutovi z Red Hatu a Martinovi Habovštiakovi z Progressbaru za pomoc s priestormi a OpenAustralia Foundation za službu Morph, ktorú sme pri scrapovaní využili. Ak niektorý z datasetov vzbudil váš záujem, budeme radi ak nám o tom napíšete na adresu predseda {na} soit.sk.
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 |
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |