Cała Polska Wikipedia na własnym serwerze MySQL
Czy zdawaliście sobie sprawę z możliwości ściągnięcia całej Wikipedii w formie dump’a MySQL ? Do tej pory słyszałem o umieszczeniu Wiki na DVD ale pełen dump na lokalnym serwerze MySQL brzmi bardziej kusząco ;-)
Jest tylko jeden haczyk – spakowany plik ze wszystkimi danymi (historia etc.) waży – 1GB (7zip) lub 4GB (bz2) a po rozpakowaniu -z tego co można wyczytać – będzie zajmował 80 – 100 GB ( ? ).
Szczegóły – http://download.wikimedia.org/plwiki/20080612/
Oczywiście pomijam tutaj sens takiego rozwiązania, ale jakby ktoś miał wolne 100GB… ;-)
Wysłany: 01 września 2008 o 16:49:10
r. gierwiało - szerzej być może znany jako radziel. Programista - samouk, zwolennik ruchu open-source
Nie od dziś wiadomo, że dostęp do danych wikipedii jest ogólno dostępny - również w postaci całych baz danych. ;)
Jak możliwa jest tak wielka kompresja?
To jest plik tekstowy a jak wiadomo pliki tekstowe bardzo bardzo dobrze się kompresują. Do tego nie są to przypadkowe literki, wiele wyrazów powtarza się tysiące, odpowiednia optymalizacja i jazda ;)
No, ale przynajmniej chodzić będzie szybciej. No i masz dostęp do encyklopedii nawet jak net ci padnie :)
U mnie znajdzie się ponad 200 gb wolnego miejsca, pobiorę i sprawdzimy ile ma ;)
http://img76.imageshack.us/img76/4747/100gbge5.png
Jak obiecywałem ;]
@Akira: Dzięki za sprawdzenie. Możemy się przekonać się o skuteczności algorytmu 7zip ;-)
Swoją drogą, opierając się na tych danych i importując je do swojego serwera możemy w łatwy sposób sprawdzać wydajnośc różnych złożonych zapytań. Chyba nikt nie zaprzeczy że operowaliśmy JOIN'ami na zbyt małym zbiorze danych ;-)
Kompresja KGB Archiverem jest jeszcze bardziej hardkorowa. Podejrzewam, że dałoby się zejść do 200-300MB. Inna sprawa, że pakowanie / rozpakowywanie takiego czegoś trwa kilkadziesiąt godzin. :P
A czemu nie sprawdziliście ile waży wersja EN? ;)
Same angielskie artykuły bez historii zajmują w po spakowaniu bz2 7.3 GB gdzie - dla porównania - ta sama werja ale polskiej wiki mieści się w 500 MB (~15x mniej).
Wychodzi na to, że pełen dump angielskiej Wikipedii (z historią) potrzebowałby nie 100, a 1500 GB.
Hm... a może ściągnę sobie angielską wikipedię, wypalę na DVD DL, schowam gdzieś i za 10 lat będę się śmiał z ilości zajmowanego przez nią miejsca ;-)