Cała Polska Wikipedia na własnym serwerze MySQL


Czy zdawaliście sobie sprawę z możliwości ściągnięcia całej Wikipedii w formie dump’a MySQL ? Do tej pory słyszałem o umieszczeniu Wiki na DVD ale pełen dump na lokalnym serwerze MySQL brzmi bardziej kusząco ;-)

Jest tylko jeden haczyk – spakowany plik ze wszystkimi danymi (historia etc.) waży – 1GB (7zip) lub 4GB (bz2) a po rozpakowaniu -z tego co można wyczytać – będzie zajmował 80 – 100 GB ( ? ).


Szczegóły – http://download.wikimedia.org/plwiki/20080612/


Oczywiście pomijam tutaj sens takiego rozwiązania, ale jakby ktoś miał wolne 100GB… ;-)

Wysłany: 01 września 2008 o 16:49:10

Zostaw odpowiedź

  1. Crozin 

    Nie od dziś wiadomo, że dostęp do danych wikipedii jest ogólno dostępny - również w postaci całych baz danych. ;)

  2. Hash 

    Jak możliwa jest tak wielka kompresja?

  3. Akira 

    To jest plik tekstowy a jak wiadomo pliki tekstowe bardzo bardzo dobrze się kompresują. Do tego nie są to przypadkowe literki, wiele wyrazów powtarza się tysiące, odpowiednia optymalizacja i jazda ;)

  4. blackmarvolo 

    No, ale przynajmniej chodzić będzie szybciej. No i masz dostęp do encyklopedii nawet jak net ci padnie :)

  5. Akira 

    U mnie znajdzie się ponad 200 gb wolnego miejsca, pobiorę i sprawdzimy ile ma ;)

  6. Akira 

    http://img76.imageshack.us/img76/4747/100gbge5.png
    Jak obiecywałem ;]

  7. gierwialo 

    @Akira: Dzięki za sprawdzenie. Możemy się przekonać się o skuteczności algorytmu 7zip ;-)

    Swoją drogą, opierając się na tych danych i importując je do swojego serwera możemy w łatwy sposób sprawdzać wydajnośc różnych złożonych zapytań. Chyba nikt nie zaprzeczy że operowaliśmy JOIN'ami na zbyt małym zbiorze danych ;-)

  8. Riddle 

    Kompresja KGB Archiverem jest jeszcze bardziej hardkorowa. Podejrzewam, że dałoby się zejść do 200-300MB. Inna sprawa, że pakowanie / rozpakowywanie takiego czegoś trwa kilkadziesiąt godzin. :P

  9. adas 

    A czemu nie sprawdziliście ile waży wersja EN? ;)

  10. gierwialo 

    Same angielskie artykuły bez historii zajmują w po spakowaniu bz2 7.3 GB gdzie - dla porównania - ta sama werja ale polskiej wiki mieści się w 500 MB (~15x mniej).

    Wychodzi na to, że pełen dump angielskiej Wikipedii (z historią) potrzebowałby nie 100, a 1500 GB.

    Hm... a może ściągnę sobie angielską wikipedię, wypalę na DVD DL, schowam gdzieś i za 10 lat będę się śmiał z ilości zajmowanego przez nią miejsca ;-)