LINUX.ORG.RU
ФорумAdmin

Кто-нибудь пробовал поднять локальное зеркало википедии?

 , ,


0

3

Доброго времени суток

Сабж. Анонимус, как долго шёл увлекательный процесс импорта дампа?

Выделил 22Gb RAM, 2 ядра оптерона 2.1 ГГц, 50 Гб ssd. MySQL, InnoDB.

Брал минимальный дамп, только статьи и метаданные ( ruwiki-20150324-pages-articles ). Прошло уже три дня, импортировано около 1М страниц. Судя по вики, всего 1.2М. Судя по дампу - 3М:

root@rasian:/usr/share/mediawiki/maintenance# cat /mnt/ruwiki-20150324-pages-articles.xml | grep '^\s*<page>\s*$' | wc -l
3141428

Причём скорость вроде как падает ( было ~ 16 страниц в секунду, сейчас 2.25 ). MySQL и IO практически не нагружают систему, 95% cpu usage - user - php. Что-то я явно делаю не так

★★★★★

Последнее исправление: Klymedy (всего исправлений: 1)

Нужно прям рабочее зеркало или просто статьи почитать в ПК? Второе я слил с рутрекера на 15Гб, распаковалось за 2 часа в w64, в вайне наверно запустится тоже.

anonymous
()
Ответ на: комментарий от anonymous

Лучше б конечно самому импортировать актуальный дамп, чем доверять рутрекеру. Но если за 2 недели не импортируется, сойдёт

router ★★★★★
() автор топика

Думаю дело пойдёт быстрее если перед заливной дампа убрать индексы, а потом разом построить их для уже налитых данных. Сейчас индексы обрабываются для каждой строки которую ты инсёртишь.

MrClon ★★★★★
()
Ответ на: комментарий от MrClon

Возможно. Но не php же их строит? Судя по загрузке процессора, всё упирается именно в скрипт импорта - maintenance/importDump.php

router ★★★★★
() автор топика

А зачем? Неужто роскомнадзор в одном месте мешает листать странички буржуйской вики?

anonymous
()
Ответ на: комментарий от router

А ты не sql дампы наливаешь? Что-то мне помнилось что вики sql дампы отдаёт.
И кстати зачем innodb? myisam побыстрее тут будет, а всякие там ACIDы для локальной копии уж точно не нужны.

MrClon ★★★★★
()
Ответ на: комментарий от MrClon

Нет, там обычный xml дамп средствами mediawiki

http://dumps.wikimedia.org/ruwiki/20150324/

sql файлы там присутствуют, но ничтожного размера, назначение неясно.

Пока нашёл вариант с mwdumper, обещают что работает быстрее но такая фигня получается:

router ★★★★★
() автор топика
Ответ на: комментарий от svobodka_fighter

Спасибо, интересный вариант

router ★★★★★
() автор топика
Ответ на: комментарий от router

есть же куча решений как обойти все упоротости роскомнадзора, судя по ★★★★★ не мне тебе рассказывать как.

CHIPOK ★★★
()
Ответ на: комментарий от CHIPOK

Но ведь тема не об этом? ;)

router ★★★★★
() автор топика

Возможно, долгий импорт и высокая загрузка cpu процессом php вызваны тем, что я забыл установить php расширение intl ( для работы с юникодом ) и не включал никакое кэширование.

Сейчас попробую импортировать через mwdumper, потом вернусь к импорту xml через php и проверю

router ★★★★★
() автор топика

Так там дампы SQL или нет? Если SQL - мускул-то настроен на работы с большими базами? А то дефолтная настройка(small) оптимальна для «серверов» с 128-512мб оперативной памяти, да. И кеши там куцые-куцые...

Pinkbyte ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.