LINUX.ORG.RU

Mod_gzip - пять мешков за те же деньги!


0

0

Думаю многим вебмастерам, в том числе и сервера linux.org.ru будет интересно узнать, о результатах применения модуля апача mod_gzip. Апач был перекомпилен с поддержкой динамического архивирования страниц на лету в gzip формат. Результаты превзошли все ожидания! Коэффициент экономии байт составил 80 процентов! Это означает, что 300 кбайтная страница www-конференции грузится на модеме 15 секунд вместо 75, а сервер размещенный на collocation генерит в пять раз меньше трафика! Да что тут расказывать, посмотрите статистику сами. Скептикам скажу, что почти все бразеры, выпущенные после 1999 года, имеют встроенную поддержку функции сжатия, базирующуюся на стандарте HTTP.

>>> Статистика

anonymous

Проверено:

А если браузер не поддерживает?

Как я понял - таких 50% ? В этом случае браузер получает страницу в нормальном виде или получает отказ?

slashzone_ru
()

Да это давно известно. Чего тут нового то? Просто многим исходящий траффик выгоден. Вот и мало кто шевелиться.

ifconfig
()

Если запрос делает броузер не поддерживающий HTTP 1.1 то ему отдается все в нескомпресированном виде.

p.s. Есть один маленький минус того самого mod_gzip`a - он проц кушает не хило :(, особенно если сайт имеет высокую посещаемость. IMHO лучше всего его использовать в связке с mod_proxy

Danik

anonymous
()

Есть некоторые недостатки в этом методе.
Объясняю. На линуксе если выставить для ppp: deflate 15,15 bsdcomp 15,15,
то разница во времени загрузки на страницах до 50К мизерная. Однако визуально
может возникнуть впечатление, что при gzip-компрессии страница отображается
с большей задержкой. Ибо браузер не начинает отображать ее пока не загрузит все.
Если не пользоваться компрессией, то даже большая страница может отображаться
по частям, но сразу же по получению первой порции байтов. Плюс при gzip-компрессии
дополнительная нагрузка идет не только на сервер, но и на клиента.

anonymous
()

C mod_gzip наоборот странички моментально вылетают. А процессор почти не грузится из-за него. Но имеет смысл включать только на серверах, где много текста (например, конференциях), ибо картинки все равно уже сжатые.

Только насчет советования поставить на www.linux.org.ru вы явно поспешили. mod_gzip не работает с творением господина Тутубалина. Хотя с другой стороны, пора выкинуть этот Russian Apache, сейчас он никому уже не нужен.

Иван

anonymous
()

А млжно ли эту штуку совместно с mod_ssl покрестить ?

anonymous
()

'collocation' - забавно. Словей таких не ведаю...

anonymous
()

Народ, вы что это?
Неужто вам не известно, что все современные модемы гонят информацию в сжатом виде? Пусть сжатие не столь крутое, как у gzip'а но этим занимается железяка - процу все по барабану...
Если, разумеется, у несчастного не winmodem :)
А вот исходящий трафик... Хм. Насчет этого не уверен. Возможно, для сервака это и выход.

anonymous
()

Что-то я не понял прикола на счет творения Тутубалина (RusApache). Что имеется ввиду под тем что он "сейчас уже никому не нужен" ???

anonymous
()

Russian Apache

> Что-то я не понял прикола на счет творения Тутубалина (RusApache) > Что имеется ввиду под тем что он "сейчас уже никому не нужен" А то, что оно пытается решать НЕСУЩЕСТВУЮЩИЕ ПРОБЛЕМЫ, только добавляя головной боли с доп. настройками и доп. глюками. IMO Rus.Apache никому РЕАЛЬНО не нужен.

anonymous
()

Давно пора было это сделать. Траффик намного важнее и ДОРОЖЕ чем процессорное время! Тем более, когда сейчас гигагерцовые процессоры уже становятся outdated. Вобщем, я очень рад, что наконец-таки науку стали применять в интернете :)

vovka
()
Ответ на: комментарий от anonymous

to Иван

> Только насчет советования поставить на www.linux.org.ru вы явно > поспешили. mod_gzip не работает с творением господина Тутубалина.

это ты обкурился и гонишь (с) :-)

по поводу mod_gzip, то оригинальный написан через жопу, включая гланды :-) короче, rtfm, http://apache.lexa.ru

anonymous
()
Ответ на: комментарий от anonymous

2 anonymous (*) (2001-09-14 09:01:46.0):
>Неужто вам не известно, что все современные модемы гонят информацию в сжатом виде?
Вообще-то не у всех стоят модемы, есть еще туева хуча офисов которым каждый гиг 100+ обходится, а гиги эти имеют свойство с каждым месяцем рости и рости(пусть даже медленно)
>Пусть сжатие не столь крутое, как у gzip'а но этим занимается железяка - процу все по барабану...
Да с современными числодробилками и их ценами :) намного дешевле поставить веб-сервер малехо мощнее, а для тех кто мелким хостингом занимается вообще супер, у них у большинства скорее всего тоже трафик платный

devil
()

странно, наверное у модема отключалось зжатие модемное...

chuchelo
()

Модем то жмет, это если dial-up, а если выделенка ? Провайдер дочит порт на cisco на заданную скорость и на ней же отключает компрессию (понятно почему). Вот тогда этот mod и выход imho.

anonymous
()

Действительно, очень много контор и домашних сетей имеют выделенки и помегабайтную оплату со стороны конечных пользователей. С другой стороны, большинство хостинговых серверов так или иначе оплачивают исходящий трафик (анлимитед - сказки для лошков). Так почему бы не помочь друг другу? Экономия уже на первых нескольких гигабайтах перекроет все дополнительные затраты на CPU, которых кстати почти нет.

Процессор AMD Duron 1000 без проблем генерит gzip трафик в 2 Мбита, а это между прочим соответсвует 10 Мбитам некомпрессированных данных.

2 часа работы админа каждого апача могут ускорить рунет на половину%! Эх, мечты однако :) Если бы еще и пользователей заставить применять нормальные браузеры...

anonymous
()
Ответ на: комментарий от anonymous

> mod_gzip не работает с творением господина Тутубалина.

Прекрасно работает. Закусывать надо :-)

Sergio
()

Кстати насчет нормальных браузеров:
Какие из них(из наиболее распостраненных) это держат а какие нет?

devil
()

2 anonymous (*) (2001-09-14 10:54:10.0)
Не флейма ради...:))
А что есть нормальный броузер? Нормальный для кого? Нормальный для чего?
...Просто мнение интересно...:)

anonymous
()

Рассказывай. не рассказывай все одно никто ничего понимать не хочет.

1) Нельзя путать аппаратную компрессию модема с софтварной. совершенно разные веши.
2) на так называемом collocation как правило сидят небольшие коммерческие компашки, с WWW которых вещают о своих коммерческих делах немногочисленным клиентам. Траффик у них мизерный, как правило, до 1Гига. и морочить яйца им с mod_zip разници нема. Так как сам collocation стоит достаточно дорого, и в него, как правило, включен уже какой-то приличный кусок траффика.
3) Подавляющее большинство траффика делаеться на популярные бесплатные рессурсы типа mail.ru, pupsik.ru и т.д.
А их держат для того чтобы ДЕЛАТЬ траффик, а не для того чтобы утолить желание полуночных онанистов. Не будте наивными. Такие ресурсы как narod.ru www.fotki.com www.freesoftware.com и прочие не будут содержать ради подсовывания уже немногочисленных баннеров, да и баннеры опять же похожих ресурсов. Так как делать исходящий траффик крупному провайдеру ВЫГОДНО. Как вы думаете считаються провайдеры между собой при линке? А. правильно. разницей кто у кого больше утащил.
4) Еще пример. Крупные города. Очень значительную часть траффика делаеться внутри города. В том числе это и присловутые чаты, игры и в том числе местные ресурсы. Держать пользователя на местных ресурсах выгодно, очень выгодно. И вот представте городишко N c 1мил жителей (я уж не говорю о мегаполисах типа Москвы). Там есть два крупных провайдера A и B. Находяться они в одном здании и протянуть линк между ними дело двух сетевых карт и 100 метров кабеля. Как они будут считаться между собой? И соревнуються они кто больше порнухи, музыки и фильмов выложит у себя, дабы ДЕЛАТЬ внутренний ТРАФФИК


А вы говорите давайте траффик уменьшать. А я как сотрудник ISP вам скажу что давайте, тока тогда давайте и платить за него в 5 раз больше.

ifconfig
()

Ребяты о чев Вы говорите, может сначала нужно прочиать чегось умного
а потом трести языком.

1. Во первых collocation, какая блин разница, насколько я знаю что оплачивается только входящий траффик, и какая разница идет сжатие исходящего или нет?
2. B про поддержку сжатия в бразера, исли бразер енто умеет,
он так в запросе так и говорит что умеет.

Spy
()

Да забыл вот чего бразеры пишут в запросе
если у них есть поддержка

Accept-Encoding: gzip, deflate

Spy
()

Хотя это для борд и конференций, или скриптов, листающих текст подобно книжке. Там нада нажать на линк вверху "другие", потому как хрен че найдешь быстро(130К текст весит). Но это чисто перловое решение, поэтому может и не в кассу.

anonymous
()
Ответ на: комментарий от Spy

Spy, ты не прав. Сollocation очень часто (практически всегода) включает ограничения на исходящий трафик. Увы. Ostrov

anonymous
()

Примеры будте любезны.

Spy
()

Есть сервер с большим количеством текстовых файлов, например очень посещаемая www_board. Допустим файл текстовый примерно такой:

begin.file

вода огонь воздух сила тока, юзер, килограмм, метр, квантовые флуктуации, водка и пр.

end.file Из файла выбираются все слова на букву "в" и их позиция в файле, т.е. допустим "водка" стоит в файле на сотом байте. Функция seek позволяет перемещаться не читая файл, что долго, а сразу к нужному байту. Есть файл-хеш(массивов) "буква => цифры", позиций в файле: "все слова на букву "в" находятся там-то и там-то".

"в" 10 20000 30000 40000 50000 60000 т.е. слова на букву "в" стоят в файле на 10 байте, 20000 байте и т.д. И так по всем буквам. Это была первая буква "в" слове, дальше еще один хеш построить, по сторой букве, т.е. есть слова на букву "в" а среди этих влов есть позиции слов с "ва" "вб" "вв" "вг" "вд" "ве" и т.д. и скажем такое разбиение документа глубиной в слове до пятой или шестой буквы. Юзер ввел в форму слово "водка", программа ищет начала позиции всех слов начинающихся на букву "в", получает(если гигабайт текста) ссылки на 30 мегабайт слов, начинающихся на букву "в". Вторая буква в слове водка это "о". Т.е. поиск уже происходит в этих 30 мегах по букве "о"(выборка 30 мегов делим на 33, получаем на втором шаге мегабайт из изначального гигабайта, если считать что слова размещены в файле(файлах) равновероятно, т.е. слов на букву "а" столько же сколько и на букву "б", "д", "е" и т.д.), третья буква в слове водка "д". но, поиск уже происходит по тому мегабайту, который получился отсеиванием первых двух букв. Делим мегабайт на 33 буквы, получаем 30 килобайт слов, содержащих три буквы "вод". Далее по индукции доходим до последней буквы "а" в слове "водка".

Итого, чтоб не перебирать весь гиг информации, надо seek'ом перебрать за 5 приемов 30 мегабайт+1 мегабайт+30 килобайт+1 килобайт+30 байт+1 байт. Ну и соответственно так-же устроен поиск если не с начала буквы, т.е. полное индексирование, слово "подводный" например, где "вод" стоит в середине слова.

Есть очень большой двоичный файл, который пронизан связами(чтобы удобно было ходить seek'у по ним). Его можно открывать и сдвигать байты, чтобы дописать нужный файл(который изменил пользователь на сервере). Т.е. отследить нитку для слова(или, что то-же самое, для целой странички). Ведь сначала будут выстраиваться параллельные связи и только в конце, если слово более 6-8 букв, будут разветвления в этой структуре. По идее, можно добится того, что редактировать файлы можно будет непосредственно в этом двоичном файле. Т.е. набираешь cd req(или cat /var/log/error.log | more или tail -f /var/log/error.log) и ты уже не в юниксовой файловой системе, а в этом файле, в котором стоит обработчик, такая-же консоль. А интерпретатор команд создает видимость, что ты сидишь в обычной директории и ворочаешь обычными файлами....

Что это дает? Довольно большую скорость доступа к очень большим текстовым архивам без применения базы данных, которая, как правило, держит индекс в памяти.

Если это в кассу конешно. но походу вас тут скорости доступа интересовали вроде!!!, а так уберите как оффтопик.

http://genphys.phys.msu.su/~dmitriy/perl/base.shtml#fast

anonymous
()

Нда...
Эт я спрашивал про какие броузеры нормальные...Так ответа-то нет...
Назвали несколько..А я вот пользую Мозиллу..Так чем она ненормальна?
Я ж спрашивал нормально для чего?, для кого? Что есть нормальность?
/* не хочу никого обижать, но, если делается заявление, то его
надо аргументировать */

anonymous
()

Spy а новость тебе не пример? Данный сервер стоит на академическом канале, который всегда забит. Нет возможности ни купить более быстрый канал, ни оплачивать трафик коммерческого канала. Точнее возможность есть, но затраты на это не сопоставимы с той экономией, которую дает mod_gzip.

2ifconfig Мне кажется, что ты путаешь канальных-провайдеров и провайдеров контента. Для первых - трафик это доход, для вторых - статья расходов. Если ты не знал - любой трафик стоит денег, даже внутри городской вопрос только в его стоимости.

2all Всем кто думает, что исходящий трафик на collocation бесплатен. Есть такое понятие как скорость порта для подключения сервера. Да, провайдер дает unlimited на исходящий трафик, вот только стоимость 2-х мбитного и 10-ти мбитного порта у него отличается раза в три, а на 100 мбитах unlimited в здравом уме никто не даст, потому что один сервер сможет зафлудить всю сеть провайдера.

anonymous
()

Господа, если я правильно помню, то сжатие страниц
с 4 Нетскейпа и 5-го Экплорера работает только если
броузер настроен принимать два и более языков, либо
ни одного языка... Если вы в броузере выберете Русский
как единственный язык для Content-Negotiation, то
Апач будет выдавать ссылки с редиректом на архивированные
файлы.


ЗЫ: А Русский Апач - москальское глюкало ещё то...
Попробуйте на http://dt.home.by зайти под линухом -
и порадуйтесь за москаля Тутубалина.

lowry
()
Ответ на: комментарий от anonymous

В моем понимании нормальные - это те кто поддерживают основные стандарты интернета. В данном контексте нормальные, это те кто умеет работать со сжатыми страницами. Как уже говорилось, IE 4+ и Netscape 4+ поддерживают эту возможность. Mozilla просто обязан это делать.

anonymous
()

Не ссорьтесь

Большинство прокси работают по протоколу http 1.0

По сему mod _gzip практически использоваться не будет, пока прокси не подправят

anonymous
()

2последний anonymous
Я тебе скажу такую, вешь, что на номер протокола
большинство плуют с большой колокольни.

И причем сдесь прокси, mod_gzip пропустит даже 1.0

Spy
()

>> Мне кажется, что ты путаешь канальных-провайдеров и провайдеров контента. Для первых - трафик это доход, для вторых - статья расходов. Если ты не знал - любой трафик стоит денег, даже внутри городской вопрос только в его стоимости.

Во первых нет четкого разделения между первыми и вторыми. Крупные провайдеры обвешаны всегда мелкими. Во-вторых, городской траффик стоит настолько мало, что этим можно пренебрегать. (Если не считать однаразовые затраты на оборудование (~950$), то поддеожание транзита в городе стоит от 10 до 25 $ per month при 2Мбит/с) В третьих я все-таки вращаюсь в сфере ISP крупного города. И кое-чего знаю. Цена на collocation больше обусловлена себестоимостью поддержания и начальных затрат на очень дорогое оборудование. Кстати, мне не известны крупные порталы которые бы были четко отделены от канальных провайдеров и оплачивали collocation и исходяший траффик по прайсовым ценам канальных провайдеров.

Кстати, можно спросить у maxcoma. За какие бабки оплачиваеться траффик (если предположить, что то что я сказал не есть правда) из этого многоуважаемого ресурса? Неужто от показа 1 баннера?

ifconfig
()
Ответ на: комментарий от devil

>А насчет оперы или konq не знаешь?

Не знаю. Проверить - раз плюнуть.
Положи на сервер file.html.gz и пойди на него браузером.
Причем работает, даже если идти просто на file.html.

Или напиши скрипт, который будет показывать все заголовки, которые браузер послал.

Havoc ★★★★
()

я не про то, просто написана было что "на модеме сокорсть поднялась во стокато", вот я и спрашиваю отключали что-то?

chuchelo
()

я не про то, просто написана было что "на модеме сокорсть поднялась во стокато", вот я и спрашиваю отключали что-то?

chuchelo
()

а апачем этот гзип не распаковывается?

anonymous
()

Господа, говорящие про процессорное время... Вы забыли про возможность ОДИН РАЗ пожать страницу `gzip -9`. И на этом затраты на СЖАТИЕ окончились. Дальше - только на распаковку "тупым" клиентам и проксям. А распаковка - быстрее.

SySAlex
()

Риторический вопрос, господа. У меня сложилось (может, уже и устаревшее) впечатление, что для большинства момедов W32 ОСы перелочивают скорость порта на скорость соединения, которую момед выдает в строчке CONNECT (по крайней мере под NT4 переписывание файла трали-вали.inf, относящегося к момеду, давало некоторый прирост скорости выкачивания длинных страниц). Но кто из home end-users этим будет заниматься? И сколько процентов доступа к вебам эти ребята делают? И еще (не риторический вопрос): какие прокси этого НЕ поддерживают?

Dimai
()

> а апачем этот гзип не распаковывается?

Нет. Не апачевское это дело, особенно если сабжевый модуль не стоит ;)
Тоже можно по заголовкам проверить.
Он должен отдавать Content-Transfer-Encoding: gzip, если отдает в пакованном виде.

Havoc ★★★★
()

Профессионалы, бля.
Этой хренью занимается mod_negotiation уж лет сто как.
Апач сам знает кому отдавать компрессию, а кому plain.
Нормальный бровсер - это шкаф 4 и выше.
MSIE должен понимать Accept-Encoding, но из-за глюков этой маздайщины
процентов 50 проходит без компресии. Просчитано на трафе ~50K в течение более года.
Но даже несмотря на это экономия трафа раза в четыре.
mod_gzip - для идиотов, которые сами не могут запрограммить ответ.

anonymous
()

SySAlex, можно сделать еще сердитей, если я не ошибаюсь :))
Выложить file.html и file.html.gz и по content negotiation подсовывать :)))

anonymous
()

Так про SSL никто не просветил . Какие варианты?

eda
()
Ответ на: комментарий от devil

Opera - держит точно, Konq - не знаю, по-моему тоже. Да и как было сказанно выше, если клиент не поддерживает gzip ему отдаётся в несжатом виде.

anonymous
()

Да и вообще народ, те кому это было нужно и кто не поленился изучить вопрос - уже давно у себя сделали. Те, у кого исходящий трафик платный, те, кто висит на тонком канале... И результаты неплохи, надо заметить. Подумайте, и сами выберите, нужна вам компрессия или нет. Всё зависит от конкретной ситуации. Если ваш сайт предназначен не для "нагона трафика", и если позволяет процессор сервера, компрессию сделать стоит. Хотя бы чтобы облегчить жизнь диалапщикам и людям с платным входящим трафом. И не надо орать на форум - "дерьмо это, никому не нужно", или "это круто, надо ставить всем". Подумайте своей головой нужно вам это или нет.

ЗЫ, а 1.0 прокси это действительно пропускают и всё окей.

anonymous
()

Весь этот негошиэйшн уприрается в 1 небольшую пролему:
Вот объяснение в 3 приёма.

1. Сжимать логично большие файлы - скажем, более 25 Кб

2. Большие файлы некоторые пользователи скачивают
с помощью файлокачалок.

3. Теперь представьте В.Пупкина, запускающего
wget http://lib.ru/hitgoda.txt. Что он получит
в результате на своём жестком диске? Правильно,
архивированный файл с расширением txt. И кому
такое кю надо?

Поправьте есля я лев.

lowry
()

>Поправьте есля я лев. Да не будет апач отдавать сжатый файл, если в запросе не сказано "дай gzip", а качалка как раз и говорит http/1.0 ...

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.