LINUX.ORG.RU

сам ведь понимаешь, что не нужна, а постишь всякую фигню. лучше бы сказал почему кармик вместо пяти секунд грузится полторы минуты

dr-yay ★★
()

Удалялка дубликатов.

Удалялку дубликатов встроили в ФС? Ждём ФС с резалкой баннеров и антивирусом.

Camel ★★★★★
()
Ответ на: Удалялка дубликатов. от Camel

А теперь представь, например, ситуацию, когда какой-нибудь "придурок" шлёт в корпоративную рассылку письмо с аттачем 'Я и моя сраная кошка.mp4' о 24.2 мегабайтах, подумай как тут поможет дедупликация на уровне ФС почтового сервера и перестань постить фигню.

as33 ★☆☆
() автор топика
Ответ на: комментарий от as33

Фича безусловно интересная и во многих случаях нужная, но в статье говорится в том числе и о бэкап серверах... Вот лежит у нас кучка полных бэкапов чего либо, а тут раз! и бэд. И усё Х_х. Короче для простых смертных оно врядли потребуется в обозримом будущем без сановского железа или его аналогов а-ля х4540.

GAMer ★★★★★
()
Ответ на: комментарий от GAMer

>Короче для простых смертных оно врядли потребуется в обозримом будущем

О простых смертных речь не идет.

ansi ★★★★
()

Интересно посмотреть на реальные фс, которые есть под рукой у каждого, на кол-во блоков с одинаковым содержимым.

Предлагаю написать скрипт вычисляющий sha256 для каждого блока FS и выдающий статистику совпадений.

Если экономия превысит 10%, то можно сказать что функция dedup нужна (кому-то), иначе очередная маркетоидная фича для кормления лемингов.

sdio ★★★★★
()
Ответ на: Удалялка дубликатов. от Camel

Представь такую картину.

Есть у тебя Соляра с Virtualbox. Установив Гостевую ОС в один из zfs пулов, клонируем этот пул, получаем две Гостевых ОС. Места же они на диске занимают как одна плюс diff в блоках разницы между ними.

Круто? Круто! А Фанатеги GNU-only остаются в рядах простых смертных.

ansi ★★★★
()
Ответ на: комментарий от GAMer

>а тут раз! и бэд

И эльфы меняют диск в массиве :3

>И усё Х_х


И продолжаем хранить только инкременты :3

>Короче для простых смертных оно врядли потребуется в обозримом будущем


А когда потребуется, то к простому смертному ядру оно и не прикрутится, короче subj :3

as33 ★☆☆
() автор топика
Ответ на: комментарий от dk-

лемминги и зфс?

ниче не путаешь?)

Они везде. А в ынтерпрайзе их на порядок больше.

sdio ★★★★★
()
Ответ на: комментарий от dr-yay

> озвучьте накладные расходы на поиск дубликатов?

Я думаю что они смешные.

у нас ключь 256 используется для этого. вычесление его необходимо для работы FS. Поиск же, вещь простая. Осообенно если под этом отдать кэш метров так под 100

namezys ★★★★
()
Ответ на: комментарий от GAMer

>Как раз таки идёт!

>>>ZFS dedup scales to any capacity on _any platform, even a laptop_; it just goes faster as you give it more hardware.

Ога, скажи ещё, что у простого смертного солара на лепропе. :)

ansi ★★★★
()
Ответ на: комментарий от GAMer

Я это и имел ввиду, просто мысли еще окончательно не оформились, а руки уже ответ писали ;-)

sdio ★★★★★
()
Ответ на: комментарий от ansi

Подобное клонирование делается посредством самих вирт.машин, в том числе и Virtualbox'ом

sdio ★★★★★
()
Ответ на: комментарий от ansi

>Соляра на лэптопе
Ох не зарекайся =\ были ведь подвижки, и буки Фуджики вроде продавали с предустановленной опенсолярой, как десктоп осью.

GAMer ★★★★★
()
Ответ на: комментарий от as33

> подумай как тут поможет дедупликация на уровне ФС почтового сервера

Никак. "ZFS provides block-level deduplication" (c) цитата из бложека по ссылке. С учетом того, что в mailbox'е сообщения не выравнены по началу блока, никаких преимуществ.

no-dashi ★★★★★
()
Ответ на: комментарий от no-dashi

Я так понял, что они имеют в виду блоки файла, а не ФС. Но внятно и однозначно бложик нигде это не сказал.

as33 ★☆☆
() автор топика
Ответ на: комментарий от no-dashi

> Используют LVM snapshot. Да, тоже на блочном уровне :-)

Ну да. Я тут постояно файлики таскаю туда, обратно, а буду ли я их там редактировать - еще не знаю. Как мне вашь LVM поможет.

И делаю я это часто

namezys ★★★★
()
Ответ на: комментарий от as33

> Фрагмент файла определённого размера, что же ещё?

Ну так бы и говорили

пробежал по диагонали. Думаю что имеено на уровне блоков FS ищеться дублирования. Потому что блоков FS хоть и много. но не так много, как всевозможных блоков файлов разной длины.

Кроме того, дубликаты как я понял ищутся на уровне пулов, а не ФС

namezys ★★★★
()
Ответ на: комментарий от sdio

cat sha256_8k_block.pl

#!/usr/bin/perl -w

use strict;
use Digest::SHA qw(sha256_hex);

my $block;
my $bs = 8192;
my $bc;

while (my $source = <STDIN>) {
        chomp $source;
        open (IN,$source) or die "Cannot read file; $!\n";
        while ($bc = read(IN,$block,$bs)) {
                my $digest1 = sha256_hex($block);
                print $digest1 . "\n";
        }
        close IN;
}

запуск

$ find /home -xdev -type f | ./sha256_8k_block.pl > /tmp/sha256_8k_block.txt

Результат на 5.5Г разделе

$ wc -l sha256_8k_block.txt
727700

$ sort sha256_8k_block.txt | uniq -d | wc -l
25745

$ bc -lq
25745/727700 * 100
3.537

Итог: 3.5% экономии

Стоит ли оно того? ИМХО нет
sdio ★★★★★
()
Ответ на: комментарий от Davidov

Кстати, в качестве продолжения, посчитать сколько из этих 3.5% является простым повтором файлов.

Последняя ситуация легко решается простой утилитой, которая делает хардлинк вместо файла.

Davidov ★★★★
()

Замечательно. На всяких файлопомойках довольно полезная штука, ибо есть стадо идиотов, которое закачивает кучу одинаковых картинок, видео, музыки.

xpahos ★★★★★
()
Ответ на: комментарий от sdio

>Предлагаю написать скрипт вычисляющий sha256 для каждого блока FS и выдающий статистику совпадений.

Навскидку можно сказать, что для гнутых исходников с их параноидальным цитированием лицензии в каждом файле, фича будет весьма полезна.

linuxfan
()
Ответ на: Удалялка дубликатов. от Camel

> Удалялку дубликатов встроили в ФС? Ждём ФС с [...] антивирусом.

Не поверишь - возможность проверки файлов сторонним антивирусом по ICAP (или как его там) уже встроена.

Такой вот комбайн :-)

ZFSych
()
Ответ на: комментарий от no-dashi

>Никак. "ZFS provides block-level deduplication" (c) цитата из бложека по ссылке. С учетом того, что в mailbox'е сообщения не выравнены по началу блока, никаких преимуществ.

Тебе GNUтый конъюнктивит помешал почитать дальше?

>Byte-level dedup is in principle the most general, but it is also the most costly because the dedup code must compute 'anchor points' to determine where the regions of duplicated vs. unique data begin and end.

И дальше как раз говорится о почте.

linuxfan
()
Ответ на: комментарий от sdio

>localhost $ bs -lq

fixed

Еще раз.

Представь себе что у тебя 10 виртуальных машин по 8Гб каждая. Получаем 80Гб на диске без дедупликации. А теперь включаем дедупликацию и добавляем ещё одну VM. Резултат?

ansi ★★★★
()
Ответ на: комментарий от GAMer

> Вот лежит у нас кучка полных бэкапов чего либо, а тут раз! и бэд.

Это тоже предусмотрели - есть такая штука как dedupditto:

http://mail.opensolaris.org/pipermail/opensolaris-arc/2009-October/018636.html

> The second allows the administrator to select a threshhold afterwhich > 2 copies of a block are stored rather than 1. For example, if many > duplicate blocks exist deduplication would reduce that count to just 1; > at some threshhold, it becomes desirable to have multiple copies to > guard against the multiplied effects of the loss of a single block. > The default value is '100'.

ZFSych
()

А чем оно лучше ФС с паковкой? Ведь сжатию подлежат не только дубликаты, следовательно эфективность в плане объема должна быть лучше.

/me вспомнил STACKER из PC-DOS, который когда-то позволял мне жить с весьма ограниченным объемом диска, например мог уместить 640МБ цд на 200МБ винт...

madcore ★★★★★
()
Ответ на: комментарий от linuxfan

>Навскидку можно сказать, что для гнутых исходников с их параноидальным цитированием лицензии в каждом файле, фича будет весьма полезна.

TODO:
Выровнить все лиценции на границу блока.

madcore ★★★★★
()
Ответ на: комментарий от linuxfan

>>А чем оно лучше ФС с паковкой?

>Тем, что стоимость "распаковки" практически нулевая.


Все зависит от множества факторов, включая алгоритм паковки. в каких-то случаях будет быстрее распаковать, при этом меньше считывая данных с винта.

Упомянутый стакер у меня был на dx2-66,16MB, и ничего, от тормозов я не умер.

madcore ★★★★★
()
Ответ на: комментарий от no-dashi

>> А Фанатеги GNU-only

> Используют LVM snapshot. Да, тоже на блочном уровне :-)

А теперь расскажите нам, что делают фанатики Ъ-линукс-way тогда, когда каждую виртуальную машину придется обновить?

Начинают с помощью LVM собирать куски места, где только можно?

ZFSych
()
Ответ на: комментарий от ansi

>Представь себе что у тебя 10 виртуальных машин по 8Гб каждая. Получаем 80Гб на диске без дедупликации. А теперь включаем дедупликацию и добавляем ещё одну VM. Резултат?

В один прекрасный и непредсказуемый день место на разделе кончается, виртуальная машина в непонятках, где ее 8ГБ.

madcore ★★★★★
()
Ответ на: комментарий от madcore

> А чем оно лучше ФС с паковкой? Ведь сжатию подлежат не только дубликаты, следовательно эфективность в плане объема должна быть лучше.

А кто сказал, что дедупликация исключает сжатие? Так что можно получить профит сначала от сжатия, а потом еще и от дедупликации

ZFSych
()
Ответ на: комментарий от madcore

>TODO:

>Выровнить все лиценции на границу блока.

Персональное замечание для тебя: сходи по ссылке или хотя бы прочитай http://www.linux.org.ru/jump-message.jsp?msgid=4196890&cid=4197141

И на всякий случай: фрагмент GNU GPL всегда приводят в начале файла.

linuxfan
()
Ответ на: комментарий от Davidov

> Последняя ситуация легко решается простой утилитой, которая делает хардлинк вместо файла.

Не все так просто. Насколько я понял идею сантехников, это считается двумя разными файлами (типа снапшотов в LVM)

no-dashi ★★★★★
()
Ответ на: комментарий от sdio

>вычисляющий sha256 для каждого блока FS и выдающий статистику совпадений.
что-то мне в этом методе не нравится

dimon555 ★★★★★
()
Ответ на: комментарий от madcore

Все замеры производились внутри tmpfs, чтобы наглядно было видно, что даже gzip имеет весьма ненулевое время распаковки. Размер данных — 22MB. CPU — Intel(R) Pentium(R) 4 CPU 3.20GHz

$ gzip -9c nmap-4.76.tar > nmap-4.76.tar.gz

$ time cat nmap-4.76.tar > /dev/null

real	0m0.012s
user	0m0.000s
sys	0m0.012s

$ time gzip -dc nmap-4.76.tar.gz > /dev/null

real	0m0.249s
user	0m0.248s
sys	0m0.000s
linuxfan
()
Ответ на: комментарий от linuxfan

> Тебе GNUтый конъюнктивит помешал почитать дальше?

Вообще-то, гнутый коньюктивит заставляет меня читать всю статью за один раз. Byte-level dedup упоминается как один из теоретически возможных путей: "Data can be deduplicated at the level of files, blocks, or bytes".

А потом констатируется, что выбрали block-level dedup:

ZFS provides block-level deduplication because this is the finest granularity that makes sense for a general-purpose storage system. Block-level dedup also maps naturally to ZFS's 256-bit block checksums, which provide unique block signatures for all blocks in a storage pool as long as the checksum function is cryptographically strong (e.g. SHA256).

Для упертых фанатиков замечу, что переводится это примерно так: ZFS предоставляет дедупликацию на уровне блоков, поскольку она обеспечивает наилучшую эффективность для СХД общего назначения. Кроме того дедупликация на уровне блоков естественным образом укладывается в 256-битную контрольную сумму блоков ZFS, которая прдоставляет уникальные сигнатуры блоков до тех пор, пока функция вычисления контрольной суммы является криптографически сильной (напримр SHA256).

И да, управление дедупликацией на уровне on/off/verify это подтверждает, иначе были бы синтаксис dedup выглядет примерно так: dedup={off|block|byte|file}[,verify]

no-dashi ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.