сам ведь понимаешь, что не нужна, а постишь всякую фигню. лучше бы сказал почему кармик вместо пяти секунд грузится полторы минуты

dr-yay ★★
(03.11.09 11:36:01 MSK)

Ссылка

Удалялка дубликатов.

Удалялку дубликатов встроили в ФС? Ждём ФС с резалкой баннеров и антивирусом.

Camel ★★★★★
(03.11.09 11:36:02 MSK)

Ответ на: Удалялка дубликатов. от Camel 03.11.09 11:36:02 MSK

А теперь представь, например, ситуацию, когда какой-нибудь "придурок" шлёт в корпоративную рассылку письмо с аттачем 'Я и моя сраная кошка.mp4' о 24.2 мегабайтах, подумай как тут поможет дедупликация на уровне ФС почтового сервера и перестань постить фигню.

as33 ★☆☆
(03.11.09 11:40:23 MSK) автор топика

Ответ на: комментарий от as33 03.11.09 11:40:23 MSK

Фича безусловно интересная и во многих случаях нужная, но в статье говорится в том числе и о бэкап серверах... Вот лежит у нас кучка полных бэкапов чего либо, а тут раз! и бэд. И усё Х_х. Короче для простых смертных оно врядли потребуется в обозримом будущем без сановского железа или его аналогов а-ля х4540.

GAMer ★★★★★
(03.11.09 11:51:59 MSK)

Ответ на: комментарий от as33 03.11.09 11:40:23 MSK

озвучьте накладные расходы на поиск дубликатов?

dr-yay ★★
(03.11.09 11:54:22 MSK)

Ответ на: комментарий от GAMer 03.11.09 11:51:59 MSK

>Короче для простых смертных оно врядли потребуется в обозримом будущем

О простых смертных речь не идет.

ansi ★★★★
(03.11.09 11:59:25 MSK)

Интересно посмотреть на реальные фс, которые есть под рукой у каждого, на кол-во блоков с одинаковым содержимым.

Предлагаю написать скрипт вычисляющий sha256 для каждого блока FS и выдающий статистику совпадений.

Если экономия превысит 10%, то можно сказать что функция dedup нужна (кому-то), иначе очередная маркетоидная фича для кормления лемингов.

~~sdio~~ ★★★★★
(03.11.09 12:05:07 MSK)

Ответ на: Удалялка дубликатов. от Camel 03.11.09 11:36:02 MSK

Представь такую картину.

Есть у тебя Соляра с Virtualbox. Установив Гостевую ОС в один из zfs пулов, клонируем этот пул, получаем две Гостевых ОС. Места же они на диске занимают как одна плюс diff в блоках разницы между ними.

Круто? Круто! А Фанатеги GNU-only остаются в рядах простых смертных.

ansi ★★★★
(03.11.09 12:06:35 MSK)

Ответ на: комментарий от sdio 03.11.09 12:05:07 MSK

лемминги и зфс?
ниче не путаешь?)

~~dk-~~ ☆
(03.11.09 12:06:38 MSK)

Ответ на: комментарий от ansi 03.11.09 11:59:25 MSK

Как раз таки идёт!
>>ZFS dedup scales to any capacity on _any platform, even a laptop_; it just goes faster as you give it more hardware.

GAMer ★★★★★
(03.11.09 12:07:26 MSK)

Ответ на: комментарий от GAMer 03.11.09 11:51:59 MSK

>а тут раз! и бэд

И эльфы меняют диск в массиве :3

>И усё Х_х

И продолжаем хранить только инкременты :3

>Короче для простых смертных оно врядли потребуется в обозримом будущем

А когда потребуется, то к простому смертному ядру оно и не прикрутится, короче subj :3

as33 ★☆☆
(03.11.09 12:08:41 MSK) автор топика

Ответ на: комментарий от sdio 03.11.09 12:05:07 MSK

>>sha256 для каждого блока FS
Проще и, имхо, логичней - для 4-64кб блоков каждого файла.

GAMer ★★★★★
(03.11.09 12:10:10 MSK)

Ответ на: комментарий от dk- 03.11.09 12:06:38 MSK

лемминги и зфс?

ниче не путаешь?)

Они везде. А в ынтерпрайзе их на порядок больше.

~~sdio~~ ★★★★★
(03.11.09 12:10:11 MSK)

Ссылка

Ответ на: комментарий от dr-yay 03.11.09 11:54:22 MSK

> озвучьте накладные расходы на поиск дубликатов?

Я думаю что они смешные.

у нас ключь 256 используется для этого. вычесление его необходимо для работы FS. Поиск же, вещь простая. Осообенно если под этом отдать кэш метров так под 100

namezys ★★★★
(03.11.09 12:10:39 MSK)

Ссылка

Ответ на: комментарий от GAMer 03.11.09 12:07:26 MSK

>Как раз таки идёт!

>>>ZFS dedup scales to any capacity on _any platform, even a laptop_; it just goes faster as you give it more hardware.

Ога, скажи ещё, что у простого смертного солара на лепропе. :)

ansi ★★★★
(03.11.09 12:10:42 MSK)

Ответ на: комментарий от as33 03.11.09 12:08:41 MSK

>>И эльфы меняют диск в массиве :3
Эльфы - это сказки, как и буки с рейдами =)

GAMer ★★★★★
(03.11.09 12:11:38 MSK)

Ответ на: комментарий от GAMer 03.11.09 12:10:10 MSK

Я это и имел ввиду, просто мысли еще окончательно не оформились, а руки уже ответ писали ;-)

~~sdio~~ ★★★★★
(03.11.09 12:11:41 MSK)

Ссылка

Ответ на: комментарий от ansi 03.11.09 12:06:35 MSK

Подобное клонирование делается посредством самих вирт.машин, в том числе и Virtualbox'ом

~~sdio~~ ★★★★★
(03.11.09 12:13:52 MSK)

Ссылка

Ответ на: комментарий от ansi 03.11.09 12:10:42 MSK

>Соляра на лэптопе
Ох не зарекайся =\ были ведь подвижки, и буки Фуджики вроде продавали с предустановленной опенсолярой, как десктоп осью.

GAMer ★★★★★
(03.11.09 12:13:59 MSK)

Ответ на: комментарий от as33 03.11.09 11:40:23 MSK

> подумай как тут поможет дедупликация на уровне ФС почтового сервера

Никак. "ZFS provides block-level deduplication" (c) цитата из бложека по ссылке. С учетом того, что в mailbox'е сообщения не выравнены по началу блока, никаких преимуществ.

~~no-dashi~~ ★★★★★
(03.11.09 12:18:15 MSK)

Ответ на: комментарий от ansi 03.11.09 12:06:35 MSK

> А Фанатеги GNU-only

Используют LVM snapshot. Да, тоже на блочном уровне :-)

~~no-dashi~~ ★★★★★
(03.11.09 12:21:11 MSK)

Ответ на: комментарий от no-dashi 03.11.09 12:18:15 MSK

Я так понял, что они имеют в виду блоки файла, а не ФС. Но внятно и однозначно бложик нигде это не сказал.

as33 ★☆☆
(03.11.09 12:24:34 MSK) автор топика

Ответ на: комментарий от as33 03.11.09 12:24:34 MSK

Таки нет, таки ФС.

as33 ★☆☆
(03.11.09 12:26:13 MSK) автор топика

Ссылка

Ответ на: комментарий от no-dashi 03.11.09 12:21:11 MSK

> Используют LVM snapshot. Да, тоже на блочном уровне :-)

Ну да. Я тут постояно файлики таскаю туда, обратно, а буду ли я их там редактировать - еще не знаю. Как мне вашь LVM поможет.

И делаю я это часто

namezys ★★★★
(03.11.09 12:27:02 MSK)

Ссылка

Ответ на: комментарий от as33 03.11.09 12:24:34 MSK

А что понимать под блоками файла?

namezys ★★★★
(03.11.09 12:27:29 MSK)

Ответ на: комментарий от namezys 03.11.09 12:27:29 MSK

Фрагмент файла определённого размера, что же ещё?

as33 ★☆☆
(03.11.09 12:34:02 MSK) автор топика

Ответ на: комментарий от GAMer 03.11.09 12:13:59 MSK

http://www.opensolaris.com/toshibanotebook/

~~fucker2~~
(03.11.09 12:37:36 MSK)

Ссылка

Ответ на: комментарий от as33 03.11.09 12:34:02 MSK

> Фрагмент файла определённого размера, что же ещё?

Ну так бы и говорили

пробежал по диагонали. Думаю что имеено на уровне блоков FS ищеться дублирования. Потому что блоков FS хоть и много. но не так много, как всевозможных блоков файлов разной длины.

Кроме того, дубликаты как я понял ищутся на уровне пулов, а не ФС

namezys ★★★★
(03.11.09 12:42:15 MSK)

Ссылка

Ответ на: комментарий от GAMer 03.11.09 12:13:59 MSK

>Ох не зарекайся =\ были ведь подвижки, и буки Фуджики вроде продавали с предустановленной опенсолярой, как десктоп осью.

http://www.shopopensolaris.com/suntoshiba/home.htm

ansi ★★★★
(03.11.09 12:56:31 MSK)

Ссылка

Ответ на: комментарий от sdio 03.11.09 12:05:07 MSK

cat sha256_8k_block.pl

#!/usr/bin/perl -w

use strict;
use Digest::SHA qw(sha256_hex);

my $block;
my $bs = 8192;
my $bc;

while (my $source = <STDIN>) {
        chomp $source;
        open (IN,$source) or die "Cannot read file; $!\n";
        while ($bc = read(IN,$block,$bs)) {
                my $digest1 = sha256_hex($block);
                print $digest1 . "\n";
        }
        close IN;
}

запуск

$ find /home -xdev -type f | ./sha256_8k_block.pl > /tmp/sha256_8k_block.txt

Результат на 5.5Г разделе

$ wc -l sha256_8k_block.txt
727700

$ sort sha256_8k_block.txt | uniq -d | wc -l
25745

$ bc -lq
25745/727700 * 100
3.537

Итог: 3.5% экономии

Стоит ли оно того? ИМХО нет

~~sdio~~ ★★★★★
(03.11.09 13:03:13 MSK)

Ответ на: комментарий от sdio 03.11.09 13:03:13 MSK

Браво.

Маркетинг такой маркетинг.

Davidov ★★★★
(03.11.09 13:07:49 MSK)

Ответ на: комментарий от Davidov 03.11.09 13:07:49 MSK

Кстати, в качестве продолжения, посчитать сколько из этих 3.5% является простым повтором файлов.

Последняя ситуация легко решается простой утилитой, которая делает хардлинк вместо файла.

Davidov ★★★★
(03.11.09 13:10:28 MSK)

Замечательно. На всяких файлопомойках довольно полезная штука, ибо есть стадо идиотов, которое закачивает кучу одинаковых картинок, видео, музыки.

xpahos ★★★★★
(03.11.09 13:19:27 MSK)

Ссылка

Ответ на: комментарий от sdio 03.11.09 12:05:07 MSK

>Предлагаю написать скрипт вычисляющий sha256 для каждого блока FS и выдающий статистику совпадений.

Навскидку можно сказать, что для гнутых исходников с их параноидальным цитированием лицензии в каждом файле, фича будет весьма полезна.

~~linuxfan~~ ★
(03.11.09 13:21:07 MSK)

Ответ на: Удалялка дубликатов. от Camel 03.11.09 11:36:02 MSK

> Удалялку дубликатов встроили в ФС? Ждём ФС с [...] антивирусом.

Не поверишь - возможность проверки файлов сторонним антивирусом по ICAP (или как его там) уже встроена.

Такой вот комбайн :-)

ZFSych
(03.11.09 13:22:03 MSK)

Ссылка

Ответ на: комментарий от no-dashi 03.11.09 12:18:15 MSK

>Никак. "ZFS provides block-level deduplication" (c) цитата из бложека по ссылке. С учетом того, что в mailbox'е сообщения не выравнены по началу блока, никаких преимуществ.

Тебе GNUтый конъюнктивит помешал почитать дальше?

>Byte-level dedup is in principle the most general, but it is also the most costly because the dedup code must compute 'anchor points' to determine where the regions of duplicated vs. unique data begin and end.

И дальше как раз говорится о почте.

~~linuxfan~~ ★
(03.11.09 13:24:35 MSK)

Ответ на: комментарий от sdio 03.11.09 13:03:13 MSK

>localhost $ bs -lq

fixed

Еще раз.

Представь себе что у тебя 10 виртуальных машин по 8Гб каждая. Получаем 80Гб на диске без дедупликации. А теперь включаем дедупликацию и добавляем ещё одну VM. Резултат?

ansi ★★★★
(03.11.09 13:26:45 MSK)

Ответ на: комментарий от GAMer 03.11.09 11:51:59 MSK

> Вот лежит у нас кучка полных бэкапов чего либо, а тут раз! и бэд.

Это тоже предусмотрели - есть такая штука как dedupditto:

http://mail.opensolaris.org/pipermail/opensolaris-arc/2009-October/018636.html

> The second allows the administrator to select a threshhold afterwhich > 2 copies of a block are stored rather than 1. For example, if many > duplicate blocks exist deduplication would reduce that count to just 1; > at some threshhold, it becomes desirable to have multiple copies to > guard against the multiplied effects of the loss of a single block. > The default value is '100'.

ZFSych
(03.11.09 13:26:55 MSK)

Ссылка

А чем оно лучше ФС с паковкой? Ведь сжатию подлежат не только дубликаты, следовательно эфективность в плане объема должна быть лучше.

/me вспомнил STACKER из PC-DOS, который когда-то позволял мне жить с весьма ограниченным объемом диска, например мог уместить 640МБ цд на 200МБ винт...

madcore ★★★★★
(03.11.09 13:27:37 MSK)

Ответ на: комментарий от madcore 03.11.09 13:27:37 MSK

>А чем оно лучше ФС с паковкой?

Тем, что стоимость "распаковки" практически нулевая.

~~linuxfan~~ ★
(03.11.09 13:29:19 MSK)

Ответ на: комментарий от linuxfan 03.11.09 13:21:07 MSK

>Навскидку можно сказать, что для гнутых исходников с их параноидальным цитированием лицензии в каждом файле, фича будет весьма полезна.

TODO:
Выровнить все лиценции на границу блока.

madcore ★★★★★
(03.11.09 13:29:56 MSK)

Ответ на: комментарий от linuxfan 03.11.09 13:29:19 MSK

>>А чем оно лучше ФС с паковкой?

>Тем, что стоимость "распаковки" практически нулевая.

Все зависит от множества факторов, включая алгоритм паковки. в каких-то случаях будет быстрее распаковать, при этом меньше считывая данных с винта.

Упомянутый стакер у меня был на dx2-66,16MB, и ничего, от тормозов я не умер.

madcore ★★★★★
(03.11.09 13:32:18 MSK)

Ответ на: комментарий от no-dashi 03.11.09 12:21:11 MSK

>> А Фанатеги GNU-only

> Используют LVM snapshot. Да, тоже на блочном уровне :-)

А теперь расскажите нам, что делают фанатики Ъ-линукс-way тогда, когда каждую виртуальную машину придется обновить?

Начинают с помощью LVM собирать куски места, где только можно?

ZFSych
(03.11.09 13:33:38 MSK)

Ответ на: комментарий от ansi 03.11.09 13:26:45 MSK

>Представь себе что у тебя 10 виртуальных машин по 8Гб каждая. Получаем 80Гб на диске без дедупликации. А теперь включаем дедупликацию и добавляем ещё одну VM. Резултат?

В один прекрасный и непредсказуемый день место на разделе кончается, виртуальная машина в непонятках, где ее 8ГБ.

madcore ★★★★★
(03.11.09 13:34:47 MSK)

Ответ на: комментарий от madcore 03.11.09 13:27:37 MSK

> А чем оно лучше ФС с паковкой? Ведь сжатию подлежат не только дубликаты, следовательно эфективность в плане объема должна быть лучше.

А кто сказал, что дедупликация исключает сжатие? Так что можно получить профит сначала от сжатия, а потом еще и от дедупликации

ZFSych
(03.11.09 13:35:34 MSK)

Ответ на: комментарий от madcore 03.11.09 13:29:56 MSK

>TODO:

>Выровнить все лиценции на границу блока.

Персональное замечание для тебя: сходи по ссылке или хотя бы прочитай http://www.linux.org.ru/jump-message.jsp?msgid=4196890&cid=4197141

И на всякий случай: фрагмент GNU GPL всегда приводят в начале файла.

~~linuxfan~~ ★
(03.11.09 13:36:43 MSK)

Ссылка

Ответ на: комментарий от Davidov 03.11.09 13:10:28 MSK

> Последняя ситуация легко решается простой утилитой, которая делает хардлинк вместо файла.

Не все так просто. Насколько я понял идею сантехников, это считается двумя разными файлами (типа снапшотов в LVM)

~~no-dashi~~ ★★★★★
(03.11.09 13:37:07 MSK)

Ответ на: комментарий от sdio 03.11.09 12:05:07 MSK

>вычисляющий sha256 для каждого блока FS и выдающий статистику совпадений.
что-то мне в этом методе не нравится

dimon555 ★★★★★
(03.11.09 13:41:24 MSK)

Ссылка

Ответ на: комментарий от madcore 03.11.09 13:32:18 MSK

Все замеры производились внутри tmpfs, чтобы наглядно было видно, что даже gzip имеет весьма ненулевое время распаковки. Размер данных — 22MB. CPU — Intel(R) Pentium(R) 4 CPU 3.20GHz

$ gzip -9c nmap-4.76.tar > nmap-4.76.tar.gz

$ time cat nmap-4.76.tar > /dev/null

real	0m0.012s
user	0m0.000s
sys	0m0.012s

$ time gzip -dc nmap-4.76.tar.gz > /dev/null

real	0m0.249s
user	0m0.248s
sys	0m0.000s

~~linuxfan~~ ★
(03.11.09 13:45:29 MSK)

Ответ на: комментарий от linuxfan 03.11.09 13:24:35 MSK

> Тебе GNUтый конъюнктивит помешал почитать дальше?

Вообще-то, гнутый коньюктивит заставляет меня читать всю статью за один раз. Byte-level dedup упоминается как один из теоретически возможных путей: "Data can be deduplicated at the level of files, blocks, or bytes".

А потом констатируется, что выбрали block-level dedup:

ZFS provides block-level deduplication because this is the finest granularity that makes sense for a general-purpose storage system. Block-level dedup also maps naturally to ZFS's 256-bit block checksums, which provide unique block signatures for all blocks in a storage pool as long as the checksum function is cryptographically strong (e.g. SHA256).

Для упертых фанатиков замечу, что переводится это примерно так: ZFS предоставляет дедупликацию на уровне блоков, поскольку она обеспечивает наилучшую эффективность для СХД общего назначения. Кроме того дедупликация на уровне блоков естественным образом укладывается в 256-битную контрольную сумму блоков ZFS, которая прдоставляет уникальные сигнатуры блоков до тех пор, пока функция вычисления контрольной суммы является криптографически сильной (напримр SHA256).

И да, управление дедупликацией на уровне on/off/verify это подтверждает, иначе были бы синтаксис dedup выглядет примерно так: dedup={off|block|byte|file}[,verify]

~~no-dashi~~ ★★★★★
(03.11.09 13:51:58 MSK)

Удалялка дубликатов.

Похожие темы