LINUX.ORG.RU
ФорумTalks

Яндекс - почта. Неограниченный объем места. Какие технологии?


0

3

Есть у кого-н сколь-либо проверенная информация, какие технологии и оборудование используют компании, щедро раздающие место под почтовые ящики. Как хранят информацию? используют массивы (какие?) или наоборот используют побольше недорогих серверов с дешевыми дисками?

Чем обеспечивают сохранность данных? все же ожидания к сохранности почты у людей выше, чем к сохранности выложенного на ютуб видео.. Raid на аппаратном уровне или репликация на несколько серверов? Чем? Кластерные фс используют? какие? Короче давайте о том, что называется техархитектурой.

А то я как не прикидываю экономику подобного бизнеса - все равно дорогое удовольствие выходит, чтобы безлимитно раздавать.

Почему в толксах? потому, что думаю будут одни догадки.

Как думаешь, сколько реально людей хранят в ящике более гигабайта почты?

Ну а тех кто туда бекапы льет всегда можно забанить за нарушение правил сервиса.
Магии в типа-безлимитном почтовом ящике нет никакой, скажем тот же яндекс диск (предназначенный именно для хранения любых файлов) дает вроде 10 гигабайт.
Подумай и сделай выводы о том, почему у них в ящике безлимитное место :)

winddos ★★★
()
Ответ на: комментарий от winddos

Да даже если там на гигабайт почты, это не значит, что оно не ужмётся до 10 мб =) Почта всё-таки по большей части текст.

Sadler ★★★
()
Ответ на: комментарий от Sadler

Ну предположим, что и аттачменты есть.

Но что то мне подсказывает, что гигабайт в почтовом ящики есть у менее чем 1% пользователей.

winddos ★★★
()

А то я как не прикидываю экономику подобного бизнеса - все равно дорогое удовольствие выходит, чтобы безлимитно раздавать.

Дорогое - это сколько? )

Siado ★★★★★
()
Ответ на: комментарий от Sadler

У меня почти два гига. Все от того, что много писем с аттачами шлют.

Siado ★★★★★
()

Гугл тупо скупает харды с самой большой емкостью и низкой стоимостью терабайта. Срок жизни или скорость чтения на таких объемах все равно никакой роли не играют.

Yasenfire
()

Сейчас не смог найти, но около полугода (может, и больше) назад читал, вроде, прямо у них на сайте как раз об этом. Помню, было сказано, что в одном дата-центре за неделю может полететь десяток винтов, есть специальные люди, которые занимаются их заменой. Интересная статья была, да.

ArtKun ★★★★★
()

Вот кстати, хорошую тему озвучили. Хочу узнать, почему у них так часто почта отваливается с ошибкой «ой, у нас чтото поломалось, уже чиним». Сервису хз сколько лет, а ошибки постоянно валятся. Такмх частых сбоев нигде не встречал больше.

LinuxUser-0x0
()
Ответ на: комментарий от winddos

ну не знаю, у меня 850 Мб уже в ящике, и всё - почта.

aiqu6Ait ★★★★
()
Ответ на: комментарий от winddos

Как думаешь, сколько реально людей хранят в ящике более гигабайта почты?

Да достаточно на LKML подписаться, за год и три гигабайта влегкую нагенерят. А искать гуглом по архиву почты нужное — архиудобно и быстро.

shimon ★★★★★
()

используют массивы (какие?) или наоборот используют побольше недорогих серверов с дешевыми дисками?

Гибридная схема. Дешевые корзины с дешевыми винтами и дешевыми серверами :-)

no-dashi ★★★★★
()
Ответ на: комментарий от Siado

Дорогое - это сколько? )

У всех конечно свое представление о деньгах, я не буду приводить свои расчеты, чтобы не утруждать участников дискуссии. Я, главное, вот какую мысль хотел донести: зачастую проходят сообщения, что дешевле хранить не на СХД, а на самих серверах забитых дешевыми винтами, и тут еще читал, что кое-кто вместо хардверного рейда предпочитает репликацию между серверами (гугл говорит что использует собственную пропиетарной Google FS). А как в реальности, например у того же Яндекса? вот об этом и хотелось бы услышать.

hi_artem
() автор топика
Ответ на: комментарий от LinuxUser-0x0

Купить место в дата-центре и поставить туда свое оборудование?

trex6 ★★★★★
()
Ответ на: комментарий от mm3

ни чего что она : Является коммерческой тайной компании Google. Несовместима с POSIX и создавалась Google для своих внутренних потребностей.

hi_artem
() автор топика
Ответ на: комментарий от hi_artem

Очевидно, что в Я тоже используется собственная технология, которая «является коммерческой тайной компании Яндекс. Несовместима с POSIX и создавалась Яндекс для своих внутренних потребностей.»

Reset ★★★★★
()

даже мне очевидно, что должно использоваться очень много дешевых устройств

dk-
()
Ответ на: комментарий от winddos

1101 Мбайт на gmail. В аттачах много фоток.

muon ★★★★
()
Ответ на: комментарий от hi_artem

зато даёт хорошее представление о том какие задачи ставятся перед используемыми технологиями, какие проблемы возникают (как например восстановление целостности той же GFS после сбоя может занять неделю), в каких масштабах решается эта задача «безлимитного» дискового пространства.

mm3 ★★★
()
Ответ на: комментарий от dk-

даже мне очевидно, что должно использоваться очень много дешевых устройств

Ну вроде все к этому склоняются, но для размещения много дешевых устройств нужно много места. А стройка дата-центров дело не дешевое. Поэтому, например в моей компании предпочитают купить дорогущие массивы, но сэкономить место.

По фотке http://company.yandex.ru/technologies/datacenter/ - дата-центр у Яндекса очень даже приличный, не похож на треш-дата центр.

hi_artem
() автор топика
Ответ на: комментарий от hi_artem

Датацентр может вырубиться, поэтому их должно быть несколько и надо между ними уметь реплицировать данные.

Reset ★★★★★
()
Ответ на: комментарий от hi_artem

Это я к тому, что учитывая денежные обороты яндекса, для них закупить пачку доп. места будет совсем не дорого )

Siado ★★★★★
()
Ответ на: комментарий от hi_artem

DAS или все же SAN?

Почта и файлообменники - задачи оооочень хорошо параллелящиеся, с небольшими затратами процессора, вследсвие чего они замечательно кластеризуются. Для этой задачи выгодней disk enclosure (DAS как ты его обозвал), каждый из которых обслуживает определенное количество клиентов, имеет пару-тройку приаттаченых корзинок и емкость этак терабайт на 400-600.

no-dashi ★★★★★
()
Ответ на: комментарий от mono

если активно пользоваться рассылками и не чистить ящик, место быстро забивается.

Если 1000 человек на одном сервере пользуются одной рассылкой, дупликация быстро устраняется.

proud_anon ★★★★★
()

Лучше бы поддержку режима idle для imap4 включили бы, как у Гпочты.

firestarter ★★★☆
()
Ответ на: комментарий от proud_anon

Если 1000 человек на одном сервере пользуются одной рассылкой, дупликация быстро устраняется.

Крайне маловероятно, что у них используется дедупликация. Это условно хорошо работает только для виртуалочек.

red_eyed_peguin
()
Ответ на: комментарий от red_eyed_peguin

Крайне маловероятно, что у них используется дедупликация. Это условно хорошо работает только для виртуалочек.

Если Яндекс действительно использует freeBSD, то там ZFS поддерживается => использование дедупликации весьма вероятно. Это же огромный профит

hi_artem
() автор топика

ни какой магии скорее мат статистика,дисперсия и мат-ожидание

wingrime
()
Ответ на: комментарий от shimon

Думаю у гугла есть способы избегать дублирование всяких крупных листов рассылок.

Вообще у меня самого 200мб на личном ящике за 4 года.
И 3гб на рабочем за 5 лет.

winddos ★★★
()
Ответ на: комментарий от proud_anon

Если 1000 человек на одном сервере пользуются одной рассылкой, дупликация быстро устраняется.

Для почты дедубликация плохо работает, об этом была хорошая статья про компрессию от авторов mailinator.com, http://mailinator.blogspot.com/2012/02/how-mailinator-compresses-email-by-90....

maxcom ★★★★★
()
Ответ на: комментарий от maxcom

Для почты дедубликация плохо работает, об этом была хорошая статья про компрессию от авторов mailinator.

Насколько я понимаю эту статью, как раз в случае «1000 пользователей читают LKML» она и работает, только случай этот встречается редко, особенно на Mailinator'е, у которых очень много спама с намеренно рандомизированными телами сообщений, который они не удаляют сразу, а сохраняют в силу специфики сервиса.

Но в итоге, ЕМНИ мой мозг, путем дедубликации строк, а не тел целиком, и сжатия крупных сообщений LZMA они добились утрамбовывания в 90%. Так что сжать-то можно.

Правда, они еще и всю почту хранят в RAM, так что там скорости другие, чем если бы она была на HDD.

proud_anon ★★★★★
()
Ответ на: комментарий от proud_anon

Дедубликация это такой уже сложившийся термин, который обычно относится к устранению дублирующихся блоков на FS. То, что делает mailinator это скорее такая хитрая компрессия с общим словарем

maxcom ★★★★★
()
Ответ на: комментарий от maxcom

Ну, значит компрессия. На уровне ФС, конечно, будет скорее всего значительно менее эффективно.

proud_anon ★★★★★
()

Да ничем не обеспечивают. Это как банки - держатся н атом, что пользователи не будут офигевать в большом количестве.

Quasar ★★★★★
()
Ответ на: комментарий от winddos

Скорее наоборот, на ext4 ведь перешли потому, что она быстрее пересоздаётся после обнаружения повреждений, чтобы не чекать фс.

GAMer ★★★★★
()
Ответ на: комментарий от mono

если активно пользоваться рассылками и не чистить ящик, место быстро забивается.

У меня всего пицот метров занято, подписан на пару больших рассылок и десяток маленьких.

overmind88 ★★★★★
()
Ответ на: комментарий от hi_artem

Если Яндекс действительно использует freeBSD, то там ZFS поддерживается => использование дедупликации весьма вероятно. Это же огромный профит

Поменьше маркетоидов слушай. Дедубликация в ZFS весьма и весьма шняжная.

red_eyed_peguin
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.