Написать сортировку файла за 3 часа (брутал-собес)

2

4

Задача:
Написать сортировку файла.

Требования:
Дан текстовый файл размером 4 Гб. Файл содержит строки в кодировке UTF-8 средней длины 20 символов. Файл содержит три колонки, разделенные пробелами: «e-mail пользователя», «дата в формате ISO8601», «число, идентификатор некоторого объекта». Например,

superuser@yandex.ru 2010-12-02T13:30:12 11245
vasya@gmail.com 2011-03-25T00:00:02 88765
superuser@yandex.ru 2010-12-02T13:40:15 11244

У вас в распоряжении есть 512 Мб памяти.

Нужно написать программу, которая сортирует файл:
./sort input.txt output.txt

Прежде чем приступить к реализации, расскажите, пожалуйста, детали алгоритма, который вы будете реализовывать.

Ссылка

←	Qt и OpenGL. Использует ли Qt OpenGL для прорисовки виджетов?

изменение размеров GtkLabel

→

← 1 2 3 4 5 6 →

Ответ на: комментарий от true_admin 12.06.13 15:58:45 MSK

~40 из предположения, что один и тот же пользователь не делает запросы 1 раз в секунду, иначе целая строка. Я не уверен, что это верное предположение, а имя юзера ~20 символов. Все равно я твой подход совершенно не понимаю, честно.

qnikst ★★★★★
(12.06.13 16:05:07 MSK)

А задача на какую должность?

~~gh0stwizard~~ ★★★★★
(12.06.13 16:07:08 MSK)

Ответ на: комментарий от gh0stwizard 12.06.13 16:07:08 MSK

http://company.yandex.ru/job/vacancies/dev_browser.xml

nerdogeek ★
(12.06.13 16:08:18 MSK) автор топика

Ответ на: комментарий от qnikst 12.06.13 15:54:05 MSK

Уточняющий вопрос: последние строчки,

[XYXYXYXYXYXYXY][ZKZKZKZKZKZKZKKZ][LLLLL]
[XYZKXYZKXYZKXYZKXYZKXYZKXYZKXYZK][LLLLL]

это уже на диске?

anonymous
(12.06.13 16:11:07 MSK)

Ответ на: комментарий от true_admin 12.06.13 15:58:45 MSK

к слову, подозреваю, что я последнюю фазу сортировки бы за 3 часа не написал :) и сначала бы сделал халявный вариант.

Инетерсно насколько тут актуальная байка об школьной олимпиаде по информатике, где была задача на то, чтобы сделать архиватор, выигрывает тот, кто лучше жмет при условии верности результата, где в итоге выграл человек написавший 'cp'.

qnikst ★★★★★
(12.06.13 16:11:42 MSK)

Ответ на: комментарий от qnikst 12.06.13 16:05:07 MSK

один и тот же пользователь не делает запросы 1 раз в секунду, иначе целая строка

У меня сомнения что это логи доступа. Больше похоже на дату регистрации и id.

Все равно я твой подход совершенно не понимаю, честно.

Мы берём частичный индекс чтобы он влез в память и сортируем им.

Потом вторым прогоном исправляем то что не отсортировалось.

true_admin ★★★★★
(12.06.13 16:13:10 MSK)

Ссылка

Ответ на: комментарий от nerdogeek 12.06.13 16:08:18 MSK

Благо я пока не сишнек, алгоритм ниже можно зафигачить хоть на перле/питоне/руби :)

http://www.daniweb.com/software-development/cpp/threads/430160/how-to-sort-th...

If your sort key is short, you can loop to
 1a) remember line position (ftell)
 1b) read line
 1c) extract the key
 put both key & position in a structure array
 Now sort the structure
 Read each line from the the line position (fseek) and write the sorted file.

I used this technique and it was quite fast, even with reading the file twice.

~~gh0stwizard~~ ★★★★★
(12.06.13 16:15:04 MSK)

Ответ на: комментарий от gh0stwizard 12.06.13 16:15:04 MSK

Это о чём пишет true_admin.

anonymous
(12.06.13 16:17:10 MSK)

Ссылка

Ответ на: комментарий от gh0stwizard 12.06.13 16:15:04 MSK

1c) extract the key

Не подойдет: size(key)==size(line)

nerdogeek ★
(12.06.13 16:17:35 MSK) автор топика

Ссылка

Ответ на: комментарий от qnikst 12.06.13 16:11:42 MSK

жаль времени нет, я бы попытался. По сути, достаточно менять текущую строку с предыдущей. Для этого надо знать смещение и длину обеих строк, а дальше всё тривиально, не?

Т.е. да, на последнем этапе это сортировка пузырьком. Можно более продвинутую эвристику, но тут уже можно багов наплодить. А так алгоритм такой: находим неотсортированный блок данных, выгружаем в память, сортируем, вгружаем обратно. В блок данных входит всё что имеет одинаковый префикс, поэтому найти его не проблема.

true_admin ★★★★★
(12.06.13 16:18:58 MSK)

Ответ на: комментарий от qnikst 12.06.13 15:54:05 MSK

Понял кажется, вопрос в конечном слиянии, но затраты на него имхо сложно оправдать в свете жутковатых корнер-кейсов и дешевизны места на диске.

anonymous
(12.06.13 16:20:03 MSK)

Ответ на: комментарий от true_admin 12.06.13 16:18:58 MSK

То есть в худшем случае - O(n^2)

anonymous
(12.06.13 16:20:36 MSK)

Ответ на: комментарий от anonymous 12.06.13 16:11:07 MSK

да на диске, промежуточные операции в памяти, т.е. на диск списывается итоговый блок.

Грубое описание алгоритма: 1). mmap-им начало первого и второго блока в память, выделяем место под рабочую зону и будущий результат. 1). сравниваем X0 и Y0, меньшее кладем в зону результата, сдвигаем соотв указатель. Если нужно переложить Y0, то если X0 помещается, то кладем его вместо Y0, иначе в рабочую зону. 2). делаем тоже самое для следующего элемента итого у нас получаются следующие зоны: [Q(сортированный список)][A(1-ый-список)][B(перемещенный-1ый-список)][C(2ой-список] ++ [D (рабочая область)]

где Q A B C D сортированы, q<b<d<a<c.

Как-то так, в целом тут или читать статью надо или писать, но нужно работать.

qnikst ★★★★★
(12.06.13 16:23:52 MSK)

На джаве стандартной сортировкой сортируем куски по миллиону строк, куски дампим в файлы, потом сливаем эти файлы по два, пока не останется конечный результат. Всякие парсинги и прочее стандартными средствами.

Сливать можно не по два, а умнее, вести отсортированный список текущих элементов каждого файла, тогда за один проход все файлы сливаются тратя O(кол-во файлов) памяти, но тут алгоритм будет хитрый, возможны баги, за 3 часа в нервной обстановке делать бы не стал.

~~Legioner~~ ★★★★★
(12.06.13 16:24:05 MSK)

Ответ на: комментарий от anonymous 12.06.13 16:20:36 MSK

Там over 200 млн данных которые были сгенерены миллионами рандомных юзеров. Откуда там худший случай?

Ну а так спорить бессмысленно, можно подобрать такой датасет где то что я предлагаю вообще никогда не досчитается. Это мне напоминает hash collision attack типа такого: http://mail.python.org/pipermail/python-dev/2011-December/115116.html

true_admin ★★★★★
(12.06.13 16:25:56 MSK)

Ссылка

Ну или суровый метод - ставим 64-битный линукс, накатываем свопа over 9000 и сортируем std::sort-ом :) Если бы строки были фиксированной длины, можно было бы вообще за-mmap-ить и in-place отсортировать :)

~~Legioner~~ ★★★★★
(12.06.13 16:26:22 MSK)
Последнее исправление: Legioner 12.06.13 16:27:27 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от anonymous 12.06.13 16:20:03 MSK

ага именно. Собственно первый мой вопрос ТС-у был именно об этом, можем ли мы использовать много лишнего место, т.к. это дико упрощает алгоритм.

qnikst ★★★★★
(12.06.13 16:26:52 MSK)

Ответ на: комментарий от Legioner 12.06.13 16:24:05 MSK

Сливать можно не по два, а умнее, вести отсортированный список текущих элементов каждого файла, тогда за один проход все файлы сливаются тратя O(кол-во файлов) памяти, но тут алгоритм будет хитрый, возможны баги, за 3 часа в нервной обстановке делать бы не стал.

по 2 это практически самое умное, т.к. в этом случае будет выстроено сбалансированное бинарное дерево слияний, особенно если блоков 2^N.

Если поймешь хацельную нотацию, то вот:

mergeList = head .go 
  where
    go [] = []
    go [x] = [x]
    go (a:b:[]) = a `merge` b
    go (a:b:c) = go (merge a b: go c)

qnikst ★★★★★
(12.06.13 16:31:03 MSK)

Ответ на: комментарий от qnikst 12.06.13 16:26:52 MSK

Предполагается что 512 Мб без свопа. Закончилась память - лови Out of Memory exception

nerdogeek ★
(12.06.13 16:33:56 MSK) автор топика

Ответ на: комментарий от qnikst 12.06.13 16:31:03 MSK

по 2 это практически самое умное, т.к. в этом случае будет выстроено сбалансированное бинарное дерево слияний, особенно если блоков 2^N.

Дерево слияний не обязательно должно быть бинарное. Если по 2, то будет log2_N итераций, пока не получится конечный результат. Если все сразу сливать в 1, то за 1 итерацию уложимся.

~~Legioner~~ ★★★★★
(12.06.13 16:37:34 MSK)

Стоимость merge sort против других алгоритмов: http://en.wikipedia.org/wiki/Timsort#Performance

~~gh0stwizard~~ ★★★★★
(12.06.13 16:40:24 MSK)

Ссылка

Ответ на: комментарий от true_admin 12.06.13 16:18:58 MSK

жаль времени нет, я бы попытался. По сути, достаточно менять текущую строку с предыдущей. Для этого надо знать смещение и длину обеих строк, а дальше всё тривиально, не?

я честно или не понимаю до конца твоего варианта... или он сводится к тому же, про что пишу я начиная с какого-то момента, но в этом случае мне не ясно зачем городить огород с подстроками.

qnikst ★★★★★
(12.06.13 16:40:46 MSK)

Ссылка

Ответ на: комментарий от nerdogeek 12.06.13 16:33:56 MSK

не в этом вопрос: я могу писать в новый файл или нет?

qnikst ★★★★★
(12.06.13 16:41:13 MSK)

Ответ на: комментарий от qnikst 12.06.13 16:41:13 MSK

Да. Разрешено все, что не запрещено)

nerdogeek ★
(12.06.13 16:42:14 MSK) автор топика

merge sort на ява и на scala (ниже в комментах):

http://www.codeodor.com/index.cfm/2007/5/10/Sorting-really-BIG-files/1194

P.S. Зачем давать такие задачи, когда их уже решили другие? :)

~~gh0stwizard~~ ★★★★★
(12.06.13 16:44:21 MSK)

Ответ на: комментарий от Legioner 12.06.13 16:37:34 MSK

сложность итераций сможешь посчитать? + если дело должно быть inplace, то сложность будет слишком большой.

qnikst ★★★★★
(12.06.13 16:45:25 MSK)

Ссылка

Ответ на: комментарий от ziemin 12.06.13 14:03:30 MSK

Не, Trie не подойдет. Т.к. в худшем будет N^average_length по памяти. Т.е. где-то N^20, где N - размер алфавита. Подошел бы если было много одинаковых префиксов, а поскольку это условие не известно из описания задачи, то может быть пролет.

nerdogeek ★
(12.06.13 16:47:46 MSK) автор топика

Ответ на: комментарий от gh0stwizard 12.06.13 16:44:21 MSK

тут вопрос в разрешенности использования доп дисковой памяти, плюс 1-2 можно сделать inplace, без создания кучи файлов :)

qnikst ★★★★★
(12.06.13 16:48:47 MSK)

Ответ на: комментарий от nerdogeek 12.06.13 16:47:46 MSK

Т.к. в худшем будет N^average_length

Да нет же. Необязательно всё имя пихать в дерево. Достаточно нескольких первых символов и каждый отдельный файлик уже с лихвой поместится в память!

ziemin ★★
(12.06.13 16:50:38 MSK)

Ответ на: комментарий от qnikst 12.06.13 16:23:52 MSK

Грубое описание алгоритма ...

Если я правильно понял (а это не очень просто в таких ситуациях), то это описание merge.

Если так, то это не inplace, т.к. рабочая зона растёт линейно.

inplace_merge c O(n^2) - это тупо сортировка вставками, (ну, понятно, что интереса не представляет).

inplace_merge c O(n log n) - красивый метод с применением «разделяй и властвуй.» Дано: вектор, содержащий 2 упорядоченные последовательности; индексы начала, конца, середины - известны.

1) Выбирается средний по позиции элемент в первой последовательности.

2) Во второй делением пополам ищется этот же элемент (или самый близкий).

3) Кусок между серединами циклически сдвигается таким образом, что вместо двух упорядоченных последовательностей получаем 4 упорядоченные последовательности:

(упрощенный пример)
[12445689ACCDF0125699BBDF] =>
6, 6 =>
[1244560125689ACCDF99BBDF]

4) Две пары упорядоченных векторов рекурсивно сливаются. На маленьких размерностях - выход из рекурсии - swap.

Ну, понятно, что если всё это добро на диске, то получим O(n log n) io операций.

inplace_merge c O(n) - очень красивая тема, но довольно объемная в описании.

tl;dr, но может кому-то интересно...

anonymous
(12.06.13 16:52:58 MSK)

Ответ на: комментарий от ziemin 12.06.13 16:50:38 MSK

А, ясно. Только не понятно как мержить потом все деревья, чтобы памяти хватило.

nerdogeek ★
(12.06.13 16:55:37 MSK) автор топика

Ответ на: комментарий от nerdogeek 12.06.13 16:42:14 MSK

тогда:

1). считываем кусок файла память скажем 128Мб (определить дефайном, потом подобрать хорошее значение)

2). сохраняем отступы начала строк

3). сортируем qsort-ом индексы

4). выделяем новый кусок памяти в который поместится остортированный файл

5). складываем в него данные в соответсвии с отсортированными индексами.

6). записываем отсортарованныей данные назад, сохраняем отступ на отсортированные данные, и конец данных.

7). повторяем с п.1 до тех пор пока ещё есть данные в файле

8). мержим данные в новый файл

8.1) находим минимальную первую строку, кладем в новый файл, инкрементируем отступ.

PROFIT

qnikst ★★★★★
(12.06.13 16:58:10 MSK)

Ответ на: комментарий от qnikst 12.06.13 16:58:10 MSK

https://github.com/abudnik/extsort

nerdogeek ★
(12.06.13 16:59:21 MSK) автор топика

Ответ на: комментарий от qnikst 12.06.13 16:48:47 MSK

тут вопрос в разрешенности использования доп дисковой памяти, плюс 1-2 можно сделать inplace, без создания кучи файлов :)

В задаче этого не оговорено. Понятно, что надо использовать либо создание файлов, либо 100500 раз перечитывать файл. И тот и другой вариант имеет свои плюсы и недостатки.

~~gh0stwizard~~ ★★★★★
(12.06.13 16:59:27 MSK)

Ссылка

Ответ на: комментарий от qnikst 12.06.13 16:58:10 MSK

Та-Да) Только написал это за 7 часов в сумме

nerdogeek ★
(12.06.13 17:00:35 MSK) автор топика

Ответ на: комментарий от anonymous 12.06.13 16:52:58 MSK

Если так, то это не inplace, т.к. рабочая зона растёт линейно.

в каких-то очень плохих случаях, т.к. иначе можно поддерживать инвариант: если у нас хватает места для перемещения строки из рабочей зоны в C, то перемещать, да лишнее гоняние по памяти, зато inplace.

inplace_merge c O(n log n) - красивый метод с применением «разделяй и властвуй.» Дано: вектор, содержащий 2 упорядоченные последовательности; индексы начала, конца, середины - известны.

а никакой ссылки на статью нет, на досуге почитать?

qnikst ★★★★★
(12.06.13 17:03:14 MSK)

Ответ на: комментарий от nerdogeek 12.06.13 17:00:35 MSK

кто написал, что написал? Если про меня, то я это решение предложил с 2-ой минуты чтения топика, а дальше извращался с мыслями про inplace, в предположении, что диск трогать нельзя :). За сколько бы я написал - хз, наверное за 3 часа бы не успел, тем более на плюсах, тем более на чужом рабочем месте (а если без доступа к man интернету, то совсем бы плохо было).

qnikst ★★★★★
(12.06.13 17:07:01 MSK)

Ссылка

Ответ на: комментарий от nerdogeek 12.06.13 16:55:37 MSK

Никак. Из-за дерева ты уже отсортировал всё на макроуровне. Тупо пишешь файлики друг за другом

ziemin ★★
(12.06.13 17:08:45 MSK)

Ответ на: комментарий от ziemin 12.06.13 17:08:45 MSK

Тока не забудь, что, по-хорошему имена в email регистрозависимы и что более короткие идут раньше (выше я предлагал это учитывать при биении на файлы)

ziemin ★★
(12.06.13 17:10:02 MSK)

Ссылка

Ответ на: комментарий от ziemin 12.06.13 17:08:45 MSK

Ок, если будет время и желание, напиши свое решение, будем меряться пиписьками (мой external mergesort 4гига за 10 минут сортирует) :)

nerdogeek ★
(12.06.13 17:16:30 MSK) автор топика

Ответ на: комментарий от qnikst 12.06.13 17:03:14 MSK

в каких-то очень плохих случаях, т.к. иначе можно поддерживать инвариант: если у нас хватает места для перемещения строки из рабочей зоны в C, то перемещать, да лишнее гоняние по памяти, зато inplace.

Я так пробовал, когда игрался с merge_sort. При такой эвристике - получится O(n^2), что было на первый взгляд неожиданно )))

а никакой ссылки на статью нет, на досуге почитать?

Вроде как общее место; я сначала придумал сам, потом посмотрел в плюсах, понял, что не учёл один момент, и потом долго думал как сделать O(n) inplace_merge (уже прочитал, что это возможно).

/usr/include/c++/4.7/bits/stl_algo.h::__merge_without_buffer

Там много ещё интересного в этом файле. Кстати std::inplace_merge несмотря на своё название сначала пытается выделить какую-нибудь память (пропорциональную N), слить в неё, а уж после неудачи вызывает Ъ inplace_merge!

O(N) inplace_merge я так и не придумал, но решение очень красивое.

anonymous
(12.06.13 17:17:26 MSK)

Ссылка

Ответ на: комментарий от nerdogeek 12.06.13 17:16:30 MSK

А памяти сколько требует?

ziemin ★★
(12.06.13 17:17:47 MSK)

Ответ на: комментарий от nerdogeek 12.06.13 16:59:21 MSK

https://github.com/abudnik/extsort

натравил на http://norvig.com/big.txt, результат:

sorting finished...

real	0m9.043s
user	0m6.192s
sys	0m0.212s
~$ du -h big.txt
6,2M	big.txt
~$ du -h out.txt
257M	out.txt

мало того, что содержимое размножило до 257Мб, так еще и внутри ничего и не отсортировано

~~wota~~ ★★
(12.06.13 17:19:11 MSK)

Ответ на: комментарий от wota 12.06.13 17:19:11 MSK

~$ cat 1.cpp
#include <algorithm>
#include <cstdint>
#include <cstdio>
#include <cstring>
#include <vector>

#define BUF_SIZE 65536
FILE* in;
	
const char* getline( uint32_t pos, char* buf )
{
	fseek( in, pos, SEEK_SET );
	return fgets( buf, BUF_SIZE, in );
}

int main( int argc, char** argv )
{
	in = fopen( argv[ 1 ], "rb" );
	
	char	 buf0[ BUF_SIZE ];
	char	 buf1[ BUF_SIZE ];
	uint32_t offset = 0;
	
	std::vector<uint32_t> lines;
	
	char buf[ BUF_SIZE ];
	while( fgets( buf, BUF_SIZE, in ) )
	{
		uint32_t new_offset = ftell( in );
		
		auto pos = std::lower_bound( 
			lines.begin(), lines.end(), offset,
			[&]( uint32_t a, uint32_t b ) { int c = strcmp( getline( a, buf0 ), getline( b, buf1 ) ); return c ? c < 0 : a < b; } );

		lines.insert( pos, offset );
		fseek( in, offset = new_offset, SEEK_SET );
	}
	
	FILE* out = fopen( argv[ 2 ], "wt" );
	for( uint32_t pos : lines )
	{
		getline( pos, buf0 );
		fwrite( buf0, strlen( buf0 ), 1, out );
	}
	
	fclose( out );
}

~$ g++ -std=c++11 -Ofast 1.cpp && time ./a.out big.txt out.txt

real	0m1.857s
user	0m0.692s
sys	0m1.164s
~$ du -h big.txt
6,2M	big.txt
~$ du -h out.txt
6,2M	out.txt
~$ wc -l out.txt 
128457 out.txt
~$ wc -l big.txt 
128457 big.txt

и что забавно - проигрывает самому тупому решению в лоб, хотя понятно, что на больших размерах вставка станет гораздо дороже

П.С. хотя проигрывает наверняка из-за мусора в конце выхлопа

~~wota~~ ★★
(12.06.13 17:25:27 MSK)
Последнее исправление: wota 12.06.13 17:31:20 MSK (всего исправлений: 1)

Ответ на: комментарий от ziemin 12.06.13 17:17:47 MSK

256 + 32 Мб. По «ps aux|grep sort» не более 360 Мб.

nerdogeek ★
(12.06.13 17:26:47 MSK) автор топика

Ссылка

Ответ на: комментарий от wota 12.06.13 17:19:11 MSK

Входной должен называться input.txt, а на выходе размножило, но посортировало (там в начале пустые строки) - отсортированные данные в конце.
Я уверен, что это не единственный баг.

nerdogeek ★
(12.06.13 17:33:47 MSK) автор топика

Ответ на: комментарий от nerdogeek 12.06.13 17:33:47 MSK

Входной должен называться input.txt

я в коде изменил на big.txt

а на выходе размножило, но посортировало

неа

~~wota~~ ★★
(12.06.13 17:34:38 MSK)

Ссылка

Ответ на: комментарий от wota 12.06.13 17:25:27 MSK

попробуй big.txt увеличить до нескольких Гб :)

nerdogeek ★
(12.06.13 17:34:42 MSK) автор топика

Ответ на: комментарий от nerdogeek 12.06.13 17:34:42 MSK

да - я под кодом отметил этот факт, но зато это честный и рабочий вариант :) пока убегу, потом может сделаю нормальный

~~wota~~ ★★
(12.06.13 17:39:46 MSK)

Ссылка

Я бы фильтровал строки по первому символу и сохранял бы каждое отфильтрованое значение в файл с таким же именем. Далее, если, допустим, файл имеет размер больше 100МБ например, то делил бы его по второй букве и т.д. пока не будет файлов размером больше 100МБ. Потом отсортировал бы каждый файл и объеденил бы по порядку.

Для этого потребуется только лишь ещё 8ГБ свободного места на диске под файлы.

~~nanoolinux~~ ★★★★
(12.06.13 18:44:33 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 4 5 6 →

←	Qt и OpenGL. Использует ли Qt OpenGL для прорисовки виджетов?

Development

изменение размеров GtkLabel

→

Похожие темы