Сортировка больших файлов

2

2

Предлагаю холивар: имеется текстовой файл размером в 10 метров, состоящий из неотсортированного массива чисел, в одной строке - одно число. Нужно прочитать исходный файл кусками по миллиону строк, отсортировать каждый кусок и записать его в отдельный временный файл. Потом нужно пробежаться по этим временным файлам и смержить все в итоговую сортировку в один результирующий файл. Смысл - в ограничении памяти, ее немного, поэтому используем дисковое пространство. Я наваял решение на питоне, которое выложу чуть попозже. На моей машинке 11-метровый файл (5 миллионов строк) перемалывается порядка минуты.

Финальная сортировка выглядит так:

f_output = open('output.txt', 'a')
for x in heapq.merge(*iters):
  f_output.write(str(x)+'\n')
f_output.close()

Кто быстрее ?

Ссылка

←	Rails and maps API

git-as-svn: фронтенд-сервер svn к git-репозиторию

→

Показаны ответы на комментарий. Показать все комментарии.

Ответ на: комментарий от proud_anon 09.09.2014 20:02:18 +00:00

Не, ну пожалуйста, я не против. Просто с интами фиксированного размера у всякой скриптопетушни хоть какой-то шанс ещё бы был.

mix_mix ★★★★★
(09.09.2014 20:04:46 +00:00)

Ответ на: комментарий от mix_mix 09.09.2014 20:04:46 +00:00

Не, ну пожалуйста, я не против. Просто с интами фиксированного размера у всякой скриптопетушни хоть какой-то шанс ещё бы был.

Наоборот же, у скриптовых яп очень большой оверхед на маленькие объекты. Шансы есть если работать с длинными строками

~~mashina~~ ★★★★★
(09.09.2014 20:08:38 +00:00)

Ссылка

Ответ на: комментарий от mix_mix 09.09.2014 20:04:46 +00:00

Просто с интами фиксированного размера у всякой скриптопетушни хоть какой-то шанс ещё бы был.

Не уверен... плохая работа с числами большого объёма, а особенно их парсинг из текста, в наколеночной программе на сях может быть хуже.

P.S.Правда, у автора надо читать по миллиону строк, а у меня их всего менее 500.000... ну, можно читать по 100.000.

proud_anon ★★★★★
(09.09.2014 20:08:44 +00:00)

Ответ на: комментарий от proud_anon 09.09.2014 20:08:44 +00:00

да, я так и прописал кстати - по 100000 строк

kto_tama ★★★★★
(09.09.2014 20:10:41 +00:00) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Rails and maps API

Development

git-as-svn: фронтенд-сервер svn к git-репозиторию

→

Похожие темы