Прочитать n-ю строку от конца файла

0

1

Нужно прочитать строку с определенным номером от конца файла. Все строки в файле разной длины. Никак не могу понять, с какой стороны подойти к этой проблеме. Язык в данном случае значения не имеет, считаем, что в библиотеках есть стандартные методы для работы с потоками (чтение, переход, определение текущей позиции и т.д.). Решения типа «прочитать весь файл в массив строк, а потом взять третью с конца» не нравятся (нет ограничений на размер файла).

Ссылка

←	Сгенерировать PHF для набора строк

Borland

→

tail -"$n" -- "$file" | head -1

anonymous
(17.02.15 10:40:05 MSK)

Ссылка

ну и что что вопрос не про это

tac file | sed 'nq;d'

zolden ★★★★★
(17.02.15 10:43:47 MSK)
Последнее исправление: zolden 17.02.15 10:44:52 MSK (всего исправлений: 1)

Ссылка

Последовательный seek+read с конца, инкремент счётчика при встрече '\n'. При достижении нужного значения счётчика читать файл с найденной позиции как обычно.

post-factum ★★★★★
(17.02.15 10:43:53 MSK)

Ссылка

лучше в два прохода

первый подсчет количества строк в файле, второй вытаскивание нужной строки. Иначе нужен буфер размером с файл, в худшем случае.

~~sdio~~ ★★★★★
(17.02.15 10:57:30 MSK)

Ответ на: комментарий от sdio 17.02.15 10:57:30 MSK

лучше в два прохода
★★★★★

ммкей...

anonymous
(17.02.15 11:14:06 MSK)

Ссылка

Ответ на: комментарий от sdio 17.02.15 10:57:30 MSK

Иначе нужен буфер размером с файл

Но зачем он? Нам же нужно просто найти n штук \n с конца и вычитать все, что нужно? Ты вбрасываешь что-ли?

crutch_master ★★★★★
(17.02.15 11:14:08 MSK)
Последнее исправление: crutch_master 17.02.15 11:14:44 MSK (всего исправлений: 1)

Идёшь с конца, находишь '\n' нужное количество раз и считываешь строку. Это с точки зрения алгоритма. На практике man tail и man head

anonymous
(17.02.15 11:21:50 MSK)

Ссылка

В исходник tail посмотреть ещё не советовали?

Attila ★★
(17.02.15 11:22:43 MSK)

Ссылка

Ответ на: комментарий от crutch_master 17.02.15 11:14:08 MSK

я подходил с точки зрения консольных утилит. если исп. С, seek и читать кусками с конца, то мой подход не оправдан.

~~sdio~~ ★★★★★
(17.02.15 11:23:05 MSK)

Ответ на: комментарий от sdio 17.02.15 11:23:05 MSK

если исп. С, seek и читать кусками с конца

Но консольные утилиты разве делают по-другому?

crutch_master ★★★★★
(17.02.15 11:29:49 MSK)

Ссылка

Организовать кольцевой буфер на n строк и считывать строки из файла/потока в него.

Когда файл закончится, взять первую (самую старую) строку из буфера.

anonymous
(17.02.15 12:37:51 MSK)

Ответ на: комментарий от anonymous 17.02.15 12:37:51 MSK

Говнорешение говнозадачи из говноконторы типа яндекса и гугля. Нет никакой нужды хранить n строк, если файл конечной длины. Хранить надо две позиции начала строк - текущей и на n строк назад. В конце файла - сдвигаемся назад и считываем.

anonymous
(17.02.15 13:03:26 MSK)

Ответ на: комментарий от anonymous 17.02.15 13:03:26 MSK

Надо n позиций начала строк.

anonymous
(17.02.15 13:05:50 MSK)

Ссылка

File.open("path","r").readlines[-n]

nikolnik ★★★
(17.02.15 13:06:26 MSK)

Ссылка

Перейти на length - 100 байт. Прочитать до конца (100 байтов). Посчитать сколько строк. Если нашли — вернуть ответ. Если не нашли — отмотать ещё на 100 байтов и т.д. В принципе можно тупо по 1 байту читать и двигаться назад, но чем то мне такой подход не нравится, не знаю чем.

Или просто сделать mmap и идти по массиву с конца.

~~Legioner~~ ★★★★★
(17.02.15 13:20:47 MSK)
Последнее исправление: Legioner 17.02.15 13:22:55 MSK (всего исправлений: 2)

Ответ на: комментарий от Legioner 17.02.15 13:20:47 MSK

не знаю чем.

Количеством обращений к девайсу?

anonymous
(17.02.15 13:24:29 MSK)

Читай блоками с конца, как уже написали

Размер первого вычитываемого блока можно грубо прикинуть как средний_размер_строки*номер_строки*1.5 например. Если не хватило, читай дальше (т.е. ближе к началу). Блоки можно брать размером приблизительно в readahead (~порядка сотни килобайт)

anonymous
(17.02.15 13:25:36 MSK)

Ссылка

Ответ на: комментарий от anonymous 17.02.15 13:24:29 MSK

Ну в любой вменяемой I/O библиотеке есть кеширование да и в ОС тоже есть кеширование, не будет там лишних обращений к девайсу.

~~Legioner~~ ★★★★★
(17.02.15 13:25:40 MSK)

Ответ на: комментарий от Legioner 17.02.15 13:25:40 MSK

и в ОС тоже есть кеширование

Обычно ОС предполагает что данные будут читаться последовательно, вперед. Читать данные с конца считается необычным поведением. Нужно или подсказывать вручную что именно вы собираетесь читать дальше (man readahead(2), posix_fadvise(2)) или читать большими блоками

anonymous
(17.02.15 13:38:52 MSK)

Ответ на: комментарий от anonymous 17.02.15 13:38:52 MSK

Какая разница, ОС же не байтами кеширует. Прочитал байт, она 4 килобайта закеширует (или сколько там до начала блока было), последующие 4095 байта будут из кеша. То, что данные читаются последовательно, может повлиять на предварительную загрузку, т.е. загружается текущий блок и следующий за ним. Этой оптимизации не будет, ну и ладно.

~~Legioner~~ ★★★★★
(17.02.15 13:43:43 MSK)
Последнее исправление: Legioner 17.02.15 13:44:05 MSK (всего исправлений: 1)

Ссылка

И в чем проблема?

1. в цикле читаешь буферами, скажем, по 1кБ свой файл, затем от конца буфера отсчитываешь n или n-1 символов '\n' (n, если файл кончается на '\n' и n-1, если не кончается), запоминая текущую позицию перед чтением следующего буфера. 2. делаешь fseek на найденную позицию + 1 3. читаешь строку.

Пункты 2 и 3 можно объединить в чтение из буфера (но придется обрабатывать случаи, когда строка разрывается границами буферов).

И весь этот бред можно не делать, если ты тупо заmmap'ишь этот файл. Т.е. в этом случае ведро за тебя будет буферы читать, а тебе лишь нужно будет отсчитать n или n-1 символов '\n' назад.

~~Eddy_Em~~ ☆☆☆☆☆
(17.02.15 13:55:24 MSK)

Посмотрел в tail - похоже, там делают так же, как здесь советуют некоторые товарищи - читают небольшие блоки в память и ищут \n в них. Видимо, это лучший способ, так и сделаю. Всем спасибо.

ovk48 ★★★
(17.02.15 13:59:24 MSK) автор топика

Ответ на: комментарий от Eddy_Em 17.02.15 13:55:24 MSK

скажем, по 1кБ свой файл

Файл не читается - читается файловый кеш. Поэтому 4к

И весь этот бред можно не делать, если ты тупо заmmap'ишь этот файл.

Только для этого нужные реверсивные функции, которые рандомный калека не напишет, а функции которые напишет калека еле-еле 100мб/с переплюнут. Если же делать как дебил - ну твой первый вариант, то профит не особый.

Т.е. в этом случае ведро за тебя будет буферы читать

Самое интересное, что оно в отличии от рандомного адепта не будет держать 2 копии в памяти и копировать форфан ещё 1раз, ну если не по дефолту.

anonymous
(17.02.15 15:03:59 MSK)

Ссылка

Ответ на: комментарий от ovk48 17.02.15 13:59:24 MSK

Видимо, это лучший способ,

На основании чего ты сделал такой вывод?

anonymous
(17.02.15 15:04:57 MSK)

Ответ на: комментарий от anonymous 17.02.15 15:04:57 MSK

Наверное на основании того, что так делают практики, а не решатели головоломок. Так делает tail и она делает это очень неплохо уже много лет подряд.

Решение с кольцевым буфером знают все. И все знают, что это не лучшее решение. thepe

anonymous
(17.02.15 16:17:22 MSK)

Ответ на: комментарий от anonymous 17.02.15 16:17:22 MSK

Наверное на основании того, что так делают практики, а не решатели головоломок.

Во-первых сореутилс это набор протухшего говнокода и ни к какой практики отношение он не имеет.

Юзают это говно только ради переносимости, только вот кореутилс никому нахрен за пределами линукса не нужен, поэтому этот аргумент не катит.

Так делает tail и она делает это очень неплохо уже много лет подряд.

Что делает?

Я делаю одной строчкой то, что тайл делает сотной, при этом это работает быстрее: strchr_reverse(mmap(file), '\n');

Решение с кольцевым буфером знают все.

Какой нахрен кольцевой буфер? Больничка?

И все знают, что это не лучшее решение. thepe

Щито, ты к чему это вообще это высрал?

anonymous
(17.02.15 20:22:01 MSK)

Ответ на: комментарий от anonymous 17.02.15 20:22:01 MSK

А, понятно, там какой-то анонимус задвигал про кольцевой буфер для решения этой задачи. Думал это ты.

mmap это нормальное решение, тут не спорю. Правда и не знаю, как оно себя поедет в случае, если файл непрерывно пополняется, как лог-файлы например. Так же норм будет?

anonymous
(17.02.15 22:13:35 MSK)

Ответ на: комментарий от ovk48 17.02.15 13:59:24 MSK

читают небольшие блоки в память и ищут \n в них. Видимо, это лучший способ,

Это способ, когда нужно работать со stdin'ом, который нельзя seek() или mmap(), только читать и держать в памяти заданое кол-во строк.

mky ★★★★★
(17.02.15 22:53:03 MSK)

Ссылка

Ответ на: комментарий от anonymous 17.02.15 22:13:35 MSK

Правда и не знаю, как оно себя поедет в случае, если файл непрерывно пополняется, как лог-файлы например.

Работает так же. Берёшь, если пишешь не под говно, ммапишь файл на ГБ/ТБ адресспейса и всё в ажуре. Сколько читать тебе скажет файлсайз.

Дефолтный же юзкейс, когда ты пишешь под говно, то делаешь мрепам на новый файлсайз.

anonymous
(18.02.15 08:50:20 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Сгенерировать PHF для набора строк

Development

Borland

→

ну и что что вопрос не про это

Похожие темы