Задачка на самый быстрый подсчет встречаемости слов

2

2

Привет,

По мотивам темы: Различия между macOS и GNU/Linux

Есть файлик. Вот он: https://disk.yandex.ru/d/XaavsEkOvCT4HQ

Нужно пройтись по файлику и посчитать встречаемость каждого слова в тексте. Словом считается любая последовательность букв от a до z. Регистр нужно привести к одному. Любой другой символ прерывает слово.

Результат записать в другой файл в формате: <количество> <слово>. Например, текст: «cat, cat, cat». Ответ будет такой: «3 cat». Также, слова при выводе нужно отсортировать по их встречаемости.

Например первые несколько строк вывода из приведенного выше файла будут такими:

3343241 the
1852717 and
1715705 of
1560152 to
1324244 a

Дополнительное условие, нужно, чтобы ваша программа отрабатывала быстрее, чем за 7 секунд на Core i5-4690 @ 3.7 GHz.

Понятно, что железяки у всех разные, поэтому если участвуете, пишите на каком оборудовании вы запускали свою программку.

Вроде как BceM_IIpuBeT хотел поучаствовать. Может еще кто-то присоединится.

Я свою штуку написал. Отрабатывает примерно за 5 секунд на Мак-мини 2012-го года, core i7 @ 2,3 GHz.

Ссылка

←	При поиске пересечений (Intersections), возникает ошибка: operands could not be broadcast together with shapes (384,) (73,)

как запустить аплеку в adev?

→

← 1 2 3 4 →

При всём уважении и т. д., а где, собственно, твой код решения под соответствующей лицензией? Если я пропустил чего, то поправь меня, пожалуйста.

anonymous
(22.10.21 16:19:30 UTC)

Ссылка

На стандартной библиотеке?

BceM_IIpuBeT ★★☆☆☆
(22.10.21 16:29:36 UTC)

Ссылка

Отрабатывает примерно за 5 секунд

time echo '2 10000000 ^ p'|dc

а вот так за сколько отрабатывает?

anonymous
(22.10.21 16:36:32 UTC)

Language: Italian

Character set encoding: UTF-8

Ты что-то не то кинул

BceM_IIpuBeT ★★☆☆☆
(22.10.21 17:11:54 UTC)

Ссылка

А какой размер файла? Он в оперативку влезает? Если да - то не интересно же.

system-root ★★★★★
(22.10.21 17:13:18 UTC)

Ответ на: комментарий от anonymous 22.10.21 16:36:32 UTC

1:01

на М1

anonymous
(22.10.21 17:15:12 UTC)

Ссылка

Ответ на: комментарий от anonymous 22.10.21 16:36:32 UTC

вопрос не верный, правильно так:

time cat huge.txt > /dev/null

anonymous
(22.10.21 17:17:54 UTC)

Отрабатывает примерно за 5 секунд

От начала загрузки файла? Давай без примерно, ты же не секундмером мерил. Запукс программы и её завершение в виде time ./app показывай

LINUX-ORG-RU ★★★★★
(22.10.21 17:23:04 UTC)

Ссылка

Ответ на: комментарий от anonymous 22.10.21 17:17:54 UTC

real 0.045

и что это дает?

anonymous
(22.10.21 17:28:20 UTC)

Ответ на: комментарий от system-root 22.10.21 17:13:18 UTC

Влазит 336,2 МБ , а если бы не влазило то вообще тесты бесполезные ибо всё упрётся в то у кого HDD/SSD быстрее.

LINUX-ORG-RU ★★★★★
(22.10.21 17:29:29 UTC)

Попробовал notepad++ подсчитать количество «the»

Сижу рыдаю ...

anonymous
(22.10.21 17:33:12 UTC)

Ответ на: комментарий от anonymous 22.10.21 17:33:12 UTC

Language: Italian

the

anonymous
(22.10.21 17:33:58 UTC)

Ответ на: комментарий от anonymous 22.10.21 17:33:58 UTC

какая разница, надо только az искать

LINUX-ORG-RU ★★★★★
(22.10.21 17:36:54 UTC)

Ссылка

Ответ на: комментарий от LINUX-ORG-RU 22.10.21 17:29:29 UTC

Это сейчас оно упирается в «у кого диск и память быстрее». Потому, что обычные структуры данных почти во всех нормальных языках оптимизировали по самые помидоры.

На ddr4 в 4 канал и 1 канал ddr3 один и тот же код будет с одинаковой скоростью работать?

system-root ★★★★★
(22.10.21 17:37:09 UTC)

Ответ на: комментарий от anonymous 22.10.21 17:28:20 UTC

и что это дает?

показывает какой ты идиот - dc установи

anonymous
(22.10.21 17:38:19 UTC)

Ответ на: комментарий от anonymous 22.10.21 17:38:19 UTC

установлено

anonymous
(22.10.21 17:39:52 UTC)

Ответ на: комментарий от system-root 22.10.21 17:37:09 UTC

Надо исходники всех тестов и всте тестирующие на всех машинах прогоняют все тесты, тот когд который на всех машинах выдаст лучшее для машины время и победит

LINUX-ORG-RU ★★★★★
(22.10.21 17:40:46 UTC)

Ссылка

Ответ на: комментарий от anonymous 22.10.21 17:33:12 UTC

Попробовал notepad++ подсчитать количество «the»

notepad++ еще не подсчитал количество вхождений «the».
Догадываюсь почему …

anonymous
(22.10.21 17:41:24 UTC)

Ответ на: комментарий от anonymous 22.10.21 17:41:24 UTC

notepad++ еще не подсчитал количество вхождений «the».

Вывалился в crash …

Современные технологии они такие ...

anonymous
(22.10.21 17:43:59 UTC)

Ответ на: комментарий от anonymous 22.10.21 17:43:59 UTC

у меня ripgrep за полсекунды посчитал

anonymous
(22.10.21 17:47:05 UTC)

Ответ на: комментарий от anonymous 22.10.21 17:43:59 UTC

Интересно какой редактор с таким файлом может работать нормально?
Когда-то разработал несложный текстовый редактор, который строки грузил в tree, так ему хоть 100000000 строк подавай, все ok …

anonymous
(22.10.21 17:48:03 UTC)

Ответ на: комментарий от anonymous 22.10.21 17:47:05 UTC

Надо ещё результат записать на диск.

LINUX-ORG-RU ★★★★★
(22.10.21 17:48:25 UTC)

Ссылка

Ответ на: комментарий от anonymous 22.10.21 17:47:05 UTC

Нужно составить словарь, а потом его отсортировать и записать.

BceM_IIpuBeT ★★☆☆☆
(22.10.21 17:49:44 UTC)

Ссылка

Ответ на: комментарий от anonymous 22.10.21 17:48:03 UTC

Интересно какой редактор с таким файлом может работать нормально?

А ибн Emacs умеет с такими текстовыми файлами работать?

anonymous
(22.10.21 17:53:53 UTC)

Ссылка

Предлагаю расширить задачу.

Получить словарь и записать результат в таблицу СУБД … /СУБД потестировать/

anonymous
(22.10.21 17:56:58 UTC)

Ответ на: комментарий от anonymous 22.10.21 17:56:58 UTC

Предлагаю расширить задачу.

Ныне вот по трудоемкости штук пятьсот таких задач решаю

Загрузка данных из любой конфигурации 1С 7.7 без использования самой 1С в свою иерархическую базу

Данные любой базы 1С 7.7 или 8.x по существу являются псевдо деревом.
Это будет использовано как для тестирования своего API, так и для возможности загрузки данных в конфигурацию 1С 8.3.
Эту задачу без внимания не оставлю, но ни как не в ближайшие дни.
Пожалуй возвращусь к ней при разработке API для работы с текстом … /то что предоставляет Microsoft, … - СЛЕЗЫ!/

anonymous
(22.10.21 18:09:54 UTC)

Ссылка

Ответ на: комментарий от anonymous 22.10.21 17:43:59 UTC

https://0x0.st/-djl.png

считал секунд пять. кто там что-то про неюзабельную макось говорил?

anonymous
(22.10.21 18:26:08 UTC)

Ответ на: комментарий от anonymous 22.10.21 18:26:08 UTC

Отсортируй и запиши в файл

LINUX-ORG-RU ★★★★★
(22.10.21 18:39:19 UTC)

Ссылка

Словом считается любая последовательность букв от a до z

è, più и т.п. негодуют.

vvn_black ★★★★★
(22.10.21 18:48:16 UTC)

Ссылка

А вот еще

Генератор простых чисел (до 10^9 за 5 сек) http://www.sql.ru/forum/1149455/generator-prostyh-chisel-do-10-9-za-5-sek

anonymous
(22.10.21 18:51:02 UTC)

Ссылка

кто-то сделал многопоточный враиант уже?

~~Keltir~~ ★
(22.10.21 19:00:38 UTC)

Ответ на: комментарий от Keltir 22.10.21 19:00:38 UTC

какая разница сколько потоков, если упирается в диск

anonymous
(22.10.21 19:57:23 UTC)

кароче я задрался бороться с borrow checkerом на расте, кто хочет может подхватить и исправить ошибки

#![feature(exclusive_range_pattern)]
use std::collections::hash_map::Entry::{Occupied, Vacant};
use std::collections::HashMap;
use std::fs;

fn main() {
    let file = fs::read_to_string("huge.txt").unwrap();
    let word = String::new();
    let mut result: HashMap<String, i32> = HashMap::new();
    for mut letter in &mut file.chars() {
        if letter.is_ascii() {
            letter = letter.to_lowercase().next().unwrap();
        }
        let mut word = word.clone();
        match letter {
            'a'..'z' => {
                word.push(letter);
            }
            _ => {
                let val = match result.entry(word) {
                    Occupied(entry) => entry.into_mut(),
                    Vacant(entry) => entry.insert(0),
                };
                *val += 1;
            }
        }
    }
    for (i, j) in result {
        println!("{}\t{}", i, j);
    }
}

anonymous
(22.10.21 20:07:29 UTC)

чтобы ваша программа отрабатывала быстрее, чем за 7 секунд

Изи

<?php
$words = str_word_count(strtolower(file_get_contents('./huge.txt')), 1);
$count = array_count_values($words);
arsort($count, SORT_NUMERIC);
file_put_contents('./res.txt', print_r($count, true));

~/s/ct ❯❯❯ time php8.0 count.php

________________________________________________________
Executed in    6,53 secs   fish           external
   usr time    4,92 secs  775,00 micros    4,92 secs
   sys time    1,59 secs  288,00 micros    1,59 secs

Intel Core i7-8750H 4.1GHz

Кстати, кто-то гонит

  'the' => 3327272,
  'and' => 1826748,
  'of' => 1711781,
  'to' => 1536721,
  'a' => 1307257,

Я попробовал grep -oi the huge.txt|wc -l и rg --count-matches -i -w the huge.txt везде разные результаты, ЛОЛ. Как проверить-то надёжно?

no-such-file ★★★★★
(22.10.21 20:08:24 UTC)

Ответ на: комментарий от anonymous 22.10.21 20:07:29 UTC

И эти люди тычут пальцем в похапе, ЛОЛ.

no-such-file ★★★★★
(22.10.21 20:09:41 UTC)

Ответ на: комментарий от anonymous 22.10.21 19:57:23 UTC

если упирается в диск

Даже на пыхе чтение+запись занимают меньше секунды.

no-such-file ★★★★★
(22.10.21 20:10:53 UTC)

Ссылка

Ответ на: комментарий от no-such-file 22.10.21 20:08:24 UTC

самое большое число - верное

anonymous
(22.10.21 20:11:06 UTC)

Ответ на: комментарий от anonymous 22.10.21 20:11:06 UTC

верное

У кого верное? У ТСа другое.

no-such-file ★★★★★
(22.10.21 20:11:46 UTC)

Ссылка

Ответ на: комментарий от no-such-file 22.10.21 20:08:24 UTC

Ты читер, ты библиотечные функции вызываешь.

anonymous
(22.10.21 20:18:01 UTC)

Ссылка

Ответ на: комментарий от no-such-file 22.10.21 20:08:24 UTC

Я тупой и не читаю доки.

<?php
setlocale(LC_ALL, 'C');
$text = str_replace(['-', "'"], ' ', strtolower(file_get_contents('./huge.txt')));
$words = str_word_count($text, 1);
$count = array_count_values($words);
arsort($count, SORT_NUMERIC);
file_put_contents('./res2.txt', var_export($count, true));

  'the' => 3343241,
  'and' => 1852717,
  'of' => 1715705,
  'to' => 1560152,
  'a' => 1324244,

Но в норматив всё ещё укладывается

~/s/ct ❯❯❯ time php8.0 count.php

________________________________________________________
Executed in    6,82 secs   fish           external 
   usr time    4,96 secs  681,00 micros    4,95 secs 
   sys time    1,85 secs  361,00 micros    1,85 secs

no-such-file ★★★★★
(22.10.21 21:21:41 UTC)
Последнее исправление: no-such-file 22.10.21 21:22:44 UTC (всего исправлений: 1)

Ответ на: комментарий от no-such-file 22.10.21 20:08:24 UTC

у меня вывалилось

Fatal error: Allowed memory size of 134217728 bytes exhausted (tried to allocate 336191496 bytes) in /Users/tho/Developer/freqc/builddir/main.php on line 2

anonymous
(22.10.21 21:33:41 UTC)

Ссылка

Ответ на: комментарий от no-such-file 22.10.21 20:09:41 UTC

интересно было бы сравнить пых с перлом

Rost ★★★★★
(22.10.21 23:46:43 UTC)

Ответ на: комментарий от Rost 22.10.21 23:46:43 UTC

perl медленней в 2-3 раза

anonymous
(22.10.21 23:50:50 UTC)

Ссылка

но эта задача явно уже исследована вдоль и поперёк.

xmikex ★★★★
(22.10.21 23:57:20 UTC)
Последнее исправление: xmikex 22.10.21 23:57:38 UTC (всего исправлений: 1)

Ссылка

Ответ на: комментарий от no-such-file 22.10.21 20:09:41 UTC

И правильно делают.

$ time php words.php
PHP Fatal error:  Allowed memory size of 134217728 bytes exhausted (tried to allocate 336191496 bytes) in php/words.php on line 3

real    0m0.011s
user    0m0.006s
sys     0m0.005s

anonymous
(23.10.21 00:50:14 UTC)

Ответ на: комментарий от Rost 22.10.21 23:46:43 UTC

$ time perl -ne '$h{lc($1)}++ while (/([A-Za-z]+)/gc); END { printf "$h{$_} $_\n" for (sort {$h{$b} <=> $h{$a}} keys(%h)) }' huge.txt | head
3343241 the
1852717 and
1715705 of
1560152 to
1324244 a
956926 in
933954 i
781286 he
713514 that
690876 was

real    0m18.868s
user    0m18.812s
sys     0m0.057s

На перле дольше, но надо иметь в виду, что здесь не используются библиотечные функции, которые ищут и считают слова за тебя.

anonymous
(23.10.21 01:00:36 UTC)

Ответ на: комментарий от LINUX-ORG-RU 22.10.21 17:29:29 UTC

Сравнивать всё равно на одной машине нужно. Но да, не нравится мне идея диск бенчить. Задержки оперативы гораздо более предсказуемы.

~~WitcherGeralt~~ ★★
(23.10.21 01:02:58 UTC)

Ответ на: комментарий от Keltir 22.10.21 19:00:38 UTC

Для многопотока файл слишком маленький, в один будет быстрее.

~~WitcherGeralt~~ ★★
(23.10.21 01:05:09 UTC)

Ссылка

Ответ на: комментарий от WitcherGeralt 23.10.21 01:02:58 UTC

о, пришел самый главный эпплхейтер! что на это скажешь, качок?

anonymous
(23.10.21 01:13:43 UTC)

кароче

use std::collections::hash_map::Entry::{Occupied, Vacant};
use std::collections::HashMap;
use std::fs::File;
use std::io::Read;
use std::iter::FromIterator;

fn main() {
    let mut file_content = Vec::new();
    let mut file = File::open("huge.txt").expect("Unable to open file");
    file.read_to_end(&mut file_content).expect("Unable to read");
    let mut word = String::new();
    let mut result: HashMap<String, i32> = HashMap::new();
    for letter in &mut file_content {
        if letter.is_ascii() {
            *letter = letter.to_ascii_lowercase();
        }
        match letter {
            97..=122 => {
                word.push(*letter as char);
            }
            _ => {
                let val = match result.entry(word) {
                    Occupied(entry) => entry.into_mut(),
                    Vacant(entry) => entry.insert(1),
                };
                *val += 1;
                word = String::new();
            }
        }
    }
    let mut result = Vec::from_iter(result);
    result.sort_by(|&(_, a), &(_, b)| a.cmp(&b));
    for (i, j) in result {
        println!("{}\t{}", i, j);
    }
}

отрабатывает за 4.5 секунды у меня

anonymous
(23.10.21 01:18:35 UTC)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 4 →

←	При поиске пересечений (Intersections), возникает ошибка: operands could not be broadcast together with shapes (384,) (73,)

Development

как запустить аплеку в adev?

→

Похожие темы