Можно ли найти количество отличающихся символов в двух строках, не перебирая все символы?

computer science, string, алгоритмы, программирование

0

1

Есть две строки (или два массива) одинаковой длины. Они состоят из ограниченного набора символов. Можно ли найти КОЛИЧЕСТВО отличающихся символов/элементов, не сравнивая их всех попарно?

Ссылка

←	XMM аки RAM

Ошибка в Python VS Code

→

Упорядочить? Как минимум, если символ меньше минимального - сравнивать больше не нужно

mrn
(22.02.22 23:16:16 MSK)

Ответ на: комментарий от mrn 22.02.22 23:16:16 MSK

Хотя лучше использовать таблицы символов

mrn
(22.02.22 23:20:01 MSK)

Ответ на: комментарий от mrn 22.02.22 23:20:01 MSK

А если номер элемента важен, тогда только попарное сравнение

mrn
(22.02.22 23:24:08 MSK)

Ссылка

Levenshtein distance ищешь ты скорее всего.

PS: и моя древняя поделка на туже тему: https://github.com/dim13/lavenshtein

beastie ★★★★★
(22.02.22 23:30:45 MSK)

Задачка O(N) однозначно. Я уверен - можно извернуться и ускорится x2/4/8 (но не больше) особенно если строки aligned (бежать по 4-8 байт, вычитать как int/long, и считать число ненулевых байтов в результате). Здесь есть специалисты которые могут подсказать конкретику, slovazap в частности - что касается x86 asm я с ним тягаться даже пытаться не буду ;)

bugfixer ★★★★★
(23.02.22 04:40:49 MSK)

Ссылка

А это случайно не задачка с собеседований?

den73 ★★★★★
(23.02.22 12:42:57 MSK)

Ответ на: комментарий от den73 23.02.22 12:42:57 MSK

Нет. Мне самому в голову взбрело.

~~hateWin~~ ★☆
(23.02.22 12:58:16 MSK) автор топика

Ссылка

Ответ на: комментарий от beastie 22.02.22 23:30:45 MSK

Спасибо за информацию.

~~hateWin~~ ★☆
(23.02.22 13:08:33 MSK) автор топика

Ссылка

Ксорнуть две эти строки, потом посчитать количество «0x00». Это если задача о том, чтобы узнать, какое количество символов на тех же позициях в первой и во второй строке совпадают

SZT ★★★★★
(23.02.22 13:10:56 MSK)
Последнее исправление: SZT 23.02.22 13:13:24 MSK (всего исправлений: 2)

Ответ на: комментарий от SZT 23.02.22 13:10:56 MSK

Да. Мне XOR приходил в голову. По идее, это будет быстрее простого перебора.

~~hateWin~~ ★☆
(23.02.22 13:14:22 MSK) автор топика

Ответ на: комментарий от hateWin 23.02.22 13:14:22 MSK

Ну вообще-то XOR и последующее сравнение результатов с нулём есть попарное сравнение, я бы не принял такое решение. Была подобная задача с собеседований, где нужно было какую-то контрольную сумму, но точно не помню, и XOR там тоже фигурировал.

den73 ★★★★★
(23.02.22 13:23:28 MSK)
Последнее исправление: den73 23.02.22 13:47:41 MSK (всего исправлений: 1)

Ссылка

в питоне difflib

~~tz4678~~ ★★
(23.02.22 22:40:25 MSK)

Ссылка

ты не написал главное - язык. на скриптовых языках типа js/python того же левенштейна не имеет смысла реализовывать, потому как потребление ресурсов на порядки вырастает. на больших текстах может вешать комп

~~tz4678~~ ★★
(23.02.22 22:42:31 MSK)

Ответ на: комментарий от tz4678 23.02.22 22:42:31 MSK

это, кстати, главный аргумент в пользу бесполезности изучения примитивных алгоритмов на скриптовых языках (реализовывать никогда не придется). в питоне много либ, которые нативно реализуют, например, AES-шифрование и у таких либ как правило slow в названии

~~tz4678~~ ★★
(23.02.22 22:44:37 MSK)
Последнее исправление: tz4678 23.02.22 22:45:02 MSK (всего исправлений: 1)

Ссылка

что же касается твоей задачи, то можно:

➜ ipython                   
Python 3.10.2 (main, Jan 15 2022, 19:56:27) [GCC 11.1.0]
Type 'copyright', 'credits' or 'license' for more information
IPython 8.0.1 -- An enhanced Interactive Python. Type '?' for help.

In [1]: from collections import Counter

In [2]: c1 = Counter("cat")

In [3]: c2 = Counter("rat")

In [4]: c1 - c2
Out[4]: Counter({'c': 1})

In [5]:

Там создаются два ассоциативных массива, где ключ это символ, а значение сколько раз он встречается в тексте.

~~tz4678~~ ★★
(23.02.22 22:54:35 MSK)

Ссылка

Нужно преобразовать массивы в множества и найти их разность. В таком случае если в одном массиве есть несколько похожих символов, они соединятся в один и фактически попарного сравнения уже не будет.

mydibyje ★★★★
(23.02.22 23:23:02 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	XMM аки RAM

Development

Ошибка в Python VS Code

→

Похожие темы