https://github.com/markdown-it/linkexp/blob/master/index.js#L64-L143
Делаю «автолинкер» на яваскрипте. Т.к. движок не поддерживает нормально юникод, а строки хранятся в usc2, то приходится шаманить.
1. генерятся паттерны для некоторых классов символов https://github.com/markdown-it/linkexp/blob/master/re.js
2. Вместо [^xxx] используется (?:(?!xxx).) (из-за суррогатных последовательностей для астральных символов)
Есть 2 вопроса:
1. Сильно ли убивает скорость negative lookahead?
2. Насколько нормально яваскриптовый движок регулярок оптимизирует такие колхозные классы символов?
3. Если мне нужно для доменов «что-то вроде символов», можно ли использовать «не (whitespace || control character || punctuation)»? Или есть еще какие-то важные классы которые надо отбросить?
Ответ на:
комментарий
от anonymous
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.
Похожие темы
- Форум Удалить все символы в каждой строке с помощью регулярок (2020)
- Форум Выровнять колонки с помощью регулярок (2021)
- Форум как sed, только без регулярок (2022)
- Форум perl regexp vs ruby regexp ( классы символов) (2009)
- Форум Тест регулярок оффлайн с подсветкой под сабж (2014)
- Форум Классы (2012)
- Форум класс :))))))) (2005)
- Форум символы (2019)
- Форум Символы (2014)
- Форум Прикастить класс класса с генериками (2015)