Выборка в regex не работает

1

1

Задача в том, чтобы отфильтровать доменное имя, например, google. Но срабатывает только первое условие: выделить текст после слэша до первой точки. Если в url присутствует www., то оно и выделяется, а не текст после него, как планировалось. Не понимаю, почему не срабатывает условие.


#!/usr/bin/python
#
import re
 
def domain_name(url):

   mystr = re.findall(r'(?<=[/www])\w+(?=\.)', url)

   print(mystr)

domain_name("http://google.co.jp")

https://pastebin.com/8q3CtgSK

Благодарю за любую подсказку, два дня мучаюсь уже!

Ссылка

←	C++ от новичка до профи

Проблема с символической ссылкой

→

Благодарю за любую подсказку

https://www.linux.org.ru/help/lorcode.md

goingUp ★★★★★
(06.01.23 02:28:45 MSK)

Ссылка

Тебе нужно выбрать часть строки между первым символом «/» и последним символом «/» или символом конца строки.

kostik87 ★★★★★
(06.01.23 03:03:51 MSK)

Ответ на: комментарий от kostik87 06.01.23 03:03:51 MSK

mystr = re.findall(r’(?<=//)\w+(?=.)’,url)

Когда задается такой url:

domain_name(«http://google.co.jp»)

То выбирается google как задумано. Но когда добавляется к адресу www.google.com, то выходит пустой массив. Как мне задать выборку, чтобы выбиралась либо конструкция //google.com, либо //www.google.com. У меня не получается www.выделить

Novichok25
(06.01.23 04:15:44 MSK) автор топика

Ответ на: комментарий от Novichok25 06.01.23 04:15:44 MSK

яннп. ты угараешь по полной? ты хотя бы на секунду пытался понять regexp?

Anoxemian ★★★★★
(06.01.23 04:22:10 MSK)

Ссылка

Ответ на: комментарий от Novichok25 06.01.23 04:15:44 MSK

echo "https://google.com" | sed 's/.*\/\/\([a-z0-9\.]*\).*/\1/'
google.com
echo "https://google.com/dfdfdf" | sed 's/.*\/\/\([a-z0-9\.]*\).*/\1/'
google.com
echo "https://www.google.com/dfdfdf" | sed 's/.*\/\/\([a-z0-9\.]*\).*/\1/'
www.google.com

Я не знаю как тебе сделать это на твоём питон, гугли.

kostik87 ★★★★★
(06.01.23 04:27:33 MSK)

Ответ на: комментарий от kostik87 06.01.23 04:27:33 MSK

Спасибо! Уже второй день гуглю, все хорошо, но не получается еще и www убрать

Novichok25
(06.01.23 04:38:34 MSK) автор топика

Ответ на: комментарий от Novichok25 06.01.23 04:38:34 MSK

Как тебе уже сказали почитай про регулярные выражения.

По сути регулярное выражение - это шаблон.

Ну и в частности почитай что такое w+.

Разбирайся.

Удачи.

kostik87 ★★★★★
(06.01.23 04:41:22 MSK)

Ссылка

Иди на https://regex101.com/ и играйся там, сколько хочешь.

rupert ★★★★★
(06.01.23 05:40:09 MSK)

Ссылка

Зачем это регуляркой делать?

https://docs.python.org/3/library/urllib.parse.html

from urllib.parse import urlparse

domain = urlparse("http://docs.python.org:80/3/library/urllib.parse.html?").hostname

pi11 ★★★★★
(06.01.23 08:59:55 MSK)
Последнее исправление: pi11 06.01.23 09:01:06 MSK (всего исправлений: 1)

Ссылка

'.+(?<=/|w+\.)(\w+)\..+'

dmitry237 ★★★★★
(06.01.23 12:12:25 MSK)

Ответ на: комментарий от Novichok25 06.01.23 04:38:34 MSK

Извини за такой ответ, но марш бегом (!!!) читать хотя бы стандартную справку по регекспам в официальной доке Python. А еще желательно дополнить книгой Mastering Regular Expressions (есть и перевод на русский).

Ты написал полную белиберду, то есть кое-как набросал символов в строку, совершенно не понимая их значения, и как они работают.

Помочь тебе с правильным выражением - только навредить, ибо этот путь надо пройти самостоятельно.

И вообще, прошу прощения, но вот этот вот подход: «А я щас накидаю символов как попало, и буду случайно менять, пока не заработает, если зайду в тупик - спрошу на форуме» - глубоко порочный. Избавляйся от такого подхода, пока не поздно.

P.S. Почему-то вот этот вот ужасный подход чаще всего встречается в регекспах. По опыту, очень много разработчиков, даже титулованных, считают себя выше необходимости читать доку по регекспам и пишут их точно таким же образом, кидая в строку что попало, пока не заработает.

~~emorozov~~ ☆
(06.01.23 12:38:11 MSK)
Последнее исправление: emorozov 06.01.23 12:39:42 MSK (всего исправлений: 1)

Это что за дичь, лол?))) По доброте душевной даю тебе ссылку на вводную и вполне себе применимую в жизни статейку по регуляркам в питухоне.

SpaceRanger ★★★
(06.01.23 12:47:31 MSK)

Ответ на: комментарий от emorozov 06.01.23 12:38:11 MSK

В целом согласен, только вот задача ОПа решается примитивным регвыром. Вечерок достаточно потратить на изучение темы и всё станет понятно. Правда непонятно зачем вообще эту задачу решать регулярным выражением, если есть библиотеки разбирающие урлы?

P.S. ОП, не надо адманывать уважаемых людей. Ты даже не пытался документацию открыть. Иди читай справку.

perl5_guy ★★★★★
(06.01.23 12:54:23 MSK)

Ответ на: комментарий от perl5_guy 06.01.23 12:54:23 MSK

Да, меня и возмущает, что ОП совершенно очевидно даже не попытался прочитать хотя бы справку по регекспам.

А нужно их знать ещё и затем, что часто встречаются в чужом коде, с которым приходится работать. И часто приходится поправлять за такими вот: «Давайте накидаем в бутылку деталей и будем трясти, пока не получится кораблик».

~~emorozov~~ ☆
(06.01.23 13:05:42 MSK)

Ссылка

Ну что ищешь, то и получаешь, что ещё сказать.

https://regex101.com/r/dx5JGa/1

Разбор твоей регулярки ты там найдёшь

peregrine ★★★★★
(06.01.23 18:00:35 MSK)

Ответ на: комментарий от perl5_guy 06.01.23 12:54:23 MSK

Согласен, особенно с учётом того что есть ссылки на языках отличных от английского. Хотел выделаться и кинуть ссылку на RFC по URI, URL, IRI, но там столько смежного говна вылезает в виде полуживых технологий и предложений, что ковыряться в этом всём мне сегодня лень.

peregrine ★★★★★
(06.01.23 18:10:56 MSK)

Ссылка

Ответ на: комментарий от peregrine 06.01.23 18:00:35 MSK

Спасибо, сразу ошибка обнаружилась по описанию, я думаю, что она там далеко не одна) Но я в процессе

Novichok25
(06.01.23 21:56:13 MSK) автор топика

Ссылка

Ответ на: комментарий от perl5_guy 06.01.23 12:54:23 MSK

Такое впечатление, что Вы у меня за спиной стояли:) Да, шаблоны собирались по интернету, а потом соединялись. Но благодаря ссылке на песочницу regex вскрылись глупые ошибки:)

Novichok25
(06.01.23 22:02:48 MSK) автор топика

Ответ на: комментарий от SpaceRanger 06.01.23 12:47:31 MSK

За статью спасибо огромное! Буду вчитываться. Нужно узнать побольше о том, как сделать условие в regex. Правда, за один вечер, как тут говорилось, не получилось. Видимо, рожденный ползать…))

Novichok25
(06.01.23 22:07:24 MSK) автор топика

Ссылка

Ответ на: комментарий от dmitry237 06.01.23 12:12:25 MSK

Не работает

Novichok25
(06.01.23 22:08:10 MSK) автор топика

Ответ на: комментарий от Novichok25 06.01.23 22:08:10 MSK

Я не знаю python. Поэтому тестировал на pwsh:

 $ & {
 'https://www.google.com' -replace '.+//(w+\.)?|\..+'
 'https://google.com' -replace '.+//(w+\.)?|\..+'
 'https://www.google.com/aaa.bbb' -replace '.+//(w+\.)?|\..+'
 'https://google.com/www.http' -replace '.+//(w+\.)?|\..+'
 }
google
google
google
google

dmitry237 ★★★★★
(06.01.23 23:22:22 MSK)

В оп посте домен в зоне co.jp, в комментах никто не упомянул https://publicsuffix.org/

Вопрос конечно был не об этом, но опчику советую записать или запомнить.

~~easybreezy~~
(07.01.23 00:52:58 MSK)

Ответ на: комментарий от easybreezy 07.01.23 00:52:58 MSK

Ну и да, регулярки тут не нужны (хотя иногда работают), нужно взять любую готовую либу для этого и дамп по ссылке выше.

~~easybreezy~~
(07.01.23 00:54:40 MSK)

Ответ на: комментарий от Novichok25 06.01.23 22:02:48 MSK

шаблоны собирались по интернету, а потом соединялись

Жесткач. Бро, идешь в магаз, покупаешь книгу, читаешь, думаешь, практикуешь. Не благодари.

papin-aziat ★★★★★
(07.01.23 00:56:57 MSK)

Ответ на: комментарий от papin-aziat 07.01.23 00:56:57 MSK

Не благодари.

За что тебя благодарить, если плохому учишь? Потом сам же будешь бугуртить, когда он html разбирать регулярками начнет.

~~easybreezy~~
(07.01.23 00:59:17 MSK)

Ссылка

Ответ на: комментарий от easybreezy 07.01.23 00:54:40 MSK

За ссылки спасибо! В условиях задачи можно пользоваться только встроенными инструментами, сторонние библиотеки нельзя. И мне всегда казалось, что регулярки - это высший пилотаж:)

Novichok25
(07.01.23 01:43:05 MSK) автор топика

Ответ на: комментарий от papin-aziat 07.01.23 00:56:57 MSK

Спасибо! Думаю, что начну со статьи на хабре и оф документаци и практики. Книги сразу боюсь, закопаюсь.

Novichok25
(07.01.23 01:45:28 MSK) автор топика

Ответ на: комментарий от Novichok25 07.01.23 01:45:28 MSK

Это ты в статьях и документации и закопаешься, Шоттса почитай лучше.

papin-aziat ★★★★★
(07.01.23 01:47:45 MSK)

Ответ на: комментарий от dmitry237 06.01.23 23:22:22 MSK

У меня в песочнице для регулярок код работает. Только выделяет он как-раз то, что нужно обрезать, а не сам домен. Я пока не пойму, какой метод там надо использовать вместе с re.

Novichok25
(07.01.23 01:49:37 MSK) автор топика

Ссылка

Ответ на: комментарий от Novichok25 07.01.23 01:43:05 MSK

В условиях задачи можно пользоваться только встроенными инструментами, сторонние библиотеки нельзя

Если задача из реального мира, то это ты никак без вышеупомянутого дампа не решишь, когда будешь парсить сабдомен(ы) из всяких странных зон.

Some examples of public suffixes are .com, .co.uk and pvt.k12.ma.us.

Если задача какая то по учёбе, то можешь сделать ход конём и спросить экзаменатора как бы он сам стал разбирать такие неочевидные домены.

И мне всегда казалось, что регулярки - это высший пилотаж:)

Да, просто надо понимать, когда их нужно юзать, а когда нет.

~~easybreezy~~
(07.01.23 02:03:52 MSK)

Ответ на: комментарий от emorozov 06.01.23 12:38:11 MSK

Везде в интернете лежит эта книга 2008 года издания, это нормально, или она очень старая все-таки?

Novichok25
(07.01.23 02:26:38 MSK) автор топика

Ссылка

Ответ на: комментарий от papin-aziat 07.01.23 01:47:45 MSK

Спасибо, книжка по оглавлению хорошая, почитаю обязательно!

Novichok25
(07.01.23 02:27:41 MSK) автор топика

Ссылка

Ответ на: комментарий от easybreezy 07.01.23 02:03:52 MSK

Понятно, спасибо! Задача учебная из курса python. Мне и для себя важно изучить регулярки, по работе были проблемы с ними.

Novichok25
(07.01.23 02:30:25 MSK) автор топика

Ответ на: комментарий от Novichok25 07.01.23 02:30:25 MSK

Не, ну я сейчас и сам задумался как без групп решить твою задачу, если кто-то ответит то будет полезно.

https://regex101.com/r/spoHaC/1

~~easybreezy~~
(07.01.23 03:00:12 MSK)

Ответ на: комментарий от dmitry237 06.01.23 23:22:22 MSK

Работает! :) Надо только использовать sub, а не findall.

mystr = re.sub('.+//(w+\.)?|\..+', "", url)

Код выделяет в ссылке ненужные части, которые sub вырезает (меняет на пустое место).

Novichok25
(07.01.23 22:04:35 MSK) автор топика
Последнее исправление: Novichok25 07.01.23 22:08:17 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от papin-aziat 07.01.23 01:47:45 MSK

Шоттс хорошая книжка, судя по содержанию, только опять в инете старые издания.

Novichok25
(07.01.23 22:11:59 MSK) автор топика

Ответ на: комментарий от Novichok25 07.01.23 22:11:59 MSK

Наверное, новые только в бумажном варианте.

Novichok25
(07.01.23 22:12:43 MSK) автор топика

Ответ на: комментарий от easybreezy 07.01.23 03:00:12 MSK

Так домен выделяется только если есть www.

Novichok25
(07.01.23 22:14:43 MSK) автор топика

Ссылка

Ответ на: комментарий от SpaceRanger 06.01.23 12:47:31 MSK

Еще раз спасибо, как раз там говорится про метод sub, и все получилось.

Novichok25
(07.01.23 22:21:52 MSK) автор топика

Ссылка

Ответ на: комментарий от Novichok25 07.01.23 22:12:43 MSK

Вообще-то учиться надо на бумаге — так легче перечитывать и в книге можно рисовать разноцветными карандашами. Это совершенно иной уровень погружения в материал, чем читать с экрана.

Кстати, тебе может и не очень подойдёт Шоттс, если тебе не интересен баш. Может лучше возьмёшь Фицджеральда: https://market.yandex.ru/product--fitsdzherald-maikl-reguliarnye-vyrazheniia-osnovy/1781387867?was_redir=2&cpa=1

Книжка тоненькая, чисто про регулярки, я читал, излагает прямо с нуля и для разных языков делает всякие оговорки.

А вообще Фридл круто в первых главах рассказывает про них, прям красавчик: https://www.chitai-gorod.ru/catalog/book/1055232/

papin-aziat ★★★★★
(07.01.23 22:26:50 MSK)

Ответ на: комментарий от papin-aziat 07.01.23 22:26:50 MSK

Книг нет в продаже, значит хорошие:) Спасибо! Начну, наверное, с тоненькой.

Novichok25
(08.01.23 01:51:30 MSK) автор топика

Ответ на: комментарий от Novichok25 08.01.23 01:51:30 MSK

Я б всё-таки Фридла посоветовал, первые 6 глав. Я не программист, вообще не технарь, но прочитал их с удовольствием, автор реально смог сделать тему увлекательной.

papin-aziat ★★★★★
(08.01.23 03:20:59 MSK)

Ответ на: комментарий от papin-aziat 08.01.23 03:20:59 MSK

Спасибо! Почитаю обязательно.

Novichok25
(08.01.23 15:53:19 MSK) автор топика

Ссылка

Примерно вот так:

use strict;
use warnings;
use Data::Dumper;

my @src = (
    'https://www.google.com/home/stone',
    'www.google.com/home/stone',
    'https://www.google.com',
    'www.google.com'

    );

map {
    print $_,"\n";
    my %res = url_parse($_);
    
    print Dumper(\%res);
} @src;

sub url_parse
{
    my ($url) = @_;
    my %res = ();

    {
	my ($prot,$dom,$path) = $url =~ m@^(?:(\w+)(?=://))?(?:://)?([^/]*)(.*)$@g;
	@res{qw/prot dom path/} = ($prot, $dom, $path);
    }
    
    return %res;
}

Итог:

https://www.google.com/home/stone
$VAR1 = {
          'dom' => 'www.google.com',
          'prot' => 'https',
          'path' => '/home/stone'
        };
www.google.com/home/stone
$VAR1 = {
          'path' => '/home/stone',
          'dom' => 'www.google.com',
          'prot' => undef
        };
https://www.google.com
$VAR1 = {
          'prot' => 'https',
          'dom' => 'www.google.com',
          'path' => ''
        };
www.google.com
$VAR1 = {
          'prot' => undef,
          'dom' => 'www.google.com',
          'path' => ''
        };

solom ★
(10.01.23 14:30:24 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	C++ от новичка до профи

Development

Проблема с символической ссылкой

→

Похожие темы