LINUX.ORG.RU

Поиск в Google

 google regexp


0

1

Дано: сайт, который может индексироваться посредством Google.

Нужно:
Уметь находить все страницы на таком сайте, содержащим слово «фраза». Каким синтаксисом пользоваться при таком поиске.

Условия поиска:
1. При поиске таких страниц, должна быть исключена часть оных, где присутствует слово «исключение1»* и фраза «исключение два»*.
2. Не важно, несколько ли исключений присутствуют на такой странице, или же лишь одно из них. В любом случае такие страницы должны быть исключены из результатов поиска.

*Слов-исключений и выражений-исключений больше чем 32. В пункте 1 условий поиска даны лишь примеры названий таких слов-исключений и выражений-исключений.

###
про то, что не последнюю роль тут играют рег. выражения, понимаю, но ни кавычки, ни квадроскобки, ни операторы, ни разные символы пробелов и комбинации всего этого никак не работают. исключения можно прорисовать через символ конвейера и лишь один символ впереди поставить, но работать это будет лишь со словами-исключениями. фразы, ну никак не хотят пониматься гуглом, как последовательностьза конвейером и распознается, как дополнительная фраза-запрос, а не фраза-исключение.

★★★
site:linux.org.ru тазик -tazhate -модератор -бан

Вот так. Прочая информация по синтаксису запросов здесь: https://support.google.com/websearch/answer/136861?ref_topic=3081620

Регулярные выражения, насколько я знаю, не поддерживаются.

Но Google в целом система интеллектуальная, а значит, абсолютной гарантии, как будет выглядеть результат, никто не даст. С другой стороны, при обработке естественного языка вообще трудно дать такую гарантию.

proud_anon ★★★★★
()
Последнее исправление: proud_anon (всего исправлений: 4)
Ответ на: комментарий от proud_anon

>..-tazhate -модератор -бан

*Слов-исключений и выражений-исключений больше чем 32.

Google ограничена 32'мя фразами. Иногда нужно очень аккуратно отфильтровать результат, используя много слов-исключений, обходя «лобовые» исключения. Чаще, когда искомое слово четко не известно и используются лишь «наводящие» ключевые слова))

ESTAF ★★★
() автор топика
Последнее исправление: ESTAF (всего исправлений: 1)
Ответ на: комментарий от ESTAF

Иногда нужно очень аккуратно отфильтровать результат, используя много слов-исключений

Если не секрет, что вы пытаетесь сделать? Просто интересно. Если речь идёт об одном сайте, может, скачать весь текст и grep'нуть?

proud_anon ★★★★★
()
Последнее исправление: proud_anon (всего исправлений: 1)
Ответ на: комментарий от ESTAF

А потом пыхпых очень любит отдавать все по кругу. то есть, сайт можно качать вечно и при этом актуальный срез (сайт так весь и не скачается, зациклившись на опр. ссылках) хрен так сделаешь. Все эти качалки считают, что имеют дело с чистыми штимами.

ESTAF ★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.