LINUX.ORG.RU
ФорумTalks

Сам себе новостной агрегатор

 ,


0

2

Есть ли хорошие?

В моем понимании это должна быть программа, запускаемая локально вручную или автоматически.

Могут быть предопределенные списки сайтов, но разумеется должна уметь добавлять новые и удалять не нужные. Возможно какие-то донастройки для краулинга конкретных сайтов.

Программа должна использовать как RSS, так и краулить автоматически, причем успешно при этом притворяться человеком, а то некоторые сайты взяли моду обнаруживать автоматическое сканирование.

Должны быть гибко настраиваемые фильтры поиска. Как минимум просто по ключевым словам с учетом морфологии и/или с регулярными выражениями.

Результаты поиска должны интеллектуально обрабатываться. Уметь группировать примерно одинаковые новости, распознавая как-то одинаковость. Байесовые фильтры? Нейросетки всякие наверное не очень годятся, в том числе из-за монструозности для конечных пользователей.

Все это конечно в архив должно уметься заноситься с поиском и/или по нему.

И очень принципиальное: это все должно уметь работать строго локально (или на своем сервере). Никаких облаков, никакой телеметрии, удаленных хранений настроек и прочей дичи.

Как-то так?

Что-то и вообще не особо находится и тем более СПО-ное. Не с одной стороны, хватает разных краулеров, но или они совсем примитивные или что-то они не совсем тем занимаются, например, https://vc.ru/seo/175966-bolshoe-sravnenie-20-desktopnyh-veb-kraulerov - это скорее инструменты SEO-ника, чем для удовлетворения интереса к новостям.

★★★★★

а вот во времена IRC мы сами себе писали ботов которые парсили сайты и писали обновления в чят.

писал такой RSS Feed Reader на mIRC, http://hawkee.com/snippet/8282/, которому можно добавлять RSS ленты в список отслеживания и он выводил новости.

или вот такой URL Informer, http://hawkee.com/scripts/12828336/, который выводил базовую информацию по ссылкам

преимущество всех этих ботов прежде всего в социальной составляющей, т.е. ты не просто пишешь для себя, на локалхосте, где никто кроме тебя этого не увидит, а твоим ботом пользуются люди т.е. все твои труды не просто так «в стол» пишутся.

а щас чо? ну вот дали Telegram, там куча всяких разных ботов, на голову выше всех тех, что мы писали для IRC, и что же? почему не пользуетесь?

привет всем RusNet @ #eggdrop, #partytalks

а вот ещё скриншот, [Моя секретарша], уже с переходом на линупс продолжил традицию писать IRC бота на Bash

Spoofing ★★★★★
()
Последнее исправление: Spoofing (всего исправлений: 1)
Ответ на: комментарий от Spoofing

писал такой RSS Feed Reader на mIRC, http://hawkee.com/snippet/8282/

Далеко не все сайты имеют rss. Например, соцсети, в том числе нужно уметь с логин/пароль/куками аккаунтов работать.

или вот такой URL Informer, http://hawkee.com/scripts/12828336/, который выводил базовую информацию по ссылкам

Это слишком базово.

Вообще, собрать инфу по RSS или скриптом по сайтам - это даже не полдела того, что интересует, это самое базовое - просто сбор инфы. Она еще и обработана должна быть.

а щас чо? ну вот дали Telegram, там куча всяких разных ботов, на голову выше всех тех, что мы писали для IRC, и что же? почему не пользуетесь?

Боты в телеге слишком много имеют ограничений при попытке их использовать. Как в части ползаний, так и того, что это даже не телеметрия и слив, все просто сразу у хозяев.

praseodim ★★★★★
() автор топика

Думал над такой штукой какое-то время, но как оказалось RSS-ридер News из Owncloud|NextCloud перекрывает мои потребности в инфошуме.

И да, ничего не мешает запускать Nextcloud локально.

vvn_black ★★★★★
()

Есть, называется Телеграм.

alex1101
()

А в чем смысл? Может быть, есть какое-то простое решение проблемы, не связанное с написанием краулеров, и т.д.

Я, например, читаю новости с пары сайтов, пары тг-каналов. Блоги у меня в Thunderbird добавляются через RSS - у большинства блогов он ещё остался, хотя порой его бывает непросто найти.

Не понимаю, зачем может понадобиться агрегировать огромное количество новостей, особенно без их анализа. Для спецслужб разве, но у них наверняка свои ресурсы, методики и программы давно существуют. Точнее, они совершенно точно существуют, можно даже в открытом доступе упоминания найти.

emorozov
()
Ответ на: комментарий от emorozov

ТС хочет по 20 часов в день читать сотни постов в десятках новостных изданий. Не говори, что это бессмысленное времяпровождение, человек должен быть осведомлённым!

alex1101
()

Новости не нужны - от них лишние переживания и сплошной стресс. Так что в дежурном режиме читать ничего не надо, про что-то действительно важное люди вокруг расскажут.

aiqu6Ait ★★★★
()

/хмыкая/ Это, тащемта тянет на целый стартап в таком виде…

А если для себя тащить новости с некоторого числа интересных блогов/сайтов - то вполне написуемо самостоятельно.

Скрипт с конфигом для простого добавления новой ленты, плагины для обработки того что не имеет rss, закидывается в локальный почтовый сервер, читается почтовым клиентом с настроенными фильтрами.

hungry_ewok
()

в кдешном pim помню была нормальная читалка, в браузере опера тоже, но хранить все это добро локально хз стоит ли. Сейчас я пользуюсь feedly.com и это вполне удобно.

Syncro ★★★★★
()
Ответ на: комментарий от alex1101

ТС хочет по 20 часов в день читать сотни постов в десятках новостных изданий. Не говори, что это бессмысленное времяпровождение, человек должен быть осведомлённым!

Наоборот, агрегатор + аналитика, чтобы не тратя время на залипание на сайтах, быстро получать отфильтрованные интересующие результаты.

praseodim ★★★★★
() автор топика

Для RSS - tt-rss. Ставится на сервера, имеет систему плагинов, поддерживается клиент под андроид. Автор, правда, довольно резкий в высказываниях и иногда послать может, но продукт пишет хорошо.

Для парсинга сайтов имхо только самому писать и поддерживать вслед за вечно меняющейся кривой вёрсткой этих самых сайтов. Я для некоторых писал свои стили в Stylish, так последнее время обновлять приходится раз в пару месяцев, потому что постоянно что-то куда-то двигают и в принципе от обилия всяких бутстрапов, свистоперделок, подгружаемого контента и формируемой на лету вёрстки вычленить полезный текст с сайтов уже не так легко, как раньше.

shell-script ★★★★★
()

Чем тебя сосач не устраивает? Что-то важное туда по-любому набросят

shalom_ ★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.