LINUX.ORG.RU

Пользуясь случаем, хочу попросить советов по RSS.

LoR, помоги пожалуйста сделать систему сбора новостей на локалхосте.

Когдато, в Claws Mail загружал фиды, читал от случая к случаю при наличии времени на чтение, и главное - при возникновении вопроса мог воспользоваться встроенным быстрым и гибким поиском по заинтересовавшей теме в объеме до 100тыс. сообщений. Прям удобно ОЧЕНЬ было закрывать вопросы старыми данными под рукой.
Теперь почтовый клиент каждый день не запускается, но хочется иметь возможность локального поиска в старых новостях. Поэтому вопросы…

  1. Чем в автоматическом режиме собирать локально фиды?
  2. В каком формате эффективнее/удобнее для целей поиска складывать локально?
  3. Чем еще, кроме Claws Mail, читать и искать?
anonymous
()
Ответ на: комментарий от anonymous

В каком формате эффективнее/удобнее для целей поиска складывать локально?

В СУБД или Maildir.

Чем еще, кроме Claws Mail, читать и искать?

Средствами СУБД или каким-нибудь индексатором почты, например notmuch.

anonymous
()
Ответ на: комментарий от anonymous

https://manitou-mail.org

– email клиент (MUA) с хранением в PostgreSQL – есть webkit просмотрщик html – см. скриншоты галерее – поиск, SQL запросы – реализованы через SQL и работают быстро – опубликованы схема БД и структура таблиц db-diagram.png

клиент на Qt5,C++ занимает менее 30 мб, исходники manitou-ui-1.7.0.tar.gz 1.5 Мб

общается c cерверной частью manitou-mdx-1.7.0.tar.gz которая есть скрипт на Перл:

wiki:manitou-mdx

и про плагины – вот например https://manitou-mail.org/wiki/doku.php/plugins:html_indexer на Perl, в исходниках manitou-mdx-1.7.0/lib/Manitou/Plugins/ больше плагинов

например, вложения (attachment) индексируются и складываются в PostgreSQL, используется поиск по морфологии из PostgreSQL, в итоге поиск по содержимому реализован запросами на SQL

фильтры (наподобие «правил сортировки» в TheBat!) – это правила для manitou-mdx на Perl.

может импортировать почтовую базу довольно большого объёма, с дедубликацией, поиском, индексацией и т.п. mass-import

чего не хватает:

  1. плагина для RSS наподобие github:rss2email archwiki:rss2email rss-to-email pypi:rss2email или этого skx/rss2email

  2. запуска 1 по крону

  3. написать плагин-индексер для серверной manitou-mdx наподобие plugins:html_indexer только для XML, либо через XSLT транслировать в XHTML: раз два

  4. настроить весь этот зоопарк, чтобы работало по крону «из коробки»

anonymous
()
Ответ на: комментарий от anonymous

В СУБД или Maildir.

Средствами СУБД или каким-нибудь индексатором почты, например notmuch.

Мне бы чего попроще, юниксвейного.
Одним инструметном агрегацию делать, другим читать и искать. У меня, похоже, основная сложность определиться с форматом в котором автоматически собирать и хранить, чтоб потом через полгода было удобно читать-фильтровать.
Городить DB-сервер думаю излишне, хотя потом может и захотеться, если сервер под кроватью заваляется. IMAP сервер поднимать то же не алё. Пока полагаю стоит выбор из maildir, MH folders и локальный SQL Lite файл.

RSSyl в Claws работает с MH folders - какой агрегатор умеет собирать в MH folders?
LiFeRea работает с SQL Lite - какой агрегатор умеет собирать в SQL Lite?

И еще, может подскажет кто - часто ли встречается base64 или urlencoded в теле RSS-потока? По аналогии с почтой, ньюсами и т.п. fido.

anonymous
()