Нужна программа типа слудующих:
KWebGet provides a graphical interface for wget
Khttrack is an offline web browser
Но с дополнительными функциями:
- выкачивание сайтов по списку критериев (и просто по списку)
- выкачка целиком всех сайтов,
на которых высока встречаемость ключевых слов
(должен сам искать сайты где хочет, например в гугле)
- отфильтровывание дорвеев
- по возможности перевод текстов через какие-нибудь
сервисы (для поиска на других языках)
- последующий локальный поиск с расширенным языком запросов
(с учетом русской морфологии)
- создание отметок на скачанных страницах (аннотирование)
Т.е. она должна составлять базу текстов по предметной области
и позволять ее анализировать (в идеале -
еще и с редактором модели предметной области
с провязкой на скачанные тексты)
Ответ на:
комментарий
от k0l0b0k
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.