Доброго времени всем! По работе возникла необходимость вырезать из html страницы тексты. На вход алгоритму подается html код содержащий текст статьи, в тексте статьи могут быть html теги, но их не так много как за границами данного текста. Нельзя опираться на шаблоны html кода, которые могут показать где начало, а где конец текста, т.е. формат страницы заранее не должен быть известен алгоритму. Пока в голову приходит только libpcre, но вот какой шаблон подобрать чтобы все было так универсальненько я пока не додумался. Если есть идеи или ссылки на код реализующий подобный алгоритм то оставляйте, буду очень благодарен за помощь, да и потомки думаю тоже спасибо скажут =)
Ответ на:
комментарий
от anonymous
Ответ на:
комментарий
от anonymous
Ответ на:
комментарий
от Seraph
Ответ на:
комментарий
от anonymous
Ответ на:
комментарий
от Seraph
Ответ на:
комментарий
от anonymous
Ответ на:
комментарий
от Seraph
Ответ на:
комментарий
от Seraph
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.
Похожие темы
- Форум mod_perl - текст html вместо страницы (2007)
- Форум Эмуляция иерархичного списка с помощью стороннего виджета (2013)
- Форум [Html]Вертикальный текст (2008)
- Форум Новомодные способы форматирования текста (2015)
- Форум http+html вместо страницы (2016)
- Форум html страницы gnu проектов. (2016)
- Форум Автоматическая обработка html страниц (2004)
- Форум Физики предложили способ проверить существование Матрицы (2012)
- Форум Получить html страницы стороннего сервера. (2017)
- Форум Поиск страниц по их html (2013)