Вообщем задача такая:
1. Есть куча XML файлов (порядка 30-40 Gb и это не предел)
2. нужно организовать по ним сквозной поиск (по определенным параметрам) с выдергиванием соответствующего узла и формированием нового документа, который содержит данный узел
Планирую решать задачу примерно так:
1. При помощи XSLT формируются CSV файлы по основным параметрам поиска (имя файла;...;...;...)
2. Данные загружаются в БД
3. Пишется веб-мордочка для осуществления задач описанных выше
Вопрос:
1. Планирую использовать в качестве СУБД PostgreSQL - как у нее с большими объемами данных?
2. В качестве веб-сервера Apache - слышал что сильно требователен к ресурсам при большом количестве подключений
3. Python - как с библиотеками для работы с XML (XPath, XSLT, XQuery), либо PHP т.к. с ним все же больше опыта
4. Количество одновременно работающих пользователей от 5 до 100 человек
5. И самое грустное что все это должно крутиться на обычном PC
P.S. может плюнуть и написать обычный толстый клиент?