LINUX.ORG.RU

Какие именно требования? Какой, например, сайт нужно распарсить? Прога по приведённой ссылке, очевидно, умеет выдирать какую-то информацию в каких-то случаях автоматически, но какую именно - непонятно.

В общем случае извлечение информации из неструктурированных текстов - это целая область лингвистики.

proud_anon ★★★★★
()

curl + whatever (скрипты)

DeadEye ★★★★★
()

Такой программы скорее всего нет. Потому что почти весь функционал стандартной лицензии этой программы реализуется на python + lxml, например. Для имитации кликанья мышкой как в лицензии ultimate тоже есть библиотечки.

shrub ★★★★★
()

Ну скажем так, phantomjs. И твоя жизнь больше никогда не будет прежней, если хватит ума написать пару скриптов на is.

n04h
()
Ответ на: комментарий от webmak

Я понял, спасибо. Также можно свою ось написать? Зачем?

Есть гигантская разница между «расчехлить язык программирования и написать скрипт вокруг уже готовой скачивалки файлов и уже готового WebKit или Blink» и «написать свою ось».

Но, впрочем, я согласен, что это очень интересная программа и я не знаю прямого аналога под Линукс. У меня возникает желание самому его написать.

proud_anon ★★★★★
()

Для большинства задач парсинга с головой хватает знания bash, sed и awk, а так же немножко смекалки. Если этого мало, то переходи к питону. А коли с головой туго, то иди на Windows.

anonymous
()
Ответ на: комментарий от proud_anon

В общем случае извлечение информации из неструктурированных текстов - это целая область лингвистики.

А как называется? Где можно почитать про всякие методы ну и прочее?

Debasher ★★★★★
()
Ответ на: комментарий от Debasher

А как называется? Где можно почитать про всякие методы ну и прочее?

Information Extraction.

Есть статья в Википедии.

Есть хороший вводный обзор Сараваги (PDF).

proud_anon ★★★★★
()
Последнее исправление: proud_anon (всего исправлений: 3)

Почитал описание по ссылке. Не хватает пункта "мастерски делает минет".

То, что там расписали, просто невозможно в общем случае реализовать. Наверняка у этой хрени есть режим выбора нужных объектов, после которого она как мартышка все действия повторяет.

Эдак можно и для greasemonkey скрипт накатать, который эту обезьянью работу будет делать.

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от Eddy_Em

То, что там расписали, просто невозможно в общем случае реализовать.

Безусловно, в описании есть значительная доля «маркетинга».

Наверняка у этой хрени есть режим выбора нужных объектов, после которого она как мартышка все действия повторяет.

Да, на видео видно, что так это и происходит. Но там наверняка есть какая-то эвристика, которая умеет экстраполировать исходя из действий пользователя, если прямо как есть повторить не получается. Только у меня сейчас нет времени тестировать её.

Эдак можно и для greasemonkey скрипт накатать, который эту обезьянью работу будет делать.

Так ведь накатывание этого скрипта в самом деле займёт сильно ненулевое время.

proud_anon ★★★★★
()
Ответ на: комментарий от proud_anon

Так ведь накатывание этого скрипта в самом деле займёт сильно ненулевое время

Если эта штука действительно полезная и нужная (я лично сомневаюсь в этом), то быстренько найдутся товарищи, которые подтянутся к разработке и помогут допилить до вменяемого состояния.

Однако, судя по тому, что ТС — вендузятник, ему этого не понять.

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от Eddy_Em

Если эта штука действительно полезная и нужная (я лично сомневаюсь в этом), то быстренько найдутся товарищи, которые подтянутся к разработке и помогут допилить до вменяемого состояния.

Лиха беда начало.

proud_anon ★★★★★
()
Ответ на: комментарий от Eddy_Em

Могу и сам ее написать, но на отладку и устранение багов, чтоб привести ее к божескому виду нужно время. А по статистике у нас мужчины дольше 65 не особо живут, и тратить время для реализации софта который уже есть не считаю необходимым

webmak ★★
() автор топика

лицензия запрещает ставить на wine

Не скажу точно, ибо не юрист, но я советую проконсультироваться с кем-нибудь по поводу действия статьи 1280 ГК РФ на эти пункты лицензии.

Deleted
()

лицензия запрещает ставить на wine

а можете процитировать?

static_lab ★★★★★
()
Ответ на: комментарий от webmak

Купи совести мороженку и пользуйся под вайном. Дело-то.

jori
()

имхо, похоже на вброс. такая замечательная, все умеет, а простенький скрипт под свои нужды написать ниасилил. еще и лицензия на wine ставить мешает... это что ж за лицензия-то такая? и как, собсно, она вам мешает, учитывая, что вы дерете чужой контент?

foreigner_web
()
Ответ на: комментарий от shrub

Удваиваю. Если нужно парсить инфу и постить формочки -python+lxml. Если нужны скрипты и кликанье - берем pyqtwebkit и вперде.

NeverLoved ★★★★★
()

лицензия запрещает ставить на wine.

Такой пункт вводят исключительно для возможности отказа в поддержке при запуске через wine, так что запускай и не грей голову.

vtVitus ★★★★★
()
Последнее исправление: vtVitus (всего исправлений: 1)
Ответ на: комментарий от Debasher

Information Retrieval.

Есть книжка хорошая от Стэнфорда.

yoghurt ★★★★★
()
Ответ на: комментарий от foreigner_web

то что ж за лицензия-то такая?

2.2.5. Покупатель обязуется использовать программное обеспечение только на физическом оборудовании, категорически запрещено использовать софт виртуализации для запуска программ на виртуальных платформах (например: Wine для Linux).

и как, собсно, она вам мешает, учитывая, что вы дерете чужой контент?

не деру, а беру у поставщиков, они разрешают

webmak ★★
() автор топика

Системные требования – Windows XP и выше (Рекомендуется использовать программу на OS Windows7 64-bit!); – Наличие в системе диска с меткой C; – Internet Explorer Версии 8.0 и выше (желательно последний); – Разрешение экрана: от 1366*768 до 1920*1080;

– Наличие в системе диска с меткой C;

Быдлокод

– Разрешение экрана: от 1366*768 до 1920*1080;

Быдлокодx2. Плюс на демонстрационном видео он запускает на 1280х800

Плюс на демонстрационном видео на 4:45 видно, что программа вместо, например, цены на старте продаж в половине случаев распарсила бред. Оно вам такое надо?

sambist ★★
()
Последнее исправление: sambist (всего исправлений: 1)
Ответ на: комментарий от sambist

уже вопрос решил, разработчик дал добро)))

Оно вам такое надо?

там уже говорили что вброс потому без рекламы)))

webmak ★★
() автор топика

bash/php + curl + grep. Парсер для конкретного сайта пишется легче, чем настройка contentdownloader.

xtraeft ★★☆☆
()
Ответ на: комментарий от webmak

не деру, а беру у поставщиков, они разрешают

Нормальные поставщики должны API давать или хотя бы прямые ссылки для выгрузки данных.

xtraeft ★★☆☆
()
Ответ на: комментарий от foreigner_web

и работает нормально

это не нормально, это турбо)

snaf ★★★★★
()
Ответ на: комментарий от webmak

Wine не является «софтом для виртуализации».

Deleted
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.