Update: К сожалению НЭБ ужесточила слежку, так что бан выдаётся через два часа активности. Пока не найдено какое-то другое решение отбой.
P.S. Поставьте тег диссернет в избранное, чтобы быть в курсе если возникнет какая-либо полезная информация. ☺
Нужна помощь сообществу Диссернет в выкачивании диссертаций из НЭБ (Национальная Электронная Библиотека).
Диссернет занимается проверкой диссертаций «на вшивость». К сожалению вшивость местами такова, что относительно небольшое число активистов и автоматизация процесса позволяет вычислить большую часть списанных/купленных/украденных диссертаций, но для этого нужен доступ непосредственно к самому их тексту. Причём доступ нужен не только к проверяемым диссертациям, но и ко всему массиву имеющихся для поиска зависимостей в тексте.
Что необходимо:
- Умение и возможность запускать скрипт python на долгое (несколько суток) время на десктопе/ноутубке/через что-нибудь вроде x2go, так как используется API firefox для симуляции человека.
- Регистрация на сервисе Госуслуги. Это необходимо для авторизации, которая делается вручную один раз на запуск скрипта.
Последствия:
- У вас забанят просмотр текстов на сайте НЭБ. Вы больше не сможете просматривать имеющиеся там доступные для граждан РФ и оцифрованные на их налоги текстовые ресурсы.
Меня забанили после выкачивания примерно 500 диссертаций. Забанили всех, кто использовал скрипт в течении недели от начала кампании по выкачиванию. Сейчас интервал забана от момента запуска скрипта уменьшился до пары суток. Это порядка 100-150 выкаченных диссертаций. Банят и по IP, и по логину. На мой запрос в службу поддержки стоит внезапно ожидаемая тишина.
Что можно сделать:
- Написать мне по e-mail упомянутом в моём тутошнем профиле и я по запросу вышлю скрипт и инструкцию (работоспособность проверялась на ноутбуке с Ubuntu 18.04), а также договоримся как будет передан результат.
P.S. IMHO мошенникам должно икаться. Сами они это за нас не сделают.