Всем привет, такая проблема, нужно скачать html страницу по url и найти определённый ссылки (которые раз в несколько часов меняются) с помощью regex и с этих ссылок вытянуть определённую часть. Делаю это так:
from urlparse import urlsplit
import urllib
import re
scratch = []
sock = urllib.urlopen("https://www.facebook.com/ScratchThatGame")
wsource = sock.read()
sock.close()
matchObj=re.findall("https://fbcdn-sphotos-[a-z]-a.akamaihd.net/hphotos-ak-ash3/t1.0-9/[0-9]+_[0-9]+_[0-9]+_n.[jpg|png]+", wsource)
if matchObj:
for letter in matchObj:
kal=re.findall("57[0-9]{13}", letter)
for kal1 in kal:
scratch.append(kal1)
print scratch
Когда ссылки на странице обновляются, даный скрипт в html коде видит только старые ссылки, мне кажется он кеширует ответ, подскажите как это решить, каким образом можно скинуть кэш или может я не прав.