urllib2 import urllib2
urllib2 Получение текста страницы: t =.join(urllib2.urlopen(url)) Это некрасивый код, но он работает
urllib2 Загрузка файла (если он бинарный, например, картинка): open(1.jpg, "wb").write(urllib2.urlopen(url).read()) Написанное выше – ужасный код. Но работает Что происходит - понятно
urllib2 Описание urllib2.Request: Параметры: URL, post, headers post – строка, содержащая параметры post Её можно получить из словаря так: urllib.urlencode(post_dict.items()) Для этого не забываем сделать import urllib headers – словарь с заголовками
urllib2 Что можно интересного сделать с объектом, возвращаемым urllib2.Request req.set_proxy( :8118, "http") Установить прокси-сервер на протокол http для этого запроса
urllib2 Что можно интересного сделать с объектом, возвращаемым urllib2.Request req.add_header("Cookie", fu=abc) Это еще один способ установления заголовка Если используют одновременно прокси, обычно только этот способ и работает.
urllib2 Описание urllib2.urlopen: Принимает параметры: req – просто URL или объект, возвращаемый urllib2.Request Необязательный timeout – таймаут запроса в секундах Именно при вызове этого метода происходит обращение к сайту.
urllib2 Что делать с объектом, возвращаемым urllib2.urlopen: Обращаются с ним, как с открытым файлом. Поэтому имеет смысл применять методы readlines() и read() Метод info() возвращает заголовки. После применения к его выдаче str() получается строка, которую можно разбирать
urllib2 Исключения, возникающие при работе с urllib2: exception urllib2.URLError¶¶ exception urllib2.HTTPError¶¶
urllib2 Примеры – как получить код PDB файла: t =.join(urllib2.urlopen('
urllib2 Обладая Firebug и urllib2, можно проанализировать и сымитировать любую деятельность человека в сети. Как можно помешать работе паука? Например так:
urllib2 На чем мы будем учиться? На BLASTP