Описание
В этом примере мы будем использовать модуль re, для того чтобы получить все ссылки с любого веб-сайта.
Один из самых мощных функций в re модуле является re.findall().
В то время как re.search() используется, чтобы найти первое вхождение удовлетворяющее шаблону, re.findall() находит все вхождения и возвращает их в виде списка строк.
Собираем все ссылки с веб-сайта
Этот пример будет получить все ссылки из любого HTML кода.
Чтобы найти их, мы в этом примере будем использовать модуль urllib2 вместе
с re.module.
urllib2 - https://docs.python.org/2/library/urllib2.html
re - https://docs.python.org/2/library/re.html
import urllib2 import re #производим соединение с URL website = urllib2.urlopen(url) #читаем html код html = website.read() #используем re.findall для парсинга всех ссылок с сайта links = re.findall('"((http|ftp)s?://.*?)"', html) print links
urllib2 - https://docs.python.org/2/library/urllib2.html
re - https://docs.python.org/2/library/re.html
Комментариев нет:
Отправить комментарий