лог-файл Apache в большинстве случаем, представляется огромным и трудно-читаемым файлом с огромным количеством записей.
Сейчас, я покажу тебе как можно вычислить самые популярные страницы на твоем сайте используя лог файл.
В этом примере, мы узнаём популярные URL-адреса из GET запросов. Для этого будем использовать функцию counter, которая присутствует в модуле Python Collections.
Сейчас, я покажу тебе как можно вычислить самые популярные страницы на твоем сайте используя лог файл.
В этом примере, мы узнаём популярные URL-адреса из GET запросов. Для этого будем использовать функцию counter, которая присутствует в модуле Python Collections.
import collections
logfile = open("yourlogfile.log", "r")
clean_log=[]
for line in logfile:
    try:
        # копируем URL адреса в пустой список.
        # Берем все символы между 'GET' и 'HTTP'
        clean_log.append(line[line.index("GET")+4:line.index("HTTP")])
    except:
        pass
counter = collections.Counter(clean_log)
# get the Top 50 most popular URLs
for count in counter.most_common(50):
    print(str(count[1]) + "\t" + str(count[0]))
logfile.close()
 
Комментариев нет:
Отправить комментарий