среда, 18 июня 2014 г.

Выбираем самые популярные страницы из apache лога.

лог-файл Apache в большинстве случаем, представляется огромным и трудно-читаемым файлом с огромным количеством записей.
Сейчас, я покажу тебе как можно вычислить самые популярные страницы на твоем сайте используя лог файл.

В этом примере, мы узнаём популярные URL-адреса из GET запросов. Для этого будем использовать функцию counter, которая присутствует в модуле Python Collections.
import collections

logfile = open("yourlogfile.log", "r")

clean_log=[]

for line in logfile:
    try:
        # копируем URL адреса в пустой список.
        # Берем все символы между 'GET' и 'HTTP'
        clean_log.append(line[line.index("GET")+4:line.index("HTTP")])
    except:
        pass

counter = collections.Counter(clean_log)

# get the Top 50 most popular URLs
for count in counter.most_common(50):
    print(str(count[1]) + "\t" + str(count[0]))

logfile.close()

Комментариев нет:

Отправить комментарий