PDA

View Full Version : problema col file access_log


kenneth00
12-02-2009, 09:59
Salve a tutti. Ho un sito internet con un discreto volume di visite giornaliere (da 2.000 anche a 7.000). Nonostante il volume di traffico sia sostanzialmente immutato da un anno a questa parte, è solo da 4-5 giorni che sto avendo un noiosissimo problema con i file di "access_log" contenuti nella cartella delle statistiche, esterna al mio sito ma naturalmente ospitata nel mio spazio hosting.

In breve, il file "access_log" cresce a dismisura già nel giro di poche ore fino a raggiungere l'assurda soglia di 100-150 MB di file compresso (!) a fine giornata, una abnormità considerando che il pacchetto hosting da me sottoscritto me ne concede solo 50 per l'intero sito. Tutte le contromisure che partono dal Rotation Log non mi sembrano una soluzione al problema. Anche perchè nel mio caso perderei tutto lo storico, visto che dovrei adottare una rotazione a dimensione e non a tempo (la rotazione giornaliera non basta perchè a fine giornata ho già un file monster).

Non sono esperto in materia, tutte le cose che ho detto le sto imparando man mano negli ultimi giorni, per necessità. Vorrei capire qual è il problema, cosa è capitato all'improvviso. L'assistenza mi ha consigliato di leggere bene il file access_log per capire se ci sono problemi nel mio sito. Ma aprendo il file (e non è uno scherzo aprire un file di testo da 100 MB!) non trovo niente di particolarmente indicativo. Solo una cosa: che ogni Ip che accede al mio sito ha come minimo una quarantina di record, tra immagini .png e style.css che ci sono da caricare. Il punto, però, è che il mio sito è sempre stato così...

Che ne dite? Che devo fare? :doh:

bgpop
13-02-2009, 12:11
Non puoi settare un livello di verbose inferiore? Forse è troppo dettagliato attualmente.
Oppure volendo potresti sostituire questo sistema con uno esterno tipo shinystat

supertonno
20-03-2009, 09:23
Riesci a controllare il livello di logging?
Per me è stato cambiato quello, se non hai cambiato niente sul sito e gli accessi non sono cresciuti a dismisura

kenneth00
20-03-2009, 12:43
Non puoi settare un livello di verbose inferiore?

Riesci a controllare il livello di logging?


Vi ringrazio molto. Scusatemi davvero, non credo di avere sufficienti competenze. Sapreste dirmi esattamente come procedere?

Il servizio clienti dell'hoster mi ha lasciato in balìa degli eventi: noncurante del fatto che la cosa si verifichi solo da poco più di un mese, insiste nel dire che una simile dimensione del file access_log è pienamente compatibile con 5000 visite quotidiane.

supertonno
20-03-2009, 13:18
Su apache il livello di logging si puo impostare solo sulla direttiva ErrorLog, non sul CustomLog. In parole povere, solo sui log applicativi, non sui log degli accessi. Sui log degli accessi puoi settare il formato, ma non mi sembra il caso di procedere in questa direzione.

Se il tuo problema è con il file access_log, non puoi farci nulla.
Ora il discorso è, la dimesione di tale file, non e direttamente proporzionale ai visitatori unici, ma agli accessi Accessi, che e ben diverso.

Cosi a sentimento, se i visitatori unici sono rimasti gli stessi, ma gli accessi aumentano, e di conseguenza i log aumentano, potrebbe essereci qualche bot o spider che ti preso di mira...

Che strumenti hai per vedere le statistiche degli accessi? Prova controllare gli accessi per IP.

kenneth00
20-03-2009, 19:29
Uso Funnel Web Analyzer. Gli ho dato in pasto il file access_log della sola giornata di oggi (15 ore = 110 MB di file :eek: ). Ho dato un'occhiata alla lista degli accessi IP per verificare se c'è effettivamente qualcuno che si connette troppo frequentemente, più degli altri o in modo anomalo.

In effetti salta fuori un indirizzo che si connette di più, ma mi farebbe molto comodo una mano a intepretare questi dati. (Ho parzialmente oscurato gli indirizzi con una sbarra per evitare di incappare in una qualche violazione di privacy o cose così).

http://img2.pict.com/ab/ea/2a/9a34ab1ea172463fbe395940a5/FY4oY/accesslog.jpg

http://img2.pict.com/41/c6/97/c4d9087b56b6f4db0ac17fdeb8/eFczX/visitors.jpg

http://img2.pict.com/ea/bf/17/2c6c6ece416472da62a5830002/44G4F/ip.jpg


Un'altra cosa: sarà mica normale che la pagina più caricata non è una pagina standard, ma un php che è in verità il nudo e crudo css del mio template?

http://img2.pict.com/b5/db/db/5fe1a13b35d451b42372ab70d3/3MXNg/pages.jpg


Grazie dell'aiuto, davvero.

supertonno
20-03-2009, 21:11
Uso Funnel Web Analyzer. Gli ho dato in pasto il file access_log della sola giornata di oggi (15 ore = 110 MB di file :eek: ). Ho dato un'occhiata alla lista degli accessi IP per verificare se c'è effettivamente qualcuno che si connette troppo frequentemente, più degli altri o in modo anomalo.

In effetti salta fuori un indirizzo che si connette di più, ma mi farebbe molto comodo una mano a intepretare questi dati. (Ho parzialmente oscurato gli indirizzi con una sbarra per evitare di incappare in una qualche violazione di privacy o cose così).


Cosi a prima vista, credo che sia i primi ip della lista siano spider. Basta fare un semplice rapporto meantime/pages. Viaggiamo sull'ordine di qualche secondo per pagina.... Pero cosi posso solo fare delle supposizioni... Dovresti indagare sulla provenienda degli IP per capire bene. Paradossalmente potrebbero essere semplicemente utenti di una rete locale....
Il sito cosa tratta? Ce qualcosa che potrebber interessare qualcuno, e indurlo a prendersi i contenuti?

Un'altra cosa: sarà mica normale che la pagina più caricata non è una pagina standard, ma un php che è in verità il nudo e crudo css del mio template?

Si e normale, perche immagino che quel css sia incluso in tutte la pagine giusto?

kenneth00
20-03-2009, 21:46
Il sito cosa tratta? Ce qualcosa che potrebber interessare qualcuno, e indurlo a prendersi i contenuti?

Sì, direi di sì. E' un sito con contenuti sportivi che cerco di tenere aggiornato il più possibile. Ho motivo di credere che qualche sito rilanci tutti i nuovi post che pubblico.

Utilizzo wordpress. Ora ho deselezionato l'opzione "permetti trackback e ping", ma non credo di risolvere.

Ho anche inserito un robots.txt parecchio abbottonato, visto che finora era completamente aperto. Spero di non rimetterci in Pagerank.

Ma temo che servirà a poco. In che modo posso verificare gli IP sospetti?

sidvizioso
24-03-2009, 20:28
in php potresti bloccare il controllo delle pagine a quella velocità ad esempio reindirizzare ad una pagina di tua scelta se un ip ad esempio ha visualizzato 10 pagine in 10/20 secondi, così potresti evitare anche eventuali software di download di siti come httrack

kenneth00
24-03-2009, 21:48
in php potresti bloccare il controllo delle pagine a quella velocità ad esempio reindirizzare ad una pagina di tua scelta se un ip ad esempio ha visualizzato 10 pagine in 10/20 secondi, così potresti evitare anche eventuali software di download di siti come httrack

Quant'è difficile fare una cosa del genere per uno che non ha alcuna esperienza di php eccetto le interazioni col proprio spazio web tramite wordpress o FTP? :(

supertonno
24-03-2009, 21:54
in php potresti bloccare il controllo delle pagine a quella velocità ad esempio reindirizzare ad una pagina di tua scelta se un ip ad esempio ha visualizzato 10 pagine in 10/20 secondi, così potresti evitare anche eventuali software di download di siti come httrack

Attenzione, cosi rischi di bloccare anche spider benevoli con quelli dei motori di ricerca. Conseguenza: crollo dell'attività SEO.

I se fossi in te proveri a chiedere al tuo hosting se è possibile gestire una blacklist degli accessi sugli IP. Nel frattempo cerca su google gli IP in questione. Vedi se trovi informazioni relative.