L'interpretazione dei dati di
traffico non è una scienza esatta
Abbiamo assistito negli ultimi anni ad una crescita
esponenziale dell’importanza attribuita alle analisi
statistiche dei dati di traffico relativi ai siti Internet. Il
motivo di questo crescente interesse è semplice: i dati di
traffico, opportunamente letti, danno il «polso» del
successo di un sito o di una sua sezione. Andare a leggere per
mezzo di appositi programmi il numero di accessi o di page
view è - per i gestori di un portale, di un
quotidiano in linea o di un'azienda che vende prodotti -
né più né meno che come consultare i dati
dell’Auditel per i responsabili di una trasmissione
televisiva. Non solo. I percorsi di visita seguiti dagli utenti
collegati, insieme ad altre variabili quali i tempi di permanenza
sulle singole pagine, rappresentano informazioni estremamente
utili:
- all'area commerciale per definire valide
strategie nel campo delle vendite o della pubblicità;
- all’area tecnica, al fine di valutare
se la struttura delle pagine e l’albero di navigazione
invogliano oppure scoraggiano la permanenza dei visitatori sul
sito;
- all’area editoriale, per comprendere
quali sono i contenuti sui quali puntare e quali, invece, quelli
da eliminare o da modificare.
Purtroppo, però, la rilevazione e soprattutto
l’interpretazione dei dati di traffico di un sito Internet
sono processi che non producono per nulla dati inequivocabili e
certi. Così come la determinazione del numero di
spettatori di un programma televisivo da parte dell’Auditel
è, in fin dei conti, un’inferenza statistica,
cioè una presunzione più o meno attendibile,
strettamente dipendente dalla scelta di un campione e dai metodi
di rilevazione adoperati, allo stesso modo la determinazione
del numero di persone che hanno visitato un sito Internet in un
certo arco di tempo è un’inferenza
statistica, una presunzione legata alla definizione
di determinati parametri ed ai metodi scelti per la rilevazione
di quei parametri.
Per poter comprendere appieno i limiti specifici dei sistemi
di rilevazione dei dati di traffico usati attualmente sul Web,
occorre in via preliminare esaminare nel complesso quali sono i
metodi disponibili per la rilevazione e l’analisi del
traffico. Occorre però, prima di ogni cosa, definire
chiaramente la terminologia adoperata, che basta
da sé sola a creare equivoci e confusioni.
Un glossario articolato su quattro
categorie di dati
La maggior parte dei software e della letteratura sulle
statistiche relative al traffico Web sono in lingua inglese.
Così anche i termini che descrivono i dati di traffico
sono conosciuti per la maggior parte nella loro versione
anglosassone. Per questo motivo il seguente glossario riporta in
primo luogo i termini in lingua inglese e tra parentesi, quando
presenti, i loro equivalenti in lingua italiana. Alcune tra le
parole e le locuzioni definite non riguardano direttamente la
rilevazione del traffico su un sito (il termine “DNS”
ad esempio), ma la conoscenza del loro significato è
tuttavia importante ai fini di una miglior comprensione del
funzionamento dei sistemi di rilevazione esistenti. Per ciascuno
degli elementi definiti in questo glossario viene infine messa in
luce, dove necessario, la potenziale ambiguità e
l’incertezza da essi introdotta nei dati statistici
relativi al traffico generato da un sito Internet.
I termini definiti non pretendono in alcun modo di esaurire il
discorso in materia di statistiche-web. Si è cercato
comunque di inserire con attenzione le parole e i concetti
più importanti per la definizione e la rilevazione dei
dati di traffico. Tutti i termini sono stati raggruppati, per
maggiore chiarezza, in quattro categorie:
- termini tecnici generali di riferimento
- tipi di informazioni ricavabili dalle
statistiche di traffico
- profilazione degli utenti e concetti
collegati
- metodi per la rilevazione dei dati di
traffico
Termini tecnici generali di riferimento
- Caching
- È l’operazione eseguita da un server (un proxy, ad esempio) o da un computer
cliente, consistente nel memorizzare una copia locale di una
risorsa recuperata da Internet, con lo scopo di servire
all'utente che ne fa richiesta quella copia locale, in
luogo del documento originale presente su Internet.
L’attività di caching può
contribuire a falsare in notevole misura la
veridicità dei dati di traffico rilevati dai log file di un server web. (Secondo Martin
Filz di Red Sheriff, la percentuale delle page
view mancanti, dovuta all’attività di
caching, può raggiungere il 60% del traffico
totale che interessa un sito.) È possibile però
prevenire questa perdita di traffico, inserendo nel codice delle
pagine del sito sottoposto a rilevazione statistica un comando
che, definendo la scadenza immediata della validità di
ogni pagina, costringa l’utente interessato a collegarsi
effettivamente alla risorsa richiesta, non potendola più
recuperare dalla cache. Questa soluzione ha però
degli svantaggi: in primo luogo una maggiore occupazione di
banda, in secondo luogo un’attesa più lunga per il
caricamento delle pagine (rispetto all'attesa per quelle
recuperate direttamente dalla memoria del proxy) da
parte dell’utente, il quale potrebbe essere negativamente
influenzato – per quanto riguarda future visite - da un
simile inconveniente.
- Cookie
- Letteralmente “biscotto”. Si tratta di un file di
testo che viene generato dal browser dell’utente in seguito
ad un messaggio inviato dal server web in risposta alla richiesta
di collegamento ricevuta. Il cookie viene memorizzato
sul computer cliente. Esso contiene delle informazioni che
identificano univocamente quell’utente rispetto al sito
Internet che lo ha generato. Ad ogni successiva connessione, il
server web richiederà al browser il cookie
precedentemente memorizzato. Se questo viene trovato, il server
potrà utilizzare le informazioni in esso contenute per
vari scopi:
- per offrire contenuti personalizzati a quell’utente (ad
esempio una pagina di benvenuto con il suo nome);
- per tracciare dei profili di comportamento basati sui
percorsi di navigazione seguiti nel corso delle visite effettuate
al sito;
- per aggiornare le statistiche che registrano le visite
ricevute da utenti unici.
Tutte le rilevazioni statistiche di traffico-web originate
dall’uso di cookie sono soggette principalmente a
due variabili: a) che l’utente collegato abbia
abilitato nel proprio browser il supporto per i cookie;
b) che effettui i successivi collegamenti per mezzo
dello stesso browser.
- DHCP, Dynamic Host
Configuration Protocol
- È un protocollo di comunicazione che, installato su un
server di rete, consente di governare automaticamente e
centralmente l’assegnazione degli indirizzi
IP a ciascuna macchina connessa ad Internet all’interno
della rete. DHCP è in grado sia di assegnare IP statici,
cioè indirizzi sempre uguali nel tempo, sia IP dinamici,
cioè indirizzi con scadenza a breve termine (generalmente
la durata di una sessione di connessione ad Internet).
L’uso di DHCP con assegnazione di IP dinamici è
particolarmente utile per quegli enti, quali università e
provider, che hanno a disposizione un numero di indirizzi IP da
distribuire inferiore al numero delle macchine che
potenzialmente possono accedere ad Internet tramite i loro
server.
Il fatto che moltissimi utenti si colleghino alla Rete per mezzo
di IP dinamici ricevuti automaticamente via server DHCP è
un’ulteriore fonte di incertezza per le rilevazioni
statistiche del traffico generato da un sito. Infatti
l’indirizzo IP soggetto ad assegnazione dinamica è
un’informazione insufficiente per identificare nel tempo in
modo non ambiguo un singolo visitatore del sito (lo stesso IP
potrebbe essere assegnato in successione ad x utenti di
una stessa rete).
- DNS, domain name
system
- È il sistema che traduce i nomi di dominio in indirizzi IP. Un nome di dominio è un nome
letterale, associato in modo univoco ad un indirizzo IP numerico,
per identificare una risorsa su Internet. Ogni volta che un
utente invia tramite il proprio browser una richiesta di
collegamento specificando un nome di dominio (ad es.
www.diodati.org), il server DNS competente intercetta la
richiesta e trasforma la stringa letterale nel corrispondente
indirizzo IP. Se quest’ultimo non è contenuto nella
propria tabella di corrispondenze, la richiesta viene inoltrata
ad un altro server DNS, e così via finché il nome
letterale non viene risolto nella stringa numerica
corrispondente. A questo punto, tutti i DNS interpellati si
aggiornano automaticamente, inserendo nei rispettivi database la
nuova corrispondenza trovata. Questo sistema di chiamate e
aggiornamenti incrociati tra una serie di server DNS decentrati
è più veloce, pratico e sicuro di un sistema basato
su un unico server DNS centralizzato.
- IP address (indirizzo
IP)
- La sigla IP sta per Internet Protocol. È un
numero di 32 bit che rappresenta univocamente ogni mittente o
ricevente di pacchetti di dati attraverso Internet. Nella sua
forma più comune l’IP address è
espresso come una serie di quattro numeri, separati tra loro da
un punto. Ognuno dei quattro numeri può variare (con
alcune limitazioni) tra 0 e 255. Qualsiasi comunicazione che
avviene su reti appartenenti ad Internet deve comprendere
necessariamente l’indirizzo IP del mittente e quello del
destinatario, allo scopo di poter essere istradata
correttamente.
- Log file (file di
registro)
- Buona parte delle rilevazioni statistiche sul traffico
generato dai siti Internet sono effettuate da programmi che
analizzano e presentano, in forma comprensibile al lettore umano,
i dati memorizzati momento per momento dai server web nei propri
file di log.
Usati originariamente come fonte primaria di informazioni per
determinare i carichi di lavoro dei server e studiare
possibili migliorie nella distribuzione di quei carichi, oggi i
dati ricavati dai file di registro sono considerati
principalmente come strumenti commerciali, cioè:
- come informazioni sul successo di un sito Internet o di una
sua parte,
- come mezzi per conoscere abitudini e preferenze di
navigazione degli utenti che si collegano ad un sito,
- come credenziali per vendere servizi (ad esempio spazi
pubblicitari).
È importante però tener presente che i dati
ricavati dall’analisi dei log non sono altro che
registrazioni dell’attività del server
web e, solo in modo indiretto e con molta cautela,
possono essere considerati strumenti per conoscere il numero
degli utenti collegati e le loro abitudini di navigazione. Su
questo equivoco poggiano molte cattive interpretazioni
dei dati di traffico generati dai server web.
I file di log possono assumere, a seconda dei sistemi,
nomi e struttura differenti. Pur nella variabilità delle
configurazioni, possiamo suddividere comunque i file di registro
in quattro categorie principali:
- Transfer (o access)
log – Registra tutte le richieste di
trasferimento file pervenute ad un server tramite protocollo HTTP
dagli utenti collegati via Internet. I dati in esso raccolti sono
una buona misura del carico di lavoro a cui è sottoposto
un server web.
- Error log – Memorizza tutte le
richieste HTTP che non hanno prodotto il risultato atteso
dall’utente. Rientrano in questa categoria il ben noto
errore ‘404 File not found’, gli errori di
timeout (= scadenza del tempo di attesa), le connessioni
rifiutate, quelle interrotte, i messaggi di server ‘too
busy’ (= troppo occupato), ed altri ancora.
L’analisi degli errori riportati in questo file di registro
è utile per correggere possibili squilibri nella struttura
di un sito, per scoprire la presenza di collegamenti interrotti,
per verificare se la potenza di elaborazione della CPU o la banda
di connessione ad Internet siano sufficienti rispetto al volume
di traffico generato.
- Referrer
log – Tiene traccia della provenienza delle
richieste di trasferimento di file ricevute dal server. È
in genere meno usato dei due log precedenti.
- Agent (o user agent)
log – Registra il tipo di software che
invia una richiesta HTTP al server web. Le informazioni fornite
da questo file di registro riguardano il tipo e la versione di
browser utilizzato dall’utente, il sistema operativo usato,
la risoluzione video. Altri dati importanti sono quelli relativi
agli accessi effettuati da spider e robot
utilizzati da motori di ricerca per indicizzare le
pagine di un sito (se ne conoscono oltre una ventina).
Va detto a questo proposito che le visite effettuate dai
software di indicizzazione dei motori di ricerca dovrebbero
essere sottratte al numero complessivo di visite al sito
risultante dai file di registro. Questo è un altro degli
equivoci che possono nascere da un esame superficiale dei dati di
traffico forniti dai file di log.
- NAT, Network Address
Translation
- Letteralmente: traslazione dell’indirizzo di
rete. È un meccanismo che consente, tramite appositi
sistemi hardware e software, di far corrispondere una serie di indirizzi IP usati solo in rete locale ad una
serie, generalmente meno numerosa, di indirizzi IP pubblici. Si
ottengono così molteplici vantaggi:
- l’uso in rete locale di indirizzi IP già
assegnati su Internet (la cosa non crea conflitto per il fatto,
appunto, che tali IP sono usati solo per identificare i computer
all’interno di una LAN);
- la possibilità di mascherare l’IP delle singole
macchine agli utenti esterni, i quali “vedono”
unicamente gli IP pubblici attribuiti al gateway di rete
(in questo senso il natting, interponendosi tra
l’interno e l’esterno della rete locale agisce anche
da firewall)
- la possibilità di gestire in concreto una
quantità di IP maggiore di quelli che sono stati
acquistati come IP pubblici
L’uso di questa traslazione degli indirizzi IP da parte di
molte reti rappresenta una perdita d’informazioni
per la rilevazione statistica degli accessi ad un sito. Se,
infatti, non si dispone della tabella di traduzione usata da un
server NAT, non è possibile sapere se le richieste giunte
da un certo IP fanno capo ad una o più macchine, né
tantomeno a quali.
- Proxy
server
- È un server che agisce da filtro tra le
richieste di connessione a siti Internet, provenienti in genere
dall’interno della rete LAN o WAN a cui il proxy
appartiene, ed i siti stessi. La richiesta di accedere ad una
risorsa su Internet, proveniente da un computer appartenente ad
una LAN o ad una WAN, viene intercettata dal proxy di
rete in modo del tutto trasparente per l’utente. Se la
pagina richiesta non è presente nella cache (= memoria tampone) del
proxy, la richiesta viene inoltrata al sito che ospita
la risorsa, così da recuperare la pagina ed inviarla
all’utente. Se, viceversa, la pagina è già
presente nella cache del proxy, questa viene
inoltrata direttamente all’utente, senza che occorra
inviare alcuna richiesta al sito Internet che ospita la risorsa.
L’uso di un proxy server fornisce essenzialmente
due vantaggi:
- La possibilità di filtrare le richieste
provenienti dall’interno della propria rete, in modo da
evitare, ad esempio, di soddisfare le richieste di connessione a
determinati siti proibiti dalle regole aziendali.
- La possibilità di aumentare notevolmente le
prestazioni, risparmiando tempo e banda di connessione:
ciò avviene quando una stessa pagina, già presente
nella cache del proxy, viene richiesta da
più utenti e quindi inviata loro direttamente dal
proxy stesso, che evita così di connettersi
nuovamente al server remoto che ospita la risorsa.
Come si può comprendere, il fatto che molti accessi ad un
sito provengano da proxy di reti più o meno ampie
può falsare grandemente la valutazione del numero
di pagine effettivamente viste (page views), numero che
potrebbe essere ben superiore a quello rilevato tramite
l’analisi dei file di log. Si
pensi ad esempio a quanti utenti potrebbero essere serviti da
un’unica pagina prelevata da un proxy di
America On Line e conservata nella sua
cache.
- Redirect
(reindirizzamento)
- È un meccanismo per mezzo del quale un utente che ha
richiesto di collegarsi ad un certo indirizzo
Internet viene reindirizzato automaticamente ad un indirizzo
differente. Càpita spesso, così, che una medesima
pagina web possa essere raggiunta, in virtù di appositi
reindirizzamenti, da un certo numero di indirizzi diversi. Ai
fini della rilevazione del numero effettivo di page view
ottenuto in un certo periodo, occorre perciò tenere conto
di tutti i redirect effettuati dal web server nel
periodo considerato.
- Reverse DNS
lookup
- Mentre la trasformazione da un indirizzo letterale al
corrispondente indirizzo numerico è detta forward DNS
lookup, l’operazione contraria – cioè il
risalire da un indirizzo IP noto al
corrispondente nome di dominio – è detta reverse
DNS lookup. Appositi software sono in grado, interrogando
dei server DNS, di ottenere il nome di dominio
a partire dall’IP numerico. Un sistema di rilevazione dei
dati di traffico ha più valore se è in grado di
effettuare il reverse DNS lookup, dal momento che per
l’interprete umano la lettura di una serie di IP numerici
dice poco o nulla, mentre molto più utile risulta la
corrispondente serie di indirizzi letterali: solo questa è
in grado, infatti, di informare effettivamente gli amministratori
di un sito sulla provenienza degli accessi registrati.
- Spider, o crawler o
web bot
- Si tratta di programmi che automaticamente effettuano, in
base a determinati criteri, una serie di richieste di file ad un
server web, allo scopo di indicizzare i contenuti di quel sito
per conto di un motore di ricerca.
Le richieste provenienti da spider possono incidere
fortemente sulla rilevazione del traffico generato da un sito.
Per tale motivo, gli accessi prodotti da spider vengono
in genere evidenziati dai sistemi di misurazione statistica, in
modo che se ne possa tener conto e non risultino così
falsati i valori relativi alle visite ricevute da parte di utenti
umani.
- Session
timeout
- È la durata massima predefinita di una visita ad un
sito da parte di un utente unico. Non esiste uno standard per
questa durata e neppure un consistente accordo in proposito. La
lunghezza di una sessione può variare da un minimo di
10-15 minuti ad un massimo di un’ora. Nella maggior parte
dei casi essa è impostata su 20 o 30 minuti. Se dura 20
minuti, ciò significa che ad un utente unico - riconosciuto come tale
perché ha il medesimo indirizzo IP -
vengono attribuite due visite al sito, nel caso in cui una sua
richiesta di pagina giunga oltre 20 minuti dopo la
precedente richiesta registrata. Viceversa, se l’intervallo
trascorso tra questi due eventi è inferiore a 20
minuti, allora viene conteggiata per quell’utente
un’unica visita.
Come è facile comprendere, la durata di sessione è
un parametro del tutto arbitrario, che nulla ha a che
vedere con l’effettivo comportamento degli utenti collegati
ad un sito e che può tuttavia influenzare le valutazioni
del settore commerciale di un’azienda, circa la misura
della fedeltà degli utenti ai siti presi in
considerazione. Poniamo ad esempio che un sito, avendo un
timeout di sessione impostato su 20 minuti, registri
molte visite di utenti unici nell’arco di un mese di
rilevazione: se ne potrebbe ricavare l’idea che dietro
quelle visite ripetute si celino utenti fidelizzati. Basterebbe
però probabilmente aumentare di soli dieci minuti il
timeout di sessione, per scoprire che il numero di
visite al sito da parte di utenti unici è nettamente
diminuito! Ancora una volta è la conoscenza del
significato e della reale portata dei numeri offerti
dalle statistiche di traffico che aiuta a non commettere
pericolosi errori di valutazione.
- URL, Uniform Resource
Locator
- È l’indirizzo, unico e inequivocabile, di una
risorsa su Internet. Qualsiasi documento - sia esso un file
immagine, un file di testo, una risorsa multimediale, ecc.
– è localizzabile precisamente per mezzo della URL.
Questa comprende:
- una parte relativa al protocollo di comunicazione invocato
(es.:
http://);
- una parte più generale, che identifica
l’host, ovvero il computer su cui è
archiviata la risorsa (es.:
www.diodati.org);
- una parte di dettaglio, che specifica il percorso e il nome
del file da recuperare (es.:
/scritti/2002/g_stat/index.htm).
Nel
linguaggio tecnico delle Specifiche HTML 4, non si parla
più di URL ma di URI (Uniform
Resource Identifier = Identificatore Uniforme di Risorsa).
Nel linguaggio comune di autori ed appassionati di Internet,
però, l'uso della sigla URL è di fatto ancora
largamente prevalente.
Tipi di informazioni ricavabili dalle statistiche di
traffico
- Ad impression
- Nel linguaggio della pubblicità in Rete, si conta una
impression ogni volta che un banner viene caricato in
una pagina web. Poiché in una singola pagina può
essere contenuto più di un banner, il numero di
impression – registrato in un apposito file -
è in genere superiore al numero delle pagine servite.
Tuttavia è erroneo associare alla registrazione di una
impression l’idea che il banner corrispondente sia
stato effettivamente visto dall’utente che ha richiesto la
pagina: non esiste infatti un modo per sapere se, ad esempio,
l’utente ha attivato la visualizzazione delle immagini nel
proprio browser oppure se ha scorso la pagina fino alla fine (nel
caso che il banner si trovi al di sotto di ciò che lo
schermo gli mostra inizialmente).
-
- Average page view duration
- È il tempo medio speso da un utente
unico su una singola pagina del sito. Può essere
calcolato in due modi:
- o dividendo il tempo complessivo speso da un utente sul sito
per il numero di page view
registrate per quello stesso utente nel periodo considerato (ad
es. un giorno)
- o facendo la stessa operazione, ma con la differenza di
considerare solo le page view la cui durata sia
inferiore al timeout di sessione
impostato. In questo secondo caso, se il timeout è ad
esempio di 30 minuti, una richiesta di pagina a cui non ne
seguano altre da parte dello stesso utente per oltre 30 minuti
viene scartata: si considera cioè come una pagina che
l’utente non sta più guardando.
-
- Average page views per visit (o per user session, numero
medio di pagine viste per visita)
- Il valore si ottiene dividendo il numero complessivo di
pagine richieste da un utente unico per il
numero di visite effettuate da
quell’utente nell’arco di tempo considerato.
Incrociando i dati ottenuti per questo parametro con quelli
relativi al tempo medio per
visita, è possibile ipotizzare il comportamento-tipo
degli utenti del sito. Ad esempio, una media di poche pagine
viste per utente, accoppiata ad una lunga durata media delle
visite registrate, potrebbe indicare che i visitatori del sito
trovano con relativa facilità ciò che stanno
cercando e leggono a fondo i contenuti reperiti. Viceversa, una
media di molte pagine viste in rapida successione nel corso di
poche e brevi visite potrebbe indicare che la struttura del sito
è caotica, che gli utenti non riescono a trovare
ciò che stanno cercando e che perciò non sono
invogliati a ritornare.
Naturalmente queste supposizioni devono essere avanzate a ragion
veduta: cioè facendo la tara di tutti i possibili fattori
di incertezza dei dati statistici rilevati.
-
- Average time per visit (o average session
duration)
- È il tempo medio speso da un utente
unico per una visita al sito. Il valore
si ottiene dividendo il tempo complessivo speso dall’utente
sulle pagine del sito nel periodo considerato per il numero di
visite che ha effettuato nello stesso periodo di tempo.
Poiché il numero di visite effettato da un utente unico
in un certo arco di tempo dipende dal parametro arbitrario della
durata di sessione (cfr. la voce session
timeout), è evidente che anche la durata media di
una visita risulta influenzata dal valore assunto da questo
parametro.
-
- Browser used
(Browser usati)
- È la classifica espressa in valori percentuali dei
browser utilizzati dagli utenti che si collegano ad un sito.
Questa informazione è utile soprattutto ai responsabili
tecnici, per tarare al meglio la struttura delle pagine e la
presentazione dei contenuti, in modo che siano navigabili per
mezzo di ciascuno dei vari tipi di browser che risultano presenti
in questa classifica. Se, ad esempio, analizzando l’elenco
dei browser utilizzati, si scopre che una discreta percentuale di
visitatori utilizza un browser non compatibile con alcune
soluzioni tecniche implementate sul sito, sarebbe opportuno
ricalibrare le pagine in modo da renderle accessibili
anche alla fetta di utenza penalizzata dalle precedenti scelte
tecniche.
Va comunque precisato che la verifica pratica di quali tipi di
browser si colleghino alle pagine di un sito non dovrebbe aver
alcuna importanza, se quelle pagine sono state codificate fin
dall'inizio nel rispetto dei linguaggi standard per il Web
definiti dal W3C.
-
- Click
rate
- È il rapporto percentuale tra il numero di volte che
un utente ha fatto clic su un banner presente su una pagina web
ed il numero di volte che quel banner è stato caricato.
È cioè il rapporto percentuale tra click-through ed impression. Un click rate del 5%
significa, ad esempio, che un banner ha ricevuto 5 clic per ogni
100 richieste di caricamento registrate.
- Click-through
- È il numero di volte in cui un utente fa clic su un
banner pubblicitario presente su una pagina web, collegandosi in
tal modo al sito dell’azienda che vende il prodotto o il
servizio reclamizzato dal banner.
-
- Hit (richiesta di
accesso)
- Costituisce un hit qualsiasi richiesta di file
pervenuta ad un server web. Così, se una pagina web
è costituita da un file HTML e da sei immagini, la
visualizzazione completa all’interno della finestra di un
browser sia della pagina sia delle immagini in essa contenute
corrisponderà alla registrazione di sette hit
nell’apposito file di log del
server. Un equivoco comune, soprattutto in passato, consisteva
nel confondere le richieste di accesso con le pagine
realmente caricate: un numero, quest’ultimo, che è
in realtà quasi sempre nettamente inferiore al numero di
hit registrato.
- Hourly
(daily, weekly,
monthly, yearly) pages
count
- Un grafico o una tabella (1) che mostra la distribuzione oraria
delle page view registrate
nell’arco di una giornata (o la distribuzione giornaliera
nell’arco di una settimana oppure di un mese, o la
distribuzione mensile nell’arco di un anno solare).
- Least requested, o popular, pages
(pagine meno richieste)
- È il complemento del parametro most requested pages, è
cioè la classifica delle pagine meno richieste di un sito
in un certo arco di tempo. Lo studio di questa classifica
è utile per cercare di capire se i pochi accessi
registrati per alcune pagine dipendono da contenuti non
interessanti o dalla scarsa visibilità di quelle risorse
nell’economia generale del sito.
-
- Most common countries
- È l’elenco in ordine decrescente delle
nazioni da cui proviene il maggior numero di accessi ad
un sito.
- Most common operating systems
- È la classifica espressa in valori percentuali dei
sistemi operativi più utilizzati. Scorrendo i
risultati forniti da questi resoconti si ha di solito la riprova
di quanto sia schiacciante il monopolio ormai raggiunto dalla
Microsoft (2).
- Most requested
pages (pagine più richieste)
- È la classifica, in ordine decrescente, delle pagine
che hanno ricevuto più contatti in un determinato
arco di tempo. In base ai filtri impostati, possono essere
considerati in questo elenco alcuni tipi di file – ad es.
HTML e ASP – e non altri. È utile comunque, per i
tecnici e per i responsabili editoriali di un sito, considerare
attentamente la classifica delle pagine più richieste, sia
per correggere eventuali problemi di natura tecnica -
come un sovraccarico del server web dovuto ad errori di
programmazione – sia per correggere problemi di
struttura logica del sito: alcune pagine, ad esempio,
potrebbero essere al vertice della classifica delle più
richieste non per i loro contenuti, ma perché
sono delle strettoie obbligate da cui passare per
raggiungere determinati altri contenuti; altre pagine, al
contrario, potrebbero ricevere pochi contatti soltanto
perché non sono state rese sufficientemente visibili agli
utenti (vedi least requested
pages).
-
- Page views
(pagine viste)
- Il numero di pagine viste su un sito è forse
l’informazione più importante che le statistiche web
possano fornire, ma è anche l’informazione di
gran lunga più ambigua e difficile da determinare,
sia per la difficoltà di definire univocamente cosa sia
una pagina sia per l’impossibilità oggettiva di
conoscere il rapporto preciso tra pagine servite e pagine
caricate da un utente umano (a causa dell’interferenza di
numerose variabili quali proxy, NAT, cache
locali, spider, ecc.).
L’oggetto principale registrato da un server web come una
pagina è il file HTML, che contiene le chiamate a tutti
gli altri oggetti – immagini, suoni, elementi multimediali,
ecc. – che servono a completare quell’entità
piuttosto astratta che è la “pagina”.
Ma non solo i file HTML hanno diritto ad essere considerati
“pagine”: anche i file cosiddetti
“dinamici”, cioè quelli che
contengono elementi di programmazione in grado di generare
contenuti differenti a seconda dei casi, sono a buon diritto da
considerarsi “pagine”. Rientrano in questa categoria
i file con estensione ASP, PHP,
PHP3, PL e simili. Ma possono
rientrarvi – ed è una scelta
dell’amministratore di rete impostare di conseguenza
opportuni filtri sul server – anche i file
TXT, i file RTF, i file
DOC, i PDF ed altri ancora.
Insomma: non è per niente semplice creare una categoria
astratta chiamata “pagina”, che comprenda alcuni tipi
di file e ne escluda altri e che fornisca, allo stesso tempo, un
parametro attendibile per la valutazione del numero di pagine
viste da utenti umani (3).
Tale ambiguità, unita all’impossibilità di
determinare quanti esseri umani vi siano effettivamente
dietro ciascuna chiamata di pagina ricevuta da un server web,
dovrebbe far comprendere quanto siano aleatorie le
valutazioni effettuate sulla base del numero di page
view riportato dai programmi che analizzano i file di log.
Soprattutto va tenuto presente che la comparazione delle
page view registrate per due o più siti
differenti può essere un’operazione dai risultati
molto poco attendibili: infatti, pur ponendo come uguali
gli strumenti di rilevazione del dato e i filtri impostati, la
struttura dei siti - in termini di composizione delle pagine e di
oggetti in esse presenti o da esse richiamati – può
essere motivo sufficiente per generare, nel numero di page
view rilevato, uno scarto nettamente superiore (o nettamente
inferiore) alla reale differenza nella quantità
di pagine viste da visitatori umani su ciascuno di essi (4).
In definitiva, per dare sostanza ai meri dati numerici dei
log relativi alle page view, occorre,
più che in altre circostanze, lo studio approfondito di
ogni singolo caso: non basta leggere la nuda serie dei numeri, ed
è erronea la supposizione – ammesso che qualcuno la
abbia - di avere a che fare con informazioni precise ed
affidabili sui visitatori umani del proprio sito.
Infine una notazione che ha a che fare con
l'accessibilità: il fatto che i sistemi di
rilevazione statistica parlino comunemente di pagine
viste piuttosto che di pagine caricate, fa
comprendere quanto sia ancora forte e radicato il
preconcetto che una pagina, per essere fruita da un
utente, debba essere necessariamente esplorata con gli
occhi.
-
- Request By Organization Type
- È la classifica in valori percentuali delle richieste
di accesso ad un sito, ordinate in base al tipo di dominio da cui
parte la richiesta (COM, NET, ORG, MIL, EDU, GOV, identificativi
nazionali).
-
- Single access
pages
- È la classifica delle pagine uniche più
richieste, visitate in un certo intervallo di tempo. Si
tratta cioè di quelle pagine che, per motivi che i
responsabili di un sito dovrebbero studiare a fondo, suscitano
l’interesse degli utenti, ma allo stesso tempo non li
invogliano a proseguire la visita appena iniziata. Potrebbe
trattarsi di pagine con contenuti chiusi in se stessi (ad esempio
una serie di collegamenti o una recensione), referenziate da
altri siti. In questo caso andrebbe studiato il modo per indurre
il visitatore a continuare la navigazione all’interno del
sito, ad esempio inserendo nelle pagine “incriminate”
dei collegamenti ad altre sezioni con contenuti affini.
-
- Top directories
- È l’elenco in ordine decrescente delle
directory (in genere solo quelle di primo livello) che
hanno ricevuto complessivamente più richieste di accesso
dagli utenti collegati. Questa classifica tende a dare
un’idea dell’importanza reciproca delle sezioni in
cui è suddiviso un sito. Perché questo resoconto
abbia un qualche valore conoscitivo, occorre che la struttura
logica del sito sia stata progettata in modo razionale,
raggruppando i vari contenuti, in base alla loro
omogeneità, sotto apposite directory.
-
- Top entry
pages
- È la classifica in ordine decrescente delle pagine
iniziali più richieste per ciascuna visita al sito
registrata in un certo arco di tempo. Normalmente al vertice di
questa classifica c’è la home page. Se
così non è, diventa importante identificare i
motivi per cui altre pagine funzionano meglio della home
page come ingressi al sito. Ciò può essere
fatto, ad esempio, analizzando i referrer
log, cioè i dati sulla provenienza delle visite,
per capire se e da quali altri siti sono referenziate le pagine
che si trovano al vertice della classifica delle top
entry.
- Top exit
pages
- È la classifica in ordine decrescente delle pagine
più richieste in un certo arco di tempo come pagine
finali di una visita ad un sito. È, in altre parole,
l’elenco delle pagine che sembrano più di tutte
invogliare l’utente ad interrompere una visita in corso.
Anche qui è importante uno studio approfondito, allo scopo
di capire cosa c’è in quelle pagine che spinge i
visitatori a lasciare il sito. Molto spesso la causa è da
ricercarsi in una serie di collegamenti diretti ad altri siti;
altre volte può trattarsi di un cattivo sviluppo
dell’albero di navigazione, che finisce con il condurre gli
utenti verso pagine-imbuto prive sia di informazioni utili sia di
collegamenti verso altre sezioni del sito.
-
- Top paths
- È la classifica dei più comuni percorsi di
navigazione seguiti dagli utenti nel corso delle loro visite
ad un sito. Per ogni elemento della classifica vengono forniti di
solito:
- la sequenza delle pagine visitate, che costituisce il
path (= percorso);
- la percentuale delle visite sviluppatesi seguendo quel
path, rispetto alle visite totali registrate;
- il numero delle visite per quel path nel periodo
considerato.
-
- Top referring pages (o URLs)
- È la classifica in ordine decrescente delle singole
pagine che hanno reindirizzato degli utenti verso un
sito. È utile che il servizio di rilevazione statistica
adoperato permetta di aggregare i reindirizzamenti, in modo tale
da separare quelli provenienti dall'interno del dominio
di appartenenza del sito da quelli provenienti dall'esterno.
-
- Top referring
sites
- È la classifica in ordine decrescente dei siti che
hanno reindirizzato il maggior numero di contatti a file
presenti su un sito. Spesso un’elevata percentuale di
contatti è accoppiata in questa classifica
all’etichetta “no referrer”:
ciò significa che un utente si è collegato
direttamente ad una risorsa su un sito, senza esserci arrivato
per via di collegamenti. Questo caso si verifica, ad esempio,
quando un visitatore, conoscendo l’indirizzo della pagina
richiesta sul sito di destinazione, inserisce manualmente la URL
nella barra degli indirizzi del proprio browser.
-
- Top Search Engines
(Motori di ricerca)
- È l’elenco in ordine decrescente dei motori
di ricerca che hanno generato più contatti al sito.
Se il numero complessivo di contatti generato da motori di
ricerca è basso rispetto al numero complessivo di contatti
registrato per un sito, allora se ne può dedurre che le
pagine e i contenuti di questo sito non sono sufficientemente
indicizzati dai motori di ricerca. Occorrerebbe in questo
caso effettuare le apposite procedure – spesso a pagamento
e ottenibili in blocco rivolgendosi a società
specializzate – per migliorare l’indicizzazione dei
contenuti messi in linea. Essere ai vertici delle classifiche
generate dai principali motori di ricerca può essere,
infatti, un formidabile strumento per incrementare il numero di
visite ricevute.
- Top Search Keywords (Parole chiave)
- È l’elenco in ordine decrescente delle parole
chiave con più frequenza utilizzate dai visitatori di un
sito nell’interrogare i motori di ricerca; parole chiave
che hanno prodotto, come risultato dell’interrogazione, dei
collegamenti e delle conseguenti visite al sito.
È importante che un sistema di rilevazione del traffico
sia in grado di fornire la classifica delle parole chiave
più utilizzate dagli utenti. Studiare con attenzione
questa classifica è infatti molto utile al fine di
comprendere che tipo di contenuti gli utenti riescono a trovare
sul proprio sito grazie ai motori di ricerca. Per via di
esclusione si può poi cercare di definire quali altri
contenuti, pur presenti sul sito, non generano contatti tramite i
motori di ricerca, e perché.
-
- Unique visitor
(visitatore unico)
- Viene conteggiato come visitatore unico di un sito
quel visitatore che – identificato principalmente per mezzo
dell’indirizzo IP, ma anche per mezzo di
cookie o di un’esplicita
procedura di registrazione – effettua due o
più visite ad un sito in un dato arco di tempo. È
una misura considerata indicativa del traffico generato da un
sito, ma anche del livello di fidelizzazione degli
utenti. Anche in questo caso, però, le aspettative di
conoscenza legate ai valori numerici rilevati si scontrano
purtroppo con difficoltà oggettive: nel caso del
tracciamento per mezzo dell’indirizzo IP, può
capitare infatti che - grazie all’assegnamento di IP
dinamici da parte di server DHCP - utenti
diversi si colleghino in successione con lo stesso IP oppure il
medesimo utente si colleghi più volte di seguito con un IP
diverso. In entrambi i casi il numero di visitatori unici
registrato risulta non veritiero.
Allo stesso modo, il rilevamento degli utenti unici può
essere falsato quando il tracciamento avviene per mezzo di
cookie ed una stessa persona si collega più volte
ad uno stesso sito:
- con un browser che è impostato per rifiutare i
cookie;
- alternativamente con browser differenti;
- da computer diversi.
-
- Visit
(visita)
- Tutte le richieste ricevute in successione ininterrotta da un
server web, provenienti da un medesimo indirizzo IP. Si considera terminata
una visita da parte di un utente identificato se tra due
successive richieste di pagina intercorre un tempo superiore al
timeout di sessione impostato: se
questo, ad esempio, è impostato su 30 minuti, una
richiesta di pagina da parte dello stesso utente che arrivi oltre
30 minuti dopo la precedente richiesta, sarà considerata
come la prima pagina vista di una nuova visita al
sito.
Il totale delle visite che si ricava in tal modo
dall’analisi dei file di log
per un dato periodo di tempo rappresenta evidentemente
un’approssimazione statistica, il cui indice di
affidabilità rimane imprecisato, dal momento che non
esistono mezzi per sapere - tramite la sola analisi dei
log - né quanto siano durate in realtà le
singole visite ricevute né se con un medesimo indirizzo IP
si sia collegata sempre la stessa persona oppure una serie di
persone differenti.
- Visitors Gained
since Previous Period (Nuovi visitatori)
- Si tratta di visitatori mai registrati nei
precedenti periodi di rilevazione statistica, ovvero di nuovi
visitatori.
-
- Visitors Lost since
Previous Period (Visitatori perduti)
- È l’elenco dei visitatori registrati nel corso
di precedenti periodi di osservazione e mancanti, invece, dalle
rilevazioni per il periodo corrente: si tratta cioè di
visitatori perduti.
-
- Visitors Returning from Previous Period (Visitatori
di ritorno)
- Si tratta di visitatori che hanno già visitato un sito
in un precedente intervallo di tempo. Per la
significatività di questa classifica è importante
tarare con intelligenza i periodi presi in considerazione (non si
può considerare, ad esempio, come un visitatore
abituale di un sito un utente la cui precedente visita
è stata registrata tre anni prima).
Profilazione degli utenti e concetti collegati
- Clickstream analysis
- È l’analisi della serie registrata di clic
del mouse, ovvero di scelte di navigazione effettuate dagli
utenti di un sito. Costituisce uno degli elementi fondamentali
del processo di profilazione degli
utenti.
- Data mart
- È un database contenente dati raccolti in vista di un
uso specifico. Può essere un sottoinsieme di un
data warehouse, ma, rispetto al
carattere generico di quest’ultimo, l’accento - in un
data mart - è posto sulla capacità di
venire incontro alle esigenze di particolari gruppi di utenti in
termini di dati raccolti, presentazione delle informazioni,
semplicità d’uso.
- Data mining
- È l’esame complessivo dei dati raccolti
sull’attività dei propri utenti/clienti, tendente a
trovare nei loro comportamenti correlazioni
significative da un punto di vista commerciale. Costituisce
pertanto una parte del complesso procedimento di profilazione degli utenti. I risultati a
cui può giungere l’attività di data
mining sono molteplici:
- associazioni – due eventi si
verificano spesso insieme (ad esempio chi compra delle scarpe
tende ad acquistare anche dei calzini);
- sequenze – due eventi successivi
sembrano legati da una relazione di causa-effetto (chi compra un
mouse su Internet, tempo dopo acquista anche un tappetino);
- classificazioni – il riconoscimento di
un ordine in una serie di eventi, con la conseguente
riorganizzazione dei dati in proprio possesso;
- raggruppamenti – la ricerca e la
presentazione di gruppi di fatti non precedentemente noti;
- previsioni – lo studio della probabile
evoluzione futura della propria attività in base alle
risultanze dei dati raccolti.
- Data warehouse
- Si definisce così la base dati centrale di
un’azienda o di un suo settore di attività. È
il serbatoio in cui confluiscono, spesso da numerose e differenti
fonti, tutti i dati grezzi suscettibili di future
elaborazioni. La massa di dati in esso contenuta rimane poco
significativa, ai fini ad esempio della pianificazione
commerciale dell’attività, finché questo
insieme “bruto” di dati non viene filtrato ed
analizzato da apposite applicazioni, per mezzo di una
specifica attività di data
mining.
- OLAP, online analytical
processing
- Si tratta di applicazioni che, agendo su una base dati
preesistente, consentono agli analisti di estrarre e
correlare i dati in modo da generare una grande
varietà di punti di vista e di associazioni.
L’attività di data
mining, descritta al punto precedente di questo
glossario, è resa possibile appunto da applicazioni di
tipo OLAP, le quali conservano i propri dati in database
multidimensionali, così detti per distinguerli
dai più comuni database relazionali. Mentre
questi ultimi possono essere descritti come strutture
bidimensionali, cioè piatte, nelle quali
l’organizzazione delle informazioni sta nello schema di
righe e colonne delle tabelle che li compongono, i database
multidimensionali vanno associati piuttosto all’immagine di
un solido, tipicamente un cubo, che simboleggia il fatto
che ogni tipo di informazione presente in simili database
può divenire il perno, ovvero la dimensione di
riferimento, per una serie di associazioni con altri dati.
- Profiling
(profilazione)
- È l’attività per mezzo della quale una
serie complessa di dati relativi ad utenti/clienti viene
elaborata da specifici programmi – come ad esempio
l’Observation Management Server del notissimo
Vignette – per generare alla fine la
segmentazione della propria utenza in gruppi
omogenei di comportamento. I dati che possono essere presi
in considerazione per la profilazione sono molteplici. Tra questi
citiamo:
- la serie delle scelte di navigazione effettuate sul
sito in esame dagli utenti unici identificati;
- la dichiarazione esplicita di preferenze e interessi
ottenuta tramite procedure di registrazione o sondaggi;
- la raccolta di dati demografici;
- la risposta degli utenti identificati a promozioni o
a contenuti particolari.
I sistemi di profilazione più avanzati mettono a
disposizione del settore commerciale di un’azienda la
possibilità di segmentare in gruppi la propria utenza sia
manualmente, scegliendo i parametri da prendere in
considerazione, sia automaticamente, in base alle
capacità native del software utilizzato. In entrambi i
casi, il valore aggiunto è dato dalle molteplici
correlazioni che è possibile istituire tra i dati
raccolti, al fine di ricavarne informazioni commercialmente
utili. Ecco a titolo esemplificativo alcune di queste
correlazioni:
- Content affinities (affinità di
contenuto) – gli insiemi di contenuti che tendono ad
essere visti insieme dagli utenti del sito esaminato;
- Content effectiveness (efficacia dei
contenuti) – per i siti di commercio in Rete, i
contenuti che tendono ad essere visti in sessioni-utente che si
concludono con un acquisto;
- Product affinities (affinità di
prodotto) – sempre per i siti di commercio in Rete,
l’elenco dei prodotti che sono più spesso acquistati
insieme.
- Profiling esplicito
- Si ottiene per mezzo di un’apposita procedura di
registrazione, che implica l’invio tramite un modulo
di dati personali da parte dell’utente. I dati
inviati, archiviati in un' apposita base dati, forniranno una
serie di parametri utili a segmentare in gruppi omogenei
la totalità degli utenti registrati.
- Profiling implicito
- È il tracciamento del comportamento di utenti
anonimi nel corso delle loro visite ad un sito. Il
tracciamento può avvenire sia tramite IP
sia tramite cookie.
L’insieme delle scelte di navigazione effettuate alimenta
una base dati, da cui appositi programmi
possono estrarre associazioni e correlazioni, in grado di
segmentare la totalità degli utenti tracciati in
gruppi omogenei.
Metodi per la rilevazione dei
dati di traffico
- BBM, browser-based
measurement (misurazione basata sul browser)
- Questo tipo di misurazione avviene sempre sulla base di dati
registrati in file di log, ma la
generazione dei log non è più determinata
dall’attività del server web bensì dal
caricamento nel browser dell’utente di un apposito
frammento di codice, denominato page tag. Si
tratta in genere di alcune righe contenenti un
javascript, il cui compito è di inviare una
richiesta HTTP al server addetto alla registrazione del
traffico-web, per informarlo che è stata generata una
page impression (5).
Questo metodo di rilevazione offre alcuni indubbi
vantaggi:
- Consente ad esempio di superare il problema – tipico
delle misurazioni
site-centric - di definire dei filtri omogenei per
separare i tipi di file associabili ad una page view (HTML, ASP, ecc.) dai tipi
di file non associabili (JPG, GIF, PNG, ecc.). Con il
sistema dei page tag, infatti, solo i file che
contengono l’apposito frammento di codice javascript sono
in grado di generare una page impression. I responsabili
tecnici del sito potranno così di volta in volta valutare
se e dove inserire il codice in questione (6).
- Consente di eliminare l’incertezza legata alla
non quantificabile interfenza di strumenti di caching interposti tra il server web ed
i visitatori del sito. Infatti anche le pagine recuperate da
cache locali, se dotate dell’opportuno page
tag, invieranno al server deputato della registrazione dei
log le chiamate necessarie a generare una page
impression.
Per contro, la misurazione basata sul browser presenta anche
degli svantaggi:
- In primo luogo, va tenuto presente che le statistiche di
traffico generate con questo sistema riguardano solo ed
esclusivamente le pagine in cui è stato inserito, e
nel modo corretto, l’apposito page tag. Ciò
significa che, laddove vi sia una realtà aziendale molto
complessa - con molti siti da monitorare, moltissime pagine
pubblicate e numerose persone addette al processo produttivo
–, sarà molto difficile (per non dire impossibile)
avere la certezza che la totalità delle pagine da
sottoporre ad analisi statistica sia stata effettivamente
modificata con l’inserimento dell’opportuno codice
javascript. Si rischia cioè, con l’andar del tempo,
di trovarsi di fronte ad un nuovo tipo di incertezza: di
non sapere, cioè, se le rilevazioni del traffico
browser-based di cui si è in possesso coprano la
totalità degli accessi effettuati ai propri siti e siano
perciò davvero attendibili (7).
- La presenza – per quanto minima e tendenzialmente non
avvertibile – di un ritardo nel caricamento della
pagina, dovuto alle chiamate HTTP aggiuntive presenti nel codice
del page tag, indirizzate – nel caso che il
servizio sia fornito da terzi – ad un server differente da
quello che ospita il sito.
Esistono molti società che offrono servizi di rilevazione
statistica basati sul browser, sia gratuiti sia a pagamento.
Spesso la formula prevede un’offerta base gratuita ed una,
più completa, a pagamento. Tra i fornitori di statistiche
di tipo BBM citiamo FreeStats,
Sitetracker,
SuperStats di MyComputer.com,
ShinyStat, Site Stats. Una
menzione particolare merita RedSheriff, con sedi in
oltre 30 nazioni, che sta assumendo un ruolo di primo piano a
livello internazionale nella fornitura di servizi professionali
BBM.
- Site-centric measurement (misurazione
centrata sul sito)
- La fonte principale per questo tipo di rilevazione sono i file di log che registrano
l’attività del server web. Il limite maggiore di
tale metodo è da ricercarsi nella scarsa
corrispondenza tra le registrazioni dei log e
l’effettiva attività dei visitatori del sito. Vi
sono infatti molti fattori che generano incertezza. Tra
questi:
- la difficoltà di definire univocamente quali
tipi di file sono da considerare “pagine” e quali no;
- il caching delle pagine
effettuato da proxy server, motori
di ricerca, browser utente, ecc. Non vi è modo di sapere
il rapporto esatto tra le page view registrate nei
log e le pagine fornite dai vari sistemi di
caching interposti tra server web ed utente finale;
- l’assegnazione di IP dinamici agli
utenti da parte di server DHCP: non è
possibile sapere né se visite successive eseguite da uno
stesso IP provengano da una stessa persona né se visite
successive, eseguite da IP differenti, provengano da persone
diverse o da un medesimo utente a cui sia stato assegnato
dinamicamente un nuovo IP.
Tra i vantaggi offerti dalle misurazioni site-centric
c’è la possibilità di sottoporre i propri
log file all’analisi di una società terza,
avente funzioni di ente certificatore dei dati di
traffico registrati (8). La
certificazione riguarda essenzialmente due punti:
- l’autenticità delle registrazioni
dell’attività del web server;
- l’accuratezza delle statistiche da esse
derivate.
L’utilità commerciale di simili certificazioni
è notevole, in quanto, conferendo un valore
“quasi” oggettivo alle statistiche di traffico di un
sito, aumenta di conseguenza la forza di contrattazione nella
vendita di spazi pubblicitari: la certificazione infatti accresce
la fiducia dell’acquirente nella
possibilità di ottenere un numero di ad
impression realmente commisurato al numero di page
view dichiarato.
- User-centric measurement (misurazione
centrata sull’utente)
- Questo tipo di misurazione è completamente differente
dalle altre due. Non si tratta, infatti, di un’elaborazione
statistica effettuata a partire dai dati registrati nei file di
log; si tratta piuttosto di una vera e propria
indagine di mercato, basata su elementi tipici del
settore:
- un campione di popolazione significativo del tipo di
utenza che si vuole misurare;
- uno strumento per la rilevazione del comportamento
degli individui che compongono il campione, applicato ai loro
computer ed in grado di monitorare attimo per attimo qualsiasi
tentativo, riuscito o non riuscito, di navigazione su
Internet;
- strumenti statistici studiati per effettuare
proiezioni più o meno attendibili, che estendono
alla totalità della popolazione i dati ricavati
dall’analisi del campione.
La validità delle proiezioni di traffico ricavate per
mezzo di indagini di mercato è strettamente dipendente
dalla significatività del campione selezionato
– che è evidentemente una variabile difficilmente
quantificabile – e dalla raffinatezza ed
affidabilità degli strumenti statistici
adoperati.
Esistono diverse società che effettuano ricerche di
questo tipo. Tra esse citiamo Nielsen//NetRatings,
Jupiter
MMXI, NetValue.
Conclusioni
Al termine della lettura di questo glossario, dovrebbe essere
ormai chiaro che la rilevazione del traffico web è una
"scienza" giovane, che si scontra con una serie di ostacoli
oggettivi, che influiscono per ora piuttosto seriamente
sull'affidabilità dei dati registrati.
Tra i tre sistemi di rilevazione analizzati nel capitolo precedente è difficile dire
quale sia il più attendibile, dal momento che ognuno di
essi presenta vantaggi e svantaggi. Nel caso di siti con un
numero non eccessivamente ampio di pagine, o di siti con una
gestione centrale ben organizzata, la rilevazione di tipo BBM sembra essere la soluzione migliore, dal
momento che permette di superare in buona parte le notevoli
incertezze legate, nel caso della rilevazione site-centric,
all'impossibilità di quantificare l'influenza di fattori
quali caching, DHCP, NAT, ecc.
Al contrario, nel caso di domini contenenti una notevole
quantità di siti, forse la soluzione migliore rimane la
rilevazione site-centric, basata sull'analisi dei file
di registro, magari certificata da una società
specializzata. Quando infatti le pagine da monitorare sono
migliaia - e se ne aggiungono di nuove ogni giorno, e le persone
coinvolte nell'aggiornamento sono numerose e disperse, non
esistendo un gestione centralizzata - diventa un fattore critico
avere la certezza che i dati statistici registrati riguardino la
totalità delle pagine esistenti e non una percentuale
indefinibile delle stesse. I file di registro, conservando la
totalità delle transazioni HTTP effettuate dai server web
del dominio, consentono appunto di avere questa certezza. Anche
se non bisogna dimenticare che tali registrazioni sono
soprattutto uno strumento per la diagnosi
dell'attività del server piuttosto che una fotografia
oggettiva del numero degli utenti connessi e dei loro
comportamenti di navigazione.
Per quanto riguarda il terzo sistema, cioè l'analisi a
campione delle navigazioni effettuate dagli utenti, bisogna dire
che il ricorso a questo strumento di inferenza statistica -
essendo notevolmente costoso - non è alla portata di tutte
le società presenti su Internet. La stessa
affidabilità dei dati prodotti dall'analisi dipende
fortemente dalla rappresentatività del campione
selezionato e dalla validità degli strumenti
tecnico-matematici utilizzati.
In definitiva, si potrebbe concludere che le rilevazioni
statistiche del traffico generato da un sito, più che
essere prese in se stesse come numeri assoluti, dovrebbero essere
prese in senso relativo, cioè come rapporto
proporzionale esistente tra le visite ricevute dalle
differenti pagine di un sito. Voglio dire che, se il sistema di
rilevazione adoperato ci dice che due pagine di uno stesso sito
ricevono l'una 1000 visite al mese e l'altra 200, è
sì molto probabile che il numero effettivo di volte in cui
qualcuno ha caricato le due pagine sia più o meno
differente da quello registrato dalle statistiche, ma è
altresì molto probabile che il rapporto
tra le volte in cui la prima pagina è stata caricata e le
volte in cui è stata caricata la seconda sia prossimo a
quel 5:1 rilevato dal sistema di misurazione in uso. Ciò
pur con tutte le precauzioni del caso, dovute alla possibile
influenza di diversi fattori non precisamente quantificabili.
Dall'analisi di simili informazioni, i gestori di un sito
possono trarre una serie di conclusioni utili a migliorare la
struttura e i contenuti delle proprie pagine web, anche se rimane
relativamente inconoscibile il numero reale di
visitatori in un certo arco di tempo.
(1) Spesso i
sistemi di reportistica offrono entrambe le viste.
(2) Sembra
che il 97-98% degli accessi totali ai principali siti italiani e
internazionali avvengano tramite sistemi PC-Microsoft:
questo finisce con il penalizzare purtroppo gli utenti
di sistemi meno diffusi - soprattutto Macintosh - i
quali si scontrano spesso con siti non ottimizzati per
gli strumenti in loro possesso.
(3) Un file
in formato PDF, tanto per fare un esempio, è contato nei
log come un’unica pagina vista, anche se
può contenere un documento composto da centinaia di pagine
stampabili.
(4) Ad
esempio, una pagina HTML suddivisa in quattro frame,
cioè composta da quattro finestre che richiamano ciascuna
un differente file HTML, può generare per ogni chiamata
ricevuta dal frameset (cioè dalla pagina HTML che
contiene i quattro sottoelementi) cinque page view registrate nei file di log. È facile
comprendere, allora, che comparare il numero di page
view registrato da un sito che contiene pagine con
frame con l’analogo numero registrato da un sito
con pagine senza frame è un’operazione
priva di attendibilità, a meno che non si siano
impostati complessi filtri in grado di eliminare dal conteggio
tutte le page view in sovrannumero generate
dall’uso dei frame. Analoghe ambiguità di
conteggio sorgono quando delle pagine HTML sono associate a delle
finestre pop-up aperte automaticamente al caricamento
della pagina principale: l’effetto è di
raddoppiare il numero di page view registrato,
senza che ciò coincida con un effettivo raddoppio delle
richieste volontarie di pagine da parte degli utenti
collegati.
(5) Si parla
in questo caso di page impression e non di page view per analogia con il
meccanismo di registrazione di un ad
impression: la presenza cioè nella pagina HTML di
un frammento di codice specificamente destinato a generare la
registrazione di un accesso in un file di
log.
(6) I filtri
applicabili ai file di log di un web server di solito
includono o escludono dalla registrazione un’intera
categoria di file, anche se è comunque possibile
personalizzare i filtri, in modo tale da creare per ogni
categoria le opportune eccezioni. In ogni caso, agire tramite
filtri sulle registrazioni dei log, allo scopo di tener conto
quotidianamente della mutevole struttura delle pagine e dei
contenuti di un sito, richiede sicuramente più
attenzione e lavoro che non decidere, caso per caso, di
includere oppure no in una nuova pagina il codice javascript che
determina la registrazione di una page
impression.
(7) Si
potrebbe pensare di fugare i dubbi incrociando i dati di traffico
browser-based con i dati ricavati dai normali file di
log. Va tenuto presente, però, che tale
comparazione è estremamente difficile e tutto sommato
poco attendibile: infatti i dati relativi
all’attività del web server sono influenzati in una
misura non quantificabile da una serie di fattori di incertezza
(proxy, caching, IP dinamici), che si
riverberano inevitabilmente sulla possibilità di
confrontare in modo utile i dati statistici provenienti dalle due
fonti.
(8) Per la
Gran Bretagna e l’Irlanda questa funzione è svolta
da ABC Electronic. Le sue
certificazioni avvengono sulla base di una serie di standard
definiti da un consorzio volontario di aziende, lo IFABC
(International Federation of Audit Bureaux of
Circulations). Le definizioni dei dati standard soggetti a
rilevazione sono consultabili in Rete alla pagina http://www.ifabc.org/web/index.html.