03 Termini tecnici generali di
riferimento
- Caching
- È l’operazione eseguita da un server (un proxy, ad esempio) o da un computer
cliente, consistente nel memorizzare una copia locale di una
risorsa recuperata da Internet, con lo scopo di servire
all'utente che ne fa richiesta quella copia locale, in
luogo del documento originale presente su Internet.
L’attività di caching può
contribuire a falsare in notevole misura la
veridicità dei dati di traffico rilevati dai log file di un server web. (Secondo Martin
Filz di Red Sheriff, la percentuale delle page
view mancanti, dovuta all’attività di
caching, può raggiungere il 60% del traffico
totale che interessa un sito.) È possibile però
prevenire questa perdita di traffico, inserendo nel codice delle
pagine del sito sottoposto a rilevazione statistica un comando
che, definendo la scadenza immediata della validità di
ogni pagina, costringa l’utente interessato a collegarsi
effettivamente alla risorsa richiesta, non potendola più
recuperare dalla cache. Questa soluzione ha però
degli svantaggi: in primo luogo una maggiore occupazione di
banda, in secondo luogo un’attesa più lunga per il
caricamento delle pagine (rispetto all'attesa per quelle
recuperate direttamente dalla memoria del proxy) da
parte dell’utente, il quale potrebbe essere negativamente
influenzato – per quanto riguarda future visite - da un
simile inconveniente.
- Cookie
- Letteralmente “biscotto”. Si tratta di un file di
testo che viene generato dal browser dell’utente in seguito
ad un messaggio inviato dal server web in risposta alla richiesta
di collegamento ricevuta. Il cookie viene memorizzato
sul computer cliente. Esso contiene delle informazioni che
identificano univocamente quell’utente rispetto al sito
Internet che lo ha generato. Ad ogni successiva connessione, il
server web richiederà al browser il cookie
precedentemente memorizzato. Se questo viene trovato, il server
potrà utilizzare le informazioni in esso contenute per
vari scopi:
- per offrire contenuti personalizzati a quell’utente (ad
esempio una pagina di benvenuto con il suo nome);
- per tracciare dei profili di comportamento basati sui
percorsi di navigazione seguiti nel corso delle visite effettuate
al sito;
- per aggiornare le statistiche che registrano le visite
ricevute da utenti unici.
Tutte le rilevazioni statistiche di traffico-web originate
dall’uso di cookie sono soggette principalmente a
due variabili: a) che l’utente collegato abbia
abilitato nel proprio browser il supporto per i cookie;
b) che effettui i successivi collegamenti per mezzo
dello stesso browser.
- DHCP, Dynamic Host
Configuration Protocol
- È un protocollo di comunicazione che, installato su un
server di rete, consente di governare automaticamente e
centralmente l’assegnazione degli indirizzi
IP a ciascuna macchina connessa ad Internet all’interno
della rete. DHCP è in grado sia di assegnare IP statici,
cioè indirizzi sempre uguali nel tempo, sia IP dinamici,
cioè indirizzi con scadenza a breve termine (generalmente
la durata di una sessione di connessione ad Internet).
L’uso di DHCP con assegnazione di IP dinamici è
particolarmente utile per quegli enti, quali università e
provider, che hanno a disposizione un numero di indirizzi IP da
distribuire inferiore al numero delle macchine che
potenzialmente possono accedere ad Internet tramite i loro
server.
Il fatto che moltissimi utenti si colleghino alla Rete per mezzo
di IP dinamici ricevuti automaticamente via server DHCP è
un’ulteriore fonte di incertezza per le rilevazioni
statistiche del traffico generato da un sito. Infatti
l’indirizzo IP soggetto ad assegnazione dinamica è
un’informazione insufficiente per identificare nel tempo in
modo non ambiguo un singolo visitatore del sito (lo stesso IP
potrebbe essere assegnato in successione ad x utenti di
una stessa rete).
- DNS, domain name
system
- È il sistema che traduce i nomi di dominio in indirizzi IP. Un nome di dominio è un nome
letterale, associato in modo univoco ad un indirizzo IP numerico,
per identificare una risorsa su Internet. Ogni volta che un
utente invia tramite il proprio browser una richiesta di
collegamento specificando un nome di dominio (ad es.
www.diodati.org), il server DNS competente intercetta la
richiesta e trasforma la stringa letterale nel corrispondente
indirizzo IP. Se quest’ultimo non è contenuto nella
propria tabella di corrispondenze, la richiesta viene inoltrata
ad un altro server DNS, e così via finché il nome
letterale non viene risolto nella stringa numerica
corrispondente. A questo punto, tutti i DNS interpellati si
aggiornano automaticamente, inserendo nei rispettivi database la
nuova corrispondenza trovata. Questo sistema di chiamate e
aggiornamenti incrociati tra una serie di server DNS decentrati
è più veloce, pratico e sicuro di un sistema basato
su un unico server DNS centralizzato.
- IP address (indirizzo
IP)
- La sigla IP sta per Internet Protocol. È un
numero di 32 bit che rappresenta univocamente ogni mittente o
ricevente di pacchetti di dati attraverso Internet. Nella sua
forma più comune l’IP address è
espresso come una serie di quattro numeri, separati tra loro da
un punto. Ognuno dei quattro numeri può variare (con
alcune limitazioni) tra 0 e 255. Qualsiasi comunicazione che
avviene su reti appartenenti ad Internet deve comprendere
necessariamente l’indirizzo IP del mittente e quello del
destinatario, allo scopo di poter essere istradata
correttamente.
- Log file (file di
registro)
- Buona parte delle rilevazioni statistiche sul traffico
generato dai siti Internet sono effettuate da programmi che
analizzano e presentano, in forma comprensibile al lettore umano,
i dati memorizzati momento per momento dai server web nei propri
file di log.
Usati originariamente come fonte primaria di informazioni per
determinare i carichi di lavoro dei server e studiare
possibili migliorie nella distribuzione di quei carichi, oggi i
dati ricavati dai file di registro sono considerati
principalmente come strumenti commerciali, cioè:
- come informazioni sul successo di un sito Internet o di una
sua parte,
- come mezzi per conoscere abitudini e preferenze di
navigazione degli utenti che si collegano ad un sito,
- come credenziali per vendere servizi (ad esempio spazi
pubblicitari).
È importante però tener presente che i dati
ricavati dall’analisi dei log non sono altro che
registrazioni dell’attività del server
web e, solo in modo indiretto e con molta cautela,
possono essere considerati strumenti per conoscere il numero
degli utenti collegati e le loro abitudini di navigazione. Su
questo equivoco poggiano molte cattive interpretazioni
dei dati di traffico generati dai server web.
I file di log possono assumere, a seconda dei sistemi,
nomi e struttura differenti. Pur nella variabilità delle
configurazioni, possiamo suddividere comunque i file di registro
in quattro categorie principali:
- Transfer (o access)
log – Registra tutte le richieste di
trasferimento file pervenute ad un server tramite protocollo HTTP
dagli utenti collegati via Internet. I dati in esso raccolti sono
una buona misura del carico di lavoro a cui è sottoposto
un server web.
- Error log – Memorizza tutte le
richieste HTTP che non hanno prodotto il risultato atteso
dall’utente. Rientrano in questa categoria il ben noto
errore ‘404 File not found’, gli errori di
timeout (= scadenza del tempo di attesa), le connessioni
rifiutate, quelle interrotte, i messaggi di server ‘too
busy’ (= troppo occupato), ed altri ancora.
L’analisi degli errori riportati in questo file di registro
è utile per correggere possibili squilibri nella struttura
di un sito, per scoprire la presenza di collegamenti interrotti,
per verificare se la potenza di elaborazione della CPU o la banda
di connessione ad Internet siano sufficienti rispetto al volume
di traffico generato.
- Referrer
log – Tiene traccia della provenienza delle
richieste di trasferimento di file ricevute dal server. È
in genere meno usato dei due log precedenti.
- Agent (o user agent)
log – Registra il tipo di software che
invia una richiesta HTTP al server web. Le informazioni fornite
da questo file di registro riguardano il tipo e la versione di
browser utilizzato dall’utente, il sistema operativo usato,
la risoluzione video. Altri dati importanti sono quelli relativi
agli accessi effettuati da spider e robot
utilizzati da motori di ricerca per indicizzare le
pagine di un sito (se ne conoscono oltre una ventina).
Va detto a questo proposito che le visite effettuate dai software
di indicizzazione dei motori di ricerca dovrebbero essere
sottratte al numero complessivo di visite al sito risultante
dai file di registro. Questo è un altro degli equivoci che
possono nascere da un esame superficiale dei dati di traffico
forniti dai file di log.
- NAT, Network Address
Translation
- Letteralmente: traslazione dell’indirizzo di
rete. È un meccanismo che consente, tramite appositi
sistemi hardware e software, di far corrispondere una serie di indirizzi IP usati solo in rete locale ad una
serie, generalmente meno numerosa, di indirizzi IP pubblici. Si
ottengono così molteplici vantaggi:
- l’uso in rete locale di indirizzi IP già
assegnati su Internet (la cosa non crea conflitto per il fatto,
appunto, che tali IP sono usati solo per identificare i computer
all’interno di una LAN);
- la possibilità di mascherare l’IP delle singole
macchine agli utenti esterni, i quali “vedono”
unicamente gli IP pubblici attribuiti al gateway di rete
(in questo senso il natting, interponendosi tra
l’interno e l’esterno della rete locale agisce anche
da firewall)
- la possibilità di gestire in concreto una
quantità di IP maggiore di quelli che sono stati
acquistati come IP pubblici
L’uso di questa traslazione degli indirizzi IP da parte di
molte reti rappresenta una perdita d’informazioni
per la rilevazione statistica degli accessi ad un sito. Se,
infatti, non si dispone della tabella di traduzione usata da un
server NAT, non è possibile sapere se le richieste giunte
da un certo IP fanno capo ad una o più macchine, né
tantomeno a quali.
- Proxy
server
- È un server che agisce da filtro tra le
richieste di connessione a siti Internet, provenienti in genere
dall’interno della rete LAN o WAN a cui il proxy
appartiene, ed i siti stessi. La richiesta di accedere ad una
risorsa su Internet, proveniente da un computer appartenente ad
una LAN o ad una WAN, viene intercettata dal proxy di
rete in modo del tutto trasparente per l’utente. Se la
pagina richiesta non è presente nella cache (= memoria tampone) del
proxy, la richiesta viene inoltrata al sito che ospita
la risorsa, così da recuperare la pagina ed inviarla
all’utente. Se, viceversa, la pagina è già
presente nella cache del proxy, questa viene
inoltrata direttamente all’utente, senza che occorra
inviare alcuna richiesta al sito Internet che ospita la risorsa.
L’uso di un proxy server fornisce essenzialmente
due vantaggi:
- La possibilità di filtrare le richieste
provenienti dall’interno della propria rete, in modo da
evitare, ad esempio, di soddisfare le richieste di connessione a
determinati siti proibiti dalle regole aziendali.
- La possibilità di aumentare notevolmente le
prestazioni, risparmiando tempo e banda di connessione:
ciò avviene quando una stessa pagina, già presente
nella cache del proxy, viene richiesta da
più utenti e quindi inviata loro direttamente dal
proxy stesso, che evita così di connettersi
nuovamente al server remoto che ospita la risorsa.
Come si può comprendere, il fatto che molti accessi ad un
sito provengano da proxy di reti più o meno ampie
può falsare grandemente la valutazione del numero
di pagine effettivamente viste (page views), numero che
potrebbe essere ben superiore a quello rilevato tramite
l’analisi dei file di log. Si
pensi ad esempio a quanti utenti potrebbero essere serviti da
un’unica pagina prelevata da un proxy di
America On Line e conservata nella sua
cache.
- Redirect
(reindirizzamento)
- È un meccanismo per mezzo del quale un utente che ha
richiesto di collegarsi ad un certo indirizzo
Internet viene reindirizzato automaticamente ad un indirizzo
differente. Càpita spesso, così, che una medesima
pagina web possa essere raggiunta, in virtù di appositi
reindirizzamenti, da un certo numero di indirizzi diversi. Ai
fini della rilevazione del numero effettivo di page view
ottenuto in un certo periodo, occorre perciò tenere conto
di tutti i redirect effettuati dal web server nel
periodo considerato.
- Reverse DNS
lookup
- Mentre la trasformazione da un indirizzo letterale al
corrispondente indirizzo numerico è detta forward DNS
lookup, l’operazione contraria – cioè il
risalire da un indirizzo IP noto al
corrispondente nome di dominio – è detta reverse
DNS lookup. Appositi software sono in grado, interrogando
dei server DNS, di ottenere il nome di dominio
a partire dall’IP numerico. Un sistema di rilevazione dei
dati di traffico ha più valore se è in grado di
effettuare il reverse DNS lookup, dal momento che per
l’interprete umano la lettura di una serie di IP numerici
dice poco o nulla, mentre molto più utile risulta la
corrispondente serie di indirizzi letterali: solo questa è
in grado, infatti, di informare effettivamente gli amministratori
di un sito sulla provenienza degli accessi registrati.
- Spider, o crawler o
web bot
- Si tratta di programmi che automaticamente effettuano, in
base a determinati criteri, una serie di richieste di file ad un
server web, allo scopo di indicizzare i contenuti di quel sito
per conto di un motore di ricerca.
Le richieste provenienti da spider possono incidere
fortemente sulla rilevazione del traffico generato da un sito.
Per tale motivo, gli accessi prodotti da spider vengono
in genere evidenziati dai sistemi di misurazione statistica, in
modo che se ne possa tener conto e non risultino così
falsati i valori relativi alle visite ricevute da parte di utenti
umani.
- Session
timeout
- È la durata massima predefinita di una visita ad un
sito da parte di un utente unico. Non esiste uno standard per
questa durata e neppure un consistente accordo in proposito. La
lunghezza di una sessione può variare da un minimo di
10-15 minuti ad un massimo di un’ora. Nella maggior parte
dei casi essa è impostata su 20 o 30 minuti. Se dura 20
minuti, ciò significa che ad un utente unico - riconosciuto
come tale perché ha il medesimo indirizzo
IP - vengono attribuite due visite al sito, nel caso in cui
una sua richiesta di pagina giunga oltre 20 minuti dopo
la precedente richiesta registrata. Viceversa, se
l’intervallo trascorso tra questi due eventi è
inferiore a 20 minuti, allora viene conteggiata per
quell’utente un’unica visita.
Come è facile comprendere, la durata di sessione è
un parametro del tutto arbitrario, che nulla ha a che
vedere con l’effettivo comportamento degli utenti collegati
ad un sito e che può tuttavia influenzare le valutazioni
del settore commerciale di un’azienda, circa la misura
della fedeltà degli utenti ai siti presi in
considerazione. Poniamo ad esempio che un sito, avendo un
timeout di sessione impostato su 20 minuti, registri
molte visite di utenti unici nell’arco di un mese di
rilevazione: se ne potrebbe ricavare l’idea che dietro
quelle visite ripetute si celino utenti fidelizzati. Basterebbe
però probabilmente aumentare di soli dieci minuti il
timeout di sessione, per scoprire che il numero di
visite al sito da parte di utenti unici è nettamente
diminuito! Ancora una volta è la conoscenza del
significato e della reale portata dei numeri offerti
dalle statistiche di traffico che aiuta a non commettere
pericolosi errori di valutazione.
- URL, Uniform Resource
Locator
- È l’indirizzo, unico e inequivocabile, di una
risorsa su Internet. Qualsiasi documento - sia esso un file
immagine, un file di testo, una risorsa multimediale, ecc.
– è localizzabile precisamente per mezzo della URL.
Questa comprende:
- una parte relativa al protocollo di comunicazione invocato
(es.:
http://);
- una parte più generale, che identifica
l’host, ovvero il computer su cui è
archiviata la risorsa (es.:
www.diodati.org);
- una parte di dettaglio, che specifica il percorso e il nome
del file da recuperare (es.:
/scritti/2002/g_stat/index.htm).
Nel
linguaggio tecnico delle Specifiche HTML 4, non si parla
più di URL ma di URI (Uniform
Resource Identifier = Identificatore Uniforme di Risorsa).
Nel linguaggio comune di autori ed appassionati di Internet,
però, l'uso della sigla URL è di fatto ancora
largamente prevalente.