A volte ci sono cose che Google non deve sapere...
mercoledì 26 settembre 2007 by phoenix
Google è il motore di ricerca più grande ed utilizzato al mondo. Riesce ad indicizzare milioni di pagine sparse in ogni angolo del nostro pianeta, grazie a dei piccoli servitori automatizzati che si chiamano Robot (conosciuti anche come Wanderers o Spiders) che hanno il compito di girovagare in rete alla ricerca di pagine da indicizzare. Ma se non volessimo che le nostre pagine fossero inserite nell' immenso database di Google? Qualcuno di voi forse si starà chiedendo perchè mai dovremmo sbattere la porta in faccia a Google. Ci sono tante ragioni che spingono un webmaster a tenere lontani gli Spider: evitare di far indicizzare nuovamente pagine vecchie ed obsolete mentre stiamo aggiornando un sito, evitare l' appesantimento del server dovuto alle continue visite del Robot, evitare l' indicizzazione di pagine sensibili che contengono dati personali, ecc... Proprio su quest' ultimo punto vorrei spendere 2 parole: Google è il miglior amico di un hacker (io direi anche cracker) e non lo scopro io oggi ma ormai è un fatto risaputo da molto tempo. Ci sono tecniche molto accurate (ed estremamente semplici) che permettono di ottenere una quantità enorme di "informazioni sensibili" solo effettuando delle ricerche in Google. Bastano pochi click e potremmo trovare elenchi di password, informazioni bancarie, file privati, messaggi di posta elettronica, ecc... Questo accade perchè lo Spider di Google cerca qualsiasi tipo di pagina presente in rete e la indicizza senza sapere cosa contiene.
Per queste ragioni un webmaster deve poter comunicare con gli Spider e dire quali pagine possono indicizzare e quali no. Il metodo che ci permette di fare ciò è quello di creare un file chiamato robots.txt all' intero della cartella principale (root directory) del nostro sito web. Questo file conterrà tutte le regole che uno o più Spider dovranno seguire. Ecco le regole più importanti che possono essere inserite nel file robots.txt
1) Rimozione completa del sito web da tutti i motori di ricerca
2) Rimozione del sito web solo da Google
User-agent: Googlebot
Disallow: /
3) Rimozione di tutte le pagine contenute in una cartella (per esempio la cartella mail)
User-agent: *
Disallow: /mail/
4) Rimozione di tutte le immagini del sito web da Ricerca Immagini di Google
User-agent: Googlebot-Image
Disallow: /
Ovviamente nel file robots.txt dovete inserire solo le scritte in rosso che vi interessano.
Per conoscere altre regole da inserire nel file robots.txt, vi rimando alla pagina di Google che tratta dei Robot.
Per queste ragioni un webmaster deve poter comunicare con gli Spider e dire quali pagine possono indicizzare e quali no. Il metodo che ci permette di fare ciò è quello di creare un file chiamato robots.txt all' intero della cartella principale (root directory) del nostro sito web. Questo file conterrà tutte le regole che uno o più Spider dovranno seguire. Ecco le regole più importanti che possono essere inserite nel file robots.txt
1) Rimozione completa del sito web da tutti i motori di ricerca
User-agent: *
Disallow: /
Disallow: /
2) Rimozione del sito web solo da Google
User-agent: Googlebot
Disallow: /
3) Rimozione di tutte le pagine contenute in una cartella (per esempio la cartella mail)
User-agent: *
Disallow: /mail/
4) Rimozione di tutte le immagini del sito web da Ricerca Immagini di Google
User-agent: Googlebot-Image
Disallow: /
Ovviamente nel file robots.txt dovete inserire solo le scritte in rosso che vi interessano.
Per conoscere altre regole da inserire nel file robots.txt, vi rimando alla pagina di Google che tratta dei Robot.
Questo post mi piace proprio, non avrei mica saputo che si puo fermarli...
Ma le persone da trovare online sono clienti normali di banca o tali che usano online banking?
solitamente si possono trovare informazioni bancarie di persone che utilizzano l' online banking...
però non si sa mai, la rete è così vasta che si può trovare di tutto!
Ottima spiegazione! Ora so a cosa serve il file in questione :-)
Comunque devo aggiungere che quando non c'è nulla di interessante, i robot evitano il sito come la peste: ho l'esempio di un sito (dominio di secondo livello) che con un mio amico abbiamo registrato per provare il codice; dopo 6 mesi non è ancora in Google!
Al contrario, per un altro sito è bastato inserirlo nella sezione di link di un terzo, con un buon traffico e dopo due settimane, eccolo lì!
Non ho capito la storia della home banking... vuoi dire che con Google si trovano anche userid e pwd dei clienti di banche on-line?
@ Claudio: no, la situazione è più complessa. Non è che si trovano per magia le password dei clienti di banche on-line. Se però queste persone lasciano delle tracce in rete, queste tracce possono essere trovate con estrema semplicità.
Ci sono tanti file (che contengono password di autenticazione) che sono pubblicamente visibili in rete.
Interessantissimo!!!
Non sapevo di queste cose :D
Byez!! ;)