Gran parte del nostro indice di ricerca viene realizzato tramite il lavoro di software noti come crawler, che visitano in automatico le pagine web accessibili pubblicamente e seguono i link su tali pagine, proprio come faresti tu se stessi esplorando i contenuti sul Web. Passano da una pagina all'altra e archiviano informazioni su ciò che trovano su tali pagine e altri contenuti accessibili pubblicamente nell'indice della Ricerca Google.
Google organizza le informazioni
Quando i crawler trovano una pagina web, i nostri sistemi visualizzano i contenuti della pagina come farebbe il browser. Prendiamo nota dei segnali principali, dalle parole chiave all'aggiornamento del sito web, e teniamo traccia di tutto nell'indice di ricerca.
L'indice della Ricerca Google contiene centinaia di miliardi di pagine web e le sue dimensioni superano i 100.000.000 di gigabyte. È come l'indice alla fine di un libro, con una voce per ogni parola visualizzata su ciascuna pagina web che indicizziamo. Quando indicizziamo una pagina web, la aggiungiamo alle voci per tutte le parole che contiene.
Poiché il Web e altri contenuti cambiano costantemente, i nostri processi di scansione sono in continua esecuzione per tenere il passo, apprendendo la frequenza con cui contenuti già esaminati vengono modificati e scansionandoli se necessario. Scoprono anche nuovi contenuti man mano che vengono visualizzati nuovi link a tali pagine o informazioni.
Google fornisce anche un insieme di strumenti chiamato Search Console che gli autori di contenuti possono utilizzare per aiutarci a scansionare meglio i loro contenuti. Inoltre, possono servirsi di standard consolidati quali le Sitemap o il file robots.txt per specificare la frequenza con cui dovrebbero visitare i tuoi contenuti o se non devono essere inclusi nell'indice di ricerca.
Google non accetta mai pagamenti per eseguire la scansione di un sito più frequentemente, in quanto forniamo gli stessi strumenti a tutti i siti web per garantire i migliori risultati possibili per i nostri utenti.
Il nostro indice di ricerca contiene più di ciò che è presente sul Web, dato che le informazioni utili possono essere disponibili presso altre fonti.
Di fatto, disponiamo di più indici per diversi tipi di informazioni, che vengono raccolte tramite scansione, collaborazioni, invio di feed di dati e attraverso la nostra enciclopedia dei fatti, il Knowledge Graph.
Questi diversi indici fanno sì che tu possa cercare all'interno di milioni di libri provenienti dalle più grandi raccolte, trovare orari di viaggio tramite la tua azienda di trasporto pubblico locale o trovare dati forniti da fonti pubbliche come la World Bank.