Większa część naszego indeksu wyszukiwania została zbudowana dzięki działaniu oprogramowania nazywanego robotami. Roboty automatycznie wchodzą na publicznie dostępne strony internetowe i otwierają zawarte w nich linki, podobnie jak użytkownicy przeglądający treści w internecie. Przechodzą ze strony na stronę i zapisują informacje o tym, co tam znajdują, a także o innych publicznie dostępnych treściach, w indeksie wyszukiwarki Google.
w wyszukiwarce Google
Gdy roboty znajdą stronę internetową, nasze systemy renderują jej treść podobnie jak przeglądarka. Zwracamy uwagę na kluczowe sygnały – od słów kluczowych po aktualność strony – i rejestrujemy te informacje w indeksie wyszukiwania.
Indeks wyszukiwarki Google zawiera setki miliardów stron internetowych i ma rozmiar ponad 100 milionów gigabajtów. To jak indeks na końcu książki – ale z wpisami dla wszystkich słów wyświetlanych na każdej indeksowanej stronie. Gdy indeksujemy stronę internetową, przypisujemy ją do indeksu zgodnie ze słowami, które zawiera.
Internet i inne źródła nieustannie się zmieniają, ale procesy indeksowania nadążają za nimi. Uczą się, jak często w odwiedzanych treściach zachodzą zmiany, i wracają do nich w miarę potrzeby. Odkrywają też nowe treści, jeśli pojawią się kolejne linki do tych stron oraz materiałów.
Google oferuje też bezpłatny zestaw narzędzi pod nazwą Search Console. Twórcy stron mogą go użyć, aby ułatwić nam indeksowanie publikowanych przez nich treści. Mogą też skorzystać ze standardów takich jak mapy witryn lub plik robots.txt, aby wskazać częstotliwość odwiedzania ich witryn lub zasoby, które w ogóle nie powinny znaleźć się w wyszukiwarce.
Google nigdy nie pobiera opłat za częstsze indeksowanie witryny – udostępniamy te same narzędzia wszystkim stronom internetowym, aby zapewnić naszym użytkownikom jak najlepsze wyniki wyszukiwania.
Nasz indeks wyszukiwania zawiera nie tylko treści z internetu, ponieważ pomocne informacje mogą pochodzić również z innych źródeł.
Tak naprawdę mamy wiele indeksów, które obejmują różne rodzaje informacji gromadzonych dzięki skanowaniu stron i współpracy z partnerami, a także pochodzących z wysyłanych do nas plików danych i naszej własnej encyklopedii, czyli Grafu wiedzy.
Ta różnorodność indeksów oznacza możliwość przeszukiwania milionów książek z największych bibliotek, sprawdzania rozkładów jazdy podawanych przez lokalnych przewoźników czy znajdowania danych ze źródeł publicznych, takich jak Bank Światowy.