검색 색인은 대부분 크롤러라고 알려진 소프트웨어를 통해 만들어집니다. 크롤러는 사람이 웹에서 콘텐츠를 탐색하는 것처럼 공개적으로 접근 가능한 웹페이지를 자동으로 방문하고 공개 페이지에 있는 링크를 따라갑니다. 그리고 이 페이지에서 저 페이지로 옮겨 다니며 찾은 페이지 내용에 관한 정보와 공개적으로 접근 가능한 기타 콘텐츠를 Google의 검색 색인에 저장합니다.
정보 구성 방법
크롤러가 웹페이지를 찾으면 Google 시스템은 브라우저와 마찬가지로 페이지의 콘텐츠를 렌더링합니다. 이때 Google은 키워드부터 웹사이트의 업데이트 상태에 이르기까지 주요한 신호를 기록하며 검색 색인에서 모든 주요 신호를 추적합니다.
Google 검색 색인에는 수천억 개의 웹페이지가 포함되어 있으며 그 크기는 1억 GB를 훨씬 넘습니다. Google 검색의 색인은 책 뒤에 있는 색인과 같아서, Google에서 색인을 생성하는 모든 웹페이지에서 발견한 모든 단어에 관한 항목이 포함되어 있습니다. 웹페이지 색인이 생성되면 웹페이지에 포함되어 있는 모든 단어에 해당하는 항목에 웹페이지가 추가됩니다.
웹과 각종 콘텐츠는 끊임없이 변화하므로 Google의 크롤링 프로세스도 이를 따라잡기 위해 쉬지 않고 작동합니다. 크롤링 프로세스는 이전에 확인한 콘텐츠가 얼마나 자주 변경되는지 확인하고 필요에 따라 다시 방문합니다. 또한 새로운 콘텐츠를 담은 페이지 또는 정보 링크가 나타나면 새로운 콘텐츠를 탐색하기도 합니다.
Google은 Google의 콘텐츠 크롤링을 돕기 위해 크리에이터가 사용할 수 있는 무료 도구 세트인 Search Console도 제공합니다. 또한 사이트맵 또는 robots.txt과 같이 정해진 표준을 활용하여 콘텐츠의 업데이트 빈도나 검색 색인에 포함하면 안된다는 정보 등을 나타낼 수도 있습니다.
Google은 금전적인 대가를 받고 사이트 크롤링 횟수를 늘리지 않으며 사용자에게 최고의 검색결과를 보장하기 위해 모든 웹사이트에 동일한 도구를 제공합니다.
유용한 정보는 다른 출처에도 있을 수 있으므로 Google의 검색 색인에는 웹에 있는 내용 이외의 항목도 포함되어 있습니다.
실제로 다양한 정보 유형의 색인이 여러 개 있으며 이러한 정보는 크롤링, 파트너십, Google에 전송된 데이터 피드, 자체 백과사전인 지식 정보를 통해 수집됩니다.
이렇게 색인이 많기 때문에 주요 도서관에 소장된 수백만 권의 도서를 검색하고 현지 대중교통 기관에서 운행 시간을 확인하거나 세계은행 같이 공개된 출처에서 데이터를 찾아볼 수 있습니다.