Както индекса Yandex

Индексирането на сайта от специални автоматични програми - двигател паяци търсене, които автоматично да следят за появата на нови сайтове в World Wide Web, извършване на постоянна сканиране са в уеб страници, онлайн, файлове и да ги свързва с всеки ресурс.







За да сканирате робот постъпления в директорията, в която се намира на ресурса за конкретен сървър. При избора на нов робот сайт се ръководи от наличността му. Така например, се смята, че "Яндекс" сканира първите обекти, създадени в руски език домейн и на руски - RU, Руската федерация, или су UA, и едва след това преминава към други региони.

Роботът се движи към сайта и разглеждате неговата структура, първо търси сочейки към по-нататъшно търсене на файлове. Така например, на сайта е сканиран за sitemap.xml или robots.txt. Тези файлове могат да се настроят поведението на робота при сканиране. С помощта на картата на сайта (sitemap.xml) робот-точно получава представа за структурата на ресурса. Чрез robots.txt уеб-майстор уточнява, файловете, които той не го искат, че те са били издадени в резултатите от търсене. Например, може да е лична информация или други нежелани данни.







След сканиране двата документа и получаване на необходимите инструкции, роботът започва да анализира HTML-кода и да обработи полученото маркер . По подразбиране, когато няма файла robots.txt търсещия започва да обработва всички документи, съхранени на сървъра.

Необходимостта от повторно сканиране също се определя автоматично от роботи. Програмата сравнява резултатите от сканирането се предлага с актуализирана версия на сайта по време на втората преминаването на индексиране. Ако данните, е приета програмата са различни, се актуализира копие на сайта и сървъра "Яндекс".