Crawl го забави

Постоянно попълни всички задължителни полета. Както ви инструкции, ще видите съдържанието на вашите директиви robots.txt. По-долу са описани подробно всички директиви файла robots.txt.







Описание robots.txt файлов формат

robots.txt файл се състои от записи, всеки от които се състои от две полета: ред с името на приложението на клиента (потребителски агент), и един или повече редове, които започват с директивите Забрана:

директива User-Agent:

За Rambler: за Yandex: За Google:

Можете да създадете ръководство за всички роботи:

Директива Disallow:

Втората част се състои от запис линии разрешението си. Тези линии - директиви (инструкции, команди) за този робот. Във всяка група представи линия User-Agent, трябва да бъде най-малко една инструкция Disallow. инструкции Брой Забрана не ogranicheno.Oni разказват робота какви файлове и / или директории робот не се допуска да се индексират. Можете да предотвратите индексирането на даден файл или директория.

Следната директива забранява индексирането директорията / CGI-хамбар /:

Обърнете внимание на / в края на името на директорията! За да се забрани посещението е директорията "/ реж." обучение трябва да бъде във вида: "Disallow: / реж /". Низ "Disallow: / реж" забранява посещение на всички страници на сървъра, пълното име на което (сървър корен) започва с "/ реж." Например: "/dir.html", "/dir/index.html", "/directory.html".

Записано следните директива забранява индексирането index.htm файл, намиращ се в корена:

Ако директива Забрана е празен, това означава, че индексът на робот консерва всички файлове. Най-малко една директива Disallow трябва да присъства за всяко поле от потребителя агент. че robots.txt се счита за правилно. Напълно празна robots.txt е същият, както ако тя не съществува.







Робот Rambler разбере * как всеки символ, така инструкция Disallow: * означава забрана за индексиране на целия сайт.

Позволете директива, Забрани без параметри. Липсата на възможности за Позволете директиви. Disallow се тълкува, както следва:

Използване на специални знаци "*" и "$".
При задаване на маршрути Позволете-Забрана за директиви, можете да използвате специални символи "*" и "$", като по този начин определено регулярен израз. Специален знак "*" означава всеки (включително и един празен) последователност от знаци. Примери: специални символи "$".
По подразбиране, в края на всяко правило, описан в robots.txt, приписани на "*", например: да се отмени "*" в края на правилото, можете да използвате специален знак "$", например:

Директива домакин.

Примери игнорират директивите Водещ:

директива Crawl-закъснение

Задава времето за изчакване в секунди, в който роботът изтегля страницата от вашия сървър (Crawl-закъснение).

Ако сървърът е тежко натоварени и не разполага с време, за да изпълни исканията за изтегляне, използвайте директивата "Crawl-забавяне". Тя ви позволява да определите за търсене робот минималния период от време (в секунди) между края на инжектиране на една страница, а в началото на следващата инжекция. За съвместимост с роботи, които не са изцяло по стандарта, при обработката на robots.txt, директива "Crawl-забавяне" да се добави към групата, като се започне с вписване "User-Agent", веднага след директивите "Забрани" ( "Позволи").

Yandex верижен поддържа частични стойности обхождане забавяне, например, 0.5. Това не гарантира, че той ще ги посещават вашия сайт всеки половин секунда, но дава по-голяма свобода робот и позволява по-бързо байпас сайт.

Директива Clean-Парам

Празни редове са разрешени между групите инструкции администрирани от потребителя агент.

Забрани Инструкция взети под внимание само ако това е предмет на User-Agent низ - това е, ако има по-висок низ от потребителя агент.

Следната проста файла robots.txt предотвратява индексирането на всички страници на сайта на всички роботи, освен Rambler на робот, който, напротив, позволи индексиране на всички страници на сайта.

Общи грешки:

В допълнение към използването на файл robots.txt, можете да контролирате индексирането с помощта на роботи мета маркер и инструкциите .

При проверка на Yandex "отговаря на файла robots.txt, можете да на тази страница