Как да се създаде правилна, seogio

Предишен ◈ Следващото

Файлът robots.txt е един от най-важните в оптимизацията на всеки сайт. Липсата му може да доведе до по-голямо натоварване на сайта от търсачките и бавно индексиране и повторно индексиране, като неправилното регулиране на факта, че мястото е напълно изчезне от търсене или просто няма да се индексира. Поради това, че няма да се търси в Yandex, Google и други търсачки. Нека да разберат всички нюанси на правилното конфигуриране на robots.txt.

Как работи robots.txt за индексиране на сайта

Търсачката паяци ще индексира вашия сайт, независимо от присъствието на файла robots.txt. Ако не съществува такъв файл, роботът може да се ръководи от правилата, които са написани в този файл. Въпреки това, някои роботи могат да пренебрегнат тези или други правила, или някои от правилата могат да бъдат специфични само за някои ботове. По-специално, GoogleBot не използва директива домакин и Crawl-Delay, YandexNews наскоро започна да се игнорира директивата Crawl-Delay и YandexDirect YandexVideoParser и не обръща внимание на по-общите насоки в Роботи (но се ръководи от тези, които са специално посочени за тях).

Максималното натоварване на сайта създадат роботи, които да изтеглят съдържание от сайта си. Ето защо, като изтъкна, че се индексира и какво да се игнорира, и с какво време интервали, за да се направи с мишката, можете да, от една страна, значително да намали натоварването на сайта, като робот, и, от друга страна, за да се ускори процеса на изтегляне, забрана на ненужни страници пълзят ,

Тези страници са излишни AJAX скриптове, на JSON, отговорни за изскачащи форми, банери, заключение капитан и т.н. формуляр за поръчка и количка за пазаруване с всички Прегледайте стъпките, търсене функционалност, кабинети, администраторския панел.

За повечето роботи, също е желателно да забраните индексирането на всички JS и CSS. Но трябва да се оставя за индекса, тъй като те се използват от търсачките да анализира удобство на сайта и неговото класиране (PRF Google. Доказателство Yandex) такива файлове за GoogleBot и Yandex.

директиви на robots.txt

Нека да погледнем на поръчката.

User-Agent

Това е най-председател директива, която определя за всички роботи следват правилата.

За всички роботи:
User-Agent: *

За конкретен бот:
User-Agent: GoogleBot

Моля, имайте предвид, че има малки и големи букви в robots.txt. Т.е. на потребителския агент за Google може също толкова добре да се запише Соледад начин:
потребителски агент: Googlebot

В таблицата по-долу са показани основните потребителски агенти на различни търсачки.

Забрани и Позволете

Но това не е толкова просто.

На първо място, трябва да се знаят и разбират допълнителни оператори, как те се използват - това * и # $.

Забрани :? * S =
Disallow: / категория / $

На второ място, трябва да се разбере как да се изпълнява вложени правила.
Не забравяйте, че по реда на написването на директивите не е важно. правила наследяване, които се отварят или близки на индексирането се определя според която директории са изброени. Нека разгледаме следния пример.

Позволете: * .css
Disallow: / шаблон /

Ако искате всички .css файлове са отворени за индексиране тя ще има един допълнителен регистър за всяка от затворената папка. В нашия случай:

Позволете: * .css
Позволете: /template/*.css
Disallow: / шаблон /

Отново, от порядъка на директивите не е важно.

Карта на сайта директива е посочено във файла robots.txt навсякъде, без да сте обвързани с конкретен потребител-агент. Можете да посочите няколко правила Карта на сайта.

Пример 1:
Водещ: site.ru

Crawl-закъснение

Директива за установяване на интервал от време между робот изтегляне на страниците. С подкрепата на роботи Yandex, Mail.Ru, Bing, Yahoo. Стойност може да бъде определен като цяло или дробни единици (сепаратор - точка), време в секунди.

Пример 1:
Crawl-закъснение: 3

ПРИМЕР 2:
Обхождане забавяне: 0.5

Ако даден сайт има малък товар, необходимостта да се установи такова правило не го прави. Въпреки това, ако индексиране страници робот води до факта, че обекта е над границите, или изпитват тежки товари до прекъсването на сървъра, тази директива ще спомогне за намаляване на товара.

Колкото по-висока е стойността, толкова по-малко страници робот натоварването на сесия. Оптималната стойност се определя индивидуално за всеки сайт. По-добре е да се започне с не много високи стойности - 0,1, 0,2, 0,5 - и постепенно да ги увеличи. За търсачките с по-ниска стойност за насърчаване на резултати, като например Mail.Ru, Bing и Yahoo може да бъде първоначално се установява по-високи стойности от тези за Yandex робот.

Clean-Парам

Yandex също така препоръчва използването на тази директива, за да не се вземат предвид UTM етикет и идентификатори на сесия. например:

други опции

В разширената спецификация robots.txt може да намерите повече опции Заявка курс и посещение време. Въпреки това, те в момента не се поддържа от водещите търсачки.

Смисълът на директивите:
Заявка ставка: 1/5 - не зарежда повече от една страница в пет секунди
Посетете време: 0600-0845 - страниците се зареждат една педя от само от 6 сутринта до 8:45 GMT.

затваряне на robots.txt

Ако имате нужда, за да персонализирате вашия сайт не е индексиран от търсачките, ще трябва да се регистрират на следните директиви:

Уверете се, че тези директиви са били регистрирани на тестовите зони на вашия сайт.

Правилно конфигуриране на robots.txt

България и страните от ОНД, където делът на Yandex осезаемо трябва да предписват насоки за всички роботи и отделно за Yandex и Google.

За да конфигурирате правилно robots.txt използване на следния алгоритъм:

например robots.txt

Как и къде да се добави robots.txt

Как да проверите robots.txt

В Yandex.Webmaster - раздела Tools> Анализ на файла robots.txt
Google Search Console В - раздел Scan> тестване на robots.txt инструмента

Срещани грешки при robots.txt

В края на статията ще ви дам няколко грешки, типичен файл robots.txt

robots.txt липсващата
в robots.txt сайт е затворен от индексиране (Disallow: /)
във файла съдържа само най-основните насоки, без подробно проучване на файла
във файла не е затворен в индекса на страницата на UTM маркирани и идентификационен номер на сесията на
Само в директива даден файл
Позволете: * .css
Позволете: * .js
Позволете: * .png
Позволете: * .jpg
Позволете: * .gif
докато CSS файлове, JS, PNG, JPG, GIF, обхванати от други директиви в редица директории
директива домакин е написана няколко пъти
в приемащата файл HTTPS протокол
пътят ви за нея не е валиден или невалиден протокол или огледало сайт

Yandex пише:
"Директивата за домакин
Задайте домейн, където подобни инструкции във файла robots.txt липсват.
насоки да бъде домакин на директивата са били взети под внимание, идентични директиви следва
да присъства в файл robots.txt на всички огледални сайтове.
Проверете файла robots.txt и премахване на противоречия. "

Когато се добави към уебмастера, той вече беше на HTTPS протокола, т.е. Разбирам, в движение не е било. Robots.txt, в HOST определен домейн, без протокол, като така - Водещ: сайт, ЖП

Помогнете да се разбере причината. Тя може да бъде коригирана домакин, така беше и с HTTPS на протокола?

Тук той robots.txt

User-Agent: *
Disallow: / CGI-бен
Disallow: / WP-администратор
Disallow: / WP-включва
Disallow: / WP-съдържание / плъгини
Disallow: / WP-съдържание / кеш
Disallow: / WP-съдържание / теми
Забрани: * / собствен сайт
Disallow: * / емисия
Disallow: / *?
Disallow: / автор /
Забрани: /transfers.js
Забрани: /go.php
Забрани: /xmlrpc.php

User-Agent: Yandex
Disallow: / CGI-бен
Disallow: / WP-администратор
Disallow: / WP-включва
Disallow: / WP-съдържание / плъгини
Disallow: / WP-съдържание / кеш
Disallow: / WP-съдържание / теми
Забрани: * / собствен сайт
Disallow: * / емисия
Disallow: / *?
Disallow: / автор /
Забрани: /transfers.js
Забрани: /go.php
Забрани: /xmlrpc.php
Водещ: сайт, ЖП

User-Agent: Googlebot
Позволете: * .css
Позволете: * .js
Позволете: /wp-includes/*.js
Disallow: / CGI-хамбар /
Disallow: / WP-администратор /
Disallow: / WP-включва /
Disallow: / WP-съдържание / кеш
Забрани: * / собствен сайт
Disallow: * / емисия
Disallow: / автор /
Забрани: /transfers.js
Забрани: /go.php
Забрани: /xmlrpc.php
Disallow: / *?

Ако Clean-Парам, а след това се игнорира. Google не знае този параметър и притеснени, изведнъж сте важен отбор за него исках да пиша и да направи грешка.

Добре, благодаря. Мисля, че той би могъл да се вземе предвид и правилата на своя конкурент, или това е тяхната политика към подобни агресивни конкуренти ...))