Правилно - управление на индексиране сайт

Предишен ◈ Следващото

Robots.txt - файл, който е поставен в основната директория на сайта. С помощта на контрол се осъществява чрез търсачката паяци, които посещават сайта. Както при всяка друга програма, търсачките са предмет на някои разпоредби. Понякога трябва да се уверите, че търсачките не индексират някои секции на сайта, или, обратно, да индексира страниците на конкретни.

Файлът robots.txt разказва търсачките, които индекс и кое не е. Тя може да бъде от голяма полза за по-нататъшно оптимизиране и популяризиране на сайта.

Как да създадете файл robots.txt

User-Agent

User-Agent - робота на търсачката към който инструкциите, описани в файла robots.txt. Ако тази директива липсва, се счита, че достъпът до частите на сайтовете без да се ограничава.

В Yandex следните роботи, които могат да бъдат посочени в Директивата за потребителски агент:

Google използва следните Скенерите:

За потребителя агент лекува всички търсачките, то трябва да изглежда така:

Забрани и Позволете

За да забраните индексирането на някои части от сайта използвате директивата Disallow.

Disallow: / # забранено да индексира целия сайт

Disallow: / изображение # -Тютюн индексиране част от образа и страница image.html

Забрани: /page1.php # page1.php забранено да я индексира

За да се даде възможност за сканиране на определена област на сайта, използвайте директивата за Позволете

Disallow: / изображение # забранено индексиране / изображение и /image.html. но

Позволете: / изображение / каталог # Разрешени изображение / каталог индексиране подраздел

Не е позволено празен ред се разпада между потребителски агент, Позволете и Забранете.

В случай на конфликт между Disallow и Оставя, предпочитание се дава на Оставя.

Специални знаци * и $

Забрани или Позволете директиви могат да определят специални символи "*" и "$".

Disallow: / изображение $ # блокове индексират само / изображение

Disallow: / изображение * $ # като "Disallow: / изображение" - да се забрани и / изображение и /image.html

Ако вашият уеб собственост има карта на сайта - sitemap.xml. и искате търсачките да знаят за него, посочи в файла robots.txt път в картата на сайта, можете да използвате директивата за сайта. Ако няколко сайта карти - можете да зададете всички от тях.

Карта на сайта: //site1.com/sitemap1.xml

Карта на сайта: //site1.com/sitemap2.xml

Ако файла robots.txt съдържа инструкции за множество роботи, на сайта директивата е възможно да се регистрират само веднъж за всички, тя ще изглежда по следния начин:

Забрани: /about.html

Карта на сайта: //site1.com/sitemap1.xml

Ако сайтът ви има различен огледало, например, един домейн с WWW или без WWW, специален робот zerkalischik намерите огледало и образуват една група, както и резултатите от търсенето се показват само един от тях. За да помогне на робота ни идентифицира главното огледало, използвайте директивата домакин - подкрепен от Yandex.

Водещ - не гарантира 100% правилен избор на първичното огледало, но, въпреки това, търсачката ще разгледа това твърдение.

За съвместимост във файла robots.txt с роботите на търсачките, които не поддържат домакин директива, да я добавят към правилата на групата, веднага след разрешите или забраните.

User-Agent: Yandex

Позволете: /

Файлът robots.txt може да съдържа само един домакин. Ако ще има няколко търсачки вземат предвид само първата.

Crawl-закъснение

Ако сървърът е зареден и не отговаря на всички искания - използвайте директива Crawl-закъснението. Той определя интервала от време между края на едно сканиране и началото на страницата сканирате друга.

Crawl-закъснение, както и домакин, добавени към групата на инструкции, като се започне с потребителски агент, след като разрешите или забраните.

Crawl-закъснение: 3 # изчакване на 3 секунди

Clean-Парам

Например, имате следната страница:

www.site.com/dir/file.php?ref=site1file_id= 123

www.site.com/dir/file.php?ref=site2file_id= 123

www.site.com/dir/file.php?ref=site3file_id= 123

Dynamic параметър «лит =» проследявам уебсайтове източници, от които се правят на прехода, а това не променя съдържанието на страницата.

Ако файла robots.txt да пише следното:

Clean-Парам: Код /dir/file.php

директива Clean-Парам вододелна заяви навсякъде robots.txt. Ако има няколко роботи ще разгледа всички директиви Clean-Парам.

Проверка на robots.txt

За да проверите файла robots.txt, ползват услугите на търсачките. Кой друг те знаят дали инструкциите за работа в robots.txt правилно.

Robots.txt анализатор в Yandex прилича.

Проверка robots.txt Google:

Отидете на уеб администратор панел Google.
Изберете сайта ви трябва, отидете на статус на елемент от менюто - Блокирани URL.
Изберете "Проверете robots.txt».
След това копирате съдържанието на файла robots.txt, и го поставете в съответното поле.
Какво е URL адрес, за да се провери.
От списъка на потребителския агент, изберете роботите на Google желания скенер.

Как да създадете Карта на сайта XML

Nofollow атрибут и етикет Noindex

Tags HTML форматиране