За сайта - правилната настройка

В този и се нуждаят от инструкции за употреба, търсачките не са изключения от правилото, и затова излезе със специален файл, наречен robots.txt. Този файл трябва да бъде в главната папка на вашия сайт, или може да бъде виртуална, но винаги ще се отварят за: www.vashsayt.ru / robots.txt







Търсачките отдавна са се научили да се прави разлика между необходимите HTML файлове от вътрешния набор от скриптове на вашия CMS система, или по-скоро, те са се научили да разпознават връзки към статии, базирани на съдържание и всякакви глупости. Ето защо, много уебмастъри са пропуснали да направят роботи за техните сайтове и си мислят, че всичко е толкова добро. Да, те са точно на 99%, тъй като, ако сайтът ви не разполага с този файл, след което търсачките са неограничени в тяхното търсене на съдържание, но тя не се случи нюанси на грешки, които могат да се грижат за по-рано.

Т о Каква е robots.txt

Файлът robots.txt е създадена за определяне на правилното индексиране на вашия сайт за търсачките. Това означава, че тя съдържа правила разрешения и забрани за някои пътеки към вашия сайт или тип съдържание. Но това не е панацея. Всички правила във файла с роботи не показват точно ги следват, а просто препоръка за търсачките. Google например, пише:

Не можете да използвате файла robots.txt, за да скриете страница от резултатите от търсенето с Google. Това може да се отнася към други страници, а той все още ще бъдат индексирани.

Търсене роботи да решат какво да се индексират и какво не, и как да се държи на сайта. Всеки търсещия нейните цели и неговата функция. Тъй като, ако ние не го искаме начина, по който те не са питомни.

Но има един трик, който не се отнася пряко до обект на тази статия. За да се предотврати напълно роботи да индексира и показва страници в резултатите от търсенето, което трябва да напишете:

Да се ​​върнем към роботите. Правила в този файл, можете да затворите или да позволява достъп до следните типове файлове:

  • Non-графични файлове. Това е най-вече на HTML файлове, които съдържат един от информацията. Можете да затворите страницата дубликат или страниците, които не носят никаква полезна информация (стр страниране, календар страница, архиви страница, страницата на профила, и т.н.).
  • Файлове с изображения. Ако искате да се място на изображенията не се показват в търсенето, можете да го регистрирате във файла за роботи.
  • ресурсни файлове. Също така, с помощта на роботи, можете да деактивирате индексирането на различни скриптове, CSS каскадни стилове файлове, както и други ресурси са маловажни. Но не се заключва ресурси, които са отговорни за визуалната част на сайта за посетители (например, ако затворите CSS и JS сайт, който показва красиви блокове или на маса, не виждам робот за търсене и ще се кълнат в него).

За да се убедите колко по-роботи да работят, погледнете снимката по-долу:

Пълзи го забавя
Търсене робот, следвайки сайта, погледнете в правилата за индексиране, а след това започва индексиране на препоръките на файлове.
Пълзи го забавя
В зависимост от правилата на настройките, търсачката знае, че може да бъдат индексирани и кое не е.

С intaksis файла robots.txt

За да напишете правилата на директивите на двигатели Роботи файлови търсене се използва с различни параметри, с които роботи следват. Нека започнем с първата и може би най-важни насоки:

А директива: User-Agent

User-Agent - Тази директива определя името на робота вие, които трябва да ги използвате във файла. Тези роботи официално в света на интернет - 302 броя. Вие със сигурност може да предпише правила за всеки поотделно, но ако нямате време за него, просто го монтирате:

* -в този пример, това означава "всичко". Т.е. файла robots.txt, трябва да започнем с това, "за които е" предназначен файл. За да не се притеснява имената на всички роботи, просто списък на "звезда" в директива потребителския агент.

Аз ще ви дам подробни списъци на популярните търсачки роботи:

Google - Googlebot - основното робота

Останалата част от роботи на Google

Yandex - YandexBot - основен индексиране робот;

Другите роботите Yandex

А Директива Забрани и Позволете

Забрани - най-основното правило в роботи, е чрез тази директива забраните индексирането определено място на вашия сайт. Написано директива, както следва:

Тя често е възможно да се наблюдава директива Disallow: празен, т.е. се твърди, че казва на робота, че нищо не е забранено на сайта, който искате индексиран. Бъдете внимателни! Ако сложите /, за да забраните, след което можете напълно затвори сайта за индексиране.

Ето защо, най-стандартната версия на robots.txt, който "дава възможност на индексирането на целия сайт за всички търсачки" е както следва:

Ако не знаете какво да пиша в robots.txt, но някъде чух за него, просто да копирате кода по-горе, да го запишете във файл, наречен robots.txt и да го качите в главната директория на вашия сайт. Или не създават нищо, защото без него роботите ще индексира всичко на вашия сайт. Или прочете историята до края, и вие ще осъзнаете, че закриването на депа и кое не е.







Съгласно правилата на роботи, забрани директива следва да бъде задължително.

Тази директива може да бъде деактивиран в папка или файл.

Ако искате да деактивирате дадена папка, трябва да напишете:

Ако искате да се предотврати определен файл:

Ако искате да ограничите определени типове файлове:

Регулярните изрази не се поддържат от търсачките. Google поддържа.

Позволете - резолюция директива Robots.txt. Тя позволява на робота да индексира даден път или файл в директорията, забранява. Само чрез Yandex тя е била използвана доскоро. Google настигна го и започнете да го използвате също. Например:

Тези директиви забраняват индекс цялото съдържание на сайта, освен папка съдържание. Или тук е друг популярен напоследък директива:

Тези стойности позволяват на индекса през цялото CSS и JS файловете на сайта. но да забрани на индекса всичко в една папка с шаблон. През последната година Google е изпратила много имейли, за да уебмастъри на такова съдържание:

Googlebot не може да влезете в CSS и JS файлове онлайн

Ако добавите двамата позволи на директивата, които са записани в последния код в Robots.txt, вие няма да видите такива съобщения от Google.

И Използване на специални знаци в robots.txt

Сега, за знаците в директивите. Главни герои (специални символи), за да блокират или позволяват /, *, $

Pro наклонени черти (наклонена черта) «/»

Слаш е много измамен в robots.txt. Гледах десетки пъти интересна ситуация, когато несъзнателно добавя към файла robots.txt:

Разгледайте внимателно всички / в robots.txt

Винаги в края на директория пут / на. Ако сложите / Забрани в, забраните индексирането на целия сайт, но ако не се сложи / за да се позволи, ще забраните индексирането на целия сайт. / - в известен смисъл това означава "Всичко, което следва директива /."

За звездичка * в robots.txt

Специалните знаци * означава всеки (включително и един празен) последователност от знаци. Можете да го използвате навсякъде по роботите като например:

Забранява всички файлове с разширение ASPX в papka директория също така забранява не само папката / старото, но директива / papka / стар. Zamudreno? Това е, което аз препоръчвам да не се отдадете на един * във вашите роботи.

По подразбиране, правила индексиране на файлове и забраната трябва * директиви на robots.txt на всички!

$ Специален знак в роботи завършва този знак *. Например:

Това правило забранява "/ меню", но и не забранява "/menu.html", т.е. файл предотвратява търсачките само директива / меню, а не може да попречи на всички файлове с менюто дума в URL`e.

Директива за домакинство

Обикновено домакин работи само в Yandex, следователно, не е необходимо. я определя главния домейн на вашия огледален сайт, ако има такива. Например имате dom.com на домейна, но същото се купуват и да конфигурирате следните области: dom2.com, dom3, ком dom4.com и с тях има пренасочване на основния домейн dom.com

Yandex да се определи кои от тях бързо основния сайт (хост), направете списък на директорията домакин в robots.txt:

Запис на хост трябва да е един, и ако е необходимо, с лимец порт. (Водещ: staurus.net:8080)

А Директива Crawl-закъснение

Тази директива е предназначен за премахване на възможността за натоварването на сървъра ви. Роботите на търсещите машини могат да направят стотици искания в същото време на сайта си и ако сървъра ви е слаба, тя може да предизвика незначителни проблеми. За това не се случи, излезе с правило за роботи Crawl-закъснение - това е минималният период между страницата за сваляне на сайта си. Типичната стойност за този набор насоки препоръчвам 2 секунди. В роботи, тя изглежда така:

Тази директива работи за Яндекс. В Google, можете да зададете честотата на сканиране в уебмастера на панела, под Настройки на сайта в горния десен ъгъл с "зъб".

Директива D Clean-Парам

Yandex робот, с помощта на тази информация няма да бъде многократно рестартиране на една и съща информация. По този начин, за да се повиши ефективността на обхождането на сайта ви, да се намали натоварването на сървъра.
Така например, на сайта има страница:

www.site.com/some_dir/get_book.pl?ref=site_1book_id=123
www.site.com/some_dir/get_book.pl?ref=site_2book_id=123
www.site.com/some_dir/get_book.pl?ref=site_3book_id=123

А Директива Карта на сайта

Тази директива трябва да дефинирате точно местоположението на sitemap.xml. Роботът запомня ", казва тя ви благодаря", и постоянно да го анализира по предварително определен път. Тя изглежда така:

О БЩИ въпроси и препоръки за роботи

А сега нека да разгледаме най-често срещаните проблеми, които възникват при изготвянето на роботи. На интернет, много от тези теми, така че да анализира най-подходящите и най-често.

P HT robots.txt

Много, но в думата "право", тъй като в продължение на една и съща площадка на същия CMS, че ще бъде правилно, а другият CMS - ще се върне грешки. "А конфигуриран правилно" за всеки обект поотделно. Robots.txt, трябва да бъде затворен от индексиране на онези участъци от тези файлове, които не са необходими на потребителите и не носят никаква стойност за търсачките. Най-лесният и най-добрият вариант robots.txt

R obots.txt за WordPress

Отново, много въпроси, един уеб сайт може да бъде онлайн магазини, друг блог, третата - стълбищна площадка, на четвърто - малък сайт на компанията, както и всичко, което може да бъде на CMS WordPress и роботите правила са напълно различни. Тук е моят robots.txt за този блог:

Има толкова много възможности, да ги анализират заедно.

Оставете да WordPress. Първо позволи правила за съдържанието, което потребителите искат (това изображение папка качени) и роботи (това CSS и JS за показване на страници). Тя е за CSS и JS често критикува Google, така че ние ги оставят отворени. Това е възможно да се използва методът на всички файлове само чрез вмъкване «/*.css$», но забранява линията на тези папки, където се съхраняват файлове - не е позволено да ги използва за индексиране, така че трябваше да зададете пътя до папката, която забранява напълно.

Позволи винаги сочи пътя към съдържание Забрани забранено. Ако все пак нещо не е забранено, не е необходимо да се определи позволи, се предполага, че мисля, че вие ​​давате тласък на търсачките, като например "Е добре, ето адреса индексира по-бързо." Той няма да работи.

Е домакин на сайта и стандартни насоки. Само, че е необходимо да се направи отделен домакин на Yandex, но аз не се притеснявам за това. Това е може би в крайна сметка с Robots.txt за WP.

КАК да се създаде robots.txt

Това не е толкова трудно, колкото изглежда на пръв поглед. Ти просто трябва да се вземат редовно бележника (Notepad) и копирате данните на сайта си от настройките в тази статия. Но ако това е трудно за вас, има ресурси в интернет, които ви позволяват да се генерират Роботи за вашите сайтове:

Generator Роботи от PR-CY - един от най-лесните роботи генераторите в RuNet. Просто въведете връзките инструменти, които не трябва да попадат в индекса и всичко останало.

Създаване на роботи от htmlweb - добър генератор на роботи с възможност за добавяне на домакин и на сайта.

Г-н де Проверете файла robots.txt

Това е един от роботите най-важните и задължителни елементи, преди да изпратите файл на вашия сървър - проверка. Ако сте направили нещо нередно, можете да "погребат" вашия сайт, за да търсачките открити пространства. Lyapom обикновено, като това се случи, забраните индексирането на целия сайт.

За да се избегне това, трябва да проверите своите задръжки подават в един от най-удобни за проверка услуги:

Никой няма да ви кажа повече за Robots.txt, тези другари. В края на краищата, това е за тях, както и да създадете своя "забранено открих."

Сега нека да поговорим за някои малки грешки, които могат да бъдат роботи.

Тъй като сте били мързеливи Staurus.