Як закрити сайт від індексації robots.txt: інструкції та рекомендації

Функції документа

Файл robots.txt надає пошуковим роботам кілька видів інформації. Він може дати частковий доступ, щоб «павук» провів сканування конкретних елементів ресурсу. Повний доступ дозволяє перевіряти всі наявні сторінки. Повна заборона не дає роботам можливості навіть почати перевірку, і ті покидають сайт.

Після відвідування ресурсу «павуки» отримують відповідний відповідь на запит. Їх може бути декілька, все залежить від інформації в robots.txt. Наприклад, якщо сканування пройшло успішно, робот отримає код 2xx.

Можливо, на сайті були встановлена переадресація з однієї сторінки на іншу. У цьому випадку робот отримує код 3xx. Якщо цей код зустрічається декілька раз, то «павук» буде слідувати йому до тих пір, поки не отримає іншу відповідь. Хоча, як правило, використовує тільки 5 спроб. В іншому випадку з’являється популярна помилка 404.

Якщо відповідь 4xx, значить, роботу дозволено сканувати весь вміст сайту. А ось у випадку з кодом 5xx, перевірка може повністю припинитися, оскільки часто це говорить про тимчасові помилки сервера.