Як закрити сайт від індексації robots.txt: інструкції та рекомендації

Робота SEO-оптимізатора дуже масштабна. Початківцям рекомендується записувати алгоритм оптимізації, щоб не пропустити якісь етапи. В іншому випадку просування буде важко назвати успішним, оскільки на сайті постійно будуть відбуватися збої і помилки, які довгий час доведеться виправляти.

Одним з етапів оптимізації є робота з файлом robots.txt. Цей документ повинен бути у кожного ресурсу, оскільки без нього буде складніше справлятися з оптимізацією. Він виконує багато функцій, в яких доведеться розбиратися.

Помічник роботів

Файл robots.txt – це звичайний текстовий документ, який можна переглянути у стандартному «Блокноті» системи. При його створенні необхідно встановлювати кодування UTF-8, щоб він читався коректно. Працює файл з протоколами http, https і FTP.

Цей документ є помічником пошукових роботів. Якщо ви не знаєте, то кожна система використовує «павучків», які швидко сканують Всесвітню павутину, щоб видавати релевантні сайти на запити користувачів. Ці роботи повинні мати доступ до ресурсу даними, для цього працює robots.txt.

Щоб «павуки» знайшли шлях, необхідно відправити документ robots.txt в кореневий каталог. Щоб перевірити, чи є в сайту цей файл, в адресний рядок браузера слід ввести «https://site.com.ua/robots.txt». Замість «site.com.ua» потрібно ввести необхідний вам ресурс.

Функції документа

Файл robots.txt надає пошуковим роботам кілька видів інформації. Він може дати частковий доступ, щоб «павук» провів сканування конкретних елементів ресурсу. Повний доступ дозволяє перевіряти всі наявні сторінки. Повна заборона не дає роботам можливості навіть почати перевірку, і ті покидають сайт.

Після відвідування ресурсу «павуки» отримують відповідний відповідь на запит. Їх може бути декілька, все залежить від інформації в robots.txt. Наприклад, якщо сканування пройшло успішно, робот отримає код 2xx.

Можливо, на сайті були встановлена переадресація з однієї сторінки на іншу. У цьому випадку робот отримує код 3xx. Якщо цей код зустрічається декілька раз, то «павук» буде слідувати йому до тих пір, поки не отримає іншу відповідь. Хоча, як правило, використовує тільки 5 спроб. В іншому випадку з’являється популярна помилка 404.

Якщо відповідь 4xx, значить, роботу дозволено сканувати весь вміст сайту. А ось у випадку з кодом 5xx, перевірка може повністю припинитися, оскільки часто це говорить про тимчасові помилки сервера.

Для чого потрібен robots.txt?

Як ви вже здогадалися, цей файл є провідником роботів в корінь сайту. Зараз його використовують для того, щоб частково обмежити доступ до небажаного контенту:

  • сторінки з особистою інформацією користувачів;
  • сайти-дзеркала;
  • видача пошукових результатів;
  • форми відправки даних та ін.

Якщо в корені сайту немає файлу robots.txt, то робот просканує абсолютно весь контент. Відповідно, у видачі можу з’явитися небажані дані, а значить, постраждаєте і ви, і сайт. Якщо ж в документі robots.txt є особливі вказівки, значить, «павук» буде слідувати їм і видасть інформацію, бажану власнику ресурсу.

Робота з файлом

Щоб з допомогою robots.txt закрити сайт від індексації, необхідно розібратися з тим, як створити цей файл. Для цього необхідно слідувати інструкції:

  • Створити документ в «Блокноті» або Notepad++.
  • Встановити розширення файлу «.txt».
  • Внести необхідні дані і команди.
  • Зберегти документ і завантажити його в корінь сайту.
  • Як бачите, на одному з етапів необхідно встановити команди для роботів. Вони бувають двох типів: дозволяють (Allow) і заборонні (Disallow). Також деякі оптимізатори можуть вказати швидкість обходу, хост і посилання на карту сторінок ресурсу.

    Для того щоб почати роботу з robots.txt і повністю закрити сайт від індексації, необхідно також розібратися у використовуваних символах. Наприклад, в документі можна використовувати «/», який вказує на те, що сайт обраний цілком. Якщо ж використовується «*», значить, потрібна послідовність символів. Таким чином можна буде вказати конкретну папку, яку можна сканувати, або не можна.

    Особливість ботів

    «Павуки» в пошукових систем різні, тому якщо ви працюєте відразу на кілька пошукачів, отже, доведеться враховувати цей момент. Імена у них різні, а значить, якщо ви хочете звернутися до конкретного роботу, вам доведеться вказати його ім’я: «User Agent: Yandex» (без лапок).

    Якщо ж ви хочете задати директиви для всіх пошуковиків, значить необхідно використовувати команду: «User Agent: *» (без лапок). Щоб правильно з допомогою robots.txt закрити сайт від індексації, необхідно дізнатися специфіку найпопулярніших пошуковиків.

    Справа в тому, що у найпопулярніших пошукових систем Yandex і Google є кілька ботів. Кожен з них займається своїми завданнями. Наприклад, Yandex Bot та Googlebot – основні «павуки», які сканують сайт. Знаючи всіх ботів, буде простіше точно налаштувати роботу індексації вашого ресурсу.

    Приклади

    Отже, з допомогою robots.txt закрити сайт від індексації можна простими командами, головне – розуміти, що потрібно конкретно. Наприклад, якщо ви хочете, щоб робот Google не наближався до вашого ресурсу, необхідно дати йому відповідну команду. Вона буде виглядати: «User-agent: Googlebot Disallow: /» (без лапок).

    Тепер потрібно розібрати, що ж в цій команді і як вона працює. Отже, «User-agent» застосовується для того, щоб було використано пряме звернення до якогось із ботів. Далі ми вказуємо до якого саме, в нашому випадку це Google. Команда «Disallow» повинна починатися з нового рядка і заборонити роботу заходити на сайт. Символ слеша в даному випадку говорить про те, що для виконання команди вибрані всі сторінки ресурсу.

    В robots.txt заборона індексації для всіх пошукових систем можна виконати простою командою: «User-agent: * Disallow: /» (без лапок). Символ зірочки в даному випадку позначає всі пошукові роботи. Зазвичай така команда потрібна для того, щоб припинити індексацію сайту і почати кардинальні роботи над ним, які в іншому випадку могли б вплинути на оптимізацію.

    Якщо ресурс великий і має багато сторінок, часто там є службова інформація, яку або небажано розголошувати, або вона може негативно вплинути на просування. У цьому випадку потрібно розуміти, як закрити сторінку від індексації robots.txt.

    Можна сховати папку або файл. У першому випадку потрібно знову-таки почати з обігу до певного боту або всім, тому використовуємо команду «User-agent», а нижче вказуємо команду «Disallow» для певної папки. Це буде виглядати наступним чином: «Disallow: /папка/» (без лапок). Таким чином ви заховаєте всю папку. Якщо в ній є якийсь важливий файл, який ви хотіли б показати нижче потрібно написати команду: «Allow: /папка/файл.рһр» (без лапок).

    Перевірка файлу

    Якщо з допомогою robots.txt закрити сайт від індексації у вас вийшло, але ви не знаєте, спрацювали чи правильно всі ваші директиви, можна перевірити коректність роботи.

    Для початку потрібно знову перевірити розміщення документа. Пам’ятайте, що він повинен бути виключно в кореневій папці. Якщо він потрапив в подкорневную папку, то працювати не буде. Далі відкриваємо браузер і вводимо туди наступний адреса: «http://вашсайт. com/robots.txt» (без лапок). Якщо у веб-браузері з’явилася помилка, отже, файл знаходиться не там, де повинен.

    Директиви перевірити можна в спеціальних інструментах, які використовують практично всі веб-майстри. Мова йде про продукти Google і Yandex. Наприклад, Google Search Console є панель інструментів, де потрібно відкрити «Сканування», а після запустити «Інструмент перевірки файлу robots.txt». У вікно необхідно скопіювати всі дані з документу і запустити сканування. Точно таку ж перевірку можна зробити в «Яндекс.Вебмастер».