Вебмайстер
Яндекс для вебмайстрів
Як Яндекс індексує сайти
Сайт на сторінці результатів пошуку
Сервіс «Яндекс.Вебмайстер»
Налаштування індексування
Вміст сайту
Сайт у результатах пошуку
Безпека сайтів
Сервіси Яндекса на вашому сайті

Індексування сайту

  1. Додайте сайт у пошукову систему Яндекс.

  2. Sitemap. Для зручності вебмайстрів і пошукових систем був розроблений спеціальний формат карти сайту — sitemap. Це список посилань на внутрішні сторінки сайту, поданий у форматі XML. Цей формат підтримує і Яндекс. У спеціальному розділі сервісу можна завантажити sitemap для вашого сайту. Це дозволить впливати на пріоритет обходу роботом деяких сторінок вашого сайту. Наприклад, якщо якісь сторінки оновлюються значно частіше, ніж інші, слід зазначити цю інформацію, щоб робот Яндекса правильно планував свою роботу.

  3. Robots.txt — файл, призначений для роботів пошукових систем. У цьому файлі веб-майстер може зазначити параметри індексування свого сайту як для всіх роботів одразу, так і для кожної пошукової системи окремо. Розглянемо три найважливіші параметри, які можна зазначити в цьому файлі:

    • Disallow. Ця директива використовується для заборони від індексування окремих розділів сайту. З її допомогою необхідно закривати від індексування технічні сторінки, а також ті, що не представляють цінності ні для користувача, ні для пошукових систем. До них відносяться сторінки з результатами пошуку на сайті, статистика відвідуваності сайту, дублікати сторінок, різноманітні логи, сервісні сторінки баз даних тощо. Докладніше про це читайте у спеціальному розділі допомоги, присвяченому файлу robots.txt.

    • Crawl delay. Дозволяє зазначити роботу, що індексує, мінімальний проміжок часу (в секундах) між зверненнями до сторінок сайту. Цей параметр корисний для великих проектів, що містять десятки тисяч сторінок і більше. Пошуковий робот Яндекса під час індексування може створити на такий сайт велике навантаження, що може викликати перебої та затримки в роботі сайту, тому, можливо, вам варто обмежити кількість звернень за секунду. Наприклад, директива Crawl-delay: 2 вкаже роботу, що він повинен вичікувати 2 секунди між зверненнями до сервера.

    • Clean param. Потрібний для вказування пошуковим роботам, які cgi-параметри в адресі сторінки слід вважати незначущими. Іноді адреси сторінок містять ідентифікатори сесій — формально сторінки з різними ідентифікаторами розрізняються, проте їх зміст при цьому однаковий. Якщо таких сторінок на сайті багато, індексуючий робот може почати індексувати такі сторінки, замість того щоб завантажувати корисний зміст. У відповідному розділі допомоги можна прочитати докладніше про використання директиви clean param.

      Сервіс Яндекс.Вебмайстер дозволяє переглянути список проіндексованих URL з вашого сайту. Регулярно перевіряйте його, оскільки навіть невеликі помилки в коді можуть спричинити значне зростання кількості непотрібних URL на сайті та збільшити навантаження на сайт.

  4. Яндекс індексує основні типи документів, поширених у мережі. Але існують обмеження, від яких залежить, як буде проіндексований документ, і чи буде проіндексований взагалі:

    • Велика кількість cgi-параметрів в URL, велика кількість повторюваних вкладених директорій і занадто велика загальна довжина URL може призвести до погіршення індексування документів.

    • Для індексування важливий розмір документа — документи понад 10 Мб не індексуються.

    • Індексування flash:

      1. індексується, якщо він не вбудований у HTML і сторінка передається з HTTP-заголовком, що містить Content-Type: application/x-shockwave-flash;

      2. індексуються файли *.swf, якщо на них є пряме посилання.

    • У документах PDF індексується лише текстовий зміст. Текст, поданий у вигляді зображень, не індексується.

    • Яндекс коректно індексує документи у форматі Open Office XML і OpenDocument (зокрема, документи Microsoft Office та Open Office). Але слід враховувати, що впровадження підтримки нових форматів може займати деякий час.

  5. Якщо ви перевизначили поведінку сервера для неіснуючих URL, переконайтеся, що сервер повертає код помилки 404. Отримавши код відповіді 404, пошукова система видалить цей документ з індексу. Стежте, щоб усі потрібні сторінки сайту віддавали код 200 OK.

  6. Стежте за коректністю http-заголовків. Зокрема, важливий зміст відповіді, яку сервер віддає на запит «if-modified-since» . Заголовок Last-Modified повинен віддавати коректну дату останньої зміни документа.

  7. Версії сайту, адаптовані для перегляду на мобільних пристроях, краще виносити на піддомен, так само, як і версії сайту різними мовами.

Примітка. 

Забороняйте для індексування непризначені для користувачів сторінки, керуйте пошуковим роботом Яндекса.

До наступного розділу

Оцініть статтю
Дякуємо за ваш відгук!