8 често срещани проблеми с Robots.txt и как да ги отстраним

Robots.txt е полезен и мощен инструмент, с който можете да укажете на търсачките как да обхождат вашия уебсайт. Управлението на този файл е ключов компонент на добрата техническа SEO оптимизация.

Той не е всемогъщ – по думите на самите Google „това не е механизъм за недопускане на уебстраница в Google“ – но може да помогне да предотвратите претоварването на сайта или сървъра ви от заявки на обхождащи устройства.

Ако имате този блок за обхождане на сайта си, трябва да сте сигурни, че той се използва правилно.

Това е особено важно, ако използвате динамични URL адреси или други методи, които генерират теоретично безкраен брой страници.

В това ръководство ще разгледаме някои от най-често срещаните проблеми с файла robots.txt, тяхното въздействие върху вашия уебсайт и присъствието ви в търсачката и как да отстраните тези проблеми, ако смятате, че са възникнали.

Но първо нека разгледаме набързо файла robots.txt и неговите алтернативи.

Съдържание

Какво е Robots.txt?
Какво може да прави Robots.txt?
Колко опасни са грешките в Robots.txt?
8 често срещани грешки в Robots.txt
1. Robots.txt не е в кореновата директория
2. Лошо използване на заместващи символи
3. Noindex в Robots.txt
4. Блокирани скриптове и листове със стилове
5. Липса на URL адрес на XML картата на сайта
6. Достъп до сайтове за разработка
7. Използване на абсолютни URL адреси
8. Забравени и неподдържани елементи
Как да се възстановим от грешка в Robots.txt
Заключителни мисли

Какво е Robots.txt?

Robots.txt използва формат на обикновен текстов файл и се поставя в главната директория на вашия уебсайт.

Той трябва да е в най-горната директория на сайта ви. Търсачките просто ще го игнорират, ако го поставите в поддиректория.

Въпреки голямата си сила, robots.txt често е сравнително прост документ и основен файл robots.txt може да бъде създаден за секунди с помощта на редактор като Notepad . Можете да се забавлявате с тях и да добавяте допълнителни съобщения, които потребителите да намират.

Изображение от автора, февруари 2024 г

8 Common Robots.txt Issues And How To Fix Them

Има и други начини за постигане на някои от същите цели, за които обикновено се използва robots.txt.

Отделните страници могат да включват мета таг robots в кода на самата страница.

Можете също така да използвате HTTP заглавието X-Robots-Tag, за да повлияете на това как (и дали) съдържанието се показва в резултатите от търсенето.

Какво може да прави Robots.txt?

Robots.txt може да постигне разнообразни резултати при различни типове съдържание:

Уеб страниците могат да бъдат блокирани от обхождане.

Те все още могат да се появяват в резултатите от търсенето, но няма да имат текстово описание. Съдържанието на страницата, което не е HTML, също няма да бъде претърсвано.

Мултимедийните файлове могат да бъдат блокирани за показване в резултатите от търсенето в Google.

Това включва изображения, видео и аудио файлове.

Ако файлът е публичен, той все още ще „съществува“ онлайн и може да бъде разглеждан и свързван, но това частно съдържание няма да се показва в търсенията на Google.

Файловете с ресурси, като например маловажни външни скриптове, могат да бъдат блокирани.

Но това означава, че ако Google обхожда страница, която изисква този ресурс да се зареди, роботът Googlebot ще „види“ версия на страницата, сякаш този ресурс не съществува, което може да повлияе на индексирането.

Не можете да използвате robots.txt, за да блокирате напълно появата на дадена уебстраница в резултатите от търсенето на Google.

За да постигнете това, трябва да използвате алтернативен метод, като например добавяне на мета таг noindex в главата на страницата.

Колко опасни са грешките в Robots.txt?

Грешка в robots.txt може да има непредвидени последици, но често това не е краят на света.

Добрата новина е, че като поправите файла robots.txt, можете да се възстановите от всички грешки бързо и (обикновено) напълно.

Връководството на Google за разработчици на уеб сайтове се казва следното по темата за грешките в robots.txt:

„Уеб обхождащите машини обикновено са много гъвкави и обикновено не се влияят от дребни грешки във файла robots.txt. Като цяло най-лошото, което може да се случи, е, че неправилните [или] неподдържаните директиви ще бъдат игнорирани.
Все пак имайте предвид, че Google не може да чете мисли, когато тълкува файла robots.txt; ние трябва да тълкуваме файла robots.txt, който сме изтеглили. Въпреки това, ако сте наясно с проблемите във вашия robots.txt файл, те обикновено са лесни за отстраняване.“

8 често срещани грешки в Robots.txt

Robots.txt не е в кореновата директория.
Лошо използване на заместващи символи.
Noindex в Robots.txt.
Блокирани скриптове и таблици със стилове.
Липса на URL на картата на сайта.
Достъп до сайтове за разработка.
Използване на абсолютни URL адреси.
Забавени и неподдържани елементи.

Ако уебсайтът ви се държи странно в резултатите от търсенето, файлът robots.txt е добро място, където да потърсите грешки, синтактични грешки и прекомерни правила.

Нека разгледаме по-подробно всяка от горепосочените грешки и да видим как да се уверим, че имате валиден файл robots.txt.

1. Robots.txt не е в кореновата директория

Роботите за търсене могат да открият файла само ако той се намира в основната ви папка.

Ето защо в URL адреса на файла robots.txt трябва да има само наклонена черта напред между .com (или еквивалентен домейн) на уебсайта ви и името на файла „robots.txt“.

Ако там има подпапка, вашият файл robots.txt вероятно не е видим за роботите за търсене и уебсайтът ви вероятно се държи така, сякаш изобщо няма файл robots.txt.

За да отстраните този проблем, преместете файла robots.txt в главната директория.

Струва си да се отбележи, че за целта е необходимо да имате root достъп до сървъра си.

Някои системи за управление на съдържанието по подразбиране качват файлове в поддиректория „media“ (или нещо подобно), така че може да се наложи да заобиколите това, за да поставите файла robots.txt на правилното място.

2. Лошо използване на заместващи символи

Robots.txt поддържа два заместващи символа:

Звездичка (* ) – представлява всички случаи на валиден символ, като джокер в тесте карти.
Знак за долар ($ ) – обозначава края на URL адреса, като ви позволява да прилагате правила само за последната част на URL адреса, например разширението на типа на файла.

Разумно е да възприемете минималистичен подход към използването на заместващи знаци, тъй като те имат потенциала да прилагат ограничения към много по-голяма част от вашия уебсайт.

Освен това е сравнително лесно да блокирате достъпа на роботи до целия си сайт с лошо поставена звездичка.

Тествайте правилата си за заместващи знаци с помощта на инструмент за тестване на robots.txt, за да се уверите, че те се държат според очакванията. Бъдете предпазливи при използването на заместващи символи, за да предотвратите случайно блокиране или разрешаване на твърде много.

3. Noindex в Robots.txt

Тази опция е по-често срещана при уебсайтове, които са на повече от няколко години.

От 1 септември 2019 г. Google спря да спазва правилата за noindex във файловете robots.txt.

Ако вашият файл robots.txt е създаден преди тази дата или съдържа инструкции за noindex, вероятно ще видите тези страници индексирани в резултатите от търсенето на Google.

Решението на този проблем е да приложите алтернативен метод „noindex“.

Една от възможностите е мета тагът robots, който можете да добавите в заглавието на всяка уебстраница, която искате да предотвратите индексирането от Google.

4. Блокирани скриптове и листове със стилове

Може да изглежда логично да се блокира достъпът на обхождащите машини до външни JavaScripts и каскадни таблици със стилове (CSS).

Не забравяйте обаче, че Googlebot се нуждае от достъп до CSS и JS файлове, за да „вижда“ правилно вашите HTML и PHP страници.

Ако страниците ви се държат странно в резултатите на Google или изглежда, че Google не ги вижда правилно, проверете дали не блокирате достъпа на crawler до необходимите външни файлове.

Простото решение на този проблем е да премахнете реда от файла robots.txt, който блокира достъпа.

Или, ако имате някои файлове, които трябва да блокирате, вмъкнете изключение, което възстановява достъпа до необходимите CSS и JavaScript.

5. Липса на URL адрес на XML картата на сайта

Това е по-скоро свързано със SEO оптимизацията, отколкото с нещо друго.

Можете да включите URL адреса на вашата XML карта на сайта във вашия файл robots.txt.

Тъй като това е първото място, на което Googlebot поглежда, когато обхожда вашия уебсайт, това дава на обхождащия робот преднина в познаването на структурата и основните страници на вашия сайт.

Макар че това не е точно грешка – тъй като пропускането на карта на сайта не би трябвало да се отрази негативно на действителната основна функционалност и на появата на уебсайта ви в резултатите от търсенето – все пак си струва да добавите URL адреса на картата на сайта в robots.txt, ако искате да дадете тласък на усилията си за SEO.

6. Достъп до сайтове за разработка

Блокирането на достъпа на обхождащите програми до вашия действащ уебсайт е забранено, но също така е забранено да им се позволява да обхождат и индексират страниците ви, които все още са в процес на разработка.

Най-добрата практика е да добавите инструкция за забрана във файла robots.txt на уебсайт в процес на разработка, така че широката публика да не го вижда, докато не бъде завършен.

Също така е изключително важно да премахнете инструкцията за забрана, когато стартирате завършен уебсайт.

Забравянето на премахването на този ред от файла robots.txt е една от най-често срещаните грешки сред уеб разработчиците; това може да спре правилното обхождане и индексиране на целия ви уебсайт.

Ако изглежда, че сайтът ви за разработка получава реален трафик, или ако наскоро стартиралият ви уебсайт не се представя никак добре в търсенето, потърсете правилото за забрана на универсалния потребителски агент във файла robots.txt:
User-Agent: *
Забранявайте: /
Ако виждате това, когато не трябва (или не го виждате, когато трябва), направете необходимите промени във файла robots.txt и проверете дали външният вид на сайта ви се актуализира съответно.

7. Използване на абсолютни URL адреси

Докато използването на абсолютни URL адреси в неща като canonicals и hreflang е най-добрата практика, за URL адресите в robots.txt е вярно обратното.

Използването на относителни пътища във файла robots.txt е препоръчителният подход за посочване на частите от сайта, до които не трябва да имат достъп обхождащите машини.

Това е описано подробно в документацията на Google за robots.txt, която гласи:

Директория или страница, относителна към основния домейн, която може да бъде обхождана от току-що споменатия потребителски агент.

Когато използвате абсолютен URL адрес, няма гаранция, че обхождащите машини ще го интерпретират по предназначение и че правилото за забрана/позволяване ще бъде спазено.

8. Забравени и неподдържани елементи

Въпреки че насоките за файловете robots.txt не са се променили много през годините, два елемента, които често се включват, са:

Докато Bing поддържа crawl-delay, Google не го прави, но често се посочва от уебмастърите. Преди можехте да задавате настройки за обхождане в Google Search Console, но това беше премахнато към края на 2023 г.

Google обяви, че ще спре да поддържа директивата noindex във файловете robots.txt през юли 2019 г. Преди тази дата уебмастърите можеха да използват директивата noindex в своя файл robots.txt.

Това не беше широко поддържана или стандартизирана практика, а предпочитаният метод за noindex беше да се използват роботи на страницата или мерки x-robots на ниво страница.

Как да се възстановим от грешка в Robots.txt

Ако грешка в robots.txt има нежелани последици за външния вид на търсенето на вашия уебсайт, първата стъпка е да коригирате robots.txt и да проверите дали новите правила имат желания ефект.

Някои инструменти за SEO обхождане могат да ви помогнат, така че да не се налага да чакате търсачките да обходят сайта ви следващия път.

Когато сте сигурни, че robots.txt се държи както трябва, можете да се опитате да накарате сайта си да бъде обходен отново възможно най-скоро.

Платформи като Google Search Console (Конзола за търсене на Google) и Bing Webmaster Tools (Инструменти за уебмастъри на Bing ) могат да ви помогнат.

Изпратете актуализирана карта на сайта и поискайте повторно обхождане на всички страници, които са били неправилно изключени от списъка.

За съжаление, зависите от капризите на Googlebot – няма гаранция колко време може да отнеме на липсващите страници да се появят отново в индекса за търсене на Google.

Единственото, което можете да направите, е да предприемете правилните действия, за да сведете това време до минимум, доколкото е възможно, и да продължите да проверявате, докато Googlebot не приложи поправения robots.txt.

Заключителни мисли

Когато става въпрос за грешки в robots.txt, превенцията винаги е по-добра от лечението.

При големи уебсайтове, генериращи приходи, един заблуден wildcard, който премахва целия ви уебсайт от Google, може да окаже незабавно въздействие върху приходите.

Редакциите на robots.txt трябва да се правят внимателно от опитни разработчици, да се проверяват два пъти и – когато е необходимо – да се проверява второ мнение.

Ако е възможно, тествайте в редактор за пясъчници, преди да го пуснете в реалния сървър, за да избегнете неволно създаване на проблеми с наличността.

Не забравяйте, че когато се случи най-лошото, е важно да не изпадате в паника.

Диагностицирайте проблема, направете необходимите поправки в robots.txt и изпратете отново картата на сайта за ново обхождане.

Надяваме се, че мястото ви в класацията за търсене ще бъде възстановено в рамките на няколко дни.

Източник