Google обяснява как избира канонични уеб страници

Във видеоклип на Google Search Central Гари Илийс от Google обясни част от индексирането на уебстраници, която включва избиране на канонични файлове, обясни какво означава каноничен файл за Google, миниатюрно обяснение на сигналите за уебстраници, спомена централния елемент на страницата и разказа какво прави с дубликатите, което предполага нов начин на мислене за тях.

Съдържание

Какво е канонична уебстраница?
Пет причини за дублиращи се страници
За избора на Canonicals се използват сигнали
Дублиращите се клъстери имат един Canonical
Алтернативни версии на уебстраници
Основни изводи за каноничните (и други) страници, които да запомните

Какво е канонична уебстраница?

Има няколко начина за разглеждане на това какво означава canonical, гледната точка на издателя и SEO оптимизатора от нашата страна на полето за търсене и какво означава canonical от страната на Google.

Издателите определят това, което смятат, че е „оригиналната“ уебстраница, а концепцията на SEO оптимизаторите за canonical е свързана с избора на „най-силната“ версия на дадена уебстраница за целите на класирането.

Каноничността за Google е нещо съвсем различно от това, което издателите и SEO оптимизаторите мислят, че е, така че е добре да го чуем от гугълски специалист като Гари Илиес.

В официалната документация на Google за канонизацията се използва думата „дедупликация“, за да се спомене процесът на избор на канонична страница, и се изброяват пет типични причини, поради които даден сайт може да има дублирани страници.

Пет причини за дублиращи се страници

„Регионални варианти“: например част от съдържанието за САЩ и Обединеното кралство, достъпно от различни URL адреси, но по същество едно и също съдържание на един и същи език
Варианти за устройства: например страница с версия за мобилни устройства и за настолни компютри
Варианти на протокола: например HTTP и HTTPS версии на даден сайт
Функции на сайта: например резултати от функциите за сортиране и филтриране на страница с категории
Случайни варианти: например демо версията на сайта случайно е оставена достъпна за обхождащи устройства“

Каноничните страници могат да се разглеждат по три различни начина и има поне пет причини за дублиращи се страници.

Гари описва още един начин да се мисли за canonicals.

За избора на Canonicals се използват сигнали

Илиес споделя още едно определение за каноничен текст, този път от гледна точка на индексирането, и говори за сигналите, които се използват за избор на канонични текстове.

Гари обяснява:

„Google определя дали страницата е дубликат на друга вече известна страница и коя версия трябва да се запази в индекса – каноничната версия.
Но в този контекст каноничната версия е страницата от група дублиращи се страници, която най-добре представя групата според сигналите, които сме събрали за всяка версия.“

Гари спира, за да обясни групирането на дубликатите, и малко по-късно се връща към говоренето за сигналите.

Той продължава:

„В по-голямата си част само каноничните страници се появяват в резултатите от търсенето. Но как да разберем коя страница е канонична?
И така, след като Google разполага със съдържанието на вашата страница, или по-точно с основното съдържание или централния елемент на страницата, той ще я групира с една или повече страници с подобно съдържание, ако има такива. Това е групиране на дубликати.“

Искам само да спра дотук, за да отбележа, че Гари говори за основното съдържание като за „централния елемент на страницата“, което е интересно, тъй като има концепция, въведена от Мартин Сплит от Google, наречена анотация на централния елемент. Той не обясни какво всъщност представлява Centerpiece Annotation, но тази част, която Гари сподели, помага.

Следва частта от видеоклипа, в която Гари говори за това какво всъщност представляват сигналите.

Илиес обяснява какво представляват „сигналите“:

„След това той сравнява шепа сигнали, които вече е изчислил за всяка страница, за да избере канонична версия.
Сигналите са части от информацията, която търсачката събира за страниците и уебсайтовете и която се използва за по-нататъшна обработка.
Някои сигнали са много ясни, например анотациите на собственика на сайта в HTML като rel=“canonical“, докато други, като важността на отделна страница в интернет, са по-малко ясни.“

Дублиращите се клъстери имат един Canonical

По-нататък Гари обяснява, че за всеки клъстер от дублиращи се страници в резултатите от търсенето се избира една страница, която да представлява каноничната. Всеки клъстер от дубликати има един каноничен.

Той продължава:

„Всеки клъстер от дублиращи се страници ще има една версия на съдържанието, избрана като канонична.
Тази версия ще представлява съдържанието в резултатите от търсенето за всички останали версии.
Другите версии в клъстера стават алтернативни версии, които могат да бъдат представени в различни контексти, например ако потребителят търси много специфична страница от клъстера.“

Алтернативни версии на уебстраници

Последната част е наистина интересна и е важно да се вземе предвид, защото може да бъде полезна за класирането на множество варианти на дадена ключова дума, особено за уебстраници за електронна търговия.

Понякога системата за управление на съдържанието (CMS) създава дублиращи се уебстраници, за да се отчетат вариантите на даден продукт, като например размера или цвета на продукта, което може да повлияе на описанието. Тези варианти могат да бъдат избрани от Google за класиране в резултатите от търсенето, когато тази страница с вариант служи за по-близко съответствие на заявката за търсене.

Това е важно да се обмисли, тъй като може да се окаже изкушаващо да се пренасочат неиндексирани уебстраници с варианти, за да се държат извън индекса за търсене от страх от (несъществуващия) проблем с канибализацията на ключовите думи. Добавянето на noindex към страници, които са варианти на една страница, може да има обратен ефект, защото има сценарии, при които тези вариантни страници са най-добрите за класиране при по-нюансирана заявка за търсене, която съдържа цветове, размери или номера на версии, които са различни от тези на каноничната страница.

Основни изводи за каноничните (и други) страници, които да запомните

В дискусията на Гари за каноничните страници е събрана много информация, включително някои странични теми за основното съдържание.

Ето седем извода, които трябва да вземете предвид:

Основното съдържание се нарича Centerpiece
Google изчислява „шепа сигнали“ за всяка страница, която открива.
Сигналите са данни, които се използват за „по-нататъшна обработка“ след откриването на уебстраниците.
Някои сигнали са под контрола на издателя, като например подсказките (и вероятно директивите). Подсказката, която споменава Illyes, е атрибутът rel=canonical link.
Други сигнали са извън контрола на издателя, като например значението на страницата в контекста на интернет.
Някои дублиращи се страници могат да служат като алтернативни версии
Алтернативните версии на уебстраници все още могат да се класират и са полезни за Google (и за издателя) за целите на класирането.

Източник