Докладът на Google за уеб спама обяснява ролята на SpamBrain

В годишния доклад на Google за уеб спама, обхващащ 2022 г., се изтъкват всички начини, по които тяхната система за борба със спама SpamBrain е станала по-умела в улавянето на множество форми на спам. Макар че в доклада се съобщава основно колко повече спам са хванали в сравнение с предходната година, частите за това как работи SpamBrain изглеждат също толкова важни.

Съдържание

Платформа на Google SpamBrain
Подобрения на SpamBrain
Откриване на спам на връзки
Индексиращ страж
Защитата от измами вече е многоезична

Платформа на Google SpamBrain

SpamBrain е името, което Google дава на своята система за машинно обучение, която Google нарича платформа, от която се стартират алгоритми, които откриват множество форми на нежелано съдържание.

Машинното обучение е форма на изкуствен интелект, която използва данни, за да се учи и да става все по-професионална в задачата, за която е предназначена.

За SpamBrain не се знае много, освен че е платформа за машинно обучение и че е „централна“ за инициативите на Google за предотвратяване на класирането на спам.

В доклада на Google за Webspam се отбелязва следното за SpamBrain:

„Освен това усъвършенствахме SpamBrain като стабилна и гъвкава платформа, като пуснахме няколко решения, за да подобрим покритието на различните видове злоупотреби.“

Подобрения на SpamBrain

В доклада за Webspam се отбелязва, че подобренията в системата са довели до улавянето на 500% повече спам сайтове в сравнение с предходната година.

Допълнителното обучение е довело до десетократно увеличение на способността на SpamBrain да идентифицира хакнати уебсайтове.

Откриване на спам на връзки

В доклада се отбелязва, че специалното обучение за откриване на спам от връзки е довело до улавянето на петдесет пъти повече сайтове, създаващи спам от връзки, в сравнение с предходната година, като се посочва, че способността на SpamBrain да се учи е ключова за успеха.

„Благодарение на способността на SpamBrain да се обучава, открихме 50 пъти повече сайтове, създаващи спам от връзки, в сравнение с предишната актуализация на спама от връзки.“

Индексиращ страж

Интересен факт за SpamBrain е начинът, по който идентифицира спама по време на обхождането.

Ако бъде установено, че обхожданата страница е спам, тя незабавно се блокира, като по този начин се предотвратява влизането ѝ в индекса за търсене на Google и се спестяват ресурси, които се губят за обхождане на нежелани уебстраници.

Блокирането на спама по време на обхождане е възможност, която беше обявена през 2021 г., в която се отбелязва, че индексирането се блокира не само при обхождане на спам, но и когато той се опитва да се промъкне през конзолата за търсене и картите на сайта.

Те написаха през 2021 г:

„…разполагаме със системи, които могат да откриват спам, когато обхождаме страници или друго съдържание. Пълзенето е, когато нашите автоматични системи посещават съдържанието и го разглеждат за включване в индекса, който използваме за предоставяне на резултати от търсенето. Част от съдържанието, открито като спам, не се добавя в индекса.
Тези системи работят и за съдържание, което откриваме чрез карти на сайта и Search Console.
Например в конзолата за търсене има функция Request Indexing (Заявка за индексиране), така че създателите могат да ни уведомяват за нови страници, които трябва да бъдат добавени бързо. Наблюдавахме спамъри, които хакват уязвими сайтове, преструват се на собственици на тези сайтове, проверяват се в Конзолата за търсене и използват инструмента, за да поискат от Google да обхожда и индексира многото спам страници, които са създали.
Използвайки изкуствен интелект, успяхме да определим подозрителните верификации и предотвратихме попадането на спам URL адреси в нашия индекс по този начин.“

Така че е справедливо да се каже, че една от многото функции на SpamBrain е да действа като пазач, блокирайки спама, преди той да има възможност да попадне в индекса на Google.

Защитата от измами вече е многоезична

Нещо ново за SpamBrain е, че системата за идентифициране на измами вече е многоезична, което намалява броя на кликванията върху измамни сайтове с 50 % в сравнение с предходната година.

Какво да кажем за спам съдържанието?

Тазгодишният доклад се фокусира върху улавянето на спам от връзки, идентифицирането на хакнати сайтове и подобренията в откриването на спам по време на обхождане.

В него не се споменава нищо, свързано с идентифицирането на спам съдържание.

Дали това се дължи на факта, че със съдържанието се занимава алгоритъмът за полезно съдържание, а не SpamBrain?

Прочетете доклада на Google за уебспама: Как се преборихме със спама в Google Search през 2022 г

Източник