Как да ускорите миграцията на сайтове с помощта на картa на пренасочвания с помощта на AI

Speeding up site migrations with AI powered redirect mapping ai

Мигрирането на голям уебсайт винаги е трудна задача. Големият трафик е заложен на карта сред много движещи се части, технически предизвикателства и управление на заинтересованите страни.

Исторически погледнато, една от най-обременителните задачи в плана за миграция е картографирането на пренасочването. Става дума за мъчителния процес на съпоставяне на URL адресите на текущия сайт с еквивалентната версия на новия сайт.

За щастие, тази задача, която преди можеше да ангажира екипи от хора, претърсващи хиляди URL адреси, може да бъде драстично ускорена с помощта на съвременни модели с изкуствен интелект.

Съдържание
  1. Трябва ли да използвате AI за картографиране на пренасочвания?
  2. Предимства на използването на изкуствен интелект за картографиране на пренасочвания
  3. Скорост
  4. Мащабируемост
  5. Ефективност
  6. Точност
  7. Недостатъци на използването на изкуствен интелект за картографиране на пренасочвания
  8. Прекалена зависимост
  9. Обучение
  10. Различия в изхода
  11. Ръководство стъпка по стъпка за картографиране на URL с AI
  12. Инструменти, които ще използваме
  13. Стъпка 1: Претърсване на уебсайта в реално време с помощта на Screaming Frog
  14. Стъпка 2: Експортиране на HTML страници със статус код 200
  15. Стъпка 3: Повторете стъпки 1 и 2 за вашия уебсайт за стациониране
  16. По желание: Намерете и заменете домейна или поддомейна на сайта за стартиране, за да съответства на сайта в реално време
  17. Стъпка 4: Стартирайте скрипта Google Colab Python
  18. Стъпка 5: Качване на origin.csv и destination.csv
  19. Стъпка 6: Изберете полетата, които да използвате за съпоставяне на сходства
  20. Стъпка 7: Наблюдавайте магията
  21. Стъпка 7: Изтеглете output.csv и подредете по similarity_score
  22. Стъпка 8: Човешко потвърждение на резултатите
  23. Стъпка 9: Променяйте и повтаряйте
  24. Очаквайте още AI

Трябва ли да използвате AI за картографиране на пренасочвания?

През последната година терминът „изкуствен интелект“ започна да се смесва с термина „ChatGPT“, така че за да бъдем съвсем ясни от самото начало, не става дума за използване на генеративни системи, базирани на изкуствен интелект/ЛЛМ, за картографиране на пренасочвания.

Въпреки че има някои задачи, в които инструменти като ChatGPT могат да ви помогнат, като например да напишете този сложен regex за логиката на пренасочване, генеративният елемент, който може да предизвика халюцинации, потенциално може да ни създаде проблеми с точността.

Предимства на използването на изкуствен интелект за картографиране на пренасочвания

Скорост

Основното предимство на използването на изкуствен интелект за картографиране на пренасочвания е бързината, с която може да се извърши. Първоначална карта от 10 000 URL адреса може да бъде изготвена за няколко минути, а човешката проверка – за няколко часа. Извършването на този процес ръчно от един човек обикновено би отнело дни работа.

Мащабируемост

Използването на изкуствен интелект в помощ на картографирането на пренасочвания е метод, който можете да използвате за сайт със 100 URL адреса или с над 1 000 000. Големите сайтове също така обикновено са по-програмирани или шаблонни, което прави съвпадението на сходствата по-точно с тези инструменти.

Ефективност

При по-големите сайтове работата на няколко души може лесно да бъде свършена от един човек с подходящи познания, като се освобождават колеги, които да помагат в други части на миграцията.

Точност

Макар че при автоматизирания метод някои пренасочвания ще бъдат „сгрешени“, според моя опит цялостната точност на пренасочванията е по-висока, тъй като на изхода може да се посочи сходството на съвпадението, което дава на ръчните проверители насока за това къде е най-необходимо тяхното внимание

Недостатъци на използването на изкуствен интелект за картографиране на пренасочвания

Прекалена зависимост

Използването на инструменти за автоматизация може да направи хората самодоволни и прекалено зависими от резултатите. При такава важна задача винаги е необходим човешки преглед.

Обучение

Сценарият е предварително написан и процесът е прост. Въпреки това за много хора той ще бъде нов, а среди като Google Colab могат да бъдат плашещи.

Различия в изхода

Въпреки че изходът е детерминиран, моделите ще се представят по-добре на определени сайтове, отколкото на други. Понякога изходът може да съдържа „глупави“ грешки, които са очевидни за човека, но по-трудни за машината.

Ръководство стъпка по стъпка за картографиране на URL с AI

В края на този процес се стремим да изготвим таблица, в която са изброени URL адресите „от“ и „до“, като съпоставим URL адресите на произхода на нашия уебсайт в реално време с URL адресите на местоназначението на нашия етапен (нов) уебсайт.

За този пример, за да запазим нещата прости, ще картографираме само нашите HTML страници, а не допълнителни активи като CSS или изображения, въпреки че това също е възможно.

Инструменти, които ще използваме

  • Screaming Frog Website Crawler: Screaming Frog е мощна и гъвкава програма за обхождане на уебсайтове, с която събираме URL адресите и свързаните с тях метаданни, необходими за съпоставянето.
  • Google Colab: Безплатна облачна услуга, която използва среда за тетрадки Jupyter, позволяваща да използвате редица езици директно от браузъра си, без да се налага да инсталирате нищо локално. Google Colab е начинът, по който ще стартираме нашите Python скриптове за извършване на съпоставянето на URL адреси.
  • Автоматизирано съгласуване на пренасочвания за миграция на сайтове: Скриптът на Python от Даниел Емери, който ще изпълняваме в Colab.

Стъпка 1: Претърсване на уебсайта в реално време с помощта на Screaming Frog

Ще трябва да извършите стандартно обхождане на вашия уебсайт. В зависимост от начина, по който е изграден уебсайтът ви, това може да изисква или да не изисква обхождане на JavaScript. Целта е да се изготви списък с възможно най-много достъпни страници на вашия сайт.

Стъпка 2: Експортиране на HTML страници със статус код 200

След като обхождането приключи, искаме да експортираме всички намерени HTML URL адреси с код на състоянието 200.

Първо, в горния ляв ъгъл трябва да изберем „HTML“ от падащото меню.

Screaming Frog - Highlighted- HTML filter

След това щракнете върху иконата за филтриране на плъзгачи в горния десен ъгъл и създайте филтър за кодове на състояние, съдържащи 200.

Highlighted: Custom filter options

Накрая щракнете върху Експортиране, за да запазите тези данни като CSV.

Highlighted: Export button

Това ще ви предостави списък с нашите текущи URL адреси в реално време и всички метаданни, които Screaming Frog събира за тях по подразбиране, като например заглавия и тагове на заглавието. Запишете този файл като origin.csv.

Важна забележка: Вашият план за пълна миграция трябва да отчита неща като съществуващи 301 пренасочвания и URL адреси, които могат да получат трафик на вашия сайт и които не са достъпни при първоначалното обхождане. Това ръководство има за цел само да демонстрира част от този процес на картографиране на URL адреси, то не е изчерпателно ръководство.

Стъпка 3: Повторете стъпки 1 и 2 за вашия уебсайт за стациониране

Сега трябва да съберем същите данни от нашия уебсайт за етапна проверка, за да имаме с какво да сравняваме.

В зависимост от това как е защитен вашият сайт за представяне, може да се наложи да използвате функции като удостоверяване на формуляри на Screaming Frog, ако е защитен с парола.

След като обхождането приключи, трябва да експортирате данните и да запазите този файл като destination.csv.

По желание: Намерете и заменете домейна или поддомейна на сайта за стартиране, за да съответства на сайта в реално време

Вероятно вашият уебсайт за изпитване е или на различен поддомейн, TLD или дори домейн, който няма да съвпада с нашия действителен URL адрес на дестинацията. Поради тази причина ще използвам функцията Find and Replace (Намиране и заместване) в моя destination.csv, за да променя пътя, така че да съответства на крайния поддомейн, домейн или TLD на сайта в реално време.

Например:

  • Моят сайт на живо е https://withcandour.co.uk/ (origin.csv)
  • Моят уебсайт за етапна проверка е https://testing.withcandour.dev/ (destination.csv)
  • Сайтът остава на същия домейн; той просто е преработен с различни URL адреси, така че ще отворя destination.csv и ще намеря всеки случай на https://testing.withcandour.dev и ще го заменя с https://withcandour.co.uk.
Find and Replace in Excel

Това също така означава, че когато се създава картата за пренасочване, изходът е правилен и трябва да се напише само крайната логика на пренасочването.

Стъпка 4: Стартирайте скрипта Google Colab Python

Когато преминете към скрипта в браузъра си, ще видите, че той е разделен на няколко блока код, а при преминаване върху всеки от тях ще получите икона „play“. Това е така, ако желаете да изпълнявате по един блок от кода в даден момент.

Въпреки това, скриптът ще работи перфектно само като изпълни всички блокове код, което можете да направите, като отидете в менюто Runtime‘и изберете Run all.

Google Colab Runtime

Няма предварителни условия за изпълнение на скрипта; той ще създаде облачна среда и при първото изпълнение във вашата инстанция ще отнеме около една минута, за да се инсталират необходимите модули.

Всеки блок с код ще има малка зелена отметка до него, след като бъде завършен, но третият блок с код ще изисква вашето въвеждане, за да продължи, и е лесно да го пропуснете, тъй като вероятно ще трябва да превъртите надолу, за да видите подкана.

Стъпка 5: Качване на origin.csv и destination.csv

Highlighted: File upload prompt

Когато бъдете подканени, щракнете върху Choose files (Избери файлове) и отидете до мястото, където сте записали файла origin.csv. След като изберете този файл, той ще се качи и ще бъдете подканени да направите същото за вашия destination.csv.

Стъпка 6: Изберете полетата, които да използвате за съпоставяне на сходства

Това, което прави този скрипт особено мощен, е възможността да използвате няколко набора от метаданни за вашето сравнение.

Това означава, че ако сте в ситуация, в която премествате архитектура, в която URL адресът ви не е сравним, можете да стартирате алгоритъма за сходство по други фактори под ваш контрол, като например заглавия на страници или рубрики.

Разгледайте двата сайта и се опитайте да прецените кои според вас са елементите, които остават сравнително последователни между тях. Като цяло бих ви посъветвал да започнете с прости неща и да добавяте повече полета, ако не получавате желаните резултати.

В моя пример сме запазили сходна конвенция за именуване на URL адресите, макар и не идентична, а заглавията на страниците ни остават последователни, тъй като копираме съдържанието.

Изберете елементите, които искате да използвате, и щракнете върху бутона Let’s Go!

Similarity matching fields

Стъпка 7: Наблюдавайте магията

Основните компоненти на скрипта са All-MiniLM-L6-v2 и FAISS, но какви са те и какво правят?

all-MiniLM-L6-v2 е малък и ефективен модел от серията MiniLM на Microsoft, които са предназначени за задачи за обработка на естествен език (NLP). MiniLM ще преобразува нашите текстови данни, които сме му предоставили, в числови вектори, които отразяват тяхното значение.

След това тези вектори дават възможност за търсене на сходство, извършвано от Facebook AI Similarity Search (FAISS) – библиотека, разработена от Facebook AI Research за ефективно търсене на сходство и клъстериране на плътни вектори. По този начин бързо ще открием нашите най-сходни двойки съдържание в набора от данни.

Стъпка 7: Изтеглете output.csv и подредете по similarity_score

Изходният файл output.csv трябва да се изтегли автоматично от браузъра ви. Ако го отворите, трябва да имате три колони: origin_url, matched_url и similarity_score.

Output csv example

В любимата ви програма за електронни таблици бих препоръчал да сортирате по similarity_score.

Excel Sort by similarity score

Резултатът от сходството ви дава представа за това колко добро е съответствието. Резултат за сходство от 1 предполага точно съвпадение.

Като проверих изходния файл, веднага видях, че приблизително 95% от моите URL адреси имат оценка за сходство над 0,98, така че има голяма вероятност да съм си спестил много време.

Стъпка 8: Човешко потвърждение на резултатите

Обърнете специално внимание на най-ниските резултати за сходство във вашия лист; вероятно там не могат да бъдат намерени добри съвпадения.

Output.csv: Lower-scored similarities

В моя пример имаше няколко слаби съвпадения на страницата на екипа, което ме накара да открия, че все още не всички профили на екипа са създадени на етапния сайт – наистина полезна находка.

Скриптът също така ни даде доста полезни препоръки за пренасочване на старото съдържание на блога, което решихме да премахнем и да не включваме в новия уебсайт, но сега имаме предложено пренасочване, ако искаме да прехвърлим трафика към нещо свързано – в крайна сметка това е ваше решение.

Стъпка 9: Променяйте и повтаряйте

Ако не сте получили желаните резултати, бих проверил отново дали полетата, които използвате за съпоставяне, остават възможно най-последователни между сайтовете. Ако това не е така, опитайте с друго поле или група от полета и повторете теста.

Очаквайте още AI

Като цяло не бързам да приемам какъвто и да е ИИ (особено генеративен ИИ) в процеса на пренасочване на карти, тъй като цената на грешките може да бъде висока, а грешките на ИИ понякога могат да бъдат трудни за откриване.

От моите тестове обаче установих, че тези специфични модели на ИИ са надеждни за тази конкретна задача и това промени из основи начина, по който подхождам към миграцията на сайтове.

Все още са необходими човешка проверка и надзор, но количеството спестено време с основната част от работата означава, че можете да направите по-задълбочена и обмислена човешка намеса и да завършите задачата много часове преди мястото, където обикновено бихте били.

В недалечно бъдеще очаквам да видим по-специфични модели, които ще ни позволят да предприемем допълнителни стъпки, включително подобряване на скоростта и ефективността на следващата стъпка – логиката на пренасочване.

Източник

Оцени статията
SEO България