Google külastab su veebilehte ja indekseerib kõik, mida leiab. See kõlab hästi – rohkem indekseeritud lehti, rohkem nähtavust. Tegelikkus on keerulisem.
Mõni leht ei peaks Google’i indeksisse jõudma. Mõnda sisu eksisteerib mitme erineva URL-i all samaaegselt. Mõni filter- või otsingleht genereerib automaatselt sadu URL-e, millel pole otsingutulemustega midagi pistmist. Ilma kontrolli mehhanismideta indekseerib Google kõik – ja see kahjustab saidi autoriteeti, lahjendab lehe “link juice’d” ja tekitab segadust selle osas, millist lehte otsingutulemustes näidata.
Canonical URL ja noindex on kaks peamist tööriista, millega Google’ile öelda: “seda indekseeri, seda mitte.”
Mis on Canonical URL
Canonical URL on HTML tag, mis ütleb Google’ile: “See leht eksisteerib mitmes kohas, aga originaal on siin.”
Praktikas näeb see välja nii:
<link rel="canonical" href="https://naidis.ee/toode/suvekingad/" />
See tag pannakse lehe <head> sektsiooni. Google loeb seda ja teab, millist URL-i peaks indekseerima ja millele ranking anda.
Miks see vajalik on
Sama sisu jõuab sageli mitme erineva URL-i alla täiesti tahtmatult:
HTTP vs HTTPS – kui leht on kättesaadav mõlemal, näeb Google kahte erinevat lehte sama sisuga. Canonical ütleb kumb on “päris”.
www vs non-www – www.naidis.ee ja naidis.ee on Google’i jaoks kaks eri saiti. Canonical (koos redirectiga) lahendab selle.
URL parameetrid – filtrid, sorteerimisvalikud ja jälgimisparameetrid loovad uusi URL-e. WooCommerce pood kus saab filtreerida värvi, suuruse ja hinna järgi võib genereerida sadu URL-variante samale tootelehele: /tooted/?color=punane&size=M&orderby=price. Canonical ütleb kõigile neile, et originaal on /tooted/.
Pagination – lehekülgede jagamine (/blog/page/2/) loob eraldi URL-id. Canonical aitab Google’ile selgeks teha, milline on põhileht.
Prindi versioonid ja alternatiivsed formaadid – mõned saidid genereerivad eraldi prindilehe versioone või AMP lehti. Canonical seob need originaaliga.
Canonical RankMathis
RankMath seadistab canonical URL-id automaatselt – iga leht saab vaikimisi canonical, mis viitab iseendale. See on õige käitumine 95% juhtudel.
Käsitsi muutmine käib postituse redaktori kaudu: RankMath paneel → Advanced → Canonical URL. Sinna saab sisestada erineva URL-i kui tahad öelda Google’ile, et originaal on mujal – näiteks kui sama artikkel on avaldatud kahel saidil ja tahad, et ranking läheks põhisaidile.
Mis on noindex
noindex on direktiiv, mis ütleb Google’ile: “Ära pane seda lehte otsingutulemustesse.”
HTML kujul:
<meta name="robots" content="noindex, follow" />
või
<meta name="robots" content="noindex, nofollow" />
Vahe on follow ja nofollow vahel – follow tähendab, et Google järgib lehel olevaid linke edasi isegi kui lehte ennast ei indekseeri. nofollow tähendab, et lingid jäetakse samuti tähelepanuta.
Millal noindex kasutada
Administraatori ja süsteemilehed – /wp-admin/, /wp-login/, tehniline back-end. Need ei peaks kunagi otsingutulemustesse jõudma.
Tänu- ja kinnituslehed – “Täname tellimuse eest!”, “Vorm on saadetud” – need on ühekordsed lehed ilma otsinguväärtusliku sisuta.
Sisemised otsingulehed – /search/?q=märksõna lehed on dünaamilised ja muutuvad pidevalt. Google indekseerib need meelsasti aga otsingutulemuste seisukohast on need väärtusteta.
Filter- ja sordilehed – WooCommerce’i filtrid tekitavad URL-e nagu /tooted/?pa_color=punane. Canonical lahendab duplikaadi probleemi, aga kaaluda tasub ka noindex kui filtrilehti on palju ja neil pole otsinguväärtusliku sisu. Loomulikult on siin erand – kui filtrid peaksid täitma ka kategooria rolli, siis tuleks filter index panna ning canonical URL ka sama lehe peale panna. See eeldaks ka seda, et antud filtri meta-kirjed tuleks samuti korrigeerida.
Vähese sisuga lehed – kategoorialehed mis sisaldavad ainult ühte-kahte toodet, tagilehed kus sisu on minimaalne, arhiivilehed kus kõik on juba mujal indekseeritud.
Staging ja testkeskkonnad – kui arendusserver on avalikult kättesaadav, peaks kogu domeenile panema noindex robots.txt kaudu. Juhtub üllatavalt tihti, et test.naidis.ee on Google’is indekseeritud.
Mida noindex EI ole
noindex ei ole karistus ega probleem. See on kontrollimehhanism. Google ise soovitab kasutada noindex-it lehtedel, mis ei paku kasutajale otsingukontekstis väärtust.
Kuidas Search Console käitub
Google Search Console on koht, kus näed, mida Google su saidist tegelikult arvab.
Coverage raport näitab indekseeritud lehti ja probleeme. Siin on olulised kategooriad:
“Excluded – noindex tag” – lehed, mille oled noindex-iga välistanud. See on oodatud käitumine, mitte viga.
“Excluded – Duplicate without canonical” – Google leidis duplikaatsisu aga canonical tag puudub. See on märguanne, et canonical tuleks lisada.
“Excluded – Duplicate, Google chose different canonical than user” – sa oled määranud canonical, aga Google otsustas ise teisiti. Juhtub, kui Google leiab, et teine URL on autoriteetsem. Lahendus on kontrolli, kas canonical on õigesti seadistatud ja kas redirectid on paigas.
“Crawled – currently not indexed” – Google käis lehel aga otsustas mitte indekseerida. Põhjused on erinevad – õhuke sisu, duplikaat, madal kvaliteet. See ei ole noindex – see on Google’i enda otsus.
URL Inspection tööriist – sisesta konkreetne URL ja näed täpselt, mida Google sellest lehest arvab: kas on indekseeritud, milline canonical on tuvastatud, millal viimati külastati.
Kui leht peaks olema indekseeritud aga pole – “Request Indexing” nupp. Google külastab lehte prioriteetselt. Ei garanteeri indekseerimist aga kiirendab protsessi.
Canonical vs noindex – kumb millal
Need lahendavad erinevaid probleeme ja mõnikord kasutatakse mõlemat korraga.
Canonical – kasuta kui sama sisu eksisteerib mitme URL-i all ja tahad Google’ile näidata, milline on originaal. Leht jääb kättesaadavaks, lingid toimivad, aga ranking koondub ühele URL-ile.
noindex – kasuta kui lehte ei peaks üldse otsingutulemustes olema. Leht on endiselt kättesaadav kasutajatele (kui ei blokeeri ka robots.txt-ga), aga Google jätab selle otsinguindeksist välja.
Mõlemad korraga – harvem, aga mõistlik näiteks filtrilehel, mis on canonical seotud põhilehega aga soovid ka noindex lisada ettevaatusabinõuna.
robots.txt on kolmas tööriist, millest eraldi räägime – see blokeerib Google’i crawlimise täielikult, mitte ainult indekseerimise. Oluline vahe: noindex lubab Google’il leht külastada aga mitte indekseerida; robots.txt blokeerib külastuse täielikult, mis tähendab et noindex tagi ei nähta ja lehel olevaid linke ei järgita.
Praktilised soovitused
Ava Search Console Coverage raport ja vaata, mis on “Excluded” kategoorias. Kui seal on lehti, mida tahaksid indekseerida – lisandub tegutsemist. Kui seal on lehti, mis ei peaks indekseeritud olema aga on “Valid” all – lisada noindex.
WooCommerce poe puhul kontrolli kindlasti: kas filtriparameetriga URL-id on canonical-iga seotud, kas kassalehel on noindex, kas tänu- ja kinnituslehel on noindex.
RankMath teeb suure osa sellest automaatselt kui seadistused on õiged. Seadistused → Titles & Meta → WooCommerce – vaata üle, mis on vaikimisi sisse lülitatud.
Endal ei ole aega sellega tegeleda ja soovid, et spetsialist käiks veebilehe üle ning seadistaks korrektselt – anna endast märku ning teeme veebilehe veel nähtavamaks.