Co Google vidí a co mu web naopak skrývá

Vyhledávač nepracuje s webem stejně jako člověk v prohlížeči. Googlebot si stahuje HTML, sleduje odkazy, vykresluje stránku podobně jako moderní prohlížeč a z toho skládá obraz o tom, co je na webu důležité. Pokud technická vrstva selže, může se stát, že obsah existuje, ale do indexu se nedostane vůbec, nebo jen v omezené podobě.

V praxi to znamená jediné: nestačí mít dobrý text. Rozhoduje také to, jestli je stránka dostupná přes správný status kód, není blokovaná v robots.txt, má konzistentní canonical, rychle se načte a vrací data v podobě, kterou Google umí zpracovat. U větších webů se právě tady často ztrácí desítky procent potenciálu.

Indexace začíná dostupností: robots.txt, sitemap a status kódy

První kontrola má být vždy jednoduchá: může se robot na stránku dostat, nebo ne. Soubor robots.txt neslouží k „ochraně“ citlivého obsahu, ale k řízení crawlování. Pokud v něm omylem zakážete důležité sekce, Google je neuvidí. Typická chyba je blokace CSS nebo JavaScriptu, kvůli které Google nedokáže stránku správně vykreslit.

Další základ je XML sitemap. Ta není zárukou indexace, ale výrazně pomáhá s objevováním nových nebo méně propojených URL. U e-shopu s tisíci produktů je rozdíl mezi webem s aktuální sitemapou a webem bez ní často vidět během několika dní až týdnů. Sitemapu je nutné držet čistou: pouze kanonické, indexovatelné URL s kódem 200.

Kontrola status kódů patří mezi nejdůležitější technické auditní kroky:

  • 200 = stránka je dostupná a může být indexována.
  • 301 = trvalé přesměrování, vhodné při změně URL.
  • 404 = stránka neexistuje, u interních odkazů problém.
  • 410 = obsah byl odstraněn záměrně, signál je silnější než 404.
  • 5xx = serverová chyba, pro Google jasný signál nestability.

Pro rychlý audit se používají nástroje jako Google Search Console, Screaming Frog, Sitebulb nebo serverové logy. Log analysis je dnes zásadní hlavně u rozsáhlejších webů, protože ukáže, co Googlebot skutečně navštěvuje, jak často a kde ztrácí crawl budget.

Renderování, JavaScript a skrytý obsah

Moderní weby postavené na JavaScriptu mohou být pro vyhledávač technicky čitelné, ale jen za předpokladu, že jsou správně implementované. Google sice umí vykreslovat JS, ale ne vždy okamžitě a ne vždy bez chyb. Pokud je hlavní obsah načítán až po interakci nebo příliš pozdě, může být pro indexaci oslabený.

To je časté u webů na frameworku typu Next.js, Nuxt nebo u SPA řešení. Bez server-side rendering (SSR) nebo alespoň pre-renderingu může Google vidět jen prázdný obal stránky, základní navigaci a minimum textu. V praxi to bývá problém hlavně u produktových detailů, kategorií, filtrů a landing pages.

Jak to poznat? Ověřte stránku přes URL Inspection v Search Console a porovnejte zdrojový kód s vykreslenou verzí. Pokud je v HTML obsah, ale po renderu mizí, jde o problém s JS. Pokud naopak obsah v HTML chybí a přidává se až klientsky, je vhodné upravit rendering nebo přejít na hybridní model.

U důležitých stránek platí jednoduché pravidlo: klíčový text, nadpisy, interní odkazy i základní metadata by měly být dostupné už v HTML odpovědi serveru. JavaScript má doplňovat, ne nahrazovat.

Canonical, duplicity a parametrické URL

Google nemá rád nejasnosti. Pokud existuje více verzí stejné stránky, musí být jasně určeno, která je hlavní. K tomu slouží canonical tag. Na první pohled jednoduchý prvek ale v praxi způsobuje mnoho problémů: canonical míří na neexistující URL, na stránku s přesměrováním, nebo je v rozporu s interními odkazy a sitemapou.

Typický příklad je e-shop. Produkt se může zobrazovat v kategoriích, filtrech, s UTM parametry i v různých variantách URL. Pokud se tyto adresy neřeší systematicky, vzniká duplicita a Google rozptyluje signály mezi více verzí. Výsledek je slabší pozice i pomalejší indexace.

Praktický postup je tento:

  • určit jednu preferovanou URL pro každou stránku,
  • všechny varianty na ni kanonizovat,
  • vnitřní odkazy vést konzistentně na kanonickou verzi,
  • do sitemap dávat pouze kanonické URL,
  • parametrické kombinace blokovat nebo omezovat, pokud nemají vyhledávací hodnotu.

U velkých webů je také vhodné sledovat, zda canonical není používán jako náhradní řešení pro slabou architekturu webu. Pokud je každá druhá stránka kanonizovaná jinam, problém není v tagu, ale v celé struktuře webu.

Rychlost a Core Web Vitals: technika, kterou Google i uživatelé cítí

Rychlost není jen UX téma. Je to technický a SEO faktor, který ovlivňuje crawl, indexaci i chování uživatele. Google dnes sleduje Core Web Vitals, tedy hlavně LCP, INP a CLS. Pokud stránka nahrává pomalu nebo se vizuálně rozpadá, ztrácí nejen body ve vyhledávání, ale i konverze.

Za problém bývá nejčastěji:

  • neoptimalizované obrázky v příliš velké velikosti,
  • zbytečně těžké JS a CSS balíky,
  • pomalý hosting nebo špatné cache nastavení,
  • příliš mnoho externích skriptů,
  • fonty a bannery, které blokují vykreslení obsahu.

V číslech je dobré držet se praktických hranic: LCP pod 2,5 s, CLS pod 0,1 a INP pod 200 ms jsou cíle, na které se vyplatí mířit. Měření dělejte v PageSpeed Insights, Chrome DevTools, Lighthouse a hlavně v Search Console, kde jsou data z reálných uživatelů. Test v laboratoři je užitečný, ale rozhodující je field data.

Rychlý zásah často přinese okamžitý efekt: komprese obrázků do WebP nebo AVIF, lazy loading pod ohybem, odložení necritical JS, přednačtení klíčových fontů a využití CDN. U WordPressu bývá rozdíl mezi průměrným a dobře nastaveným webem klidně několik sekund.

Strukturovaná data, interní odkazy a signály důvěry

Google dnes nečte web jen jako soubor stránek, ale jako síť vztahů. Proto je důležité, aby technika pomáhala i s pochopením kontextu. K tomu slouží structured data, interní prolinkování a jasná informační architektura.

Strukturovaná data podle schema.org pomáhají vyhledávači rozpoznat typ obsahu: článek, produkt, FAQ, organizaci, lokální firmu nebo recenzi. Nezaručují rich results, ale zvyšují šanci, že Google pochopí stránku přesněji. Pro běžný web má smysl začít s typy Organization, WebSite, BreadcrumbList, Article a podle potřeby Product nebo LocalBusiness.

Stejně důležité je interní prolinkování. Pokud máte důležitou stránku schovanou hluboko v architektuře webu a vede na ni jen jeden odkaz, Google ji může považovat za méně důležitou. Topic clustery a tematické huby fungují dobře i technicky: hlavní stránka propojuje podstránky, podstránky vracejí signál zpět a celý celek pomáhá Google pochopit, co je na webu prioritní.

Poslední vrstva je důvěryhodnost. Technické SEO není jen o rychlosti a indexaci, ale i o tom, zda web působí stabilně a transparentně. Funkční HTTPS, správné přesměrování na jednu verzi domény, aktuální kontakty, bezchybné metadata a konzistentní struktura URL jsou signály, které podporují E-E-A-T i uživatelskou důvěru. V době AI Overviews a zero-click výsledků je to ještě důležitější: pokud Google neumí web spolehlivě přečíst, nevybere ho ani jako citovaný zdroj.

Technická kontrola webu proto není jednorázový úkol, ale opakovaný proces. Stačí několik chyb v indexaci, renderingu nebo canonicalizaci a celý obsahový výkon se začne propadat. Kdo má techniku pod kontrolou, dává Googlu přesně to, co potřebuje: čistý, rychlý a srozumitelný web.