Ako indexovo prehľadávať veľké stránky a extrahovať údaje pomocou SEO Spider od spoločnosti Screaming Frog
V súčasnosti pomáhame niekoľkým klientom s migráciami Marketo. Keďže veľké spoločnosti využívajú podnikové riešenia, ako je toto, je to ako pavučina, ktorá sa roky prepletá do procesov a platforiem, až kým si spoločnosti ani neuvedomujú každý kontaktný bod.
S platformou na automatizáciu podnikového marketingu, ako je Marketo, sú formuláre vstupným bodom údajov na weboch a vstupných stránkach. Spoločnosti majú často tisíce stránok a stovky formulárov na svojich stránkach, ktoré musia byť identifikované pre aktualizáciu.
Skvelý nástroj na to je Kričiaci žaba SEO Spider... možno najobľúbenejšia platforma na trhu SEO na prehľadávanie, auditovanie a extrahovanie údajov z lokality. Platforma bohatá na funkcie ponúka stovky možností pre prakticky každú úlohu, ktorú požadujete. Funkcie však ďaleko presahujú rámec optimalizácie pre vyhľadávanie, s jednou neuveriteľne užitočnou funkciou na extrahovanie údajov z vášho webu počas jeho prehľadávania.
Screaming Frog SEO Spider: plazenie a extrakcia
Kľúčovou vlastnosťou aplikácie Screaming Frog SEO Spider je, že na základe môžete vykonávať vlastné extrakcie regex, XPath, Alebo CSSPath špecifiká. Je to mimoriadne užitočné, pretože chceme prehľadávať stránky klienta a auditovať a zachytávať hodnoty MunchkinID a FormId zo stránok.
Pomocou nástroja otvorte Konfigurácia> Vlastné> Extrakcia na identifikáciu prvkov, ktoré chcete extrahovať.
Extrakčná obrazovka umožňuje prakticky neobmedzené zhromažďovanie údajov:
Extrakcia regulárnych výrazov, XPath a CSSPath
V prípade MunchkinID sa identifikátor nachádza v skripte formulára, ktorý je na stránke:
<script type='text/javascript' id='marketo-fat-js-extra'>
/* <![CDATA[ */
var marketoFat = {
"id": "123-ABC-456",
"prepopulate": "",
"ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
"popout": {
"enabled": false
}
};
/* ]]> */
Potom aplikujeme a Pravidlo regulárneho výrazu zachytiť ID zo značky skriptu vloženej na stránke:
Regex: ["']id["']: *["'](.*?)["']
Pre ID formulára sú údaje vo vstupnej značke vo formulári Marketo:
<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">
Aplikujeme Pravidlo XPath na zachytenie ID z formulára vloženého na stránku. Dotaz XPath hľadá formulár so vstupom s názvom veľký, potom extrakcia uloží hodnotu:
XPath: //form/input[@name="formid"]/@value
Extrahujte vložené značky štýlu
Pomáhame klientovi vyčistiť stránku, kde použili vložené štýly v doplnku Elementor na prispôsobenie prakticky každého prvku so stránkou. Aby sme zistili, kde boli použité vložené štýly, zoškrabali sme web pomocou niekoľkých pravidiel RegEx pre vlastnú extrakciu:
- Span Inline Style:
<span\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Vložený štýl kotviacej značky:
<a\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Vložený štýl značky Div:
<div\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Vložený štýl značky nadpisu:
<h+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
Vylúčenie
At Martech Zone, stránku poskytujeme vo viacerých jazykoch na rôznych subdoménach. Prehľadávanie týchto prekladov nie je potrebné, pretože všetky prostriedky a informácie sú založené na hlavnej stránke. Z tohto dôvodu sme povolili konfiguráciu zoznamu vylúčení a pridali nasledujúce pravidlo:
.*\.martech.zone
Môžete to tiež použiť na preskočenie prehľadávania nepotrebných ciest, ako sú značky, pridaním:
martech.zone/tag/.*
Nechceme tiež prehľadávať naše stránky AMP, ktoré končia v ?amp=1
, takže v
https?://[^\s]+?\?amp=1
Platforma má dokonca pekný spôsob, ako niektoré otestovať URL v rozpore s pravidlami, aby ste sa uistili, že budú správne fungovať pred indexovým prehľadávaním vašej lokality.
Screaming Frog SEO Spider JavaScript rendering
Ďalšou skvelou možnosťou Screaming Frog je, že nie ste obmedzení iba na HTML na stránke môžete vykresliť ľubovoľný JavaScript, ktorý bude vkladať formuláre na vašu lokalitu. Vnútri Konfigurácia> Spider, môžete prejsť na kartu Vykreslenie a povoliť to.
To samozrejme trvá o niečo dlhšie, kým indexovo prehľadáte web. Získate však formuláre vykreslené na strane klienta pomocou jazyka JavaScript, ako aj formuláre vložené na strane servera.
Aj keď sa jedná o veľmi špecifickú aplikáciu, je to neuveriteľne užitočná, pretože pracujete s veľkými stránkami. Určite budete chcieť skontrolovať, kde sú vaše formuláre vložené na celom webe.
Stiahnite si Screaming Frog SEO Spider
Zverejnenie: Martech Zone používa svoje pridružené odkazy v tomto článku.