CRM a dátové platformyElektronický obchod a maloobchodEmail Marketing & Automatizácia

Štandardizácia údajov: Definujte, testujte a transformujte

Zatiaľ čo sa organizácie posúvajú smerom k vytvoreniu dátovej kultúry v rámci celého podniku, mnohé z nich stále zápasia so správnosťou svojich údajov. Sťahovanie údajov z rôznych zdrojov a získavanie rôznych formátov a reprezentácií toho, čo by sa malo považovať za rovnaké informácie, spôsobuje vážne prekážky na vašej ceste za údajmi.

Tímy sa stretávajú s oneskoreniami a chybami pri vykonávaní svojich rutinných operácií alebo získavaní prehľadov zo súborov údajov. Takéto problémy nútia podniky zaviesť mechanizmus štandardizácie údajov, ktorý zaisťuje, že údaje budú prítomné v konzistentnom a jednotnom zobrazení v celej organizácii. 

Pozrime sa hlbšie na proces štandardizácie údajov: čo to znamená, kroky, ktoré zahŕňa a ako môžete dosiahnuť štandardné zobrazenie údajov vo vašom podniku.

Čo je štandardizácia údajov?

Jednoducho povedané, štandardizácia údajov je proces transformácie údajových hodnôt z nesprávneho formátu na správny. Na umožnenie štandardizovaného, ​​jednotného a konzistentného zobrazenia údajov v rámci organizácie musia hodnoty údajov zodpovedať požadovanému štandardu – v kontexte údajových polí, do ktorých patria.

Príklad chýb štandardizácie údajov

Napríklad záznam toho istého zákazníka s bydliskom na dvoch rôznych miestach by nemal obsahovať nezrovnalosti v mene a priezvisku, e-mailovej adrese, telefónnom čísle a adrese bydliska:

MenoEmailová adresaTelefónne čísloDátum narodeniaRodAdresa bydliska
John Oneeljohn.neal@gmail.com516465949414/2/1987M11400 200 W Olimpic BL # XNUMX
Zdroj 1
Krstné menoPriezviskoEmailová adresaTelefónne čísloDátum narodeniaRodAdresa bydliska
JánO'nealjohn.neal_gmail.com+ 1 516-465-94942/14/1987Muž11400 W Olimpic 200
Zdroj 2

Vo vyššie uvedenom príklade môžete vidieť nasledujúce typy nezrovnalostí:

  1. Štrukturálne: Prvý zdroj pokrýva Meno zákazníka ako jedno pole, zatiaľ čo druhý ho ukladá ako dve polia – Meno a Priezvisko.
  2. vzor: Prvý zdroj má a platný vzor e-mailu vynútené v poli e-mailovej adresy, zatiaľ čo v druhom viditeľne chýba @ symbol. 
  3. Dátový typ: Prvý zdroj povoľuje iba číslice v poli Telefónne číslo, zatiaľ čo druhý má pole typu reťazec, ktoré obsahuje aj symboly a medzery.
  4. Formát: Prvý zdroj má dátum narodenia vo formáte MM/DD/RRRR, zatiaľ čo druhý ho má vo formáte DD/MM/RRRR. 
  5. Hodnota domény: Prvý zdroj umožňuje uložiť hodnotu pohlavia ako M alebo F, zatiaľ čo druhý zdroj ukladá kompletný formulár – Muž alebo Žena.

Takéto nezrovnalosti v údajoch vás vedú k vážnym chybám, ktoré môžu spôsobiť, že vaša firma stratí veľa času, nákladov a úsilia. Z tohto dôvodu, implementácia end-to-end mechanizmu pre štandardizácia údajov je rozhodujúce pre zachovanie hygieny vašich údajov.

Ako štandardizovať údaje?

Štandardizácia údajov je jednoduchý proces pozostávajúci zo štyroch krokov. Ale v závislosti od povahy nezrovnalostí prítomných vo vašich údajoch a toho, čo sa snažíte dosiahnuť, metódy a techniky používané na štandardizáciu sa môžu líšiť. Tu uvádzame všeobecné pravidlo, ktoré môže každá organizácia použiť na prekonanie svojich štandardizačných chýb. 

  1. Definujte, čo je štandard

Aby ste dosiahli akýkoľvek stav, musíte najprv definovať, čo to vlastne ten stav je. Prvým krokom každého procesu štandardizácie údajov je identifikovať, čo je potrebné dosiahnuť. Najlepší spôsob, ako zistiť, čo potrebujete, je pochopiť obchodné požiadavky. Musíte naskenovať svoje obchodné procesy, aby ste zistili, aké údaje sa vyžadujú a v akom formáte. Pomôže vám to nastaviť základ pre vaše požiadavky na údaje.

Definícia dátového štandardu pomáha identifikovať:

  • Dátové aktíva rozhodujúce pre váš obchodný proces, 
  • Potrebné dátové polia týchto aktív,
  • Typ údajov, formát a vzor musia zodpovedať ich hodnotám,
  • Rozsah prijateľných hodnôt pre tieto polia atď.
  1. Testujte súbory údajov podľa definovaného štandardu

Keď budete mať štandardnú definíciu, ďalším krokom je otestovať, ako dobre si proti nim fungujú vaše množiny údajov. Jedným zo spôsobov, ako to posúdiť, je použiť profilovanie údajov nástroje, ktoré generujú komplexné správy a nachádzajú informácie, ako je percento hodnôt vyhovujúcich požiadavkám dátového poľa, ako napríklad:

  • Dodržiavajú hodnoty požadovaný typ údajov a formát?
  • Ležia hodnoty mimo prijateľného rozsahu?
  • Používajú hodnoty skrátené formy, ako sú skratky a prezývky?
  • adresy štandardizované podľa potreby – ako napr štandardizácia USPS pre adresy v USA?
  1. Transformujte nezhodné hodnoty

Teraz je konečne čas na transformáciu hodnôt, ktoré nezodpovedajú definovanému štandardu. Poďme sa pozrieť na bežne používané techniky transformácie údajov.

  • Analýza údajov – Niektoré dátové polia sa musia najskôr analyzovať, aby sa získali potrebné dátové komponenty. Napríklad analýza poľa názvu na oddelenie mena, stredného mena a priezviska, ako aj všetkých predpôn alebo prípon prítomných v hodnote.
  • Konverzia dátového typu a formátu – Možno budete musieť počas prevodu odstrániť nevyhovujúce znaky, napríklad odstrániť symboly a abecedy z iba číslicového telefónneho čísla.
  • Priraďovanie a overovanie vzorov – Konverzia vzoru sa vykonáva konfiguráciou regulárneho výrazu pre vzor. Hodnoty e-mailových adries, ktoré zodpovedajú regulárnemu výrazu, musia byť analyzované a transformované do definovaného vzoru. e-mailovú adresu je možné overiť pomocou regulárneho výrazu:
^[a-zA-Z0-9+_.-]+@[a-zA-Z0-9.-]+$
  • Rozšírenie skratky – Názvy spoločností, adresy a mená osôb často obsahujú skrátené formy, ktoré môžu viesť k tomu, že váš súbor údajov bude obsahovať rôzne reprezentácie tých istých informácií. Možno budete musieť napríklad rozšíriť štáty krajiny, ako je napríklad konverzia NY na New York.
  • Odstránenie šumu a oprava pravopisu – Niektoré slová skutočne nepridávajú žiadny význam hodnote a namiesto toho vnášajú do súboru údajov veľa šumu. Takéto hodnoty možno identifikovať v súbore údajov tak, že ho spustíte so slovníkom, ktorý obsahuje tieto slová, označíte ich a rozhodnete sa, ktoré z nich natrvalo odstrániť. Rovnaký proces možno vykonať na nájdenie preklepov a preklepov.
  1. Znova otestujte súbor údajov oproti definovanému štandardu

V poslednom kroku sa transformovaný súbor údajov znova otestuje oproti definovanému štandardu, aby sa zistilo percento chýb štandardizácie údajov, ktoré boli opravené. Pre chyby, ktoré stále zostávajú vo vašej množine údajov, môžete vyladiť alebo prekonfigurovať svoje metódy a znova spustiť údaje v procese. 

Zabaliť

Množstvo údajov, ktoré sa dnes generuje – a množstvo nástrojov a technológií používaných na ich zachytávanie – vedie spoločnosti k tomu, aby čelili hroznému neporiadku s údajmi. Majú všetko, čo potrebujú, ale nie sú si celkom istí, prečo údaje nie sú prítomné v prijateľnom a použiteľnom tvare a forme. Prijatie nástrojov na štandardizáciu údajov môže pomôcť napraviť takéto nezrovnalosti a umožniť tak veľmi potrebnú kultúru údajov vo vašej organizácii.

Zara Ziad

Zara Ziad je analytička produktového marketingu Dátový rebrík so zázemím v IT. Venuje sa návrhom kreatívnej obsahovej stratégie, ktorá poukazuje na problémy hygieny údajov v reálnom svete, ktorým v súčasnosti čelia mnohé organizácie. Vytvára obsah na komunikáciu riešení, tipov a postupov, ktoré môžu pomôcť podnikom implementovať a dosiahnuť vlastnú kvalitu údajov v procesoch business intelligence. Usiluje sa vytvárať obsah, ktorý je zameraný na široké spektrum cieľových skupín, od technického personálu až po koncových používateľov, ako aj o jeho marketing na rôznych digitálnych platformách.

súvisiace články

Tlačidlo späť nahor
Zavrieť

Zistený blok reklám

Martech Zone vám tento obsah môže poskytnúť bezplatne, pretože naše stránky speňažujeme prostredníctvom príjmov z reklám, pridružených odkazov a sponzorstiev. Ocenili by sme, keby ste pri prezeraní našej stránky odstránili blokovanie reklám.