OpenRefine: návod krok za krokem, jak očistit a sloučit data pro analýzu klíčových slov

OpenRefine (dříve Google Refine) je velmi výkonný nástroj pro práci se surovými daty. OpenRefine je vhodný pro očištění dat, jejich transformaci.

Nástroj funguje jako webová služba (SAAS) a s daty tak budete pracovat ve vašem internetovém prohlížeči. OpenRefine je k dispozici v angličtině, čínštině, španělštině, francouzštině, ruštině, portugalštině (Brazílii), němčině, japonštině, italštině, maďarštině, hebrejštině.

Kde a jak stáhnout OpenRefine

Jděte na stránky openrefine.org, v levém menu klikněte na položku Download. Na této stránce si vyberete software ke stažení podle vaší platformy. K dispozici máte software pro Windows, Lunux a Mac OS. Stáhnete si zazipovaný program, který si rozzipujte do nějaké složky, kde už natrvalo bude software umístěn. I přesto, že funguje OpenRefine přes prohlížeč, přesto má standardní instalační balíček.

Instalace

Aktuální verze softwaru, kterou používám, je OpenRefine 3.1. V rozbaleném adresáři klikněte na openrefine.exe. Program zkontroluje, máte-li nainstalovanou v počítači Javu. Pakliže nemáte, přesměruje vás na stránku, kde si stáhnete aktuální verzi Javy.

Po nainstalování Javy znovu spusťte openrefine.exe. Vyskočí dialogové okno a po chvilce vás program hodí do internetového prohlížeče, kde se otevře nová záložka.

Okno spuštění programu OpenRefine

Návod krok za krokem na očištění hrubých dat a slučování KW pro analýzu klíčových slov v OpenRefine

Nejprve musíte klíčová slova sehnat. Ty by měly být relevantní k předmětu podnikání dané stránky, měla by tam být afinita.

Tento článek se nebude zabývat sběrem dat pro analýzu klíčových slov (klíčovku), o tom třeba někdy jindy. Předpokládejme, že data již máte a potřebujete je očistit.

Proč očišťovat data v analýze klíčových slov

Pravděpodobně budete pracovat se stovkami, možná tisíci klíčových slov (záleží na velikosti webových stránek). Já klíčová slova sbírám vždy z největšího možného počtu zdrojů, které mi dávají šanci získat co nejširší portfolio klíčových slov. Pracuji s analýzou konkurenčních webových stránek, slova sbírám z analyzovaného webu. Všechny tyto výrazy dále rozšiřuji o příbuzná slova, výrazy z našeptávačů Googlu i Seznamu, Youtubu, Wikipedie a z reklamního systému Sklik.

Když všechny tyto zdroje klíčových slov dáte do jedné tabulky, máte opravdu pěkný datový bordel, plný duplicit (to je to poslední) a výrazů, které znamenají totéž, ale mají různé tvary, slovosled, interpunkci, pád apod.

Import dat do aplikace

Otevřeme si aplikaci a hned na titulní stránce máme několik možností, jak dostat zdrojová hrubá data do OpenRefine. Já importuji excelovskou tabulku z mého počítače. Vyberte soubor a poté klikněte na tlačítko Next>>

Importování souboru do OpenRefine

Data se nám úspěšně natáhla. Nyní stačí kliknout na tlačítko Create project.

OpenRefine vytvoření projektu

Jen pro info, data se týkají analýzy klíčových slov z oblasti SEO. Tabulka obsahuje jen malý testovací vzorek s cca 300 klíčovými slovy a frázemi. Pro naši ukázku to ale úplně postačuje.

Ještě než se pustíme do čištění databáze, musíme si náš sloupeček s klíčovými slovy seřadit. Klikněte na šipečku ve sloupci Klíčové slovo a zvolte možnost Sort.

Seřazení klíčových slov

V další nabídce vybereme podle textu a od A po Z.

Seřazení textu od a-z

 Tímto se nám ukázala nová podnabídka filtrování Sort (řadit). Zvolíme Reorder rows permanently (Trvale změnit pořadí).

Trvalé řazení klíčových slov

Nyní již máme data připravena na čištění. Jako prvních se zbavíme duplicit. Tento proces je ale mnohem jednodušší udělat přímo v excelu, kde to uděláte "na jedno kliknutí". 

Ve sloupci Klíčová slova klikneme opět na šipečku a vybereme na Edit cells -> Blank down (Editovat buňky -> Vymazat následující). Tím zajistíme, že jsou duplicitní klíčová slova vymazána. Tímto krokem nám ale v souboru vzniknou prázdné řádky.

Prázdné řádky najdeme tak, že opět klikneme na šipečku ve sloupečku Klíčová slova a zvolíme Facet -> Text facet.

Editovat buňka smazat následující

V levé části se nám ukázal nový filtr s řádky klíčových slov. Najděte řádek (blank), klikněte na něj. Tím vyberete všechny řádky, které obsahují prázdný řádek. Ve sloupci Klíčová slova klikněte na All -> Edit rows -> Remowe all matching rows (Všechny -> Editovat řádky -> Odstranit všechny odpovídající řádky).

Odstranění prázdných řádků OpenRefine

Hotovo, duplicity máme odstraněny. Jak jsem říkal, raději si duplicity pořešte v Excelu, než soubor naimportujete do OpenRefine, je to opravdu podstatně jednodušší proces.

Konečně se dostáváme ke sdružování (slučování) dat v OpenRefine

Křížkem vlevo zavřete Facet, ať vidíte opět všechna klíčová slova. Zavření Facetu

 

V nabídce u sloupce s klíčovými slovy zvolte Edit cells -> Cluster and Edit (Editovat buňky -> Sloučit a editovat).

Slučování dat

V této nabídce již můžete slučovat různé výrazy podle různých metod a funkcí. Defaultně je přednastavena metoda KeyCollision a funkce fingerprint. Pakliže si zvolíte jinou metodu a funkci, nabídnou se vám jiné kombinace úprav. Doporučuji si vyzkoušet různé kombinace a uvidíte, která bude nejlépe odpovídat tomu, jak chcete klíčová slova slučovat.

Nyní stačit klikat a vybírat tu správnou variantu slova nebo fráze, popřípadě můžete ručně vepsat úplně jinou. 

Slučování dat

Projedete-li si celý seznam návrhů na sloučení, můžete kliknout na Merge Selected & Re-Cluster” (Sloučit označené a znovu seskupit), zvolíte si jinou metodu a funkci a můžete takto celý proces opakovat, dávají-li kombinace slov a úpravy smysl. 

Jakmile jste finálně hotoví, klikněte na Merge Selected & Close (Sloučit a zavřít).

Tím, že jsme sloučili shodné výrazy z příbuzných skupin do jednoho nám opět vznikly duplicity. Tentokrát vám ale doporučuji si data už vyexportovat a odstranit duplicity v Excelu.

Exportování upraveného souboru s očištěnými klíčovými slovy

Zbývá kliknout na tlačítko Export a vybrat si formát, do kterého chcete data exportovat. Já volím Excel 2007+ (.xlsx). 

Export do excelu

 

 

Autor článku: Michal Binka (o autorovi)

Poslední aktualizace: 18.1.2019