OpenRefine (dříve Google Refine) je velmi výkonný nástroj pro práci se surovými daty. OpenRefine je vhodný pro očištění dat, jejich transformaci.
I přesto, že s nástrojem pracujete ve vašem internetovém prohlížeči, s daty vždy pracujete lokálně, tzn. na vašem počítači.
OpenRefine je k dispozici v angličtině, čínštině, španělštině, francouzštině, ruštině, portugalštině (Brazílii), němčině, japonštině, italštině, maďarštině, hebrejštině.
Kde a jak stáhnout OpenRefine
Jděte na stránky openrefine.org, v levém menu klikněte na položku Download. Na této stránce si vyberete software ke stažení podle vaší platformy. K dispozici máte software pro Windows, Lunux a Mac OS. Stáhnete si zazipovaný program, který si rozzipujte do nějaké složky, kde už natrvalo bude software umístěn. I přesto, že funguje OpenRefine přes prohlížeč, přesto má standardní instalační balíček.
Instalace
Aktuální verze softwaru, kterou používám, je OpenRefine 3.1. V rozbaleném adresáři klikněte na openrefine.exe. Program zkontroluje, máte-li nainstalovanou v počítači Javu. Pakliže nemáte, přesměruje vás na stránku, kde si stáhnete aktuální verzi Javy.
Po nainstalování Javy znovu spusťte openrefine.exe. Vyskočí dialogové okno a po chvilce vás program hodí do internetového prohlížeče, kde se otevře nová záložka.
Návod krok za krokem na očištění hrubých dat a slučování KW pro analýzu klíčových slov v OpenRefine
Nejprve musíte klíčová slova sehnat. Ty by měly být relevantní k předmětu podnikání dané stránky, měla by tam být afinita.
Tento článek se nebude zabývat sběrem dat pro analýzu klíčových slov (klíčovku), o tom třeba někdy jindy. Předpokládejme, že data již máte a potřebujete je očistit.
Proč očišťovat data v analýze klíčových slov
Pravděpodobně budete pracovat se stovkami, možná tisíci klíčových slov (záleží na velikosti webových stránek). Já klíčová slova sbírám vždy z největšího možného počtu zdrojů, které mi dávají šanci získat co nejširší portfolio klíčových slov. Pracuji s analýzou konkurenčních webových stránek, slova sbírám z analyzovaného webu. Všechny tyto výrazy dále rozšiřuji o příbuzná slova, výrazy z našeptávačů Googlu i Seznamu, Youtubu, Wikipedie a z reklamního systému Sklik.
Když všechny tyto zdroje klíčových slov dáte do jedné tabulky, máte opravdu pěkný datový bordel, plný duplicit (to je to poslední) a výrazů, které znamenají totéž, ale mají různé tvary, slovosled, interpunkci, pád apod.
Import dat do aplikace
Otevřeme si aplikaci a hned na titulní stránce máme několik možností, jak dostat zdrojová hrubá data do OpenRefine. Já importuji excelovskou tabulku z mého počítače. Vyberte soubor a poté klikněte na tlačítko Next>>
Data se nám úspěšně natáhla. Nyní stačí kliknout na tlačítko Create project.
Jen pro info, data se týkají analýzy klíčových slov z oblasti SEO. Tabulka obsahuje jen malý testovací vzorek s cca 300 klíčovými slovy a frázemi. Pro naši ukázku to ale úplně postačuje.
Ještě než se pustíme do čištění databáze, musíme si náš sloupeček s klíčovými slovy seřadit. Klikněte na šipečku ve sloupci Klíčové slovo a zvolte možnost Sort.
V další nabídce vybereme podle textu a od A po Z.
Tímto se nám ukázala nová podnabídka filtrování Sort (řadit). Zvolíme Reorder rows permanently (Trvale změnit pořadí).
Nyní již máme data připravena na čištění. Jako prvních se zbavíme duplicit. Tento proces je ale mnohem jednodušší udělat přímo v excelu, kde to uděláte "na jedno kliknutí".
Ve sloupci Klíčová slova klikneme opět na šipečku a vybereme na Edit cells -> Blank down (Editovat buňky -> Vymazat následující). Tím zajistíme, že jsou duplicitní klíčová slova vymazána. Tímto krokem nám ale v souboru vzniknou prázdné řádky.
Prázdné řádky najdeme tak, že opět klikneme na šipečku ve sloupečku Klíčová slova a zvolíme Facet -> Text facet.
V levé části se nám ukázal nový filtr s řádky klíčových slov. Najděte řádek (blank), klikněte na něj. Tím vyberete všechny řádky, které obsahují prázdný řádek. Ve sloupci Klíčová slova klikněte na All -> Edit rows -> Remowe all matching rows (Všechny -> Editovat řádky -> Odstranit všechny odpovídající řádky).
Hotovo, duplicity máme odstraněny. Jak jsem říkal, raději si duplicity pořešte v Excelu, než soubor naimportujete do OpenRefine, je to opravdu podstatně jednodušší proces.
Konečně se dostáváme ke sdružování (slučování) dat v OpenRefine
Křížkem vlevo zavřete Facet, ať vidíte opět všechna klíčová slova.
V nabídce u sloupce s klíčovými slovy zvolte Edit cells -> Cluster and Edit (Editovat buňky -> Sloučit a editovat).
V této nabídce již můžete slučovat různé výrazy podle různých metod a funkcí. Defaultně je přednastavena metoda KeyCollision a funkce fingerprint. Pakliže si zvolíte jinou metodu a funkci, nabídnou se vám jiné kombinace úprav. Doporučuji si vyzkoušet různé kombinace a uvidíte, která bude nejlépe odpovídat tomu, jak chcete klíčová slova slučovat.
Nyní stačit klikat a vybírat tu správnou variantu slova nebo fráze, popřípadě můžete ručně vepsat úplně jinou.
Projedete-li si celý seznam návrhů na sloučení, můžete kliknout na Merge Selected & Re-Cluster” (Sloučit označené a znovu seskupit), zvolíte si jinou metodu a funkci a můžete takto celý proces opakovat, dávají-li kombinace slov a úpravy smysl.
Jakmile jste finálně hotoví, klikněte na Merge Selected & Close (Sloučit a zavřít).
Tím, že jsme sloučili shodné výrazy z příbuzných skupin do jednoho nám opět vznikly duplicity. Tentokrát vám ale doporučuji si data už vyexportovat a odstranit duplicity v Excelu.
Exportování upraveného souboru s očištěnými klíčovými slovy
Zbývá kliknout na tlačítko Export a vybrat si formát, do kterého chcete data exportovat. Já volím Excel 2007+ (.xlsx).
Chcete-li se dozvědět o OpenRefine více, doporučuji si prohlédnout 3 základní prezentační videa, ve kterých se dozvíte základní funkce a možnosti nástroje.
Autor článku: Michal Binka (o autorovi)
Poslední aktualizace: 18.1.2019