Vyhledávače.info » Články » Jak se dělá a k čemu slouží klasifikační analýza klíčových slov
Jak se dělá a k čemu slouží klasifikační analýza klíčových slov
Analýza klíčových slov se v optimalizaci pro vyhledavače používá k několika různým účelům. V tomto článku vám ukážu analýzu, která pomáhá rozčlenit širší, obecnější téma na na užší, konkrétnější podtémata. Protože se takovému procesu říká klasifikace, nazývám i tento typ analýzy klasifikační.
Výchozí data, metody a výsledky analýzy nejlépe vyniknou na praktickém příkladu. Proto jsem pro účely článku jednu analýzu skutečně provedl a postupně vás s ní seznámím. Za téma jsem si zvolil vysavače a postupoval jsem podobně, jako kdybych o vysavačích opravdu chtěl vytvořit web, např. e-shop, který by je prodával.
Klasifikační analýza klíčových slov v 5 krocích
Krok 1: posbírejte data
Platí jednoduché pravidlo: čím víc zdrojových dat seženete, tím přesnější získáte výsledky. Zdrojovými daty myslím dotazy, kterými lidé hledají ve vyhledavačích vaše téma. Typickými zdroji těchto dat jsou:
- Nástroj na návrh klíčových slov v reklamním systému Sklik. Dat dává nyní (v minulosti to bylo jinak a může se opět změnit) opravdu hodně, ale pracuje se s ním špatně. Abyste se k němu dostali, musíte mít v Skliku účet (klidně i bez nabité Peněženky).
- Nástroj na návrh klíčových slov v reklamním systému AdWords. Pracuje se s ním výborně, dotazů ale vrací dost málo.
- Vaše vlastní statistiky návštěvnosti. Užitečné, zejména pokud inzerujete na volné shody ve vyhledávání Googlu či Seznamu a chodí vám tak návštěvníci i přes fráze, které na stránkách zatím nemáte.
- Statistika interního vyhledávání. Pokud na webu již delší dobu máte interní vyhledávání a sledujete, co jím lidé hledají (to lze i v Google Analytics), určitě tato data použijte také. Často obsahují dotazy, na které byste jinde nenarazili.
- Našeptávače a související dotazy vyhledavačů, ale ty už vám oproti předešlým zdrojům asi nic nového nepřinesou.
Já jsem použil jen nástroj na návrh klíčových slov Skliku. Zadal jsem do něj jediné výchozí slovo vysavače a kopíroval jsem všechny vrácené dotazy tak dlouho, dokud mne nerozbolela ruka. Výsledkem byla tabulka 1 580 dotazů, kterou vidíte zde:
Poznámka 1: Ve skutečnosti je unikátních dotazů jen 1 420. Nástroj Skliku totiž některé dotazy zákeřně podsouvá opakovaně. Dávejte na to v praxi pozor a duplicity včas odstraňte.
Poznámka 2: V praxi si s jediným výchozím slovem většinou nevystačíte. Nástroj sice umí skloňovat, ale jiné slovní druhy už neodvodí. Například ke slovu chorvatsko byste proto měli přidat chorvatský a plno dalších slov, kterými lidé hledají něco v Chorvatsku, aniž by slovo chorvatsko v dotazu použili.
Krok 2: data pročistěte
Vyhoďte nerelevantní dotazy, tj. ty, na které nechcete nebo neumíte odpovědět. A nebo je nezahazujte a jen si je dejte stranou, třeba se vám budou později hodit. V případě vysavačů jsou to jednak dotazy na různé příslušenství (pytlíky, hadice, nástavce) či služby (opravy, bazary), které můžete chtít nabízet také, a jednak dotazy na informace (recenze, testy, diskuse, porovnání, jak vybrat…), které lze i v e-shopu využít pro doplňkový informační obsah.
Sjednoťtě dotazy, které stejnými (nikoli různými!) slovy říkají totéž a liší se jen diakritikou, překlepy a pořadím slov neměnícím význam. Tomu říkám normalizace. Má-li analýza sloužit jen pro klasifikaci, můžete sjednotit i jednotná a množná čísla, ale to dá hodně práce, takže to většinou nedělám.
Pro lepší představu, např. do normalizovaného dotazu bezsáčkový vysavač jsem zahrnul varianty:
- bezsackovy vysavac,
- bezsačkovy vysavač,
- bezsačkový vysavač,
- bezsáčkový vysavač,
- bez sáčkový vysavač,
- vysavač bez sackovi,
- vysavač bezsackovy,
- vysavač bezsačkový a
- vysavač bezsáčkový
Krok 3: určete klasifikační schémata
Na jednu věc se jde dívat z různých úhlů pohledu. Např. trička lze třídit podle pohlaví (pánská, dámská, unisex), barvy, velikosti, materiálu, značky výrobce apod. V informační architektuře se tomu většinou říká klasifikační schémata nebo fasety. Já tomu budu pro jednoduchost říkat dimenze.
Jak dimenze určím? Vlastně ani nevím. Prostě koukám na dotazy tak dlouho, až je v nich vidím. Někdy si už při prvním procházení dotazů možné dimenze poznamenávám na papír. U vysavačů jsem se rozhodl pro těchto 12:
- Značka: electrolux, eta, rowenta atd.
- Model: přesný model vysavače, např. sencor svc 1020.
- Princip: zahrnuje jak dominantní princip fungování (robotické, centrální, mechanické), tak nějakou důležitou vlastnost (sáčkové, bezsáčkové) či funkci navíc (s klepačem).
- K čemu (účel použití): na podlahu, do bazénu, na psí chlupy, průmyslové atd.
- Pro koho: pro domácnost, pro hotely, pro alergiky...
- Velikost: sem jsem řadil i tvar určující způsob manipulace, tj. např. ruční, stojanové, tyčové atd.
- Napětí a napájení: většinou se jedná o akumulátorové (se synonymy aku, bateriové, na baterie atd.), ale vyskytuje se i napětí (12v, 18v, 24v) a naopak síťové či prostě elektrické.
- Výkon: jak slovní vyjádření (výkonné, nejvýkonnější), tak ve watech (2000w, 1200w apod.).
- Kvalita: nejlepší, nejprodávanější, profesionální...
- Cena: levné, nejlevnější, akce...
- Místo: Praha, Brno...
- Obchod: pro dotazy, které přímo obsahují název obchodu, ve kterém chce hledající asi nakupovat.
Jestliže se vám podaří klasifikační schémata vymyslet správně, nebudou kolizní. To znamená, že jeden dotaz bude mít v jedné dimenzi jen jednu hodnotu. Lidé mohou hledat robotický vysavač na podlahu, protože robotický je v dimenzi Princip a na podlahu patří do dimenze K čemu. Neměli by ale hledat robotické bezsáčkové vysavače, protože jak robotické, tak bezsáčkové patří do stejné dimenze Princip.
Když kolize nastane v ojedinělých případech, nic se neděje. Když by k ní ale v určité dimenzi docházelo často, byl by to jasný signál, že ji máte ještě dále dělit.
Skoro vždy si musíte udělat i dimenzi Ostatní, do které budete odhazovat všechny charakteristiky, kterých je tak málo, že pro ně nemá smysl vytvářet samostatné dimenze. Nebo jich je i víc, ale ať děláte, co děláte, nedokážete takovou dimenzi nějak rozumě pojmenovat.
Krok 4: klasifikujte
Dotazy si zapište do tabulky, na každý řádek jeden a pro dimenze si připravte sloupce. Ke každému dotazu pak do příslušného sloupce zapište hodnotu dimenze. Má-li dotaz dimenzí víc, zapíšete hodnoty do více sloupců. Vypadá to např. takto:
Dotaz | Napájení | Pro koho | Značka |
---|---|---|---|
dětský vysavač | dětské | ||
dětský vysavač miele | dětské | miele | |
dětský vysavač na baterie | na baterie | dětské |
Pro významově stejné hodnoty používejte vždy jen jedno pojmenování. Já jsem např. sloučil na baterie a bateriové nebo dětské a pro děti. Když váháte, nechte slov víc. Já třeba kromě bateriové ponechal samostatně i aku a akumulátorové, ačkoli to asi znamená totéž.
Ostatně, teď již vám mohu ukázat celou mou vzorovou tabulku:
Skutečný dotaz je ve sloupci A, normalizovaný ve sloupci B. Do sloupce C jsem si zapsal normalizovaný dotaz bez základního slova (tj. bez slov vysavač, vysavače atd.), aby se mi na to lépe koukalo. To dělat nemusíte, jestliže to neumíte provést snadno a rychle. Ve sloupcích D až O následují dimenze a sloupec P jsem vyhradil pro vše, co jsem klasifikovat nedokázal.
Zajímavý je sloupec Q. Nazval jsem ho Modifikátor, protože modifikuje dotazy tak, že vlastně znamenají něo jiného než vysavač — příslušenství, informace atd. — a z mého pohledu se tedy zatím jedná o nerelevantní dotazy.
V posledních dvou sloupcích už jsou jen čísla, která vrací nástroj Skliku. První je hledanost (počet hledání za měsíc), druhé je průměrná cena za klik.
Krok 5: analyzujte
Data máme, můžeme analyzovat. Jak přesně budete analyzovat, záleží na tom, jak chcete výstupy použít. Já je kromě tohoto článku nijak použít nechci, takže ukážu jen pár základních technik.
V prvé řadě si můžete chtít ověřit, jak je která dimenze důležitá. Dobrým měřítkem je objem hledání a vhodnou formou graf. Ten může vypadat třeba takto:
Celkový počet hledání všech 1 420 dotazů je 328 302. Z toho dotazy obsahující značku jasně vedou se 103 271 hledáními (skoro třetina). Následuje 79 420 (čtvrtina) hledání dotazů obsahujících princip atd. Řádek Základní slovo reprezentuje dotazy obsahující jen varianty slova vysavač/e a už žádné další upřesnění. Jedná se o 24 520 hledání, tedy asi 7 % z celého objemu. Na řádku Modifikátor jsou ty nerelevantní dotazy, o kterých píšu výše. Tabulku s přesnými čísly máte zde:
Pokud plánujete PPC reklamu, můžete v grafu nahradit hledanost průměrnou cenou za klik a třeba najdete dimenze, které jsou méně konkurenční a inzerovat se na ně vyplatí víc než na jiné.
Kdybych měl podle této analýzy opravdu stavět web, asi bych navrhl vstupní stránky a zároveň i vhodné navigační prvky jen pro značky, principy, účely, velikosti a napájení. Ostatní už není tak významné a zřejmě bych se to pokusil přifařit k jiným dimenzím.
Musel bych ale zároveň jít víc do hloubky, protože některé dimenze mají význam jen v kombinaci s jinými. Např. místo se vyskytuje skoro jen u průmyslových a centrálních vysavačů a napájení je hodně spojené s ručními a tyčovými.
Samozřejmě jsou důležité i hodnoty dimenzí. Některé jich mají hodně a jsou rovnoměrně rozprostřeny napříč všemi dotazy. Třeba značky, kterých jsem napočítal 113. Naproti tomu drtivá většina dotazů obsahujících dimenzi Napájení hledá vysavač na baterky a zastoupení ostatních hodnot je skoro zanedbatelné.
Na základě dobré znalosti zákazníků a sortimentu musíte také demaskovat různé pasti, které bývají v datech ukryté. Např. z analýzy dimenze K čemu zjistíte přes 18 tisíc hledání vysavačů na popel, kdežto jen 580 hledání vysavačů na podlahu. Je ale jasné, že podlahu lidé neupřesňují proto, že to považují u vysavače za samozřejmost, a nikoli proto, že by většina chtěla vysávat jen popel a žádnou podlahu.
K analýze jednotlivých dimenzí se dobře hodí kontingenční tabulky. Tady máte příklad takové tabulky pro dimenzi Princip:
Jestli se chcete podívat, jak jsem vše udělal, stáhněte si celý spreadsheet, udělejte si z něj kopii (lze exportovat i do Excelu) a hrajte si.
Jak klasifikační analýzu využijete
Informační architektura webu
Asi nejčastěji využívám takto pojatou analýzu klíčových slov k návrhu struktury celého webu. Princip je jednoduchý. Pro každý dotaz potřebuji jednu vstupní stránku jako ideální odpověď, zároveň ale musím dotazy vhodně sdružovat, aby vstupních stránek nevzniklo neúčelně mnoho. Jedna vstupní stránka proto pokryje více dotazů.
Vhodný klíčem pro toto členění obsahu jsou právě dimenze a jejich hodnoty. Zároveň nesmím zapomenout na hledané kombinace dimenzí. Měl bych tedy mít stránky vysavačů jednotlivých značek (Miele, Rowenta apod.), jiné stránky vysavačů jednotlivých principů (robotické, bezsáčkové, cyklonové apod.) a také stránky bezsáčkových vysavačů Rowenta a cyklonových vysavačů Miele (nebijte mne, pokud takové neexistují, fakt vysavačům nerozumím).
Tímto zadáním většinou SEO končí. Konkrétní realizaci včetně vhodných navigačních prostředků by měl vymyslet informační architekt, UX designér, nebo prostě web designér, ať už si říká jakkoli. Důležité je, že dostane data, podle kterých se může v tématu správně orientovat.
Pojmenování a texty
Vstupní stránky musíte nějak pojmenovat (nadpisy, titulky) a mířit na ně správně otextovanými odkazy. Vezmete analýzu, vyberete dotazy odpovídající příslušné hodnotě dané dimenze a z nich ideální pojmenování odvodíte. Méně časté dotazy a vůbec všechna slova v nich pak použijete v textu stránku. To už je klasická on-page optimalizace, které se věnuji třeba v článku Kolik klíčových slov se vejde na jednu stránku.
Parametrické hledání, našeptavače a srovnávače
Web designér také může podle této analýzy navrhnout parametrické hledání. Z důležitých dimenzí se stanou pole vyhledávacího formuláře a jejich typické hodnoty může nabízet našeptavač.
Struktura detailních popisů zboží
I detailní popis zboží (zde jednotlivých modelů vysavačů) lze strukturovat podle dimenzí. Pokud by to měl být ale jediný účel analýzy, můžete skončit už jejím třetím krokem.
PPC reklama
Pokud si platíte PPC reklamu v AdWords nebo v Skliku, jsou dimenze a jejich hodnoty perfektním základem pro členění kampaní na reklamní sestavy. Základní pravidlo zní:
1 hodnota jedné dimenze = 1 reklamní setava = 1 vstupní stránka.
Nástroje, které vám pomohou
Hlavní problém klasifikační analýzy klíčových slov je její pracnost. Kdysi bych ukázkovou analýzu vysavačů z tohoto článku dělal několik dní, postupně jsem ale našel nástroje a techniky, kterými to zvládnu za několik hodin. Podrobnosti by byly na další článek (snad ho někdy napíšu), zde jen stručné tipy:
- Z nástroje pro návrh klíčových slov Adwords a z analýzy návštěvnosti Google Analytics lze exportovat CSV/TSV. Exportujte vše, načtěte do texťáku nebo Excelu a tam teprve rušte (či jinak ošetřujte) nerelevantní dotazy. Je to rychlejší než vyzobávat releventní přímo v nástroji.
- Z Google Analytics je někdy rychlejší vytáhnout data přes API. Dobrým výchozím bodem je třeba Data Feed Query Explorer.
- Z nástroje pro návrh klíčových slov Skliku exportovat nejde. Proto dělám copy/paste celé tabulky, stránku po stránce, do textového editoru. V něm potom pomocí pár příkazů najdi/nahraď upravím výsledek tak, aby neobsahoval hlavičky tabulky a jednotlivé dotazy byly na samostatných řádcích, se sloupci oddělenými tabelátorem. Dobře to jde např. v editorech Sublime Text nebo TextPad.
- Tabulku všech dotazů naimportuji do Google Refine. To je zázrak, o kterém určitě někdy napíšu, nebo rovnou natočím video, jak s ním pracuji. Úžasně urychluje normalizaci dotazů i jejich klasifikací.
- Data zpracovaná pomocí Google Refine přenesu do Google Spreadsheets, kde je různě agreguji jednak databázovými funkcemi a jednak kontigenčními tabulkami. V Excelu by to asi šlo stejně, ale ten nemám.
- Když jsou data na spreadsheet moc rozsáhlá, skoro stejné agregace jdou provést i ve Fusion Tables, které už jsou teď taky součástí Google Docs.
A to je vše. Žádné další nástroje na analýzu klíčových slov nepoužívám.
A teď jen pro zajímavost… Dělají to ostatní dobře?
Když už jsem si s analýzou klíčových slov vysavačů dal takovou práci napadlo mne se na závěr podívat, jak si s ní poradili návrháři největších českých e-shopů.
Mall.cz
Mall člení vysavače na akumulátorové, antibakteriální, podlahové, víceúčelové a robotické. Akumulátorové navíc na mokré i suché vysávání, nebo jen mokré, podlahové na klasické, stojaté a tyčové a víceúčelové na mokré i suché sání a šamponování. Značky pak odkazuje z detailů produktů, ale ty vedou na souhrnnou stránku výrobce, ze které je třeba se dál prokliknout na kombinaci značky a určité kategorie vysavače. Stránku pro všechny vysavače určité značky jsem nenašel.
V podkategoriích jde hledat podle parametrů, takže uživatel může např. vyhledat všechny podlahové bezsáčkové vysavače. Stránka s výsledky hledání ale asi(?) není nikde odkazovaná, takže z pohledu SEO bude mít minimální význam.
Alza.cz
Alza člení vysavače na sáčkové, bezsáčkové, cyklonové, stojací, ruční a robotické. Z detailu zboží vede odkaz na stránku všech vysavačů dané značky a z té pak na výše uvedené kategorie dané značky. Parametrické vyhledávání chybí.
Elektro world
Na webu Electroworld.cz se vysavače člení na bezsáčkové, multifunkční, robotické a sáčkové. Tyto skupiny jdou kombinovat se značkou, příkonem a několika dalšími parametry. Menu zde vlastně zároveň slouží jako určitá forma parametrického hledání.
Za domácí úkol si můžete porovnat řešení těchto tří obchodů s mou analýzou a jistě přijdete na to, co jim chybí a o kolik peněz tím asi přicházejí.
Poznámky a odkazy na další zdroje
Termín klasifikační analýza klíčových slov nikde nehledejte. Vymyslel jsem si ho pro potřeby tohoto článku, abych takto pojatou analýzu odlišil od jiných typů. Tradičně a asi nejčastěji se totiž dělá analýza klíčových slov jen pro určení priorit, na co optimalizovat jednotlivé stránky. Relevance a hledanost se pak posuzuje spolu s konkurenčností. Většinou z toho vyjdou nesmysly, protože relevance i konkurenčnost jsou obtížně kvantifikovatelné veličiny.
Informační architekti si asi povšimli, že se “moje” klasifikační analýza v něčem podobá tradiční inventuře obsahu (content inventory) a její výstupy trochu připomínají otevřený card sorting. Ano, tyto metody se někdy mohou zčásti zastupovat, častěji se ale doplňují. Například lze analýzou klíčových slov začít a card sortingem pak výslednou klasifikaci otestovat.
Analýzu vysavačů jsem vypracoval jen pro účely tohoto článku. Potřeboval jsem téma, které jsem nikdy nedělal pro žádného klienta. Prodáváte-li vysavače, výsledky klidně použijte, ale mějte na paměti, že jim nerozumím a určitě jsem se v jejich klasifikaci dopustil četných chyb. Abych mohl dát za analýzu ruku do ohně, musel bych si nejprve vysavače dobře prostudovat a také bych musel lépe poznat lidi, kteří je hledají a kupují.
Přečtěte si starší článek Michala Blahuta z Dobrého webu o pneumatikách. Hezky ukazuje, jak lze dobrou analýzou klíčových slov a následným uspořádáním obsahu webu získat zásadní konkurenční výhodu.
A taky si přečtěte můj předešlý článek Kolik klíčových slov se vejde na jednu stránku. Věnuje se podobné problematice, ale na úrovni jednotlivé stránky, ne celého webu.
Marek Prokop, 28. únor 2012
Velmi povedený článek, rozšířil jsem si obzory o analýze KW. Díky
— Bigdrobek 28.2.2012 22:04 #
Nejužitečnější článek, který jsem četl v posledním roce a možná i dvou. Velký dík!
— honza 28.2.2012 22:09 #
Pekný článok, páčil sa mi. Prvé štyri body som síce robil aj keď nie tak do detailov. Ale tabuľka objemu hľadanosti jednotlivých dimenzií a jej využitie ma svojou výpovednou hodnotou dostala. Super. Určite Tvoje posledné dva články nalinkujem niekde na našom blogu, nech sa len ľudia vzdelávajú :-) Ďakujem.
P.S. Od kedy nepoužívaš Excel a asi ani Open Office? Od Google Docs už len online?
— Jano 28.2.2012 23:44 #
Marku, děkuji moc za tenhle článek. Budu se k němu ještě párkrát vracet, protože tolik (pro mě) nových informací jsem na jednou nepobral :-) Ne že bych jednotlivé kroky neznal (Sklik a Adwords používám), ale nikdy jsem se nedokopal k takovému sofistikovanému postupu.
— Jimmy Hayek 29.2.2012 00:59 #
Všem děkuji za pochvaly a komentáře.
[3] Jano, Google Docs používám výhradně od té doby, kdy jejich výhody převažují pro mne nad nevýhodami. Minimálně 5 let už to bude.
Pokud jde o ten objem hledanosti jednotlivých dimenzí, je třeba určité opatrnosti (a zkušenosti) při interpretaci. Často tu vzniká typický optický klam long tailu. Graf např. ukazuje malý objem hledání modelů, jenže možná je ve skutečnosti veliký a jen hodně fragmentovaný, takže už ani nástroj Skliku už ty dotazy neukáže.
Jak často říkám, i dotaz hledaný jednou za měsíc je ve skutečnosti hodně hledaný, pokud je takových dotazů podle určitého vzorce třeba tisíc.
— Marek Prokop 29.2.2012 06:46 #
Marku, poklona za výborný článek! Včera jsem si ho na Twitteru označil, abych nezapomněl a teď si tu mnu ruce, jak dobře jsem udělal :) Takhle si představuji ten “ideální” článek o tematice o kterou se zajímám.
Klobouk dolu a souhlasím, že v tomto případě jde o jeden z nejlepších článků, který jsem o této problematice kdy četl. Díky.
PS: A teď jsem zvědavý, kolik eshopů s vysavači během pár měsíců vznikne ;)
— Míra 29.2.2012 09:36 #
Marku, článek je opravdu velmi zdařilý. Líbí se mi třeba graf hledanosti podle dimenzí, který jasně ukáže, jestli má do struktury webu smysl zahrnout některé dimenze, které jsou v souhrnu třeba hledány natolik málo, že je nemá smysl použít, nebo implementovat do IA webu.
Na Sklik by to chtělo jít pomocí API, nebo nějakého JS udělátka. :-)
Ohledně Mallu – mají to fakt vymazlené. A mají i optimalizované vstupní stránky pro podkategorie vysavačů rozdělené dimenzí značka. Na stránkách jsou odkazy trochu “schovány” JavaScriptem, ale jinak tam jsou, teda kromě hlavní kategorie vysavače. Možná proto, že někteří výrobci se specializují pouze na některých typ vysavačů a podstránky “vysavače iRobot” a “robotické vysavače iRobot” by vytvářely nadbytečné velmi podobné stránky. (Možná.. :) )
Jarda
— Jarda Hlavinka 29.2.2012 10:11 #
Ahoj Marku. Ke kroku “Krok 4: klasifikujte”: Nebyla by dobrá také klasifikace “Typ dotazu”? Obecný dotaz (vysavače), brandový dotaz (vysavače AEG), produktový dotaz (aku vysavač ponto 1437), specifický dotaz (akumulátorové tyčové vysavače, akumulátorový ruční vysavač, automatický vysavač bazénu, ...), informační dotaz (aku vysavače recenze), nákupní dotaz (jezírkový vysavač cena, vysavace zelmer ceny, ...)
. A možná i geolokační dotaz (robotické vysavače praha). Dokážu si představit, že se s takto setříděnými dotazy dalo velmi pěkně pracovat …
— Vladimír Matula 29.2.2012 12:37 #
Skvělý článek, díky za něj. Začínám být čím dál víc motivovaný zajít si na nějaké vaše školení.
— Duben 1.3.2012 11:53 #
[9] Tím rozhodně chybu neuděláš. Marek je hrozně pohodový a vstřícný člověk :). Pokud se tím zabejváš nebo máš svůj e-shop tak ti školení určitě přijde vhod.
— Carl114 1.3.2012 17:52 #
Jak vytáhnu z Skliku takové množství dat, když je v návrháři slov stránkování?
— Karel Benáček 1.3.2012 22:43 #
Už jsem si toho všiml – ručně :)
— Karel Benáček 1.3.2012 22:51 #
Hezkej článek.
Neni mi ale uplně jasná ta analýza získaných dat, konkrétně jak získat objem hledání jednotlivých dimenzí. Zda z té excelovské tabulky klíčových slov, nebo opět z nástroje (sklik…). Z excelu se mi to bohužel nedaří.
— Petr 2.3.2012 14:10 #
[8] Vladimíre, jako pomůcka během práce by se sloupec Typ dotazu mohl hodit. U výsledků je to už ale zbytečné, protože jde snadno vybrat všechny řádky s neprázdnými hodnotami v určitých dimenzích.
[9] Stanislave, kdybychom se potkali na školení, měl bych radost. Váš web vypadá zajímavě.
[13] Petře, v Excelu se to, tuším, jmenuje kontingenční tabulky, ale určitě bude mít Excel i hodně databázových funkcí, kterými by to šlo také. Konkrétně Vám ale bohužel neporadím.
— Marek Prokop 2.3.2012 14:48 #
[11] Pro “dolování” dat z aktuální stránky Skliku využívám doplněk do Chrome – Scraper. Ale problém se stránkováním mi to také neřeší.
— Tomáš Pospíšil 5.3.2012 13:24 #
[15] Tome, díky za tip na Scraper, je to zajímavý nástroj.
Chvíli mi trvalo pochopit jak ho používat a nastavit, ale nakonec je to lehce použitelný nástroj, když aspoň zhruba tušíš co je XPath.
Mimo jasných plusů má nevýhodu, a to, že neumí při druhém a dalším “scrapu” přidat nově nascrapovaný obsah k tomu, který byl nascrapován předtím. Bohužel jen tupě přepíše původně scrapnutý obsah. Tím pro stránkování a jiné dotazy musíš vždy před scrapem uložit obsah do Google Spreadsheet.
Teoreticky by šlo nástroj používat, ale uložené Google Spreadsheety by bylo potřeba nějak spojit a odstranit případné duplicity.
Sorry za ty patvary jako scrapnutý, scrapnout, scrapem, atd. Prostě mi to přijde lepší než “seškrábnutý”, “seškrábnout” .. :)
— Jarda Hlavinka 6.3.2012 12:57 #
Pro dolování dat z Skliku bude nejlepší využít jejich API, existuje Python knihovna pro lepší přístup. Už jsem se na to díval a mohlo by to fungovat.
Děkuji Marka za odkaz na Google Refine, tento nástroj jsem neznal a je to naprosto super, už si s ním hraji od víkendu a umí spoustu věcí.
— Martin Šimko 7.3.2012 21:56 #
Jak Marku řešíš takovou analýzu u rozsáhlejších a méně srozumitelných souborů dat?
Zkusil jsem například téma RC modelů a je to vyloženě peklo. Hromada dat (10k položek), které lze jen obtížně pročistit (různé číslování modelů, velikosti součástek atd, není jasné, co lze zahodit a co je důležité).
— Ošklivý sup 13.3.2012 16:39 #
[18] Honzo, zkoušel jsi ten Google Refine? Tím jde zvládnout i velmi rozsáhlá data, i když práci to samozřejmě vždy dá úměrně rozsahu. Asi na to někdy natočím videonávod.
— Marek Prokop 13.3.2012 17:06 #
Ano, ale využil jsem ho hlavně na základní očištění a normalizaci (pomocí clusterování).
Ale i po téhle operaci mi zbude třeba 8 000 frází. Přemýšlím, jak je nejjednodušeji zpracovat nebo upravit, aby se daly zpracovat rychle.
Problém je velké množství unikátních dotazů s malým počtem hledání. Třeba pro “t-rex” a všechny možné varianty modelu a náhradních dílů je přes 100 frází. Probírat se tím postupně je příliš zdlouhavé. Navíc většinou ani nevím, kdy jde o překlep, nebo něco, co není důležité.
— Ošklivý sup 14.3.2012 09:50 #
[20] Můžete využít “podmínkových konstrukcí” v Google Refine. Já jsem takto “očišťoval” cca 8000 frází. Často jsem používal na dotaz “facet – text” a poté “value.contains(“nesouvisejici_slovo”)”
Dejme tomu, že se chci zbavit frází, kde je slovo “bazar”. Udělám si facet nad sloupcem s dotazy, potom jej upravím na “value.contains(“bazar”)” a řádky, které této podmínce vyhovují smažu. Takto postupují dále. Dá se využít logických spojek OR, AND a dalších konstrukcí, které třídění usnadňují.
— Martin Šimko 14.3.2012 10:30 #