Vyhledávače.info » Články » Dušan Janovský: Seznam se snaží být přísný
Dušan Janovský: Seznam se snaží být přísný
Dušan “Yuhů” Janovský je vám jistě znám z projektu Jak psát web jako neúnavný a dlouholetý propagátor zdravého rozumu ve webdesignu a internetové reklamě. Méně známý už je však jeho podíl na nejpoužívanějším českém vyhledávači Seznam. A právě toho se týkal náš rozhovor, ke kterému jsem se “sešli” na ICQ sobotní večer 12. března 2006.
MP: Google i další zahraniční vyhledavače působí velmi otevřeně. Mají své weblogy, jejich lidé přispívají do diskusních fór apod. Seznam byl naopak vždy dost uzavřený. Teď se zdá, že přinášíš změnu—aktivně se účastníš on-line konferencí a fór, bloguješ. Je to jen tvoje osobní iniciativa, nebo nová PR strategie Seznamu?
Nenazval bych to zrovna PR strategií, ale ano, účast v konferencích a odpovídání ve veřejných diskusích je přirozeně součástí mé práce. Víme, že s uživateli je třeba komunikovat.
MP: Kdy jsi vlastně začal pracovat pro Seznam a proč?
Bylo to v zimě 2001 / 2002. Dostal jsem nabídku od nějaké personálky, abych zkusil pohovor v Seznamu. Řekl jsem si, že bude legrace. Byla to pro mě obrovská šance, kterou jsem nechtěl pustit.
MP: Pokud se nemýlím, začínal jsi v Seznamu jako kodér. Jak ses dostal k vyhledávání?
Já se chápu jako žolík. Původně jsem opravdu dělal HTML a zaváděl CSS. K vyhledávání jsem se dostal dost složitě v roce 2003, kdy jsme s Erikem Brožkem dlouho do noci psali zdrojáky katalogu a o přestávkách mezi psaním jsme začali uvažovat o fulltextovém vyhledávání a kreslili si u kuchyňky diagramy, protože jsme usoudili, že to celé není až tak těžké.
Ve stejné době mě začalo kódování dost unavovat, proto jsem nějak přešel k produktovým manažerům. Když se zhruba ve stejné době rozhodlo, že se do fulltextu půjde, fakticky jsem si vydupal, abych to mohl dělat.
MP: A co hlavní programátor fulltextu Štěpán Škrob?
Štěpán Škrob kdysi s Ivem Lukačovičem napsal Kompas. Byl to v Seznamu jediný programátor, který měl přímou zkušenost s programováním fulltextu. Já jsem se Štěpánem spolupracoval hlavně v počátku projektu, kdy jsem měl napsanou specifikaci a podrobně jsme spolu probírali, co bude jak fungovat. Štěpán pak vedl vývoj, z mého pohledu to udělal velmi dobře.
MP: Jak se oficiálně nazývá tvoje funkce?
Moje funkce se nazývá projektový manažer.
MP: A jak se nazývá projekt, který řídíš?
Jmenuje se Fulltext. Celé je to složitější, Fulltext je součástí projektu Hledání, ale já mám z hledání na starosti Fulltext.
MP: Mohli bychom stručně zrekapitulovat historii hledání na Seznamu?
Až do jara loňského roku bylo primární hledání v katalogu. Doplňkové fulltextové vyhledávání do ledna nebo února 2002 zajišťoval Kompas, pak na jaře 2002 Empyreum a někdy v létě 2002 nastoupil Google. Od podzimu 2003 zůstal Google jenom jako vyhledání ve světě a jako fulltext českých zdrojů se začala používat vlastní instalace Jyxa. 14. března 2005 přišel vlastní fulltext, který se stal primárním vyhledáváním. Google zůstává jen pro hledání “ve světě”.
MP: Díky za historická fakta, teď zpět do přítomnosti. Když Seznam loni spustil nový fulltextový vyhledávač, označil ho Ivo Lukačovič za alfa-verzi. Dnes už je to ostrá verze?
To je otázka na Iva, jak to chce verzovat. Vývoj na fulltextu běží už přes dva roky bez přestávky. Interně se verzují jenom balíčky.
MP: Zeptám se jinak. Považuješ vyhledavač v zásadě za dokončený, nebo ho ještě čeká dlouhý vývoj?
Ano a ano. Pro současnou podobu českého webu by fulltextu Seznamu stačilo k dokončení už jen pár úprav. Jenomže český web se vyvíjí a s ním se bude muset vyvíjet i fulltext Seznamu.
MP: Co bývá nejčastěji impulsem pro změnu nastavení vyhledavače nebo jeho další vývoj?
Změny nastavení s vývojem téměř nesouvisejí. Impulsem vývoje jsou naše analýzy.
Máme testovací sadu několika desítek reálných dotazů vybraných tak, aby co nejlépe zobrazovaly rozložení skutečných dotazů. U těchto testovacích dotazů poloautomaticky probíráme výsledky a ručně je bodujeme—říkáme tomu kalibrace. Potom testovací dotazy necháme vyhledat a váženě sečteme relevance vyhledaných stránek.
MP: Porovnáváte své výsledky i s jinými fulltexty?
Pouze vizuálně a namátkově. Automaticky zatím ne. Neděláme to programově, protože je těžké mít z takového namátkového porovnávání praktický přínos. Informace o tom, že jsme na ten který dotaz lepší nebo horší než třeba Jyxo, je zpravidla k ničemu (pokud to zrovna neodhalí nějakou naši neznámou chybu), protože s tím není jak naložit. Já porovnávám s Jyxem, Morfeem a Googlem.
MP: Nevím, zda mezi testovací dotazy patří i dotaz dovolená, ale zkus si tipnout, aniž bys ho opravdu položil, zda Seznam najde na prvních třech stránkách výsledků něco o dovolené v pracovně-právním smyslu.
Ne, nenajde. Na toto slovo optimalizují prodejci dovolených, naopak nikdo nemá motivaci být vepředu se stránkou o pracovně právní povaze dovolené, protože na takové stránce zájezd neprodá.
MP: Říkáš, že nikdo nemá motivaci, ale co Seznam a jeho uživatelé? Copak nehledají nic o dovolené v pracovně-právním smyslu?
Aha, rozumím. V tuto chvíli je na uživateli, aby zkusil dotaz zadat jinak. Situace je prostě taková, že o dovolené jako o zájezdu píše mnohem více stránek.
MP: Mohu tedy ze současných výsledků a tvé odpovědi vyvodit závěr, že se Seznam nepokouší pochopit dotaz a výsledky přizpůsobit jeho případné víceznačnosti?
To jsou dva závěry najednou. Fulltext se dotaz pochopit pokouší, ale neumí výsledky hledání uměle přizpůsobovat víceznačnosti dotazu.
MP: Snad se nebudeš zlobit, když si do relevance hledání Seznamu ještě trochu rýpnu. Napadá tě, proč Seznam na dotaz Dušan Janovský najde na 6. pozici stránku Dva roky na skříni Dušan Janovský, tedy v podstatě náhodnou vnitřní stránku tvého osobního webu, a nenajde jeho hlavní stránku Yuhů = Dušan Janovský. Nejde mi teď samozřejmě o tyto dvě konkrétní stránky, ale o obecný problém nalezení nejrelevantnější stránky uvnitř určitého webu.
Bude to zřejmě důsledek jedné z interně popsaných chyb, které se nyní opravují. Také to může být chyba mého serveru, což ovšem tento případ náhodou není.
Že fulltext má občas problém s určení nejrelevantnější stránky z webu, o tom víme. Je to důsledek toho, že jsem při specifikaci nedomyslel některé věci. Pracuje se na tom. Já vím, že “pracuje se na tom” zní otřepaně, ale je to tak.
MP: Může to být dáno nesprávně nastaveným poměrem vah off-page a on-page faktorů, nebo to je příliš zjednodušující pohled?
Tyhle problematické dotazy s váhami vůbec nesouvisejí. Když najdeš divné řazení, tak to s nastavením vah souviset může. Pokud se ale stane, že jsou výsledky v zásadě v pořádku, akorát něco chybí (jako v tomto případě), jde buď o problém v algoritmu, nebo o problém při stahování stránky či jejím zpracování. Také je možné, že je stránka přeoptimalizovaná, duplicitní, anglická nebo nějak chybná. Zužovat to na off-page a on-page faktory nemá v praxi smysl.
MP: Chápu. Nicméně homepage tvého osobního webu v Seznamu je, jen se zobrazí až po kliknutí na “Další nalezené stránky na dusan.pc-slany.cz”.
Ano. V tomto případě ta stránka nevypadla, jenom se chybně zpracoval jeden její aspekt.
MP: Další důvod, proč Seznam často nenajde nejrelevantnější stránku určitého webu, je ten, že ji prostě nemá v indexu. V porovnání s ostatními fulltexty Seznam indexuje řádově méně stránek. Je to dočasná nedokonalost, nebo záměrná strategie, aby se ušetřil výkon a uživatel zůstal stále ještě spokojen.
Kladeš hodně komplexní otázky, v nichž činíš příliš rychlé závěry.
Proč nemá fulltext některé stránky v indexu, jsem popsal výše. Nejčastěji je důvodem chybová nebo pomalá odpověď vzdáleného serveru při pokusu o aktualizaci stránky. Seznam se v tomto ohledu snaží být přísný a neposkytovat uživatelům odkazy na stránky, které byly při poslední návštěvě robota nedostupné. To chápeme jako výhodu pro uživatele. Někdy se také stránka rozezná jako anglická. To se hodně týká stránek, které prodávají spoustu anglických výrobků.
K závěru, že v porovnání s ostatními fulltexty indexujeme řádově méně stránek, patrně docházíš podle počtu výsledků, které Seznam uvádí při hledání mnoha častých slov. Tady si Seznam trochu ubližuje tím, že se snaží být upřímný. Uvádíme férově pouze počet stránek, které aktuálně pouštíme do hlavního výpočtu, nikoli počet stránek z našeho indexu, které hledané slovo obsahují. V současnosti Seznam indexuje 58 miliónů českých stránek a snaží se vybírat ty kvalitnější. To je jen asi dvakrát méně než Jyxo nebo Morfeo, nikoli tedy řádově.
Přemýšlím o tom, že začneme skutečný počet nám známých výsledků vypočítávat, ale přijde mi to oproti jiným věcem nedůležité. Také nechci dopadnout jako Google, který v mnoha případech o počtu výsledků lže až práší. Například na stránkách diskuse.jakpsatweb.cz uvádí Google asi třikrát více stránek, než kolik jich diskuse skutečně obsahuje, a sedmkrát více, než kolik jich podle logu navštívil svým robotem.
MP: Znamená to tedy, že Seznam indexuje zhruba stejně či jen o málo méně užitečných, dostupných, přístupných a dostatečně unikátních stránek než Google…?
Ano.
MP: ...a že je umí zaindexovat zhruba stejně rychle nebo jen o málo pomaleji než Google?
Ne, to ne. O rychlosti jsem nemluvil.
MP: Když už jsme narazili na výkon, jak “veliké” vyhledávání Seznamu vlastně je. Mohl bys uvést průměrný počet dotazů za den, počet uživatelů, nebo jakákoli jiná zajímavá čísla?
Průměrný počet dotazů za všední den je sedm a půl miliónu, to mluvím ovšem pouze o záložce Internet. Počet uživatelů v tuto chvíli nemám po ruce (doplněno: je to kolem 800 tisíc unikátních cookies denně). V denních špičkách zpracováváme kolem 190 dotazů za sekundu. Teď ve středu, když padnul Atlas, se počet dotazů za sekundu dostal na 210.
MP: Jaký je podíl unikátních dotazů?
Unikátních dotazů je obecně méně, než kolik udávají zahraniční srovnávání. Dělal jsem si analýzu z jednoho únorového dne: v 7,48 miliónu uživatelských dotazů bylo unikátních dotazů 2,65 miliónu. Dotazů, které byly za celý den položeny právě jednou, bylo 1,70 miliónu. Když se porovnávají delší období, vychází unikátních dotazů procentuálně samozřejmě ještě méně (např. za 4 dny: 28,1 mil, 5,7 mil unikátních, 2,4 mil. právě jednou).
MP: Je menší podíl unikátních dotazů typický jen pro Seznam, nebo pro celé české vyhledávání.
Nevím. Může v tom hrát roli Našeptávač, ale fakt nevím.
MP: Jak často fulltext reindexuje stránky, které už zná?
Stránky se přeindexovávají s různou frekvencí, záleží to na více věcech. Průměr je asi měsíc. Minimum je jeden den (i když teoreticky minimum vlastně neexistuje), maximum bylo dříve 360 dní, teď je to 150 dnů.
MP: Zjevně se tedy snažíte trochu šetřit. Neuvažujete v souvislosti s tím o obdobě Google Sitemaps?
Plánů je spousta. Obdobu Sitemaps v nejbližší době nechystáme. A k tomu šetření, o tom to vůbec není.
MP: Kvůli čemu tedy je? Proč stránky, které se mění několikrát týdně, Seznam nepřeindexuje častěji než jednou za měsíc až dva?
Jestli tvé pozorování vychází z prosince či ledna 2005 nebo první půlky února 2006, tak může být způsobeno tím, že tehdy robot z technických důvodů nestíhal obíhat všechno, co chtěl. Pokud taková situace přetrvává i teď, je to zřejmě tím, že náš algoritmus stránku nepovažuje za dostatečně důležitou (měřeno jejím S-rankem), aby pro ni chodil několikrát týdně.
Je to prostě věc nastavení algoritmů robota. Ty se na rozdíl od výsledků hledání dají ladit mnohem hůře. Programátoři se na chod robota v uplynulých týdnech soustředili hodně a doufám, že je to aspoň trochu znát.
MP: Poradil bys čtenářům, jak nalákat robota Seznamu, aby na jejich stránky chodil co nejčastěji?
Já budu trochu tajemný, doufám, že to nevadí. Robot Seznamu má obecně raději weby, na kterých je méně stránek s kvalitním, delším a co nejunikátnějším obsahem, než weby, které obsahují více stránek s kratším a navzájem podobným obsahem. Dále je samozřejmě dobré mít co nejvíce zpětných odkazů.
MP: Teď z jiného soudku: Jsi projektový manažer fulltextu. Spadá do tvé kompetence i problematika placených odkazů ve vyhledávání?
Nespadá. Funkčnost placených odkazů má na starost manažer hledání, jejich obsah a prodej patří do obchodního oddělení.
MP: Stejně mi to ale nedá. Jako manažer fulltextu přeci musíš velmi úzce spolupracovat i na začlenění placených odkazů ve vyhledávání. Navíc jsi znám jako velký fanda Google AdWords. Nechce se mi věřit, že filosofie AdWords z tebe nevyzařuje po celém Seznamu a že ho neovlivňuje.
Možná ovlivňuje, ale teď mám dost práce s fulltextem. Nerad řeším víc věcí najednou. Seznam má momentálně zavedené zdroje příjmů, je riskantní střídat brankáře.
MP: Hodně lidí je přesvědčeno, že mezi placenou reklamou a fulltextem je nějaká souvislost. Že si mohou zaplatit lepší výsledky ve fulltextu a naopak, že když neplatí za reklamu, hrozí jim zhoršení výsledků ve fulltextu. Můžeš se k těmto obavám nějak vyjádřit?
Ano, mohu je vyvrátit. Lepší místo ve fulltextu si zaplatit nejde. Sice by to mělo logiku a přinášelo by nám to nyní větší příjmy (tak to de facto dělá Centrum a částečně i Atlas tím, že primárně stále hledají v katalogu), Seznam se ovšem snaží získat si uživatele kvalitními výsledky vyhledávání, které nejsou nijak ovlivněny tím, kdo kolik platí.
Z technického hlediska můžu potvrdit, že existuje propojení katalogu s fulltextem, když se z katalogu do fulltextu exportuje titulek a popisek, coby metadata přidávaná k fulltextovému záznamu. Váha těchto metadat je ovšem velmi malá (méně než dvě procenta) a nijak se v nich nezohledňuje, zda jde o zápis placený či bezplatný. Pokud tedy někdo neobnoví objednávku reklamy, fulltext se to nijak nedozví.
MP: Když porovnáš fulltext Seznamu s jeho hlavními konkurenty (Google, Morfeo, Jyxo), v čem vidíš jeho silné stránky a v čem slabiny.
Silné stránky Seznamu jsou v řazení výsledků na krátké dotazy. Momentálně se snažíme vylepšit výsledky na delší a konkrétnější dotazy.
MP: Kam až bys chtěl fulltext Seznamu dovést, abys s ním byl naprosto spokojen?
Fulltext Seznamu bych chtěl dovést do stavu, že jej ty sám budeš používat jako primární vyhledávač, až budeš hledat něco v českých zdrojích.
MP: Ty sám již Seznam pro hledání v českých zdrojích upřednostňuješ před Googlem?
Jak kdy. Ono to hodně záleží na toolbaru.
MP: Děkuji za rozhovor.
Marek Prokop, 13. březen 2006
— Dero 13.3.2006 20:40 #
— Radim 13.3.2006 21:12 #
— Tomáš Kučera 13.3.2006 21:23 #
(doplněno: je to kolem 800 unikátních cookies denně)
ti asi chybí slovo “tisíc”, ne?
— David Špinar 13.3.2006 22:34 #
— Borek 13.3.2006 23:41 #
— dgx 14.3.2006 02:09 #
— Marek Prokop 14.3.2006 06:02 #
— Filosof 14.3.2006 06:56 #
— XXX 14.3.2006 08:33 #
— Jan Vetyška 14.3.2006 09:00 #
A trosku mi zarezonovalo to “řádově” to je také oblubene Radkovo “catch word”. Ale to len na okraj.
— Roman 14.3.2006 09:02 #
— Chose 14.3.2006 12:58 #
— clovicek 14.3.2006 13:02 #
... Proč nemá fulltext některé stránky v indexu…Nejčastěji je důvodem chybová nebo pomalá odpověď vzdáleného serveru při pokusu o aktualizaci stránky…
Znamená to tedy, že pokud jsou stránky při pokusu o aktualizaci nedostupné, robot je automaticky na měsíc (průměrně) vyřadí? Nebo je po nějaké době opakovaně navštíví a vyřadí jen ty několikrát nedostupné?
— TonyK 14.3.2006 15:55 #
Pokud odhodíme výrazy hledané právě jednou, pak to vypadá na průměr 7,78 hledání za čtyři dni. Bylo by zajímavé rozložení četnosti.
A myslím, že Našeptávač dělá divy. Někdy si opravdu lámu hlavu nad tím, jak podivné mnohoslovné dotazy mohou mít podle našeptávače takovou denní poptávku… A pak se neovládnu, taky si to dám vyhledat, a hned je mi to jasné. ;-)
— Martin Kopta 14.3.2006 21:36 #
ono je něco jiného “vyřadit z indexu” a “vyřadit z databáze”
> Znamená to tedy, že pokud jsou stránky při pokusu o aktualizaci nedostupné, robot je automaticky na měsíc (průměrně) vyřadí?
ano, robot okamžitě vyřadí z prohledávaného indexu, takže se stránka neukazuje ve výsledcích
> Nebo je po nějaké době opakovaně navštíví a vyřadí jen ty několikrát nedostupné?
On tam zkouší chodit dál, i když se stránka ve výsledcích neukazuje. Pokud stránka není pro robota dostupná opakovaně (teď z hlavy nevím, kolikrát), tak jde záznam pryč i z databáze, která drží informace o URL.
— Yuhů 14.3.2006 21:43 #
Z pohledu provozovatele stránek mi to připadá opravdu poměrně přísné. Na druhou stranu uznávám, že uživatele Seznamu ani trochu nezajímá na jak kvalitním hostingu stránky běží.
— TonyK 15.3.2006 06:32 #
— Tomáš Krejčí 15.3.2006 08:28 #
— Yuhů 15.3.2006 11:40 #
— Richi 15.3.2006 15:51 #
— icq 16.3.2006 08:52 #
Přečetl jsem se zájmem asi třetinu a pak jsem při jedné dlouhé odpovědi – při pohledu na polohu rolovátka vpravo – odpadl. Příště doporučuju rozdělit takový rozhovor aspoň na dva díly.
Jinak ovšem díky.
— Honza Hučín 16.3.2006 14:44 #
— Melodie na mobil 17.3.2006 11:32 #
— Ivo 17.3.2006 14:43 #
— twt 18.3.2006 00:04 #
— Kaderas 18.3.2006 09:13 #
— Libor 20.3.2006 20:24 #
— lukas 21.3.2006 21:28 #
— mepp 26.3.2006 10:36 #
Třeba to, že když někdo poskytuje mizerné služby, stále ještě může vydělat spoustu peněz.
A také to, že sklon přeceňovat své síly mají i ti nejsympatičtější chlápci. (Behaviorální ekonomové tvrdí, že to my všichni, ale pořád jsem si tam nechával rezervu pro pár světlých výjimek. Už žádnou nemám.)
— Lukáš Vodička 27.3.2006 14:56 #
— Pavel Hilbert 28.3.2006 10:43 #
— Franta 25.4.2006 19:26 #
— Libor 3.5.2006 11:05 #
— MIRDa 29.5.2006 00:47 #
— Martin Kelle 29.5.2006 08:23 #