Štěstí hledejte s prediktivní analytikou

14. 8. 2015 | Zdroj: BusinessInfo.cz

Obchodní úspěch vždy byl, a do značné míry stále je, dílem štěstí a náhody. Tím se netají ani mnohé podnikatelské celebrity, které přiznávají, že na počátku jejich úspěchu stála šťastná shoda okolností. Strojové učení a prediktivní analytika ale nabízejí něco lepšího než čekání na příležitost, která půjde náhodou kolem. Umožní aktivně a úspěšně vyhledávat „vzorec štěstí" ve vašich datech.

Dříve než se pustíme do popisu prediktivní analytiky a možností jejího využití v byznysu, zastavme se na chvíli u toho, co vlastně znamená „mít štěstí" v obchodě.

K úspěchu na trhu teoreticky stačí správně zodpovědět pár elementárních otázek. Komu, kdy, kde, co, za kolik a jak prodat. Štěstí je, pokud se náhodou ocitnete takříkajíc v pravý čas na pravém místě a v ruce držíte něco, o čem si lidé myslí, že to nutně potřebují a jsou za to ochotni pořádně zaplatit. Jinými slovy, „konfigurace" okolního světa odpovídá vaší aktuální nabídce. Jakýkoli obchod, bez ohledu na to, jak sofistikovaně vypadá, je ve své podstatě právě o schopnosti tuto konfiguraci předvídat a připravit pro ni vhodnou nabídku.

Zapomeňte na jistoty

Výše uvedené elementární otázky mají jednu zásadní nevýhodu. Jsou vzájemně závislé na čase i prostoru, odpovědi se tak neustále mění a jejich nalezení je proto prakticky neřešitelnou úlohou. Celá věc je navíc o to komplikovanější, že odpovědi potřebujeme předvídat s určitým předstihem, abychom stihli odpovídajícím způsobem upravit nabídku.

Hned na začátku si tedy musíme přiznat, že přesné řešení takové úlohy nedokážeme nalézt a zaměřit se na metody, s jejichž pomocí získáme alespoň odpovědi nejpravděpodobnější. Tedy takové, které nejvíce omezí, ale zcela neodstraní, naši nejistotu a riziko při rozhodování o tom, jak má vypadat naše „zítřejší" nabídka. Právě takovou metodou je prediktivní analytika, která spojuje výhody staré dobré statistiky a nové poznatky v oblasti strojového učení k nahlížení do budoucnosti.

Jak tedy hledat „štěstí v datech" a předpovídat budoucnost? Těžko. Musíte vědět, na co se ptáte, což je mnohem komplikovanější než se na první pohled může zdát. Musíte mít data, která kýžené odpovědi skutečně obsahují, což není samozřejmostí a v neposlední řadě potřebujete odpovídající technologie a znalosti.

Ze všech potřebných věcí jsou nejsnadněji dostupná data, která se poflakují po firemních serverech, ale i na internetu nebo na serverech dodavatelů. V typické firmě jsou běžně dostupná data o návštěvnosti webu, prodeji zboží a služeb, skladovém hospodářství a platební morálce a chování zákazníků. A právě na takových datech si také ukážeme postup přípravy prediktivního modelu, který bude schopen „předvídat" množství prodaného určitého typu zboží v čase při měnící se ceně.

Vezměme tedy za hotovou věc, že víme, na co se ptáme a máme k dispozici data vhodná pro vytvoření prediktivního modelu.

Deskriptivní analýza, zjišťování „obsahu štěstí" v datech

Dříve než se pustíme do vytváření samotného modelu, musíme zjistit, jestli data vůbec nějaké smysluplné informace obsahují. K tomu nám poslouží něco málo vizualizací, statistika a schopnost počítačů zpracovávat velké množství dat, odhalovat v nich opakující se vzory chování, vzájemné podobnosti (segmenty) a souvislosti mezi jednotlivými proměnnými.

Vzorová data obsahují informace o každé obchodní transakci a s trochou snahy z nich tedy můžeme získat množství prodaného typu zboží za den a jeho cenu, společně s informacemi o zákaznících, a to za poslední tři roky. Z dat zjistíme například, které typy zboží se prodávají společně (navzájem se doplňují jako boty a tkaničky) nebo jak se množství prodaných kusů mění v čase a v prostoru.

Korelace prodejů různých typů zboží
Korelace prodejů různých typů zboží

Závislost počtu prodaných kusů na ceně a čase
Závislost počtu prodaných kusů na ceně a čase

Často může být užitečné obohatit vlastní data o „půjčené" externí databáze, které jsou dostupné třeba na internetu. Můžeme tak zkoumat jak obchod ovlivňují změny okolních podmínek. V našem případě použijeme databáze záznamů o počasí v ČR (třeba se nějaké zboží prodává spíše, když mrzne, nebo je teplo) a disponibilních příjmů v krajích (zajímá nás nejen geografická distribuce prodejů, ale jak velkou část ze svých volných prostředků u nás zákazníci zanechají).

Stejně tak bychom mohli sledovat i údaje o cenách konkurence, marketingových investicích a tak dále, ale to už by byl jiný, mnohem složitější příklad.

Geografická distribuce prodejnosti zboží
Geografická distribuce prodejnosti zboží

Závislost prodeje zboží na počasí
Závislost prodeje zboží na počasí

Hledání nejméně špatného modelu

Z vybraných grafů a jejich popisu je patrné, že naše data nějaké to „štěstí" v podobě různých v čase se měnících závislostí a opakujících se vzorů obsahují. Předhoďme je tedy počítači, aby v nich našel a naučil se hledat vzorce chování, umožňující odhadnout budoucí vývoj. Data rozdělíme na dvě části. První použijeme k učení a vytváření prediktivního modelu a druhou pak ke kontrole jeho přesnosti.

V našem vzorovém příkladu data představují spojitou tříletou řadu obchodních transakcí, a proto necháme počítač učit na prvních dvou letech a k testování použijeme rok třetí. Po počítači chceme, aby se naučil předpovídat počet prodaných kusů určitého zboží v určitý den v případě, že zná cenu. Výsledný model tedy bude fungovat jako jednoduchý automat, do kterého vložíme datum a cenu zboží a on nám vrátí pravděpodobný počet prodaných kusů.

Predikce počtu prodaných kusů v závislosti na ceně
Predikce počtu prodaných kusů v závislosti na ceně

Nejlepší z modelů dosáhl na testovacích datech 80% úspěšnosti, což znamená, že se mýlil jen ve 20 % případů. V osmi z deseti případů jsme tedy schopní dopředu nastavit cenu zboží tak, abychom maximalizovali zisk, tržby nebo počet prodaných kusů podle toho, kterou z těchto strategií budeme sledovat.

Podstatnou vlastností takto konstruovaného prediktivního modelu je jeho automatická aktualizace na základě nově příchozích dat. I když to není univerzální pravidlo, významnost dat pro předpověď většinou klesá s jejich stářím. Je tedy namístě model aktualizovat o nejnovější data tak, aby předpověď na zítřek vycházela již ze včerejších dat.

Paretovo pravidlo v datové analytice

Stejně jako v ekonomii platí i v datové analytice pravidlo, že 80 % důležitých výsledků, které mají potenciál vydělat vám peníze, vychází z 20 % analýz. Podstatné tedy není, kolik grafů a tabulek připravíte, ale jaké analýzy provedete a zda jste schopni správně formulovat otázky. Dnešní popularita nástrojů umožňujících snadné generování vizualizací a rychle zastarávajících statických modelů u lidí, kteří nemají základní průpravu ve statistice a zpracování dat, bohužel vede ke špatným koncům a diskreditaci celého oboru. Datovou vědu totiž nahrazují omalovánky „datové vědičky".

Pozor na homeopatickou statistiku

Množství informací uložených v určitém množství dat je konečné, někdy dokonce zcela nepatrné, a nijak nesouvisí s množstvím z nich vygenerovaných grafů a tabulek. Právě naopak, podstatné informace v nich mohou být tak naředěné, že je jejich nalezení stejně pravděpodobné jako předávkování homeopatickými prášky na spaní. Dejte si proto pozor na systémy umožňující bezmyšlenkovité generování univerzálních předpřipravených reportů a nejprve se poraďte s někým, kdo se alespoň trošku vyzná ve statistice.

Pokora a opatrnost až na prvním místě

Výše uvedený postup je samozřejmě velkým a místy i stěží přípustným zjednodušením postupů prediktivní analytiky. Je pravda, že tak 80 % času strávíte přípravou a úpravou dat do použitelného tvaru, že vás čeká řada hořkých zklamání i radosti nad falešně pozitivními výsledky a mnoho dalších problémů. Nechtěl jsem vás strašit, chtěl jsem vás nadchnout pro možnost využití strojového učení ke zlepšení výkonnosti vaší firmy.

Na druhou stranu bych vás chtěl závěrem varovat před přílišným sebevědomím, které přijde s prvními úspěchy. Přestat kriticky myslet, být zaslepený jedním naučeným postupem a slepě ho aplikovat bez ohledu na to, zda je vhodný či ne, vás spolehlivě dovede do problémů. Jak říká kolega: „Nebezpečí spočívá v tom, že se naučíte ovládat kladivo a naráz se pro vás všechny předměty v okolí promění v hřebík."

Převzato z časopisu Connect. Autor článku: Jan Janča, Gauss Algorithmic

Tisknout Vaše hodnocení:

Související články

Diskuse k článku

+ Nový příspěvek