Predikce – nehádejte z karet, ale použijte statistický model

Blog - predikce

Predikce je pojem známý nejen ze statistiky, obecně se dá říci, že je to výrok o události, která nastane v budoucnu, český termín je předpověď. Předpověď není založena na náhodě (hádaní, věštba), ale vychází ze znalosti současnosti a minulosti. Metody předpovědi se liší, ale často vycházejí z vědeckých teorií.

Oblast, která se predikcemi hodně zabývá, je statistika. Predikce je ale chápana poněkud šířeji než klasická předpověď budoucnosti. Statistika konstruuje predikce i v situaci, kdy neznámé hodnoty nesouvisí s budoucím časem. Např. statistika stanoví pravděpodobnost určité diagnózy u pacienta v závislosti na výsledcích fyziologických měření. U konkrétního pacienta pak predikujeme, zda diagnóza nastala či nikoliv, nejedná se tedy o předpověď budoucnosti, ale současného neznámého stavu. Na druhou stranu se statistika omezuje pouze na číselné předpovědi.

Výhoda statistiky při vytváření předpovědí spočívá v tom, že není nutně potřeba znát vědeckou teorii týkající se předpovídaného problému. Její znalost je jistě výhodnou, ale není nutná. Statistika tak dovoluje předpovídat situace, které jsou teoreticky velmi složité, nebo kde přesnou teorii ani neznáme. Způsob, kterým statistika předpovídá neznámé, je založen na statistickém modelu.

Statistika předpovídá hodnotu konkrétní proměnné, případně skupiny proměnných, např. budoucí HDP, její předpověď je v podstatě nějaké číslo. Proměnné, kterou předpovídáme, se říká, závislá, vysvětlovaná, predikovaná nebo cílová. Při předpovědi se vychází z toho, že cílová proměnná je nějak ovlivněna jinými proměnnými, těm se říká nezávislé, vysvětlující nebo prediktory. Při předpovědi známe hodnoty prediktorů, ale neznáme hodnotu cílové proměnné, tu právě určíme modelem.

Statistický model vyjadřuje, jak závisí cílová proměnná na prediktorech. Klíčovou skutečností je, že model nemusí zachycovat, a v praxi téměř nikdy nezachycuje, řetězec příčin a následků, kterým prediktory určují cílovou proměnnou. Ve skutečnosti bývá model určitým zjednodušením reality. Model nemá ambici předpovědět cílovou proměnnou zcela přesně a vždy se v něm počítá s nějakou chybou. Model je tím lepší, čím je chyba menší.

Při konstrukci předpovědi se nejprve zvolí model, který zachycuje naši představu o charakteru závislosti, pak se odhadnou parametry modelu a podle odhadnutého modelu se spočítá předpověď. Model totiž není neměnná konstrukce, ale obsahuje neznámé parametry, které ho dovolují přizpůsobit konkrétní situaci. Např. chceme modelovat závislost spotřeby paliva na otáčkách spalovacího motoru, jako model stanovíme přímku o rovnici

spotřeba = a + b*otáčky + e,

kde a a b jsou neznámé parametry a e je chyba modelu.

Blog - predikce

Neznámé parametry je třeba určit. K tomu je nutné mít tzv. historická data, což je množina případů, kde známe jak cílovou proměnnou, tak všechny prediktory. Během odhadování modelu se snažíme neznámé parametry volit tak, aby náš model co nejlépe vyjadřoval závislost na historických datech.

Odhadnutý model zachycuje empirickou závislost, tedy závislost nalezenou v datech, ta ale nemusí vůbec odpovídat skutečné závislosti, která může být velmi složitá a pro jejíž odhalení třeba ani nemáme k dispozici všechny prediktory. Uvedená rovnice pro spotřebu může s dobře odhadnutými parametry dávat přesné předpovědi spotřeby, ale neznamená to, že jsme tím našli přesný teoretický model spotřeby. Spotřeba bude pravděpodobně záviset na dalších proměnných, jako je zatížení motoru, viskozita oleje, materiál bloku motoru apod. závislost na otáčkách také asi nebude přesně lineární.

Přesto, že modely nepopisují skutečné závislosti, používají se běžně pro předpovědi. K tomu nás opravňuje fakt, že na historických datech model závislost popsal, a předpoklad, že při dosazení nové hodnoty do modelu, dá opět přesnou předpověď. Nicméně je nutno vždy postupovat s rozmyslem. Model máme ověřen jen pro hodnoty prediktorů v intervalu, který odpovídá historickým datům. Dosazení hodnoty zcela mimo tento interval může vést k špatným předpovědím. Např. pokud model se spotřebou byl odhadnut na otáčkách 1000 – 5000 ot/min, je jeho předpověď pro otáčky 10 000 velmi nespolehlivá.

Hlavním úkolem při hledání předpovědí je zvolit vhodný model. Statistika odvodila mnoho typů algoritmů pro modelování, liší se zejména charakterem cílové proměnné. Jsou modely vhodné pro předpověď číselné cílové proměnné i modely pro předpověď cílové proměnné, která nabývá jen konkrétních nečíselných hodnot (např. vzdělání, barva atd.) – kategorizovaná proměnná. Velmi široce propracovanou variantou je modelování dvouhodnotové proměnné (jev nastal nebo nenastal). Volba modelovacího algoritmu závisí kromě jeho přesnosti i na možnosti jeho interpretace. Nejsnáze se interpretují modely ve tvaru rovnice. Při interpretaci je ale nutné vždy mít na paměti, že náš model je jen empirický konstrukt.

Odhad parametrů modelu dnes není pro uživatele nijak náročný, ovšem za předpokladu, že má vhodný statistický software. Bez něj je nutno se omezit jen na základní, nejjednodušší modelovací algoritmy. Ale i se statistickým softwarem zbývá pro uživatele dost úkolů. Nejtěžším z nich je připravit data. Není zde prostor hovořit obecně o jejich přípravě, jen poznamenejme, že příprava dat je také ovlivněna zvoleným modelovacím algoritmem. Každý model má určité předpoklady, ke kterým bychom se měli co nejvíce přiblížit. Práce nekončí v momentě, kdy je model odhadnut, ale je třeba ho ještě ověřit. Některé ukazatele kvality modelu jsou standardní součástí samotných modelovacích algoritmů, ale je vhodné ověřit i samotnou predikční schopnost modelu. Za tímto účelem rozdělíme historická data na část, kde se model odhadne (trénovací množina), a na část, kde srovnáme předpovědi modelu a skutečné hodnoty (testovací množina). Statistiky opět nabízí širokou škálu ukazatelů shody předpovědi a skutečnosti.

Je-li model v pořádku, můžeme používat jeho předpovědi. Obvykle se nespokojíme se samotnou předpovědí, ale budeme požadovat i doplňující informace. U číselných předpovědí jsou to obvykle intervaly spolehlivosti. Ty jsou vytvořeny tak, že skutečná hodnota leží v intervalu se zvolenou pravděpodobností, nejčastěji 95%. U kategorizovaných proměnných je to pravděpodobnost předpověděné kategorie. Předpovědi a doplňující informace získáme tak, že do modelu dosadíme hodnoty prediktorů neznámého případu a spočítáme předpověď. I zde je vhodné použít statistického softwaru, protože některé modely nejsou jednoduchá rovnice a spočítat předpověď je výpočetně náročné.

Ing. Ondřej Brom
lektor, analytik a odborný konzultant ve společnosti ACREA. Ve své profesní kariéře se zaměřuji na analytickou činnost převážně v oblasti data miningu. V nemalé míře se podílím na odborné konzultantské činnosti pro oblast aplikace a využití softwarových řešení společnosti ACREA.
Komentáře

Přidat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů