Utrpení mladého analytika

Pokud máte za sebou alespoň jeden projekt týkající se analýzy dat, pak se vám téměř jistě stalo, že jeho výsledná náročnost byla úplně jiná, než na začátku avizovaná. Projekt byl samozřejmě mnohem náročnější, než jste si na začátku mysleli. Nám se to naposledy stalo s projektem, jehož cílem bylo zanalyzovat výkonnost pracovníků.

Na začátku bylo docela jednoduché zadání. Je rozdíl mezi výkonností mužů a žen? Má na výkonnost vliv vzdělání? Ovlivňuje výkon pracovníka jeho rodinné zázemí? Občas se tam objevila i drobná perlička, jako třeba najít limit ve výkonnosti a zjistit, zda v čase klesá. Nicméně většina úkolů se zdála být řešitelná jednoduchým t-testem nebo analýzou rozptylu. Jenomže pak jsme uviděli data.

Místo toho, aby jeden řádek v datové matici představoval jednoho pracovníka, tak jeden řádek představoval pracovníka v čase. Tedy každý jedinec měl několik záznamů, protože testy výkonnosti probíhaly každý měsíc po dobu několika let. Ale splňují taková data předpoklad o nezávislosti? Lze aplikovat t-test nebo ANOVU, jak jsme si na začátku mysleli? Samozřejmě, že nikoliv. Jinak by tento článek asi ani nevznikl.

Jednalo se o opakovaná pozorování a dá se předpokládat, že výkon jednoho pracovníka v lednu je nějak zkorelovaný s jeho výkonem v únoru. Taková úloha se pak místo t-testu musí řešit smíšeným lineárním modelem. Před tím je samozřejmě potřeba prozkoumat nezávislé proměnné, v případě potřeby je linearizovat, proměnné s více kategoriemi sloučit například stromem a tak dále a tak dále. O tom třeba zase příště. Vytvořit kvalitní komplexní model je náročnější než udělat několik nezávislých t-testů či analýz rozptylu, a tak náročnost celého projektu byla oproti původnímu plánu zhruba dvojnásobná.

Nicméně tak už to bývá a i s tím je třeba umět pracovat. Jaký váš projekt vás takto nemile překvapil, respektive co bylo důvodem jeho zvýšené náročnosti? Stalo se vám někdy, že to bylo naopak – náročnost projektu byla mnohem menší, než se předpokládalo?

Rádi byste se o statistice a analýze dat dozvěděli více? Chcete se stát mistrem ve svém oboru nebo si jen potřebujete doplnit znalosti? V ACREA nabízíme širokou nabídku kurzů pro váš profesní růst. Máte-li jiný dotaz. Nebojte se využít naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.

společnost ACREA
ACREA CR je českou analytickou společností s tradicí od roku 1998. Poskytuje analytické, statistické a dataminingové služby, školení a software z řady IBM SPSS a Predictive Solutions. Název firmy je zkratkou pro Analytical CREAtivity, která vyjadřuje, že každý analytický projekt je pro nás unikátní a ke každému přistupujeme individuálně.
Komentáře

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů