fbpx

Stáhněte si skripty k softwaru IBM SPSS Statistics

Baeysovská statistika má své kořeny poměrně hluboké a dávné. Vždyť slavné pojednání reverenda Bayese (1763), které obsahuje Bayesův teorém vyšlo již před více než 250 lety. Od té doby lze datovat rozvoj statistiky, které dnes říkáme dle jejího zakladatele bayesovská či pouze bayesiánství. Zatímco základní myšlenka byla prostá a bylo možné jí teoreticky dále rozvíjet (což se dělo), aplikace bayesovských přístupů na empirická data byla obtížná, v některých případech nemožná. Tyto aplikace umožnil až rozvoj moderní výpočetní techniky a příslušných výpočetních algoritmů založený na simulacích. Druhá větev statistiky by mohla nést jméno fisherovská, ale to se používá jen okrajově, mnohem častější je výraz frekvenční či četnostní statistika[1].

Každý je Bayesiánec (aneb Bayes v našich životech)

Nadpis této části může mnohé překvapit. Zkusme si na příkladu z reálného života ukázat, že koncepce bayesovské statistiky se běžně uplatňuje v našich životech a je nám de facto vlastní. Představme si, že jdeme na setkání s neznámým člověkem. Rádi bychom vedli odbornější konverzaci na úrovni složitosti, která by odpovídala vzdělání tohoto jedince, které ovšem neznáme. Můžeme pouze využít znalosti statistických údajů (vzdělání bez maturity má 25 % osob, maturitní 55 % a zbylých 20 % má vysokoškolské vzdělání). Tuto základní informaci nazýváme apriorní informací případně ve statistice apriorním rozdělením, protože na vzdělání statistik nahlíží jako na proměnnou a každou proměnnou lze popsat jejím zákonem rozdělení. Pokud například víme, že dotyčný je ve věku 30 let, lze tuto informaci využít a rozdělení vzdělání bude jiné (podmíněné znalostí věku) a vysokoškoláků bude již např. 35 %. Obdobně budu-li mít znalost, že oba rodiče neznámého mají vysokoškolské vzdělání, zjistím ze vzdělanostních výzkumů (nebo prostou intuicí), že pravděpodobnost, že dotyčný bude mít sám vysokoškolské vzdělání je již 60 %. Dodejme, že s neznámým v takové situaci začneme nejspíše mluvit komplikovaněji a teprve, když zjistíme, že nejspíš není absolventem vysoké školy svůj slovník přizpůsobíme[2].

Právě představený koncept aktualizace pravděpodobnostních rozdělení skrze další informace je základem Bayesovské statistiky. Vycházíme z nějaké apriorní informace (lepší či horší dle její dostupnosti a naší snahy) a tu doplňujeme empirickými daty a získáme tzv. aposteriorní rozdělení námi sledované veličiny. Navíc naše výsledky (aposteriorní rozdělení) se stávají apriorními informacemi pro další výzkumníky. Dochází tak ke kumulaci informací z našich dat a předchozích výsledků. Zde vidíme základní rozdíl mezi Bayesovským a frekvenčním přístupem. Bayesovská statistika je kombinací informace dříve známé a informace získané z našich dat, která analyzujeme. Frekvenční statistika využívá pouze informace z našich aktuálních dat.

Bayesův vzorec a jeho použití na jednoduchém příkladu (Co lze z Bayese spočítat bez software?)

Pro serióznější představení Bayesovského přístupu rekapitulujeme základní poučku tzv. Bayesův vzorec (teorém). Jde o formální vyjádření představené myšlenky, tj. postupu, jak z apriorních informací doplněných našimi daty lze získat aposteriorní informaci. Prvním konceptem, který si musíme představit je podmíněná pravděpodobnost. Jde o pravděpodobnost, jejíž hodnota záleží na nějaké podmínce. Podmíněnou pravděpodobností je například zmíněná pravděpodobnost, že dotyčný je vysokoškolák, za podmínky, že víme, že jeho rodiče mají VŠ vzdělání (případně má 30 let). Formálně zapisujeme nepodmíněnou pravděpodobnost nějakého jevu (pro náhodné jevy většinou užíváme velká písmena z počátku abecedy) P(A), podmíněnou pravděpodobnost zapisujeme P(A/B), kde A značí jev, který nás zajímá (například vzdělání jedince) a B podmínku (například skutečnost, že rodiče mají VŠ vzdělání).

Bayesův vzorec pak umožňuje v případě, že známe pravděpodobnost jevu B (apriorní) a podmíněnou pravděpodobnost jevu A za podmínky B (výsledek našich dat), stanovit podmíněnou pravděpodobnost jevu B za podmínky výskytu jevu A. Formálně vypadá Bayesův vzorec následovně:

 

(1.1).

 

Pro výpočet potřebujeme znát podmíněnou pravděpodobnost jevu A za podmínky B, pravděpodobnost jevu B a pravděpodobnost jevu A. Pravděpodobnost jevu A lze určit ze vzorce:

 

rovnice

(1.2)

Abychom přispěli k pochopení vzorce, uveďme jednoduchý příklad[3]. Představme si, že příslušnou diagnózu má v populaci 5 % osob. Formálně tento jev označme písmenem B, tj. P(B=1) = 0,05. Diagnostický postup (jev A), který se používá v medicíně odhalí nemoc s pravděpodobností 0,85, tj. P(A/B=1) = 0,85. Snadno dopočteme, že P(B=0) = 0,95, resp. P(A/B=0) = 0,15. Nyní již tedy můžeme odpovědět klíčovou otázku. Jaká je pravděpodobnost, že mám příslušnou diagnózu za podmínky, že výsledek vyšetření byl pozitivní, tj. hledáme hodnotu P(B/A).

Dosazení do vzorce je snadné: (0,85*0,05)/ ((0,15*0,95)+ (0,85*0,05)) = 0,23.

Překvapení je tedy na světě, i když výsledek diagnostiky (poměrně spolehlivé) je pozitivní, pravděpodobnost, že jsme opravdu nemocní je necelá čtvrtina. Je patrné, že znalost Bayesova vzorce nám může ušetřit mnohé psychické stresy v ambulancích lékařů, ale jak jsme již předestřeli výše, může nám pomoci i v běžném sociálním životě.

V praxi používáme bayesovskou statistiku pro složitější úlohy. Můžeme ji využít například pro srovnání průměrů ve dvou skupinách (typicky řešené ve frekvenční statistice skrze t-testy), více skupinách (typicky řešené analýzou rozptylu), souvislosti spojitých proměnných (typicky řešíme skrze korelace či regrese). Všechny tyto úlohy lze nyní bayesovsky řešit i v SPSS. Právě tomu je věnován kurz Úvod do bayesovské analýzy.


[1] V češtině není ani jeden z překladů anglického výrazu „frequentism“ ustálen, používáme proto převzatého výrazu frekvenční statistika.

[2] Samozřejmě se nabízí mnoho aplikací z oblasti karetních či hazardních her. Tyto příklady pro jejich hojné užívání vynecháváme.

[3] Volíme oblíbené příklady z medicíny. Důvody jsou minimálně dva. Prvním je skutečnost, že každý z nás se v životě potkává z různými vyšetřeními a pozitivní výsledky nás děsí (často neoprávněně). Druhým důvodem je velká oblíbenost a snadná srozumitelnost těchto příkladů.

PhDr. Ing. Petr Soukup, Ph.D.
Vystudoval Fakultu informatiky a statistiky na VŠE Praha, na Fakultě sociálních věd Karlovy univerzity získal v oboru sociologie titul Ph.D. a je také absolventem práva na Právnické fakultě Karlovy univerzity. Působí na FSV UK jako odborný asistent. Ve výuce se věnuje analýze dat a sociologii. S Českou školní inspekcí spolupracuje na mezinárodních vzdělávacích výzkumech. Své odborné znalosti předává i v rámci kurzů Centra výuky ACREA a také v bohaté publikační činnosti.
Komentáře

Přidat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů