SEMESTRÁLNÍ KURZ:
Datová věda - cesta od dat k akční znalosti

Termín:
  • 20. 2. - 12. 6. 2025
  • (9:00 - 12:15 hodin)
Forma:
  • prezenční: Krakovská 7, Praha 1
  • online: aplikace MS Teams
Cena:39 900 Kč / 1 600 € + DPH
Cena s videozáznamem:
  • 53 200 Kč / 2 130 € + DPH
  • (dostupnost videozáznamu 3 měsíce)
Úroveň:základní
Jazyk:český
Počet dnů:
  • 14 půldenních lekcí
  • (56 výukových hodin)
  • každý čtvrtek dopoledne

ÚVOD

Data mining umožňuje extrahovat z elektronických dat klíčové vzory chování potřebné k optimalizaci rozhodovacích postupů. Své uplatnění nachází napříč všemi sférami, portfolio dataminingových úloh se stále rozrůstá. Mezi dataminingové úlohy patří například predikce selhání dlužníka, detekce podvodů, predikce odchodu ke konkurenci, doporučování služeb nebo predikce selhání stroje. Také zdroje, z nichž data čerpáme, neustále přibývají. Kromě dat z relačních databází zpracováváme texty, obrázky či data ze sociálních sítí. Dataminingové predikční modely po implementaci do predikčních procesů významně zhodnotí investice vložené do získávání dat a budování modelů.

CÍL VZDĚLÁVACÍHO PROGRAMU

Semestrální kurz je založen a strukturován podle obecně přijaté metodologie CRISP-DM (Cross Industry Standard Process for Data Mining). Ve čtrnácti půldenních lekcích se posluchači seznámí s přístupy a principy metod data miningu a na konkrétních datech z různorodých datových zdrojů si podrobně procvičí postupy ze všech šesti fází metodologie CRISP-DM. Probíraná látka je prokládána praktickými příklady. S účastníky diskutujeme dostupnost potřebných dat, nastavení predikčních algoritmů a nástrahy nasazovaní řešení do procesů. Důraz je kladen na získání dostatečného nadhledu nad řešenou úlohou, jejíž řešení je třeba dekomponovat na dílčí etapy. Výuka probíhá za podpory profesionálního dataminingového softwaru IBM SPSS Modeler (PS CLEMENTINE). Tento software bezplatně zapůjčíme účastníkům kurzu po celou dobu jeho trvání.

KURZ JE URČEN

Kurz je určen analytikům, řešitelům dataminingových projektů, pracovníkům marketingu, IT specialistům i všem ostatním, kteří se chtějí hlouběji seznámit s praktickou aplikací dataminingových metod a postupů.

PŘEDPOKLADY

Základní znalosti popisné statistiky a ovládání PC. Uživatelská znalost softwaru se nepředpokládá.

PŘÍNOS ÚČASTI NA KURZU

Účastníci budou schopni samostatně naplánovat dataminingový projekt, načíst a připravit data z různých datových zdrojů, vybudovat predikční model a nasadit řešení do praxe. Budou znát podstatu používaných dataminingových modelů a naučí se využívat všechny nezbytné datové manipulace. Díky cvičením a domácím úlohám se stanou i středně pokročilými uživateli softwaru IBM SPSS Modeler.

POPIS OBSAHU A POSTUPU

Na pozadí jednotlivých fází metodologie CRISP-DM budou procvičovány běžné postupy z dataminingové praxe. Během kurzu si účastníci vyzkouší řešení úloh z různých odvětví a seznámí se s různými typy a zdroji malých i velkých dat. Výuka probíhá především za podpory dataminingového softwaru IBM SPSS Modeler, některé postupy si ukážeme i v jiných softwarech nebo je zapíšeme v jazyce Python. Zhruba polovina každé lekce je věnována teoretickému úvodu do problematiky, v druhé části se nabyté znalosti prakticky procvičují. Účastníci mezi lekcemi samostatně řeší drobné domácí úlohy, které na začátku výuky prezentují ostatním.

PROGRAM KURZU

  •  metodologie CRISP-DM, klasifikace dataminingových úloh
  • definování cílů a plánování dataminingového projektu
  • napojení na interní a externí datové zdroje, big data, datový audit
  • datové manipulace, příprava a kombinování dat pro modelování
  • nestrukturovaná data a jejich příprava
    • lineární a logistické regrese
    • neuronové sítě
    • rozhodovací stromy
    • asociační pravidla
    • seskupování 
  • kombinování modelů
  • evaluace a odhad přínosů řešení
  • nasazení optimalizačních postupů do praxe

Ve výjimečných případech změna programu vyhrazena dle zaměření a zkušeností dané skupiny účastníků.