TEXT MINING

- individuální výuka

Termín:	dle dohody (9:00 - 16:30 hodin)
Forma:	prezenční: Krakovská 7, Praha 1 online: aplikace MS Teams
Cena:	8 900 Kč / 360 € + DPH
Cena s videozáznamem:	11 900 Kč / 480 EUR + DPH (dostupnost videozáznamu 3 měsíce)

Úroveň:	středně pokročilý
Jazyk:	český
Rozsah:	1 den (8 výukových hodin)

Objednat kurz

ÚVOD

Tradiční dataminingové postupy umožňují extrahovat a využít užitečnou informaci z elektronických dat uložených ve strukturovaném tabulkovém formátu. Většina elektronických dat je však nestrukturovaná. Textové dokumenty, jako jsou například emaily, novinové články, vědecké publikace, zápisky z call center, korespondence na sociálních sítích nebo jen komentáře k produktům nabízejí také množství skryté informace, jež může dataminingové predikce významně zkvalitnit. Skrytou informaci v textech je třeba extrahovat do strukturovaných atributů, aby se dala použít pro následné modelování. Díky vlastnostem a bohatosti přirozených jazyků je extrakce klíčových atributů z textu značně specifická, atributy musí být navíc citlivě vybrány i s ohledem na řešenou textminingovou nebo dataminingovou úlohu.

CÍL VZDĚLÁVACÍHO PROGRAMU

Textminingový kurz seznámí účastníky s metodami extrakce klíčových vlastností z textu a s jejich využitím při predikčním modelování. Pro extrakci vlastností z textu budeme používat metody statistického zpracování přirozených jazyků (NLP). Ty umožní detekovat koncepty a skrytá témata, která lze díky variabilitě a bohaté slovní zásobě přirozených jazyků vyjádřit mnoha způsoby. V kurzu budou probírány extrakce příznaků na různých úrovních: od písmenných skupin zvaných n-gramy přes termíny až po komplexní sémantická témata a jejich vlastností. Příkladem extrakce komplexních vzorů z textu může být analýza sentimentu, kdy rozeznáváme kladné a záporné postoje autora. Metody statistického zpracování přirozených jazyků musí být nezbytně podporovány mnoha lingvistickými zdroji ve formátu slovníků a pravidel. Účastníci se seznámí i s touto jazykovou oporou, aby byli schopni vhodně vybrat a případně modifikovat lingvistické zdroje pro konkrétní úlohu.

KURZ JE URČEN

Kurz je určen pro analytiky, marketingové pracovníky, žurnalisty a vyšetřovatele, kteří potřebují zpracovat větší množství textů, aniž by museli všechny dokumenty přečíst, a využít získanou informaci k rozhodování.

PŘEDPOKLADY

Pro úspěšné absolvování kurzu postačí uživatelská znalost práce na počítači.

PŘÍNOS ÚČASTI NA KURZU

Účastníci se seznámí s metodami anotace textových dat nezbytnými pro extrakci užitečných atributů. Budou schopni navrhnout postup automatického zpracování textové kolekce.

POPIS OBSAHU A POSTUPU

Výuka textminingových postupů probíhá za podpory softwaru IBM SPSS Modeler Professional, IBM SPSS Modeler Text Analytics a modulu ACREA Text Mining.

PROGRAM KURZU

úlohy text miningu
strukturovaná reprezentace textových dokumentů
získání a indexace textové kolekce
procedury zpracování textu a jejich řazení
extrakce konceptů, jejich vlastností a komplexních vzorů
redukce dimenzionality extrahovaných atributů
analýza obsahu
klasifikace a seskupování dokumentů
vyhledávání v kolekci
dataminingové úlohy s podporou textových dat
správa a modifikace lingvistických zdrojů

Ve výjimečných případech změna programu vyhrazena dle zaměření
a zkušeností dané skupiny účastníků.

LEKTOR

TEXT MINING

ÚVOD

CÍL VZDĚLÁVACÍHO PROGRAMU

KURZ JE URČEN

PŘEDPOKLADY

PŘÍNOS ÚČASTI NA KURZU

POPIS OBSAHU A POSTUPU

PROGRAM KURZU

LEKTOR

Mgr. Ondřej Háva, Ph.D.

INFORMACE

Přehled vypsaných kurzů

Organizační informace ke kurzu

POUŽÍVANÝ SOFTWARE

IBM SPSS Modeler Professional

IBM SPSS Modeler Text Analytics

ACREA Text Mining

PŘEČTĚTE SI

V čem se liší text mining od data miningu?