TEXT MINING

Termín:
 • bude upřesněn
 • (9:00 - 16:30 hodin)
Forma:
 • prezenční: Krakovská 7, Praha 1
 • online: aplikace MS Teams
Cena:6 800 Kč / 270 € + 21% DPH
Úroveň:středně pokročilý
Jazyk:český
Počet dnů:
 • 1 den
 • (8 výukových hodin)

ÚVOD

Tradiční dataminingové postupy umožňují extrahovat a využít užitečnou informaci z elektronických dat uložených ve strukturovaném tabulkovém formátu. Většina elektronických dat je však nestrukturovaná. Textové dokumenty, jako jsou například emaily, novinové články, vědecké publikace, zápisky z call center, korespondence na sociálních sítích nebo jen komentáře k produktům nabízejí také množství skryté informace, jež může dataminingové predikce významně zkvalitnit. Skrytou informaci v textech je třeba extrahovat do strukturovaných atributů, aby se dala použít pro následné modelování. Díky vlastnostem a bohatosti přirozených jazyků je extrakce klíčových atributů z textu značně specifická, atributy musí být navíc citlivě vybrány i s ohledem na řešenou textminingovou nebo dataminingovou úlohu.

CÍL VZDĚLÁVACÍHO PROGRAMU

Textminingový kurz seznámí účastníky s metodami extrakce klíčových vlastností z textu a s jejich využitím při predikčním modelování. Pro extrakci vlastností z textu budeme používat metody statistického zpracování přirozených jazyků (NLP). Ty umožní detekovat koncepty a skrytá témata, která lze díky variabilitě a bohaté slovní zásobě přirozených jazyků vyjádřit mnoha způsoby. V kurzu budou probírány extrakce příznaků na různých úrovních: od písmenných skupin zvaných n-gramy přes termíny až po komplexní sémantická témata a jejich vlastností. Příkladem extrakce komplexních vzorů z textu může být analýza sentimentu, kdy rozeznáváme kladné a záporné postoje autora. Metody statistického zpracování přirozených jazyků musí být nezbytně podporovány mnoha lingvistickými zdroji ve formátu slovníků a pravidel. Účastníci se seznámí i s touto jazykovou oporou, aby byli schopni vhodně vybrat a případně modifikovat lingvistické zdroje pro konkrétní úlohu.

KURZ JE URČEN

Kurz je určen pro analytiky, marketingové pracovníky, žurnalisty a vyšetřovatele, kteří potřebují zpracovat větší množství textů, aniž by museli všechny dokumenty přečíst, a využít získanou informaci k rozhodování.

PŘEDPOKLADY

Pro úspěšné absolvování kurzu postačí uživatelská znalost práce na počítači. Jako úvod do obecnější problematiky data miningu doporučujeme například přehledový dataminingový kurz Datová věda - dolování znalostí z DTB.

PŘÍNOS ÚČASTI NA KURZU

Účastníci se seznámí s metodami anotace textových dat nezbytnými pro extrakci užitečných atributů. Budou schopni navrhnout postup automatického zpracování textové kolekce.

POPIS OBSAHU A POSTUPU

Výuka textminingových postupů probíhá za podpory softwaru IBM SPSS Modeler Professional, IBM SPSS Modeler Text Analytics a modulu ACREA Text Mining.

PROGRAM KURZU

 • úlohy text miningu

 • strukturovaná reprezentace textových dokumentů

 • získání a indexace textové kolekce

 • procedury zpracování textu a jejich řazení

 • extrakce konceptů, jejich vlastností a komplexních vzorů

 • redukce dimenzionality extrahovaných atributů

 • analýza obsahu

 • klasifikace a seskupování dokumentů

 • vyhledávání v kolekci

 • dataminingové úlohy s podporou textových dat

 • správa a modifikace lingvistických zdrojů

Ve výjimečných případech změna programu vyhrazena dle zaměření
a zkušeností dané skupiny účastníků.