TEXT MINING

Termín:
  • bude upřesněn
  • (9:00 - 16:30 hodin)
Forma:
  • prezenční: Krakovská 7, Praha 1
  • online: aplikace MS Teams
Cena:6 800 Kč / 270 € + 21% DPH
Úroveň:středně pokročilý
Jazyk:český
Počet dnů:
  • 1 den
  • (8 výukových hodin)

ÚVOD

Tradiční dataminingové postupy umožňují extrahovat a využít užitečnou informaci z elektronických dat uložených ve strukturovaném tabulkovém formátu. Většina elektronických dat je však nestrukturovaná. Textové dokumenty, jako jsou například emaily, novinové články, vědecké publikace, zápisky z call center, korespondence na sociálních sítích nebo jen komentáře k produktům nabízejí také množství skryté informace, jež může dataminingové predikce významně zkvalitnit. Skrytou informaci v textech je třeba extrahovat do strukturovaných atributů, aby se dala použít pro následné modelování. Díky vlastnostem a bohatosti přirozených jazyků je extrakce klíčových atributů z textu značně specifická, atributy musí být navíc citlivě vybrány i s ohledem na řešenou textminingovou nebo dataminingovou úlohu.

CÍL VZDĚLÁVACÍHO PROGRAMU

Textminingový kurz seznámí účastníky s metodami extrakce klíčových vlastností z textu a s jejich využitím při predikčním modelování. Pro extrakci vlastností z textu budeme používat metody statistického zpracování přirozených jazyků (NLP). Ty umožní detekovat koncepty a skrytá témata, která lze díky variabilitě a bohaté slovní zásobě přirozených jazyků vyjádřit mnoha způsoby. V kurzu budou probírány extrakce příznaků na různých úrovních: od písmenných skupin zvaných n-gramy přes termíny až po komplexní sémantická témata a jejich vlastností. Příkladem extrakce komplexních vzorů z textu může být analýza sentimentu, kdy rozeznáváme kladné a záporné postoje autora. Metody statistického zpracování přirozených jazyků musí být nezbytně podporovány mnoha lingvistickými zdroji ve formátu slovníků a pravidel. Účastníci se seznámí i s touto jazykovou oporou, aby byli schopni vhodně vybrat a případně modifikovat lingvistické zdroje pro konkrétní úlohu.

KURZ JE URČEN

Kurz je určen pro analytiky, marketingové pracovníky, žurnalisty a vyšetřovatele, kteří potřebují zpracovat větší množství textů, aniž by museli všechny dokumenty přečíst, a využít získanou informaci k rozhodování.

PŘEDPOKLADY

Pro úspěšné absolvování kurzu postačí uživatelská znalost práce na počítači. Jako úvod do obecnější problematiky data miningu doporučujeme například přehledový dataminingový kurz Datová věda - dolování znalostí z DTB.

PŘÍNOS ÚČASTI NA KURZU

Účastníci se seznámí s metodami anotace textových dat nezbytnými pro extrakci užitečných atributů. Budou schopni navrhnout postup automatického zpracování textové kolekce.

POPIS OBSAHU A POSTUPU

Výuka textminingových postupů probíhá za podpory softwaru IBM SPSS Modeler Professional, IBM SPSS Modeler Text Analytics a modulu ACREA Text Mining.

PROGRAM KURZU

  • úlohy text miningu

  • strukturovaná reprezentace textových dokumentů

  • získání a indexace textové kolekce

  • procedury zpracování textu a jejich řazení

  • extrakce konceptů, jejich vlastností a komplexních vzorů

  • redukce dimenzionality extrahovaných atributů

  • analýza obsahu

  • klasifikace a seskupování dokumentů

  • vyhledávání v kolekci

  • dataminingové úlohy s podporou textových dat

  • správa a modifikace lingvistických zdrojů

Ve výjimečných případech změna programu vyhrazena dle zaměření
a zkušeností dané skupiny účastníků.