reklama
MODERNIRIZENI.IHNED.CZ  14. 4. 2011  00:00  (aktualizováno: 13. 4. 2011  17:00)

Braňte se informační explozi

V dnešní době již není nouze o data, jsme jimi zaplaveni. Dříve společnosti archivovaly nedostatečný počet dat, přičemž hledat kauzální nebo symptomatické závislosti je možné pouze v případě, kdy firma archivuje relevantní a podstatná data, která s její činností souvisejí.
reklama
MODERNÍ ŘÍZENÍ, Speciál   Business Intelligence

Kromě údajů ukládaných ve firemních databázích vzrůstá také počet dokumentů, které jsou dostupné prostřednictvím webu a které se také archivují. Se zvětšujícím se počtem textových dokumentů se zvyšuje tlak na rychlejší získání informací z těchto materiálů. Požadavky na rychlou orientaciřeší techniky pro třídění dokumentů, které pomocí shlukování, filtrování a sumarizace extrahují klíčové informace. Tato problematika se nazývá text mining neboli dolování informací z textových dat.

Text mining vs. data mining

Text mining neboli proces vytěžení vysoce cenné informace z textu je podmnožina známějšího data miningu, často překládaného jako vytěžování či dolování informací z databáze. Data mi-ning označuje celý proces pátrání po závislostech a užitečných vzorech v datech pomocí statistických a matematických technik. Základní typy algoritmů pro data mining jsou klasifikace dat, utvoření shluků, asociační pravidla a prognózy. Prostředky pro text mining jsou podobné, zásadním rozdílem je typ dat.

Text mining poskytuje možnost prozkoumat nestrukturované informace v textu, zatímco data mining zkoumá strukturovaná data, tj. data relačního typu, která jsou uložena v databázích ve formě tabulek uspořádaných do sloupců (atributů) a řádků (záznamů). Nejčastěji jsou to data číselná, dále kalendářní data a časy. Dalším typem jsou záznamy o někom nebo něčem, jimiž jsou např. jméno, adresa, věk, pracovní pozice, mzda, počet bodů, počet kusů, průměrná cena apod. Také sem patří operace, které se nad daty mohu provádět - zaokrouhlení, negace, připojení (např. jméno + pozice), seřazení apod.

Texty v uložených dokumentech nebo na webu jsou typickým příkladem nestrukturovaných dat (stránka textu v Unicode). Text mining řeší potřeby rychlé orientace v rozsáhlých nestrukturovaných, případně semistrukturovaných dokumentech. Semistrukturovaným dokumentem rozumějme faktury, katalogy, objednávky, materiály pro marketing, management apod., kdy struktura dat je jen heslovitě psaná.

Vzory v text miningu tedy vycházejí z obvyklého jazyka, ve kterém musíme, na rozdíl od databáze, relevantní údaje nejprve najít.

Struktura výchozích dokumentů

Základním problémem textových dokumentů je nepřesné vyjadřování autora, dvojsmysly, užití více jazyků v jednom textu, špatně volené zkratky či chybějící struktura textu. Pokud chceme získat z dokumentu více než jen základní shrnutí, tj. rychlé porozumění obsahu, musíme se pečlivě věnovat každé fázi rozboru dat v textech. Texty lze zpracovávat různě, jen úvodní fáze (předzpracování) se podle jejich vhodnosti bude lišit.

Postup a využití text miningu

Text mining lze rozdělit do několika částí. Ta první se běžně označuje jako předzpracování vstupního dokumentu. V předzpracování se obvykle extrahuje text, který chceme analyzovat, sjednocuje se písmo a velikost textu, vynechávají se elementy reprezentující informace v netextové podobě, jako jsou např. grafy, obrázky apod.

V dalším kroku hledáme základní objekty neboli termy. Pojem term je definován jako základní prvek, který se používá pro zpracování. Jeho podoba se podle použité metody v text miningovém nástroji často odlišuje. Term může být věta či sousloví (eskontní úvěr, práce v EU, barokní památky), podle kterého provádíme extrakci dokumentů, naplníme tabulku a řadíme do kategorií. Z těchto důvodů je žádoucí zachovat logickou strukturu textu.

Pro úplnou analýzu je dobré odstraňovat také slova, která nenesou žádnou podstatnou informaci, jako jsou spojky a předložky, a která mohou zkreslovat výsledek. V následující tabulce je vidět část souhrnných informací o analyzovaném textu, ve kterém nebyla odstraněna nepodstatná slova.

Činitelé, kteří ovlivňují samotné předzpracování, jsou např. formát dokumentu (XML, HTML, PDF apod.), kódování jazyka (ASCII, Unicode UTF-32/UTF-16) nebo samotný druh textu (webové stránky, právní dokument, článek vědecký nebo populární).

Dalším stupněm text miningu je klasifikace dokumentů, kdy jsou dokumenty filtrovány podle autora, obsahu, kalendářního data apod. Klasifikace se uplatňuje v organizaci textů na souborových serverech či při třídění webových stránek a využívá běžné metody, jakými jsou lineární klasifikátory, rozhodovací stromy, metoda nejbližšího souseda nebo neuronové sítě.

Z již připraveného dokumentu získáváme požadované vzory, analyzujeme v textu použitá slova a spojení, vytváříme kategorie dokumentů. Na základě takto extrahovaných informací lze, např. pomocí shlukové analýzy, vyhledávat podobné dokumenty a pomocí vygenerovaných shluků lze následně třeba organizovat ukládání dokumentů podle složitějších podobnostních kritérií apod. Příklady konkrétního využití text miningu:

Automatické zpracování obsahu webových stránek. Počítačoví roboti mohou načítat velké množství stránek, zpracovat jejich obsah a hledat třeba informace o aktivitách konkurenčních firem, o různých hnutích, o vzniku nových společností apod. Text miming také může pomoci při filtrování příchozích e-mailů na server.

Analýza otevřených odpovědí z webového průzkumu, který zjišťuje názory či připomínky zákazníků. Tyto otevřené otázky dávají respondentovi prostor pro vyjádření vlastního názoru, úhlu pohledu a neomezených připomínek. Jak však oddělit negativní, pozitivní a irelevantní kritiku? Pro příslušného analytika noční můra. Text mining však sám roztřídí kladné a záporné odpovědi. Pomocí záznamů nákupního chování, spolu s roztříděným komentářem zákazníků, lze tvořit strategie a předpovědní nákupní modely. Pokud je zákaznický dotazník vyplněn ručně, do elektronické podoby jej zaneseme pomocí technik k rozpoznání ručně psaných dokumentů (OCR) a číslic, resp. hůlkového písma (ICR).

Automatické rozdělení dokumentů z komerční i nekomerční sféry. Stejným způsobem, jaký je uveden u analýzy otevřených odpovědí, lze analyzovat záznamy ze vstupních pohovorů, pojistných škod, vstupních prohlídek či reklamací a shlukovat jednotlivé typy odpovědí a záznamů podle povahy problému, typu stížnosti apod. Farmaceutické společnosti například používají text mining při třídění textových poznámek lékařů testujících jejich léky. Bylo by velmi pracné procházet všechny dokumenty a prozkoumávat všechna hlášení o nežádoucích účincích. Dalším využitím je odhalení základních myšlenek a konceptů rozsáhlých historických sbírek i současných dokumentů. Do text miningu patří i automatické určení jazyka dokumentu, třídění podle autora a identifikace tématu.

Vývojem technik a softwaru pro odhalení skrytých vzorců a vztahů v textech reagují analytici a výrobci na explozi informací, kterou můžeme pozorovat společně s rozvojem IT technologií. Softwary pro podporu obchodování ukládají každý den na servery enormní objemy textů, nemluvě o obsahu webových stránek, on-line odborných materiálech, článcích, sbornících atd. Text mining si klade za cíl usnadnit vyhledání informace v těchto dokumentech a její další zpracování.

Miloš Uldrich
odborný konzultant StatSoft CR

 

 

MODERNIRIZENI.IHNED.CZ
Autor/ři: Miloš Uldrich

Uložit a sdílet článek
skrýt
Uložte si či sdílejte článek v sociální síti (po registraci zdarma)
Kontextové odkazy ETARGET
Názory čtenářů
Není vložen žádný názor.

Přidat názor

Autorská práva vykonává vydavatel. Jakékoli užití částí nebo celku, zejména rozmnožování a šíření jakýmkoli způsobem (mechanickým nebo elektronickým) i v jiném než českém jazyce bez písemného svolení vydavatele je zakázáno.
reklama
reklama
reklama
reklama
 
reklama