Text Mining: metody, narzędzia i zastosowania

Text Mining: metody, narzędzia i zastosowania

Autorzy: Mariusz Dzieciątko Dominik Spinczyk

Wydawnictwo: DW PWN

Kategorie: Edukacja

Typ: e-book

Formaty: MOBI EPUB

Ilość stron: 220

Cena książki papierowej: 59.00 zł

cena od: 33.60 zł

SAS Text Analytics to uniwersalna platforma zaspokajająca potrzeby informacyjne w organizacji do wydobywania i zarządzania informacją dostępną w różnego rodzaju dokumentach tekstowych.Możliwości omówionych w książce narzędzi i zaimplementowanych algorytmów zostały zilustrowane na przykładach zbiorów danych z różnych dziedzin: zbioru krótkich wypowiedzi dotyczących sportu, pogody i zwierząt, zbioru opisów radiologicznych badań diagnostycznych jamy brzusznej oraz zbioru opinii użytkowników na temat telefonów z forów użytkowników.

Projekt okładki i stron tytułowych Hubert Zacharski

Ilustracja na okładce Ahmetov_Ruslan/Shutterstock

Wydawca Łukasz Łopuszański

Redaktor prowadzący Jolanta Kowalczuk

Redaktor Matylda Pawłowska

Koordynator produkcji Anna Bączkowska

Skład wersji elektronicznej na zlecenie Wydawnictwa Naukowego PWN: Marcin Kapusta / konwersja.virtualo.pl

Zastrzeżonych nazw firm i produktów użyto w książce

wyłącznie w celu identyfikacji

Publikacja dofinansowana przez Politechnikę Śląską

Prace dotyczące klasteryzacji dokumentów opisujących diagnostykę obrazową jamy brzusznej zostały wykonane w ramach grantu Narodowego Centrum Nauki UMO-2012/05/B/ST7/02136: „System wspomagania śródoperacyjnej lokalizacji guzów w chirurgii małoinwazyjnej jamy brzusznej”

Partner wydania SAS Polska

Książka, którą nabyłeś, jest dziełem twórcy i wydawcy. Prosimy, abyś przestrzegał praw, jakie im przysługują. Jej zawartość możesz udostępnić nieodpłatnie osobom bliskim lub osobiście znanym. Ale nie publikuj jej w internecie. Jeśli cytujesz jej fragmenty, nie zmieniaj ich treści i koniecznie zaznacz, czyje to dzieło. A kopiując jej część, rób to jedynie na użytek osobisty.

Szanujmy cudzą własność i prawo

Więcej na www.legalnakultura.pl

Polska Izba Książki

Copyright © for the Polish edition by Wydawnictwo Naukowe PWN SA

Warszawa 2016

eBook został przygotowany na podstawie wydania papierowego z 2016 r., (wyd. I)

Warszawa 2016

ISBN 978-83-01-18686-9

Wydawnictwo Naukowe PWN SA

02-460 Warszawa, ul. Gottlieba Daimlera 2

tel. 22 69 54 321, faks 22 69 54 288

infolinia 801 33 33 88

e-mail: pwn@pwn.com.pl, www.pwn.pl

Informacje w sprawie współpracy reklamowej: reklama@pwn.pl

Spis treści

Wykaz oznaczeń

Wykaz skrótów

Wprowadzenie

Część I. Wprowadzenie do eksploracji danych tekstowych

1. Trendy w rozwoju systemów informatycznych eksploracji danych

2. Metody eksploracji danych tekstowych

2.1. Przebieg analizy dokumentu tekstowego i charakterystyka stosowanych metod

2.2. Określenie celu, zakresu i kosztów analizy

2.3. Przekształcenie zbioru dokumentów źródłowych

2.3.1. Informacja o częstości występowania poszczególnych terminów

2.3.2. Postać ustrukturyzowana

2.4. Wybór metody obliczeniowej

3. Architektura oprogramowania do eksploracji danych tekstowych na przykładzie pakietu SAS Text Analytics firmy SAS Institute

3.1. Rozpoczęcie pracy z programem Enterprise Miner (Text Miner)

3.1.1. Tworzenie nowego projektu i biblioteki

3.1.2. Tworzenie diagramów analizy danych

3.1.3. Określanie źródła danych projektu

3.2. Metodyka SEMMA

3.2.1. Etap Próbkowanie

3.2.2. Etap Eksploracja

3.2.3. Etap Modyfikacja

3.2.4. Etap Modelowanie

3.2.5. Etap Ocena

3.3. Text Miner – etapy przetwarzania

3.4. Text Miner – komponenty

3.4.1. Właściwości węzła Klastrowanie tekstu

3.4.2. Właściwości węzła Filtrowanie tekstu

3.4.3. Właściwości węzła Import tekstu

3.4.4. Właściwości węzła Parsowanie tekstu

3.4.5. Właściwości węzła Profil tekstu

3.4.6. Właściwości węzła Generator reguł tekstu

3.4.7. Właściwości węzła Temat tekstu

3.5. Przykład: Klasteryzacja zbioru zdań

3.5.1. Konfiguracja diagramu przepływu danych

3.5.2. Konfiguracja poszczególnych węzłów i interpretacja wyników

3.5.3. Podsumowanie

Część II. Przetwarzanie informacji zawartej w dokumencie tekstowym

4. Wybór funkcji wagującej macierzy częstości występowania terminów

4.1. Wagi częstości

4.2. Wagi wyrażenia

4.3. Przykład obliczeniowy

4.4. Podsumowanie

5. Redukcja wymiarowości macierzy częstości występowania terminów

5.1. Analiza semantyczna zmiennych ukrytych

5.1.1. Rozkład SVD

5.1.2. Przykład obliczeniowy rozkładu SVD

5.2. Podsumowanie

6. Wybór algorytmu klastrowania dokumentów tekstowych

6.1. Określenie miary podobieństwa grupy dokumentów

6.2. Algorytmy klastrowania

6.3. Grupowanie za pomocą węzła Klastrowanie tekstów

6.3.1. Węzeł Klastrowanie tekstu – algorytm Hierarchiczny

6.3.2. Węzeł Klastrowanie tekstu – algorytm Maksymalizacja oczekiwań

6.3.3. Węzeł Klastrowanie tekstu – właściwość Terminy opisowe

6.4. Grupowanie za pomocą węzła Temat tekstu

6.4.1. Tematy definiowane przez użytkownika

6.5. Posumowanie

7. Zarys metodyki tworzenia modeli predykcyjnych oraz porównywania zdolności predykcyjnych modeli

7.1. Tworzenie modelu predykcyjnego

7.2. Ocena błędu klasyfikacji

7.2.1. Krzywe ROC

7.2.2. Wykresy wzrostu

7.3. Przykład: Użycie węzła Importowanie tekstu oraz porównywanie modeli predykcyjnych

7.3.1. Konfiguracja diagramu przepływu danych oraz poszczególnych węzłów

7.4. Podsumowanie

8. Klastrowanie dokumentów nadzorowane przez użytkownika

8.1. Charakterystyka węzła Generator reguł tekstu

8.2. Podsumowanie

Część III. Wydobywanie i organizacja wiedzy z dokumentów tekstowych w instytucji

9. Zarys zagadnień związanych z wydobywaniem i organizacją wiedzy w instytucji

9.1. Wprowadzenie

9.1.1. SAS Crawler

9.1.2. SAS Search and Indexing

9.1.3. SAS Information Retrival Studio

9.2. Podsumowanie

10. Klasyfikacja dokumentów

10.1. SAS Content Categorization Studio

10.1.1. Metody klasyfikacji dokumentów dostępne w SAS CCS

10.1.2. Wydobywanie konceptów dostępne w SAS CCS

10.1.3. Wydobywanie kontekstu dostępne w SAS CCS

10.1.4. Zakładanie nowego projektu

10.1.5. Metodyka planowania projektu

10.1.6. Tworzenie nowej kategorii

10.1.7. Zasady używania kategoryzatora statystycznego

10.1.8. Zasady używania kategoryzatora generującego reguły automatycznie

10.1.9. Zasady używania kategoryzatora bazującego na regułach

10.1.10. Praca z konceptami

10.2. Przykład: Zastosowania klasyfikacji dokumentów w celu wspomagania diagnostyki w departamencie radiodiagnostyki

10.3. Podsumowanie

11. Analiza sentymentu

11.1. SAS Sentiment Analysis Studio

11.1.1. Metoda oceny sentymentu dla dokumentu

11.1.2. Zakładanie nowego projektu

11.1.3. Testowanie istniejących modeli

11.1.4. Tworzenie modeli hybrydowych

11.1.5. SAS Sentiment Analysis Server

11.2. Przykład analizy sentymentu użytkowników telefonów komórkowych

11.3. Podsumowanie

Część IV. Inne zagadnienia przetwarzania dokumentów tekstowych

12. Inne elementy przetwarzania danych tekstowych

12.1. Porównywanie dokumentów za pomocą metryk

12.1.1. Odległość kosinusowa

12.1.2. Metryka Jaccarda

12.2. Wydobywanie jednostek specjalnych z dokumentów

Słownik pojęć związanych z eksploracją danych tekstowych

Dodatek A: Podstawy obsługi środowiska SAS i język 4GL

A.1. Wprowadzenie do obsługi systemu SAS

A.1.1. Struktura zbioru danych SAS

A.1.2. Formaty i informaty

A.2. Język 4GL

A.2.1. Blok typu DATA STEP

A.2.2. Blok typu PROC STEP

Dodatek B: Podstawy języka makr

B.1. Makrozmienne

B.2. Makroprogramy

Dodatek C: Wizualna interpretacja danych

C.1. Przegląd typów wykresów stosowanych dla danych tekstowych

Bibliografia

Spis rysunków

Spis tabel

Wszystkie rozdziały dostępne w pełnej wersji książki.

Wykaz oznaczeń

aij

– częstość wystąpienia i-tego terminu w j-tym dokumencie macierzy częstości

ai-klaster_j

– częstość wystąpienia i-tego terminu w j-tym klastrze

ai-korpus

– liczba wystąpień i-tego terminu w całym korpusie

âij

– funkcja ważąca i-tego terminu w j-tym dokumencie macierzy częstości

atrbut1,…, atrbutn

– atrybuty wybranego obiektu

A

– macierz częstości

C

– zmienna kategoryzująca celu

cecha1, …, cechan

– cechy wybranego obiektu

C1, C2, …, Ck

– k poziomów zmiennej kategoryzującej celu

d

– całkowita liczba dokumentów w korpusie

di

– liczba dokumentów w korpusie, w których występuje i-ty termin

dklaster_j

– liczba dokumentów w j-tym klastrze

dysW

– dystans między grupami według metody Warda

dyscos

– odległość kosinusowa między dokumentami

Di

– macierz kowariancji dla i-tej grupy klasteryzacji

Dokk

– wektor reprezentujący dokument w postaci formalnej o indeksie k

Dokkj

– j-ta cecha wektora reprezentującego k-ty dokument

Ei

– miara entropii dla i-tego terminu w macierzy częstości

Fdw

– dwumianowa skumulowana funkcja gęstości prawdopodobieństwa

gi

– liczba wystąpień i-tego terminu w całym korpusie dokumentów

IDFi

– miara odwrotnej częstości dokumentu dla i-tego terminu w macierzy częstości

Lij

– waga częstości dla elementu o indeksach i, j w macierzy częstości

MIi

– miara informacji wzajemnej dla i-tego terminu w macierzy częstości

m

– liczba wierszy macierzy częstości, odpowiada liczbie terminów zawartych w macierzy częstości

metJacc(Dok1, Dok2)

– metryka Jaccarda określająca stopień podobieństwa dwóch dokumentów

n

– liczba kolumn w macierzy częstości, odpowiada liczbie dokumentów tekstowych korpusu

n1, n2

– liczba elementów w grupach

pr(Ck)

– procent dokumentów w korpusie, którym przypisany jest k-ty poziom zmiennej kategoryzującej celu

pr(ti, Ck)

– procent dokumentów w korpusie zawierających i-ty termin, którym jednocześnie jest przypisany k-ty poziom zmiennej kategoryzującej celu

pr(ti)

– procent dokumentów w korpusie zawierających i-ty termin

pri

– procent danych należących do i-tego klastra

pdw(ti)

– prawdopodobieństwo w rozkładzie dwumianowym przypisane terminowi ti przez algorytm wyboru terminów opisowych klastra węzła Klastrowanie tekstu

p(x)

– prawdopodobieństwo, że zmienna losowa X przyjmie wartość x

simJacc(Dok1, Dok2)

– współczynnik Jaccarda dla dwóch dokumentów

term(Doki)

– zbiór terminów występujących w i-tym dokumencie

µ1, µ2

– wartość średnia grupy

ti

– i-ty termin zawarty w macierzy częstości

Wi

– waga wyrażenia dla i-tego terminu w macierzy częstości

X, Y

– zmienne losowe

x

– wartość zmiennej losowej X

Wykaz skrótów

CCS

– Content Categorization Studio

CL

– computational Linguistics

DICOM

– Digital Imaging and Communications in Medicine

EM

– Enterprise Miner

FA

– Factor Analysis

HIS

– Hospital Information System

HL7

– Health Level 7

HLT

– Human Language Technology

HTML

– Hyper Text Markup Language

ID

– Unique Identification Field

IDF

– Inverse Document Frequency

IE

– Information Extraction

IHE

– Integrating the Healthcare Enterprise

IO

– Information Organization

ISO

– International Standard Organization

KO

– Knowledge Organization

LSA

– Latent Semantic Analysis

LSI

– Latent Semantic Indexing

NLE

– Natural Language Engineering

NLG

– Natural Language Generation

NLP

– Natural Language Processing

NLU

– Natural Language Understanding

OLAP

– OnLine Analytical Processing

PACS

– Picture Archiving and Communication Systems

PCA

– Principal Component Analysis

PDF

– Portable Document Format

PLS

– Partial Least Squares

RSS

– Rich Site Summary

SOFM

– self-organizing feature map

SOM

– Self-Organizing Map

SVD

– Singular Value Decomposition

SVM

– Support Vector Machines

TM

– Text Miner

URL

– Uniform Resource Locator

xHTML

– Extensible Hyper Text Markup Language

XML

– Extensible Markup Language

4GL

– Four Generation Language

Wprowadzenie

The secret of getting ahead is getting started.

Mark Twain

Celem książki jest efektywne i płynne wprowadzenie Czytelnika w metody eksploracji danych tekstowych dokonywanej w szczególności z wykorzystaniem narzędzi pakietu Text Analytics firmy SAS Institute. Podano zarys podstaw teoretycznych niezbędnych do skutecznego stosowania dostępnych narzędzi w aplikacjach biznesowych, w tym między innymi opis reprezentacji informacji zawartej w dokumencie tekstowym, metody przekształcania tej informacji, metody wykorzystywane do grupowania i klasyfikacji dokumentów tekstowych. Zamieszczono odniesienia do istniejącego aktualnego piśmiennictwa zarówno w języku angielskim, jak i polskim.

Przedstawiono architekturę rozwiązania firmy SAS Institiute Text Analytics wspomagającą zaspokajanie potrzeb informacyjnych w organizacji do wydobywania i zarządzania informacją dostępną w różnego rodzaju dokumentach tekstowych. Omówiono najważniejsze elementy istniejącego rozwiązania: SAS Text Miner, SAS Information Retrival Studio, SAS Content Categorization Studio oraz SAS Sentiment Analysis Studio.

Podano przykłady użycia wymienionych narzędzi w aplikacjach biznesowych: wydobywanie informacji w organizacji, zarządzanie zawartością dokumentów, analizę sentymentu, grupowanie i klasyfikację dokumentów.

Możliwości omówionych narzędzi i zaimplementowanych algorytmów zostały zilustrowane na przykładach zbiorów danych z różnych dziedzin: zbioru krótkich wypowiedzi dotyczących sportu, pogody i zwierząt, zbioru opisów radiologicznych badań diagnostycznych jamy brzusznej, zbioru opinii użytkowników na temat telefonów z forów użytkowników.

Praca składa się z czterech części. W części I – zatytułowanej Wprowadzenie do eksploracji danych tekstowych, zawarto trzy rozdziały, które mają za zadanie wprowadzić Czytelnika w zagadnienia eksploracji dokumentów tekstowych, podając niezbędną interdyscyplinarną wiedzę oraz klasyfikując używane metody na tle innych dziedzin zajmujących się przetwarzaniem danych oraz prezentując architekturę oprogramowania. Rozdział 1 to ogólne wprowadzenie do przetwarzania danych tekstowych, w którym zaprezentowano trendy w rozwoju systemów informatycznych zajmujących się przetwarzaniem danych, a w szczególności danych niestrukturalnych, jakimi są dane tekstowe.

W rozdziale 2 przedstawiono ogólną metodykę pozwalającą uporządkować etapy przetwarzania danych tekstowych, krótki przegląd metod reprezentacji informacji zawartej w dokumentach tekstowych oraz zarys stosowanych technik obliczeniowych.

W rozdziale 3 zaprezentowano architekturę oprogramowania SAS Text Analytics, metodykę firmową SEMMA, właściwości najważniejszych komponentów narzędzia Text Miner oraz informacje niezbędne do uruchomienia pierwszego projektu.

W części II – zatytułowanej Przetwarzanie informacji zawartej w dokumencie tekstowym, zawarto rozdziały od czwartego do ósmego, w których przedstawiono kolejne etapy analizy dokumentu tekstowego.

W rozdziale 4 omówiono sposoby przekształcania macierzy częstości występowania terminów w korpusie dokumentów, podając definicje funkcji wagującej oraz najczęściej stosowanych wariantów jej komponentów: wagi częstości i wagi wyrażenia.

W rozdziale 5 zawarto opis metody analizy semantycznej zmiennych ukrytych, która wykorzystując rozkład wartości osobliwych, pozwala na redukcję rozmiarów macierzy częstości występowania terminów.

W rozdziale 6 – zatytułowanym Wybór algorytmu klastrowania dokumentów tekstowych, zaprezentowano hierarchiczne i probabilistyczne algorytmy grupowania oraz ich zastosowanie z użyciem węzłów Text Minera Klastrowanie tekstu oraz Temat tekstu.

W rozdziale 7 omówiono zarys metodyki tworzenia modeli predykcyjnych oraz porównywania zdolności predykcyjnych modeli za pomocą krzywych ROC oraz wykresów wzrostu. Znajduje się tu przykład zastosowania węzła Text Minera Import tekstu.

W rozdziale 8, który zamyka część II, rozszerzono możliwości klastrowania tekstów przez opis podejścia nadzorowanego przez użytkownika z wykorzystaniem węzła Text Minera Generator reguł tekstu.

W części III – zatytułowanej Wydobywanie i organizacja wiedzy z dokumentów tekstowych w organizacji, zawarto rozdziały od dziewiątego do jedenastego, w których przedstawiono zagadnienia dotyczące zarządzania informacją w organizacji.

W rozdziale 9 zaprezentowano zarys zagadnień, podstawowe słownictwo stosowane w zakresie zarządzania informacją w organizacji oraz architekturę i komponenty SAS Information Retrieval Studio – narzędzia zarządzającego automatycznym przetwarzaniem dokumentów w organizacji.

W rozdziale 10 – zatytułowanym Klasyfikacja dokumentów, przedstawiono wykorzystywane techniki statystyczne oraz bazujące na regułach lingwistycznych i boole’owskich, kryteria oceny jakości klasyfikacji oraz metodykę projektowania i tworzenia taksonomii płaskich i hierarchicznych za pomocą SAS Content Categorization Studio.

W rozdziale 11 zawarto opis zagadnień dotyczących analizy sentymentu, wykorzystywane techniki statystyczne bazujące na regułach oraz hybrydowe, sposób wyznaczania sentymentu dla dokumentu. Zaprezentowano tu metodykę budowania modeli oceny sentymentu z wykorzystaniem SAS Sentiment Analysis Studio.

W części IV – zatytułowanej Inne zagadnienia przetwarzania dokumentów tekstowych, omówiono dodatkowe aspekty przetwarzania dokumentów tekstowych.

W rozdziale 12 zawarto inne informacje przydatne w procesie przetwarzania dokumentów, a mianowicie bezpośrednie porównywanie treści dokumentów za pomocą miar odległości kosinusowej i metryki Jaccarda oraz zagadnienia wydobywania z dokumentów niezależnych fragmentów informacji skategoryzowanych w ramach predefiniowanych tzw. jednostek specjalnych.

Następnie zamieszczono polsko-angielski słownik pojęć z dziedziny Text Miningu oraz zbiór trzech dodatków mających ułatwić użytkownikowi posługiwanie się technikami i narzędziami zawartymi w książce.

Dodatek A zawiera syntetyczne wprowadzenie do obsługi systemu SAS, prezentując podstawowe koncepcje interfejsu graficznego użytkownika, strukturę i podział wykorzystywanych typów zbiorów danych oraz najważniejsze elementy interfejsu programistycznego – dedykowanego języka 4GL.

Dodatek B zawiera syntetyczny opis języka makr służący głównie do parametryzacji języków 4GL i SQL, co umożliwia automatyzację wielu czynności w środowisku SAS oraz budowanie złożonych potoków przetwarzania.

Dodatek C prezentuje temat przetwarzania danych tekstowych z punktu widzenia wizualizacji danych. Przedstawiono główne założenia paradygmatu wizualnej analizy zbiorów danych oraz scharakteryzowano wykorzystywane w praktyce rodzaje graficznej prezentacji informacji tekstowej.

Książka jest wydana w wersji czarno-białej i aby jej treść była zgodna z oficjalną dokumentacją systemu, w opisach rysunków zostawiono odwołania do kolorów (widocznych po ich uruchomieniu).

Nawigację po strukturze pracy ułatwi szczegółowy spis treści oraz indeks pojęć. Na końcu zamieszczono bibliografię, która zawiera alfabetyczny wykaz cytowanych pozycji. Mamy nadzieje, że to wszystko sprawi, że książka stanie się cenioną pomocą w codziennej pracy analityka, a po lekturze i samodzielnym przerobieniu podanych zagadnień Czytelnik zyska wgląd w istniejące wyzwania w zakresie eksploracji dokumentów tekstowych, pozna architekturę systemu SAS Text Analytics, będzie posiadał szczegółową wiedzę na temat wyboru narzędzia, algorytmu oraz jego konfiguracji pozwalającą na zaspokajanie potrzeb w zakresie swojej działalności biznesowej i naukowej.

Część I

Wprowadzenie do eksploracji

danych tekstowych

Rozdział 1

Trendy w rozwoju systemów

informatycznych eksploracji danych

Informacja zawarta w danych jest użyteczna w procesie podejmowania decyzji. Ze względu na różnorodność przechowywanej informacji historycznie można wyróżnić kilka klas systemów informatycznych wspierających ten proces.

Informacje niezbędne do bieżącego funkcjonowania organizacji przechowuje się w systemach transakcyjnych. W celu wspomagania procesu podejmowania decyzji dane transakcyjne są agregowane i gromadzone w tematycznych repozytoriach i wykorzystywane w procesie podejmowania decyzji biznesowych (Business Intelligence systems). Ze względu na rozmiar dane te są organizowane w tzw. hurtowniach danych (data warehouses), które wykorzystują silniki relacyjnych baz danych w schemacie gwiazdy lub płatka śniegu. Historycznie do przetwarzania tak zorganizowanych danych pogrupowanych w zaprojektowanych wymiarach wykorzystuje się technologię wielowymiarowych kostek (OnLine Analytical Processing – OLAP) umożliwiającą analizę w zaprojektowanych wymiarach na różnych poziomach szczegółowości.

Obecnie wraz z rozwojem technologii elektronicznego formatu zapisu dużych danych (Apache Hadoop), sieci Internet (skrót od ang. inter-network), który minimalizuje koszt powielania informacji i stanowi kanał błyskawicznej wymiany i dystrybucji informacji, obserwuje się rozwój technologii wspomagającej przetwarzanie dużych danych (Big Data).

Metody OLAP służą głównie do agregacji danych i raportowania, ale równolegle rozwijają się metody eksploracji danych (data mining methods), których celem jest odkrywanie wiedzy. Metody eksploracji danych najczęściej są klasyfikowane pod kątem dziedziny i celu analizy. Stosując to kryterium, można wyróżnić metody (Lasek, Pęczkowski 2013):

• klasyfikacji – polegające na przypisaniu do każdego analizowanego obiektu etykiety ze zbioru zdefiniowanych klas;

• grupowania – polegające na analizie skupień występujących w danych;

• odkrywania asocjacji – polegające na odkrywaniu związków między obiektami danych;

• odkrywania sekwencji – polegające na wykrywaniu sekwencji zdarzeń;

• regresji – polegające na odkrywaniu wpływu jednej lub większej liczby cech na wybraną cechę;

• odkrywania charakterystyk – polegające na znajdowaniu opisu grup obiektów za pomocą skończonej, możliwie małej grupy cech;

• wykrywanie zmian i odchyleń – polegające na odkrywaniu obserwacji odstających, a także systematycznych błędów pomiaru.

Miejsce technologii OLAP i metod eksploracji danych w procesie wspomagania podejmowania decyzji przedstawiono na rysunku 1.1.

Rysunek 1.1. Miejsce technologii OLAP i metod eksploracji danych w procesie podejmowania decyzji

Zdecydowana większość danych transakcyjnych przechowywana jest w relacyjnych bazach danych. Ze względu jednak na konieczność przechowywania danych niestrukturalizowanych, między innymi danych tekstowych, obserwuje się rozwój standardu XML (Extensible Markup Language) do przechowywania tychże danych. Systemy zarządzania relacyjnymi bazami danych (data base management system), które jako pierwsze zdominowały rynek, zostały przystosowane do nowej sytuacji przez wprowadzenie typu XML jako typu atrybutu relacji. Standard ten umożliwia walidację poprawności danych przez zastosowanie schematu dokumentów (XML schema) oraz przeszukiwanie dokumentów w odpowiednim języku zapytań (XQuery). Początkowo strony internetowe (Web Sites) tworzono w języku HTML (Hyper Text Markup Language), obecnie powstają w języku xHTML (Extensible Hyper Text Markup Language) zgodnym z regułami XML oraz HTML 5.

Podobnie jak w przypadku pozostałych danych, również dla danych tekstowych następuje rozwój metod eksploracji. W języku polskim angielski termin text mining methods tłumaczy się jako metody eksploracji danych tekstowych. W praktyce najczęściej występuje termin text mining. Termin data mining methods zaś jest tłumaczony jako metody eksploracji danych, jednak najczęściej spotyka się krótszy termin data mining.

Metody eksploracji danych tekstowych można sklasyfikować, stosując różne kryteria. Generalnie wywodzą się z wcześniej istniejących metod eksploracji danych nieustrukturyzowanych. Jednym z najobszerniejszych źródeł danych tekstowych jest język mówiony, który zaspokaja naturalną potrzebę komunikacji między ludźmi. Charakteryzuje się jednak wielością wariantów, złożoną składnią oraz wieloznacznością. Język naturalny podlega ciągłym zmianom, a jego rozumienie wymaga pojmowania zmieniającego się świata. Wymienione wyzwania stały się podstawą dziedziny naukowej, której celem jest przetwarzanie informacji zawartej w języku naturalnym NLP (Natural Language Processing). Czytelnik może się spotkać również z innym nazwami angielskimi odnoszącymi się do zagadnień przetwarzania informacji zawartej w języku naturalnym: CL (Computational Linguistics), HLT (Human Language Technology), NLE (Natural Language Engineering), NLU (Natural Language Understanding) oraz NLG (Natural Language Generation).

Pod względem zastosowań text mining można podzielić na następujące metody (Lula 2005; Sołdacki 2006):

• pozyskiwanie informacji z dokumentów (Concept clustering) – polega na dopasowaniu predefiniowanych wzorców do fragmentów tekstu; potencjalne dziedziny zastosowania to automatyczna analiza literatury naukowej z danej dziedziny czy określenie profilu klienta;

• identyfikacja wiadomości zawierającej określone treści (Information Extraction) – polega na stworzeniu systemu monitorującego wychwytującego automatycznie dokumenty pod kątem określonych wiadomości, następnie wskazane dokumenty są analizowane przez człowieka; potencjalne zastosowania: przechwytywanie dokumentów w tekstowych hurtowniach danych;

• generowanie streszczeń (Summarization) – polega na identyfikacji za pomocą metod statystycznych słów kluczowych bądź zdań kluczowych; potencjalne zastosowanie: analiza streszczeń obszernych zbiorów dokumentów;

• klasyfikacja wzorcowa (Document classification lub Document categorization) – polega na przypisaniu każdego z dokumentów do jednej z wcześniej zdefiniowanych klas; potencjalne zastosowanie: kategoryzacja wiadomości czy dokumentów;

• klasyfikacja bezwzorcowa (Document clustering) – polega na zdefiniowaniu miary liczbowej podobieństwa dokumentów i zastosowaniu dobrze znanych metod klasyfikacji; potencjalne zastosowania: wydzielenie grup podobnych dokumentów, znalezienie cech charakterystycznych dla elementów grup i zależności między nimi;

• identyfikacja powiązań (Association) – polega na wykryciu związków między informacjami pozyskanymi z dokumentów bądź na skojarzeniu danego dokumentu z innymi; potencjalne zastosowanie to połączenie wcześniej nieznanych faktów;

• walidacja i nawigacja (Validation and Navigation) – polega na zapewnieniu użytkownikowi prostej metody interpretacji wyników oraz poruszania się w dużym zbiorze dokumentów, co zazwyczaj stanowi znaczącą pomoc w rozwiązaniu innego problemu.

KSIĄŻKI TEGO AUTORA

Text Mining: metody, narzędzia i zastosowania