Instytut Informatyki PB
Zakład Oprogramowania
Instrukcja do laboratorium z przedmiotu
Metody Wielowymiarowej Analizy Danych
Temat: Analiza Dyskryminacyjna
Zagadnienia: Bayesowska reguła decyzyjna i jej postać przy założeniu normalności łącznego rozkładu zmiennych. Kryterium Fishera – liniowa reguła decyzyjna. Metoda k-najbliższych sąsiadów. Estymacja jądrowa. Techniki szacowania prawdopodobieństwa błędnej klasyfikacji (“leave-one-out”, wykorzystanie zbioru testowego)
Treść ćwiczenia:
Do estymacji jakości klasyfikacji wykorzystać metodę “leave-one-out” oraz podział zbioru na część uczącą (2/3 przykładów) i testową (1/3) przykładów.
Wykorzystywane procedury SAS:
PROC DISCRIM {opcje};
CLASS zmienna-decyzyjna;
opcje:
{K=k} – określa ilu sąsiadów jest branych pod uwagę przy metodzie k-najbliższych sąsiadów;
{R=r} – określa promień wykorzystywany w estymacji jądrowej (kernel density estimation), nie wolno równocześnie specyfikować K i R;
{CROSSVALIDATE} – estymacja błędu metodą “leave-one-out”
{CROSSLISTERR} – wypisuje błędnie sklasyfikowane przykłady podczas cross-validation;
{TESTDATA=’zbiór-danych-SAS’} – zbiór testowy
{TESTLISTERR}- wypisuje błędnie sklasyfikowane przykłady ze zbioru testowego
Przykładowe pytania sprawdzające:
1. Na czym polega różnica pomiędzy metodami parametrycznymi a nieparametrycznymi?
2. Jakie są wady metody k-nn?
3. Co to jest jądro (ang. kernel)?
4. O czym mówi twierdzenie Bayes’-a?
5. Czy uzyskanie wyższej jakości klasyfikacji na zbiorze uczącym jest równoznaczne z lepszą klasyfikacją na zbiorze testowym? Uzasadnij.
6. Czy usunięcie jednej (kilku) cech zezbioru uczącego może wpłynąć na poprawę jakości klasyfikacji w k-NN? Uzasadnij.
7. Ile wyniesie błąd klasyfikacji metody 1-NN estymowany na zbiorze uczącym?
Copyright © 1999 Marek Krętowski & Wojciech Kwedlo. All rights
reserved.
Revised: 00-03-10