Instytut Informatyki PB
Zakład Oprogramowania

Instrukcja do laboratorium z przedmiotu
Metody Wielowymiarowej Analizy Danych
Temat:  Analiza Skupień

Zagadnienia: Techniki aglomeracyjnej analizy skupień. Wyznaczanie odległości pomiędzy grupami. Dendrogramy.

Treść ćwiczenia: Dla podanego zbioru danych eksperymentalnych:

  1. Przeprowadzić analizę skupień przy użyciu 3 metod hierarchicznego grupowania (average, complete, single). Porównać uzyskane wyniki. Spróbować określić optymalną liczbę grup.
  2. Zbadać ile grup możliwie najlepiej odwzorowuje przyporządkowanie do oryginalnych klas.
  3. Przy użyciu procedury TREE sporządzić dendrogram oraz wykresy najlepiej dopasowanego grupowania do oryginalnego podziału na klasy.

 Wykorzystywane procedury SAS:

PROC CLUSTER METHOD=nazwa-metody {opcje};
                                metody: AVERAGE, SINGLE, COMPLETE, …
    {VAR=lista-zmiennych;}
opcje:
    {OUTTREE=zbiór-danych-SAS} – określa zbiór wyjściowy
    {STANDARD} – standaryzuje zmienne (śr. 0 i odch. std 1}
   {TRIM=p} – 0<=p<100 powoduje wyeliminowanie obserwacji odstających (outliers)


PROC TREE {opcje};
    {VAR=list-zmiennych;}
    {ID=zmienna;} – identyfikuje zmienne na wyjściu
opcje:
    {OUT=zbiór-danych-SAS} – zbiór wyjściowy
    {NCLUSTERS=n} – liczba grup w zbiorze wyjściowym
    {HORIZONTAL} – drukuje dendrogram w poziomie

Przykładowe pytania sprawdzające:

1. Czym charakteryzują się hierarchiczne metody grupowania?
2. W jaki sposób liczymy podobieństwo (odległość) pomiędzy grupami?
3. Co to jest i do czego służy dendrogram?

Powrót   


Copyright © 1999 Marek Krętowski & Wojciech Kwedlo. All rights reserved.
Revised: 00-03-10