Instytut Informatyki PB
Zakład Oprogramowania
Instrukcja do laboratorium z przedmiotu
Metody Wielowymiarowej Analizy Danych
Temat: Skalowanie wielowymiarowe
Zagadnienia: Macierze odległości i podobieństw. Macierz Euklidesowa. Metody metryczne i niemetryczne skalowania wielowymiarowego. Algorytm Kruskala. .
Treść ćwiczenia:
Na podstawie rzeczywistego zbioru danych obliczyć macierz podobieństw (różnic) a następnie sporządzić mapę (-y) zbioru danych z uwzględnieniem przynależności punktów do klas. Na ile uzyskana mapa obrazuje strukturę zbioru danych?
Wykorzystywane procedury SAS:
PROC MDS {opcje};
{VAR zmienne;}
{ID | OBJECT zmienna;} – zmienna z nazwami obiektów;
{MATRIX | SUBJECT zmienna;} – zmienna z nazwami kolejnych macierzy, o ile jest więcej niż jednaopcje:
{DATA = zbiór-danych-SAS} – zbiór musi zawierać dane w postaci jednej (lub wielu) macierzy odległości (podobieństw);
{OUT = zbiór-danych-SAS} – zbiór wyjściowy zawierający, parametry modelu i wartość kryterium dopasowania;
{SHAPE = TRIANGLE | SQUARE} – określa kształt macierzy pod.;
{DIM = n} – określa liczbę wymiarów;
{LEVEL = ABSOLUTE | ORDINAL | RATIO |…} – poziom pomiarów, czyli typ optymalnej transformacji zastosowany do danych;
{MAXITER = n} – maksymalna ilość iteracji;
Przykładowe pytania sprawdzające:
1. Na czym polega różnica pomiędzy technikami metrycznymi i niemetrycznym skalowania wielowymiarowego?
2. Co to jest i do czego służy naprężenie (ang. stress) w skalowaniu wielowymiarowym?
3. Na czym polegają kolejne iteracje w algorytmie Kruskala?
4. Czym kierujemy się przy wyborze docelowej liczby wymiarów podczas skalowania?
Copyright © 1999 Marek Krętowski & Wojciech Kwedlo. All rights
reserved.
Revised: 00-05-25