Zaproponowac implementacje algorytmów dla popularnych formalizmów do modelowania problemów dynamicznych: lancuchów Markowa, ukrytych modeli Markowa, problemów decyzyjnych Markowa, i czesciowo obserwowalnych problemów decyzyjnych Markowa. Punktem wyjsciowym pracy jest reprezentacja tych problemów za pomoca dynamicznych sieci bayesowskich i dynamicznych diagramów wplywu. W pracy nalezy porównac doswiadczalnie korzysci z zaimplementowanych algorytmów w stosunku do algorytmów dla sieci bayesowskich i diagramów wplywu.
Algorytm EM (ang. Expectation Maximization) uzywany jest do uczenia parametrów sieci bayesowskich w obecnosci danych brakujacych. Istnieje równiez jego wersja do uczenia struktury sieci bayesowskich w obecnosci danych brakujacych. W pracy nalezy opisac algorytm EM, jego rozszerzenie do uczenia struktury sieci w obecnosci danych brakujacych, zaprojektowac oraz wykonac implementacje tego algorytmu, oraz dokonac porównania wyników tego algorytmu do innych podejsc, w których dane brakujace przetwarzane sa przed uczeniem struktury z danych.
Czesto zdarza sie w kontekscie diagnozy (zarówno medycznej jak i diagnozy maszyn), ze mamy do czynienia z niespójnymi obserwacjami/pomiarami. Powodem tego moze byc, na przyklad, wadliwa praca któregos z czujników. Wazne jest w takim wypadku wskazanie niespójnych obserwacji i pominiecie ich w dalszej analizie, poniewaz utrudniaja one ustalenie poprawnej diagnozy. W pracy nalezy zaproponowac i zaimplementowac, w kontekscie diagnozy przy pomocy sieci bayesowskich, metody identyfikacji w zbiorze danych obserwacji takich, które sa ze soba niespójne.
W wypadku malych zbiorów danych, najlepiej wydaja sie zdawac egzamin proste modele probabilistyczne, takie jak tzw. naiwny Bayes (ang. naive Bayes), TAN (ang. Tree Augmented Network), czy tez inne modele, takie jak maszyny wektorów nosnych (ang. Support Vector Machines). W pracy nalezy zaimplementowac te proste modele i porównac je w klasyfikacji wybranych zbiorów danych z repozytorium Irvine.
W pracy nalezy dokonac przegladu metod dynamicznej dyskretyzacji zmiennych ciaglych w kontekscie algorytmów wnioskowania w sieciach bayesowskich. Nastepnie nalezy zaproponowac oraz zaimplementowac metode lub zespól metod dyskretyzacji dynamicznej oraz dokonac eksperymentalnej walidacji zaproponowanej metody.
Zaproponowac reprezentacje i implementacje funkcji uzytecznosci (ang. utility) oraz jej przetwarzania w modelach dynamicznych sieci bayesowskich. Jednym z problemów w tym temacie jest koniecznosc reprezentacji czasu w funkcji uzytecznosci.
Zaproponowac model teoretyczny dla kanonicznych prawdopodobienstw warunkowych, takich jak Noisy-OR, Noisy-AND, czy tez De Morgan (wszystkie sa opisane dosc dobrze w literaturze fachowej), który pozwala na wziecie pod uwage kontekstu. Przykladowo, zaleznosc pomiedzy bezposrednimi poprzednikami i ich nastepnikiem w grafie skierowanym sieci bayesowskiej jest kanoniczna tylko wtedy gdy jeden lub kilka z tych poprzedników osiaga wybrane wartosci. Modele kanoniczne sa bardzo intuitywne i maja zastosowanie w inzynierii wiedzy sieci bayesowskich.
Zaprojektowac i zaimplementowac efektywna reprezentacje niezaleznosci kontekstowych w sieciach bayesowskich. Zaimplementowac algorytm wnioskowania w sieciach bayesowskich, który wykorzystuje niezaleznosci kontekstowe i przeanalizowac doswiadczalnie oszczednosci w obliczeniach plynace z wykorzystania tych niezaleznosci.
W pracy nalezy porównac doswiadczalnie szybkosc obliczen roznych istniejacych pakietów do sieci bayesowskich (np. SMILE, Hugin, PNL, Netica, Bayesia Lab). W sklad pracy wchodzic bedzie wybranie pakietów, zaprojektowanie testów, wybranie przykladowych, odpowiednio duzych modeli do testowania, oraz rzetelna analiza rezultatów.
Zaprojektowac i zaimplementowac system do automatycznej generacji wyjasnien obliczen w sieciach bayesowskich. Rezultatem pracy jest funkcja Explain(bn, focus, E), gdzie bn jest siecia bayesowska, focus jest zmienna, której prawdopodobienstwo chcemy wyjasnic, i E jest zbiorem obserwacji. Funkcja zwraca tekst w jezyku angielskim, który zawiera wyjasnienie wartosci rozkladu prawdopodobienstwa a-posteriori zmiennej focus.
Zaproponowac implementacje tzw. obiektowych sieci bayesowskich na bazie istniejacego pakietu do sieci bayesowskich.
Zaproponowac implementacje tzw. relacyjnych sieci bayesowskich na bazie istniejacego pakietu do sieci bayesowskich.
Zaproponowac reprezentacje kosztów w modelach diagnostycznych. Przykladowo, kazdy test medyczny czy tez kazdy test uszkodzonej maszyny zwiazany jest z kosztami. Koszty te powinny zostac wziete pod uwage w optymalnym wyborze testów. W pracy nalezy równiez zaproponowac algorytmy biorace pod uwage koszty.
Zaproponowac zestaw technik do dopasowywania parametrycznych rozkladów prawdopodobienstwa do istniejacego zbioru danych ciaglych. Implementacja powinna prowadzic do biblioteki funkcji C++ opatrzonej w dobrze zdefiniowany interfejs programisty (API) oraz w dokumentacje. Nastepnie zademonstrowac skutecznosc i dokladnosc tych metod w kontekscie wybranego problemu. Metody takie wydaja sie byc bardzo uzyteczne w kontekscie uczenia sieci bayesowskich ze zmiennymi ciaglymi.
Zaproponowac zestaw technik do dopasowywania (regresji) zaleznosci funkcyjnych do istniejacego zbioru danych. Implementacja powinna prowadzic do biblioteki funkcji C++ opatrzonej w dobrze zdefiniowany interfejs programisty (API) oraz w dokumentacje. Nastepnie zademonstrowac skutecznosc i dokladnosc tych metod w kontekscie wybranego problemu. Metody takie wydaja sie byc bardzo uzyteczne w kontekscie uczenia sie sieci bayesowskich ze zmiennymi ciaglymi.