Dnia 2025-04-08 o godzinie 13:15 w Sali 2011 Wydziału Fizyki UwB, dr hab. Witold Rudnicki, prof. UwB z Zakładu Bioinformatyki Wydziału Informatyki UwB wygłosi wykład pt:
„Jak znaleźć ważne zmienne w morzu danych?”
Serdecznie zapraszamy
Andrzej Maziewski
Jerzy Przeszowski
„Jak znaleźć ważne zmienne w morzu danych?”
dr hab. Witold Rudnicki, prof. UwB
Zakład Bioinformatyki Wydziału Informatyki UwB
Sztuczna inteligencja wchodzi we wszystkie dziedziny życia - poczynając od nauki (Nagrody Nobla w 2024 z fizyki i z chemii przyznane za zaproponowanie i zastosowania sieci neuronowych) aż do Chata GPT używanego do wyszukiwanie informacji i pisania wypracowań. Jednak sztuczna inteligencja to nie tylko sieci neuronowe. W bardzo wielu zastosowaniach nie mamy dostępnych takich ilości danych, aby wytrenować sieci neuronowe. W badaniach medycznych i biologii molekularnej częstym problemem jest niewielka liczba próbek. W badaniach medycznych często spotykane zestawy danych mają od 100 do 1000 niezależnych próbek. A nowoczesne metody biologii molekularnej potrafią dostarczyć dane o transkrypcji dziesiątek tysięcy genów i poziomach obecności podobnej ilości białek w badanych próbkach. Dla takich danych nadal bardziej właściwe są tradycyjne metody uczenia maszynowego takie jak regresja logistyczna, lasy losowe, czy maszyny wektorów wspierających. Te algorytmy działają dużo lepiej, jeśli dostarczymy im jedynie zmienne, które rzeczywiście niosą informację o badanym zjawisku.
Drugi powód szukania ważnych zmiennych, to chęć zrozumienia badanych zjawisk. Chociaż problem zwijania białek został w praktyce rozwiązany dla prostych białek mających regularną strukturę, jednak nie wiemy na czym polega to rozwiązanie. Sekret kryje się w miliardach parametrów sieci neuronowych. Ale to nie wystarcza by przewidzieć struktury kompleksów makromolekularnych, struktury białek słabo uporządkowanych - tam gdzie mamy mniej danych a problemy są trudniejsze. Głębokie sieci neuronowe są czarnymi skrzynkami, które pomagają dostarczyć rozwiązanie, ale nie pomagają w zrozumieniu problemu.
W wielu wypadkach zastosowanie modeli uczenia maszynowego może pomóc w zrozumieniu badanego zjawiska - ale tylko wtedy jeśli modele potrafią nam wskazać które zmienne są ważne i jak są powiązane z innymi. Metody identyfikacji ważnych zmiennych w układach informacyjnych są narzędziami, które służą w tym celu. W swojej prezentacji przedstawię rozwijane przez mój zespół algorytmy identyfikacji ważnych zmiennych - Boruta, MDFS i przedstawię ich zastosowania do rozwiązywanie problemów w biologii i medycynie.
W ramach naszego serwisu www stosujemy pliki cookies zapisywane na urządzeniu użytkownika w celu dostosowania zachowania serwisu do indywidualnych preferencji użytkownika oraz w celach statystycznych. Użytkownik ma możliwość samodzielnej zmiany ustawień dotyczących cookies w swojej przeglądarce internetowej. Więcej informacji można znaleźć w Polityce Prywatności Uniwersytetu w Białymstoku. Korzystając ze strony wyrażają Państwo zgodę na używanie plików cookies, zgodnie z ustawieniami przeglądarki.