Program MStat implementuje algorytmy wizualizacji, normalizacji oraz wielowymiarowej analizy statystycznej i klasyfikacji danych ilościowych ze spektrometrii mas. Program jest przystosowany do przetwarzania danych pochodzących z eksperymentów proteomicznych i peptydomicznych (analizowanymi cechami mogą być nie tylko białka, ale także pojedyncze peptydy), zarówno prowadzonych z użyciem znakowania izotopami stabilnymi, jak i bez znakowania.
Podstawowe funkcje programu
- Wyznaczanie poziomów ekspresji białek na podstawie pomiarów ilości peptydów.
- Imputacja brakujących wartości pomiarowych metodą K-najbliższych sąsiadów, przy użyciu algorytmu E-M (Expectation-Maximisation), rozkładu na wartości szczególne SVD (Singular Value Decomposition) oraz innych, prostszych metod.
- Grupowanie cech i próbek poprzez klasteryzację hierarchiczną, K-średnich, PAM (Partitioning Around Medoids), Jarvisa-Patricka lub z wykorzystaniem algorytmów ewolucyjnych.
- Zamiana skali, standaryzacja oraz wybielanie cech.
- Normalizacja wartości ilościowych z osobnych pomiarów za pomocą metod liniowych (przeskalowanie wyrównujące średnie arytmetyczne, geometryczne lub mediany, regresja liniowa), bądź nieliniowych (lokalnie ważona regresja wielomianowa LOESS, wyrównywanie kwantyli).
- Selekcja cech różnicujących przy użyciu jedno- i wielowymiarowych testów statystycznych, zarówno parametrycznych (analiza wariancji), jak i nieparametrycznych (testy Manna-Whitney'a, Kruskala-Wallisa oraz permutacyjne). W przypadku testów jednowymiarowych możliwa jest korekcja wynikowych p-wartości pod kątem wielokrotności testowania hipotez poprzez kontrolę poziomu FDR (False Discovery Rate) lub FWER (FamilyWise Error Rate).
- Walidacja krzyżowa zbiorów cech różnicujących metodami leave-one-out i z losowym podziałem zbioru danych przy użyciu klasyfikatora K najbliższych sąsiadów oraz liniowej i kwadratowej analizy dyskryminacyjnej.
- Analiza składowych głównych (PCA - Principal Components Analysis) i niezależnych (ICA - Independent Components Analyiss).
- Wizualizacja wartości pojedynczych cech i całego zbioru danych, w tym m. in.: rzutowanie na płaszczyznę rozpiętą przez wybrane składowe główne, obrazowanie macierzy korelacji próbek i cech, histogramy, wykresy typu scatterplot i boxplot.
- Rozbudowany graficzny interfejs użytkownika pozwalający w łatwy sposób zarządzać zbiorami danych.
Format danych wejściowych
- Zbiory danych pochodzących z analizy ilościowej peptydów i białek w formacie tekstowy.
Format danych wyjściowych
- Zapis w postaci tekstowej danych poddanych przetwarzaniu w programie.
- Zapis w formacie tekstowym list peptydów i białek wybranych na podstawie wyników testów statystycznych
- eksport rysunków przedstawiających graficzne reprezentacje danych oraz wyniki ich analizy statystycznej w formatach PNG, JPEG oraz EPS
Aktualna wersja
MStat | 1.5 | 02.01.2023 | Matlab |
Wymagania, instalacja i uruchomienie