Monitoring systemów często bywa wyzwaniem zarówno jeśli chodzi o dobór wskaźników jak i progów przy których alertujemy. Zbyt niskie nie powiadomią nas o problemie, zbyt wysokie będą odrywać od pracy. Spróbujmy nauczyć się tego od najlepszych. Google promuje ideę “Site Reliability Engineering” - jest to zbiór zasad i praktyk które pomagają utrzymać “niezawodne” systemy. Przedstawię na przykładzie jak zbudować monitoring opierając się o potrzeby użytkownika i analizę ryzyka związanego z niedostępnością usługi. Zademonstruję również Prometheus’a który doskonale nadaje się do monitoringu dużych, rozproszonych systemów

Comments

Comments are closed.