Site Reliability Engineering - monitor and mangage services like Google

Tomasz Kołodziej

Tuesday 12 February 2019 from 18:00 to 18:45

Talk in Polish at PHPers Bielsko - Biała #3
Short URL: https://joind.in/talk/9c2c4 (QR-Code (opens in new window))

Monitoring systemów często bywa wyzwaniem zarówno jeśli chodzi o dobór wskaźników jak i progów przy których alertujemy. Zbyt niskie nie powiadomią nas o problemie, zbyt wysokie będą odrywać od pracy. Spróbujmy nauczyć się tego od najlepszych. Google promuje ideę “Site Reliability Engineering” - jest to zbiór zasad i praktyk które pomagają utrzymać “niezawodne” systemy. Przedstawię na przykładzie jak zbudować monitoring opierając się o potrzeby użytkownika i analizę ryzyka związanego z niedostępnością usługi. Zademonstruję również Prometheus’a który doskonale nadaje się do monitoringu dużych, rozproszonych systemów

Comments

Comments are closed.