Découvrez comment surveiller et dépanner votre infrastructure et vos applications, ainsi que comment améliorer leurs performances. Ce cours s'appuie sur les principes d'ingénierie en fiabilité des sites (SRE) et combine des présentations, des démonstrations, des ateliers pratiques et des études de cas concrets. Dans le cadre de ce cours, vous allez acquérir de l'expérience sur l'ensemble des outils de surveillance, la gestion et l'analyse en temps réel des journaux, le débogage de code en production, ainsi que sur le profilage de l'utilisation des processeurs et de la mémoire.
Overview
Syllabus
- Présentation
- Bienvenue dans le cours "Logging, Monitoring and Observability in Google Cloud". Utilisez les ressources ci-dessous pour prendre connaissance des sujets abordés dans ce cours, apprendre à accéder aux supports de cours et envoyer des commentaires.
- Présentation de la surveillance dans Google Cloud
- Dans ce module, nous allons vous présenter les différents produits inclus dans la suite de journalisation, de surveillance et d'observabilité de Google Cloud.
- Éviter aux clients de subir des désagréments
- Dans ce module, nous allons vous présenter plusieurs concepts de l'ingénierie en fiabilité des sites (SRE) et la façon dont nous pouvons les utiliser pour éviter aux clients de subir des désagréments. Dans ce contexte, un client correspond à tout consommateur d'un système cloud.
- Règles d'alerte
- Les alertes permettent de détecter et de résoudre rapidement les problèmes qui surviennent dans les applications cloud. Dans ce module, vous allez découvrir comment développer des stratégies d'alerte, définir des règles d'alerte, ajouter des canaux de notification, identifier les types d'alertes et leurs cas d'utilisation courants, créer des groupes de ressources et générer les alertes associées, et gérer des règles d'alerte de manière automatisée.
- Surveiller les systèmes critiques
- La surveillance consiste à effectuer le suivi des activités qui se produisent sur les ressources créées dans Google Cloud. Dans ce module, nous allons examiner les options et les bonnes pratiques à suivre pour les architectures de projets de surveillance. Nous allons différencier les principaux rôles Cloud IAM nécessaires pour déterminer qui peut faire quoi en termes de surveillance. Tout comme l'architecture, il s'agit d'une première étape fondamentale. Nous allons examiner certains des tableaux de bord par défaut créés par Google et apprendre à les utiliser de manière appropriée. Nous allons créer des graphiques et les utiliser pour créer des tableaux de bord personnalisés afin d'afficher la consommation des ressources et la charge d'une application. Enfin, nous allons définir des tests de disponibilité pour effectuer le suivi de l'activité et de la latence.
- Configurer les services Google Cloud à des fins d'observabilité
- Dans la prochaine partie de notre examen des métriques, nous allons voir comment configurer les services Google Cloud à des fins d'observabilité. Dans ce module, vous allez découvrir comment intégrer les agents Logging et Monitoring dans des VM et des images Compute Engine, activer et utiliser Kubernetes Monitoring, présenter et expliquer la surveillance Kubernetes avec Prometheus, et exposer des métriques personnalisées via du code et à l'aide d'OpenCensus.
- Journalisation et analyse avancées
- Dans ce module, nous allons examiner certaines des fonctionnalités avancées de journalisation et d'analyse de Google Cloud. Plus précisément, vous allez découvrir comment identifier les approches d'ajout de tags aux ressources et en sélectionner une, définir des récepteurs de journaux, créer des métriques de surveillance basées sur les entrées de journal, associer les erreurs de l'application à Logging et à d'autres outils de la suite des opérations avec Error Reporting, et exporter des journaux vers BigQuery pour le stockage à long terme et les analyses basées sur SQL.
- Surveiller la sécurité du réseau et les journaux d'audit
- Dans ce module, nous allons aborder deux sujets principaux : l'association de Monitoring au réseau VPC et l'utilisation de Cloud Audit Logs de Google. Vous allez découvrir comment collecter et analyser des journaux de flux VPC, de règles de pare-feu et Cloud NAT, activer la mise en miroir de paquets, expliquer les fonctionnalités de Network Intelligence Center et utiliser Cloud Audit Logs pour savoir qui a fait quoi et quand. Nous allons également vous présenter les bonnes pratiques concernant les journaux d'audit.
- Gérer les incidents
- À ce stade du cours, nous nous sommes principalement concentrés sur les moyens d'inspecter et de surveiller l'état des systèmes exécutés dans Google Cloud. Mais quelle que soit la solidité de vos stratégies de planification, de conception, de définition d'architecture et de maintenance préventive, les choses peuvent mal tourner. La façon dont vous gérez les incidents a un impact considérable sur la perception des utilisateurs. Dans ce module, vous allez apprendre à gérer les incidents à l'aide d'un processus méthodique.
- Examiner les problèmes de performances des applications
- Lorsque vous déployez des applications sur Google Cloud, les produits de gestion des performances des applications (Cloud Trace, Cloud Debugger et Cloud Profiler) fournissent une suite d'outils permettant d'obtenir des insights sur le fonctionnement du code ainsi que des services et pouvant aider à résoudre les éventuels problèmes.
- Optimiser les coûts de surveillance
- Dans notre dernier module, nous allons aborder l'optimisation des coûts de la suite Google Cloud Operations. Plus précisément, vous allez découvrir comment analyser les coûts d'utilisation des ressources pour les composants liés aux opérations de Google Cloud et apprendre à implémenter les bonnes pratiques pour contrôler le coût des opérations dans Google Cloud.
Taught by
Google Cloud Training