Génération d'événements

Instructions concernant les performances des événements

La configuration suivante a été utilisée pour valider et tester les performances des événements :

Un système conforme aux spécifications recommandées pour un système de production de taille moyenne de 500 000 éléments interrogés (voir spécifications de dimensionnement de système).

10 règles d'événement, réparties dans 7 profils de surveillance et utilisées pour les éléments interrogés.

1 règle d'événement a été évaluée à un taux de 1 minute sur une famille de mesures comprenant 33 pour cent des éléments interrogés.
1 règle d'événement a été évaluée à un taux de 15 minutes sur une famille de mesures comprenant 33 pour cent des éléments interrogés.
Les règles restantes ont été appliquées à une portion des éléments restants interrogée à un taux de 5 minutes.
Les règles d'événement ont été réparties de façon équitable dans 4 familles de mesures.
Chaque règle possédait 1 condition fixe et 1 condition d'écart type.
6 règles d'événement avec une durée de 5 minutes et fenêtre de 15 minutes.
4 règles d'événement avec une durée de 5 minutes et fenêtre de 60 minutes.

Remarque : Pour des performances optimales, réduisez le nombre de profils de surveillance qui ont des règles d'événement pour la même famille de mesures. Par exemple, un profil de surveillance avec dix règles pour la famille de mesures Interfaces fonctionnera mieux que dix profils de surveillance avec une règle pour la famille de mesures Interfaces, lorsqu'il est appliqué au même ensemble d'unités.

Un nombre variable de règles d'événement étaient associées à 100 000 éléments interrogés.

5 systèmes Data Collector étaient utilisés, chacun interrogeant environ 1/5ème des éléments.

Méthode de surveillance du traitement des événements

Pour déterminer si le nombre d'événements surveillés est trop élevé, vous devez surveiller certains indicateurs clés de performance dans Data Aggregator. La surveillance d'événements dans Data Aggregator s'effectue par lots (des événements sont évalués et générés simultanément pour les grands groupes d'éléments par exemple). Nous avons donc utilisé une variété de mesures qui étaient suivies par le biais du mécanisme d'auto-surveillance du système Data Aggregator pour évaluer l'intégrité du système Data Aggregator. Pour afficher ces importantes mesures, ajoutez une vue multitendance d'unité IM personnalisée dans un tableau de bord. Modifiez le tableau de bord pour utiliser les mesures suivantes à partir de la famille de mesures Nombre de calculs d'événements de Data Aggregator :

Taille de la file d'attente des processus d'événement : indique la taille de la file d'attente de traitement des événements. Une valeur de constante de zéro, un, ou deux indique que l'intégrité de ce système est correcte et qu'il peut maintenir le taux actuel de traitement d'événements. Une valeur de constante de plus de 2 indique que le système est en mesure de garantir les charges actuelles de traitement d'événements, mais qu'il est peut-être en retard (et qu'il traite des interrogations antérieures au cycle d'interrogation actuel). Une augmentation de la taille de la file d'attente sans récupération ultérieure (tendance descendante) indique que le traitement d'événements est sauvegardé et que votre système est peut-être en danger.

Les deux mesures suivantes se complètent.

Nombre d'événements effacés : nombre d'événements effacés dans la fenêtre de résolution de génération de rapports.
Nombre d'événements effacés : nombre d'événements déclenchés dans la fenêtre de résolution de génération de rapports.

Un nombre toujours supérieur aux événements déclenchés ou effacés peut avoir un impact sur la base de données du gestionnaire d'événements.

Si le total combiné de ces deux mesures dépasse 900 événements pendant un cycle d'interrogation de 5 minutes, cela signifie que vous avez dépassé le taux de génération recommandé de 2-3 événements par seconde pour les systèmes de taille moyenne. La génération/suppression d'événements en rafale pour les 900 événements dans un cycle d'interrogation de 5 minutes est acceptable.

Evaluations de règles d'événement traitées : une évaluation de règle d'événement est l'évaluation d'une règle d'événement unique d'après un élément unique. Cette mesure suit la somme des règles d'événement, multipliée par le nombre d'éléments auquel ces règles sont appliquées. Plus le nombre d'évaluations est élevé, plus votre système est chargé. Toutefois, les évaluations ne sont pas créées de la même façon. Par exemple, les évaluations avec plus de conditions, plus de conditions d'écart type, ou d'une durée supérieure et avec une fenêtre plus grande sont plus chères que les évaluations utilisant des conditions moins nombreuses et fixes d'une durée et avec une fenêtre inférieures. Le nombre d'évaluations que vous serez en mesure de réaliser variera selon vos règles d'événement.

Dans notre environnement de test (décrit préalablement), nous avons constaté que le dépassement de 150 000 évaluations pendant un cycle d'interrogation de 5 minutes met le système en danger.

Temps total de calcul des événements : durée totale du traitement des événements pour cette famille de mesures. Si ce nombre dépasse le nombre de secondes de la fenêtre de résolution de génération de rapports, cela indique que le traitement des événements a été retardé à ce moment.

La surveillance de toutes ces mesures sur une durée prolongée vous permet de connaître l'intégrité des performances d'événements sur votre système. En outre, si le journal Karaf sur le système Data Aggregator contient une erreur de base de données et/ou autre, cela peut indiquer que le système est surchargé. En général, ces mesures auto-surveillées doivent être régulières. Toutefois, en soirée (par défaut entre 02 h 00 et 4 h 00 UTC), certains jobs intensifs de base de données sont exécutés et peuvent entraîner des fluctuations dans les mesures auto-surveillées. Si les mesures reviennent à un état régulier, vous pouvez considérer que l'intégrité du système est satisfaisante (bien que les événements puissent être retardés lorsque le système est occupé).

Nous vous recommandons d'activer la génération d'événements de façon progressive et de vérifier l'intégrité du système avant de passer à des règles différentes. Nous vous recommandons également de surveiller l'intégrité du système pendant 24 heures après chaque modification ultérieure, car certains processus nocturnes peuvent avoir un impact même lorsque le traitement d'événements semble régulier pendant toutes les heures diurnes.

Méthode de correction en cas de dépassement du seuil

Pour corriger le dépassement d'un seuil, procédez comme suit :

Désactivez les règles d'événement individuellement. Vérifiez les performances après avoir désactivé chaque règle et avant d'en désactiver une autre.

Réduisez le nombre d'éléments interrogés.

Réduisez le nombre de profils de surveillance avec des règles d'événement qui interrogent des éléments.

Si ces étapes n'améliorent pas les performances, contactez le support CA.