🕗 🎣 🏴󠁧󠁢󠁥󠁮󠁧󠁿 Surveillance des processus commerciaux Camunda 💞 🉑 🔇

Salut, Habr.

Je m'appelle Anton et je suis responsable technique chez DomClick . Je crée et maintiens des microservices qui permettent à l'infrastructure DomClick d'échanger des données avec les services internes de Sberbank.

Ceci est la suite d'une série d'articles sur notre expérience d'utilisation du moteur de diagramme de processus métier Camunda . L'article précédent était consacré au développement d'un plugin pour Bitbucket qui vous permet de visualiser les changements dans les schémas BPMN. Aujourd'hui, je vais parler de la surveillance des projets qui utilisent Camunda, de l'utilisation d'outils tiers (dans notre cas, il s'agit de la pile Elasticsearch de Kibana et Grafana ), ainsi que le "natif" de Camunda - Cockpit . Je décrirai les difficultés rencontrées lors de l'utilisation de Cockpit et nos solutions.

Lorsque vous avez beaucoup de microservices, vous voulez tout savoir sur leur travail et leur état actuel: plus il y a de surveillance, plus vous vous sentez confiant à la fois dans des situations normales et d'urgence, lors de la libération, etc. Nous utilisons la pile Elasticsearch: Kibana et Grafana comme outils de surveillance. Dans Kibana, nous examinons les journaux et dans Grafana - les métriques. La base de données contient également des données historiques sur les processus Camunda. Il semblerait que cela devrait suffire pour comprendre si le service fonctionne normalement, et sinon, pourquoi. Le hic, c'est que vous devez examiner les données à trois endroits différents et qu'elles n'ont pas toujours un lien clair les unes avec les autres. L'analyse et l'analyse d'un incident peuvent prendre du temps. En particulier, pour l'analyse des données de la base de données: Camunda a un schéma de données loin d'être évident, il stocke certaines variables sous une forme sérialisée. En théorie,Cockpit, un outil Camunda de surveillance des processus métier, peut vous faciliter la tâche.

Interface du cockpit.

Le problème principal est que Cockpit ne peut pas fonctionner avec une URL personnalisée. Il y a beaucoup de demandes à ce sujet sur leur forum, mais jusqu'à présent, il n'y a pas de telles fonctionnalités prêtes à l'emploi. La seule issue est de le faire vous-même. Cockpit dispose d'une configuration automatique Sring Boot CamundaBpmWebappAutoConfiguration

, vous devez donc le remplacer par le vôtre. Nous nous intéressons au CamundaBpmWebappInitializer

bean principal qui initialise les filtres Web et les servlets du Cockpit.

Nous devons transmettre au filtre principal ( LazyProcessEnginesFilter

) des informations sur l'URL à laquelle il fonctionnera, ainsi que des ResourceLoadingProcessEnginesFilter

informations sur l'URL à laquelle il servira les ressources JS et CSS.

Pour ce faire, dans notre implémentation, CamundaBpmWebappInitializer

changez la ligne:

registerFilter("Engines Filter", LazyProcessEnginesFilter::class.java, "/api/*", "/app/*")

sur:

registerFilter("Engines Filter", CustomLazyProcessEnginesFilter::class.java, singletonMap("servicePath", servicePath), *urlPatterns)

servicePath

Est notre URL personnalisée. Dans le même nous indiquons CustomLazyProcessEnginesFilter

notre mise en œuvre ResourceLoadingProcessEnginesFilter

:

class CustomLazyProcessEnginesFilter:
       LazyDelegateFilter<ResourceLoaderDependingFilter>
       (CustomResourceLoadingProcessEnginesFilter::class.java)

En CustomResourceLoadingProcessEnginesFilter

plus servicePath

de tous les liens vers des ressources que nous prévoyons de donner côté client:

override fun replacePlaceholder(
       data: String,
       appName: String,
       engineName: String,
       contextPath: String,
       request: HttpServletRequest,
       response: HttpServletResponse
) = data.replace(APP_ROOT_PLACEHOLDER, "$contextPath$servicePath")
           .replace(BASE_PLACEHOLDER,
                   String.format("%s$servicePath/app/%s/%s/", 
contextPath, appName, engineName))
           .replace(PLUGIN_PACKAGES_PLACEHOLDER,
                   createPluginPackagesString(appName, contextPath))
           .replace(PLUGIN_DEPENDENCIES_PLACEHOLDER,
                   createPluginDependenciesString(appName))

Nous pouvons maintenant dire à notre Cockpit à quelle URL il doit écouter les requêtes et fournir des ressources.

Mais ça ne peut pas être aussi simple, n'est-ce pas? Dans notre cas, Cockpit n'est pas en mesure de fonctionner immédiatement sur plusieurs instances de l'application (par exemple, dans les pods Kubernetes), car au lieu d'OAuth2 et de JWT, le bon vieux jsessionid est utilisé, qui est stocké dans le cache local. Cela signifie que si vous essayez de vous connecter à Cockpit connecté à Camunda, lancé dans plusieurs instances à la fois, ayant le même jsessionid émis, alors à chaque demande de ressources du client, vous pouvez obtenir une erreur 401 avec probabilité x, où x = (1 - 1 / number_pods). Que peux-tu y faire? Le cockpit a le même CamundaBpmWebappInitializer

votre filtre d'authentification est déclaré, dans lequel tout le travail avec les jetons a lieu; vous devez le remplacer par le vôtre. Dans celui-ci, nous prenons jsessionid du cache de session, l'enregistrons dans la base de données s'il s'agit d'une demande d'autorisation ou vérifions sa validité par rapport à la base de données dans d'autres cas. C'est fait, nous pouvons maintenant surveiller les incidents par processus métier via l'interface graphique pratique du Cockpit, où vous pouvez immédiatement voir les erreurs et les variables de stacktrace que le processus avait au moment de l'incident.

Et dans les cas où la cause de l'incident est claire à partir du stacktrace de l'exception, Cockpit vous permet de réduire le temps d'analyse de l'incident à 3-5 minutes: je suis entré, j'ai regardé les incidents dans le processus, regardé le stacktrace, les variables, et voilà - l'incident a été réglé, nous avons mis un bogue dans JIRA et a continué. Mais que se passe-t-il si la situation est un peu plus compliquée, que le stacktrace n'est qu'une conséquence d'une erreur antérieure, ou si le processus s'est terminé sans créer d'incident du tout (c'est-à-dire que techniquement tout s'est bien passé, mais, du point de vue de la logique métier, les mauvaises données ont été transférées, ou le processus est allé dans la mauvaise branche schème). Dans ce cas, vous devez retourner à Kibana, consulter les journaux et essayer de les connecter aux processus Camunda, ce qui prend encore beaucoup de temps. Bien sûr, vous pouvez ajouter l'UUID du processus en cours et l'ID de l'élément de schéma BPMN actuel (activityId) à chaque journal, mais cela nécessite beaucoup de travail manuel,encombre la base de code, complique la révision du code. L'ensemble de ce processus peut être automatisé.

Le projet Sleuth permet de tracer les journaux avec un identifiant unique (dans notre cas, l'UUID du processus). La configuration du contexte Sleuth est décrite en détail dans la documentation, ici je vais seulement vous montrer comment le démarrer dans Camunda.

Tout d'abord, vous devez vous inscrire customPreBPMNParseListeners

auprès de la processEngine

Camunda actuelle . Dans l'écouteur, remplacez les méthodes parseStartEvent

(ajoutez un écouteur à l'événement de début du processus de niveau supérieur) et parseServiceTask

(ajoutez un écouteur à l'événement de début ServiceTask

).

Dans le premier cas, nous créons un contexte Sleuth:

customContext[X_B_3_TRACE_ID] = businessKey
customContext[X_B_3_SPAN_ID] = businessKeyHalf
customContext[X_B_3_PARENT_SPAN_ID] = businessKeyHalf
customContext[X_B_3_SAMPLED] = "0" 
val contextFlags: TraceContextOrSamplingFlags = tracing.propagation()
       .extractor(OrcGetter())
       .extract(customContext)
val newSpan: Span = tracing.tracer().nextSpan(contextFlags)
tracing.currentTraceContext().newScope(newSpan.context())

... et enregistrez-le dans une variable de processus métier:

execution.setVariable(TRACING_CONTEXT, sleuthService.tracingContextHeaders)

Dans le second cas, on le restaure à partir de cette variable:

val storedContext = execution
       .getVariableTyped<ObjectValue>(TRACING_CONTEXT)
       .getValue(HashMap::class.java) as HashMap<String?, String?>
val contextFlags: TraceContextOrSamplingFlags = tracing.propagation()
       .extractor(OrcGetter())
       .extract(storedContext)
val newSpan: Span = tracing.tracer().nextSpan(contextFlags)
tracing.currentTraceContext().newScope(newSpan.context())

Nous devons tracer les journaux avec des paramètres supplémentaires tels que activityId

(ID de l'élément BPMN actuel), activityName

(son nom commercial) et scenarioId

(ID du diagramme de processus métier). Cette fonctionnalité n'est apparue qu'avec la sortie de Sleuth 3.

Pour chaque paramètre, vous devez déclarer BaggageField

:

companion object {
   val HEADER_BUSINESS_KEY = BaggageField.create("HEADER_BUSINESS_KEY")
   val HEADER_SCENARIO_ID = BaggageField.create("HEADER_SCENARIO_ID")
   val HEADER_ACTIVITY_NAME = BaggageField.create("HEADER_ACTIVITY_NAME")
   val HEADER_ACTIVITY_ID = BaggageField.create("HEADER_ACTIVITY_ID")
}

Déclarez ensuite trois beans pour gérer ces champs:

@Bean
open fun propagateBusinessProcessLocally(): BaggagePropagationCustomizer =
       BaggagePropagationCustomizer { fb ->
           fb.add(SingleBaggageField.local(HEADER_BUSINESS_KEY))
           fb.add(SingleBaggageField.local(HEADER_SCENARIO_ID))
           fb.add(SingleBaggageField.local(HEADER_ACTIVITY_NAME))
           fb.add(SingleBaggageField.local(HEADER_ACTIVITY_ID))
       }

/** [BaggageField.updateValue] now flushes to MDC  */
@Bean
open fun flushBusinessProcessToMDCOnUpdate(): CorrelationScopeCustomizer =
       CorrelationScopeCustomizer { builder ->
           builder.add(SingleCorrelationField.newBuilder(HEADER_BUSINESS_KEY).flushOnUpdate().build())
           builder.add(SingleCorrelationField.newBuilder(HEADER_SCENARIO_ID).flushOnUpdate().build())
           builder.add(SingleCorrelationField.newBuilder(HEADER_ACTIVITY_NAME).flushOnUpdate().build())
           builder.add(SingleCorrelationField.newBuilder(HEADER_ACTIVITY_ID).flushOnUpdate().build())
       }

/** [.BUSINESS_PROCESS] is added as a tag only in the first span.  */
@Bean
open fun tagBusinessProcessOncePerProcess(): SpanHandler =
       object : SpanHandler() {
           override fun end(context: TraceContext, span: MutableSpan, cause: Cause): Boolean {
               if (context.isLocalRoot && cause == Cause.FINISHED) {
                   Tags.BAGGAGE_FIELD.tag(HEADER_BUSINESS_KEY, context, span)
                   Tags.BAGGAGE_FIELD.tag(HEADER_SCENARIO_ID, context, span)
                   Tags.BAGGAGE_FIELD.tag(HEADER_ACTIVITY_NAME, context, span)
                   Tags.BAGGAGE_FIELD.tag(HEADER_ACTIVITY_ID, context, span)
               }
               return true
           }
       }

Ensuite, nous pouvons enregistrer des champs supplémentaires dans le contexte Sleuth:

HEADER_BUSINESS_KEY.updateValue(businessKey)
HEADER_SCENARIO_ID.updateValue(scenarioId)
HEADER_ACTIVITY_NAME.updateValue(activityName)
HEADER_ACTIVITY_ID.updateValue(activityId)

Lorsque nous pouvons voir les journaux séparément pour chaque processus métier par sa clé, l'analyse des incidents est beaucoup plus rapide. Certes, vous devez toujours basculer entre Kibana et Cockpit, ce serait les combiner dans une seule interface utilisateur.

Et il y a une telle opportunité. Cockpit prend en charge les extensions personnalisées - plugins, Kibana dispose d'une API Rest et de deux bibliothèques clientes pour l' utiliser : elasticsearch-rest-low-level-client et elasticsearch-rest-high-level-client .

Le plugin est un projet Maven hérité de l'artefact camunda-release-parent, avec un backend Jax-RS et un frontend AngularJS. Oui, AngularJS, pas Angular.

Le cockpit a détaillé documentation sur la façon d'écrire des plugins pour cela.

Je préciserai seulement que pour afficher les logs sur le frontend, nous nous intéressons au panneau d'onglets sur la page d'informations de définition de processus (cockpit.processDefinition.runtime.tab) et à la page de vue Process Instance (cockpit.processInstance.runtime.tab). Nous enregistrons nos composants pour eux:

ViewsProvider.registerDefaultView('cockpit.processDefinition.runtime.tab', {
   id: 'process-definition-runtime-tab-log',
   priority: 20,
   label: 'Logs',
   url: 'plugin://log-plugin/static/app/components/process-definition/processDefinitionTabView.html'
});

ViewsProvider.registerDefaultView('cockpit.processInstance.runtime.tab', {
   id: 'process-instance-runtime-tab-log',
   priority: 20,
   label: 'Logs',
   url: 'plugin://log-plugin/static/app/components/process-instance/processInstanceTabView.html'
});

Cockpit a un composant d'interface utilisateur pour afficher les informations sous forme de tableau, cependant, aucune documentation ne le dit, les informations à son sujet et son utilisation ne peuvent être trouvées qu'en lisant le code source de Cockpit. En bref, l'utilisation du composant ressemble à ceci:

<div cam-searchable-area (1)
    config="searchConfig" (2)
    on-search-change="onSearchChange(query, pages)" (3)
    loading-state="’Loading...’" (4)
    text-empty="Not found"(5)
    storage-group="'ANU'"
    blocked="blocked">
   <div class="col-lg-12 col-md-12 col-sm-12">
       <table class="table table-hover cam-table">
           <thead cam-sortable-table-header (6)
                  default-sort-by="time"
                  default-sort-order="asc" (7)
                  sorting-id="admin-sorting-logs"
                  on-sort-change="onSortChanged(sorting)"
                  on-sort-initialized="onSortInitialized(sorting)" (8)>
           <tr>
               <!-- headers -->
           </tr>
           </thead>
           <tbody>
           <!-- table content -->
           </tbody>
       </table>
   </div>
</div>

Attribut pour déclarer le composant de recherche.

Configuration des composants. Ici, nous avons la structure suivante:

tooltips = { //     , 
                   //         
   'inputPlaceholder': 'Add criteria',
   'invalid': 'This search query is not valid',
   'deleteSearch': 'Remove search',
   'type': 'Type',
   'name': 'Property',
   'operator': 'Operator',
   'value': 'Value'
},
operators =  { //,   ,    
     'string': [
       {'key': 'eq',  'value': '='},
       {'key': 'like','value': 'like'}
   ]
},
types = [// ,     ,    businessKey
   {
       'id': {
           'key': 'businessKey',
           'value': 'Business Key'
       },
       'operators': [
           {'key': 'eq', 'value': '='}
       ],
       enforceString: true
   }
]

La fonction de recherche de données est utilisée à la fois lors de la modification des paramètres de recherche et lors du téléchargement initial.
Quel message afficher lors du chargement des données.
Quel message afficher si rien n'a été trouvé.
Attribut pour déclarer la table de mappage de données de recherche.
Champ et type de tri par défaut.
Fonctions de tri.

Sur le backend, vous devez configurer le client pour qu'il fonctionne avec l'API Kibana. Pour ce faire, utilisez simplement RestHighLevelClient de la bibliothèque elasticsearch-rest-high-level-client. Là, spécifiez le chemin d'accès à Kibana, les données d'authentification: login et mot de passe, et si le protocole de cryptage est utilisé, vous devez spécifier l'implémentation X509TrustManager appropriée.

Pour former une requête de recherche, nous l'utilisons QueryBuilders.boolQuery()

, cela vous permet de composer des requêtes complexes de la forme:

val boolQueryBuilder = QueryBuilders.boolQuery();

KibanaConfiguration.ADDITIONAL_QUERY_PARAMS.forEach((key, value) ->
       boolQueryBuilder.filter()
               .add(QueryBuilders.matchPhraseQuery(key, value))
);
if (!StringUtils.isEmpty(businessKey)) {
   boolQueryBuilder.filter()
           .add(QueryBuilders.matchPhraseQuery(KibanaConfiguration.BUSINESS_KEY, businessKey));
}
if (!StringUtils.isEmpty(procDefKey)) {
   boolQueryBuilder.filter()
           .add(QueryBuilders.matchPhraseQuery(KibanaConfiguration.SCENARIO_ID, procDefKey));
}
if (!StringUtils.isEmpty(activityId)) {
   boolQueryBuilder.filter()
           .add(QueryBuilders.matchPhraseQuery(KibanaConfiguration.ACTIVITY_ID, activityId));
}

Désormais, directement depuis Cockpit, nous pouvons afficher les journaux séparément pour chaque processus et pour chaque activité. Cela ressemble à ceci:

Onglet de visualisation des logs dans l'interface Cockpit.

Mais on ne peut pas s'arrêter là, dans les plans de l'idée pour le développement du projet. Tout d'abord, développez vos capacités de recherche. Souvent, au début de l'analyse d'un incident, il n'y a pas de processus de clé métier disponible, mais il y a des informations sur d'autres paramètres clés, et il serait bien d'ajouter la possibilité de personnaliser la recherche pour eux. De plus, le tableau dans lequel les informations sur les journaux sont affichées n'est pas interactif: il n'y a aucun moyen d'accéder à l'instance de processus requise en cliquant dans la ligne correspondante du tableau. Bref, il y a place pour le développement. (Dès que le week-end sera terminé, je publierai un lien vers le Github du projet et j'inviterai toutes les personnes intéressées.)

Surveillance des processus commerciaux Camunda

More articles: