Aperçu
Qu’est-ce qu’un pipeline de données automatisé?
Comme son nom le laisse entendre, le pipeline de données automatisé (ADP) est une solution complète qui automatise l’ingestion, la transformation, le stockage et la présentation des données sur une plateforme évolutive. Dans ce Propulseur, nous vous montrerons comment combiner des outils de source ouverte pour créer un ADP. La Solution type utilise deux sortes de données pour en effectuer la démonstration :
- les cours du marché;
- les informations boursières.
Les principaux outils employés par le Propulseur sont Airflow et Kafka d’Apache, et MySQL. La solution est déployée sur une grappe Kubernetes d’un seul nœud, créée avec la technique décrite dans le Propulseur de l’ATIR intitulé « Automatisation de l’orchestration en nuage avec Kubernetes ».
Quelle est son utilité pour l’entreprise?
Voici ce qu’autorise cette solution.
- Elle automatise l’ingestion, le traitement, le stockage et la présentation des données.
- La licence d’exploitation ne coûte rien, car les outils du Propulseur viennent tous d’une source ouverte.
- Elle n’est pas assujettie à un nuage, donc on peut l’utiliser sur diverses plateformes d’infonuagique.
- Elle met en place une application dont l’architecture repose sur des microservices réunis de façon lâche, chaque service pouvant être déployé, maintenu et testé indépendamment les uns des autres.
- Elle s’adapte à différents modèles d’entreprise.
L’avantage du Propulseur est qu’il permet de choisir et d’intégrer un éventail d’outils de source ouverte afin d’obtenir une solution complète, fiable, adaptable et évolutive pour gérer des données en temps réel, ou presque.
Pourquoi choisir cette technologie et pas une autre?
Le plus souvent, une organisation embauchera des architectes (spécialisés dans les données ou les entreprises) pour concevoir et développer une telle architecture, puis confiera l’élaboration des services requis à une équipe de développement. Actuellement, créer le cadre d’un ADP prendra plusieurs mois et coûtera des milliers de dollars quand on part de zéro.
La Solution type du Propulseur adopte une approche générale qui convient à la plupart des projets courants de gestion des données. Elle aidera l’entreprise à démarrer rapidement, car elle disposera d’un point de départ et pourra modifier la solution en fonction de ses propres besoins.
Les outils de la Solution type peuvent être téléchargés gratuitement et d’autres Propulseurs en utilisent la majorité. Ce Propulseur permet de sélectionner et d’intégrer ces mêmes outils pour aboutir à une solution complète fiable, adaptable et évolutive qui autorise la gestion des données en temps réel, ou quasi réel.