Objectifs
Principales caractéristiques
L’apprentissage machine et l’analyse des données avec un système complexe nécessitent souvent l’ajout de jeux de données externes desquels on tirera des conclusions neuves. Or ces jeux de données sont rarement organisés. Ils viennent avec une foule de colonnes et pourraient contenir des données sensibles dissimulées derrière des tabulations mal définies.
Pour intégrer des fichiers si mal structurés, le développeur a besoin d’une multitude d’outils et doit déployer des efforts appréciables pour comprendre les données, en évaluer la qualité et les charger dans un dépôt central. Malheureusement, de tels outils coûtent cher et abondent en fonctionnalités. En outre, s’ils autorisent la conversion et l’analyse des données, c’est souvent dans une fenêtre très étroite.
D’autre part, quand les fichiers renferment des informations délicates, il arrive qu’on doive prendre en compte des aspects précis sur le plan de la sécurité. Ainsi, au Canada, la Loi sur la protection des renseignements personnels et les documents électroniques oblige les sociétés à prendre des mesures pour protéger les données personnelles en leur possession.
Créer des jeux de données avec les outils ETL (extraire, convertir, charger) existants n’est pas une mince affaire, même avec des fichiers rudimentaires, et un engorgement paralysera tôt ou tard le projet d’analyse ou de recherche. La Solution type propose une méthode simple, en quatre étapes, couvrant les tâches les plus courantes de ce genre.