Accueil  >  Blog  >  Tout ce que vous devez savoir sur un Data Warehouse

Qu'est-ce que l'entreposage de données ?
Tout ce que vous devez savoir sur un Data Warehouse

Business Intelligence

Data

| Edité le : 20 décembre 2021

Le concept d’entrepôt de données (EDD), encore appelé en anglais, Data Warehouse (DWH) remonte à la fin des années 1980 lorsque Barry Devlin et Paul Murphy, deux chercheurs chez IBM ont développé un « business data warehouse ». Leur objectif était de fournir un modèle d’architecture pour le flux de données de différentes systèmes opérationnels aux environnements d’aide à la décision.

Data Warehouse : définition

Qu’est-ce qu’un EDD ?

Un Data Warehouse est une base de données relationnelle hébergée sur un serveur, que ce soit dans un Data Center ou dans le Cloud. Elle recueille des données de sources variées et hétérogènes afin de faciliter l’analyse et les prises de décision. En matière d’intégration dans le système de données existant, le Data Warehouse est basé sur le processus ETL (Extract, Tranform, Load) permettant de charger les données provenant des différentes applications.

Si l’on rentre un peu plus dans la technique, un Data Warehouse est un ensemble de données qui a 4 principales caractéristiques :

  1. Orienté sur le sujet
  2. Intégré
  3. Varante temporelle
  4. Non volatile

Orienté sur le sujet :

Organisé par thème, il est possible d’utiliser le Data Warehouse pour analyser n’importe quel secteur particulier de l’entreprise.

Intégré :

Avant toute utilisation, les données récupérées de sources hétérogènes internes ou externes sont intégrées au Data Warehouse. Pour cela, il est nécessaire de les mettre en forme et de les unifier pour garantir une certaine cohérence. Les données proviennent principalement de traitement transactionnel en ligne (OLTP).

Variante temporelle :

Les données passées sont également conservées dans le Data Warehouse, contrairement à certains des systèmes transactionnels traditionnels où seules les données les plus récentes sont stockées. Cela permet de visualiser l’évolution dans le temps des différentes données.

Non volatile :

Les données une fois stockées dans l’entrepôt de données ne peuvent jamais être modifiées.

Les quatre principales étapes d’utilisation de l’entrepôt de données :

  1. Base de données opérationnelle hors ligne : les données sont copiées d’un système opérationnel vers un autre serveur afin de ne pas impacter les performances du système opérationnel.
  2. EDD hors ligne : les données de l’entrepôt de données sont mises à jour, cartographiées et transformées pour répondre aux objectifs définis.
  3. EDD en temps réel : mise à jour des EDD à chaque fois qu’une transaction a lieu dans la base de données opérationnelle.
  4. EDD intégré : les EDD sont continuellement mis à jour lorsque le système opérationnel effectue une transaction. Le Data Warehouse génère ensuite des transactions qui sont renvoyées au système opérationnel.

Les trois composants de l’EDD

Les trois composantes des entrepôts de données sont :

  1. Gestionnaire de charge : aussi appelé « composant frontal », il effectue toutes les opérations associées à l’extraction et au chargement des données dans l’entrepôt. Notamment, les transformations nécessaires pour la préparation des données
  2. Directeur d’entrepôt : le gestionnaire d’entrepôt effectue les opérations associées à la gestion des données dans l’entrepôt : analyse des données pour assurer la cohérence, la création d’index et de vues, la génération de dénormalisation et d’agrégations, la transformation et la fusion des données sources et l’archivage et la mise en grappes des données
  3. Gestionnaire de requêtes : ou « composant backend », effectue toutes les opérations liées à la gestion des requêtes utilisateurs (requêtes directes vers les tables appropriées pour planifier l’exécution)

Enfin les outils d’accès pour les utilisateurs finaux sont classés en cinq groupes :

  1. La déclaration des données
  2.  Outils d’interrogation
  3.  Outils de développement d’applications
  4.  Outils SIE
  5.  Outils OLAP et outils de data mining

Comparatif entre les différentes bases disponibles

 Base de données de production

  • Opérations  : gestion courante, production /  lectures, insertions, mises à jour, suppressions
  • Modèle de données : entité / relation
  • Normalisation : fréquente
  • Données : actuelles, brutes, détaillées
  • Mises à jour :  immédiate, temps réel
  • Niveau de consolidation : faible
  • Perception : verticale
  • Taille : en gigaoctets

Data warehouses

  • Opérations  : référentiel, analyse ponctuelle / lectures, insertions, mises à jour
  • Modèle de données : 3NF, étoile, flocon
  • Normalisation : maximum
  • Données : historisées, détaillées
  • Mises à jour : souvent différée, périodique
  • Niveau de consolidation : faible
  • Perception : transverse
  • Taille : en téraoctets

Datamarts

  • Opérations  : analyse récurrente, outil de pilotage, support à la décision/  lectures, insertions, mises à jour, suppressions
  • Modèle de données : étoile, flocon
  • Normalisation : rare
  • Données : historisées, agrégées
  • Mises à jour : souvent différée, périodique
  • Niveau de consolidation : élevé
  • Perception : horizontale
  • Taille : en gigaoctets

Quelles différences entre Data Warehouse et Data Mart ?

Un Data Mart est un sous-ensemble d’un Data Warehouse. Alors que le Data Warehouse couvre plusieurs sujets ou fonctions, un Data Mart est spécialisé. En d’autres termes, un Data Mart est une forme simple de Data Warehouse centré sur un unique sujet ou fonction. En effet, il est conçu pour accéder plus facilement à des données spécifiques.

Quelles différences entre Data Warehouse et base de données traditionnelle ?

Bien qu’un Data Warehouse et une base de données traditionnelle ont le même but, à savoir le stockage des données, ces deux systèmes ont été conçus à des fins différentes. Voici 3 distinctions majeures entre ces deux technologies :

HISTORIQUE vs COURANT

La base de données sert à stocker les transactions courantes et permet un accès rapide à des transactions spécifiques notamment grâce aux technologies d’indexation.Le Data Warehouse stocke une grande quantité de données historiques et permet des requêtes rapides et complexes à travers les données (technologies OLAP et ses dérivés voire In-memory).

UNICITE  vs DUPLICATION

La base de données est normalisée (copie unique de chaque donnée). Le Data Warehouse, stoke  généralement différentes versions de données.

LECTURE/ECRITURE vs LECTURE/OPERATION

La base de données est optimisée pour les opérations de type lecture/écriture. Le Data Warehouse traite des requêtes agrégées ainsi que les opérations de type lecture/récupération.

Le futur du Data Warehouse : le Data LakeHouse

De la BI à l’IA

Le lakehouse est une nouvelle architecture disruptive de gestion des données qui simplifie l’infrastructure de données de l’entreprise. Elle accélère l’innovation à une époque où l’apprentissage automatique est sur le point de chambouler tous les secteurs.

Avant son arrivée, la plupart des données qui entraient dans les produits où la prise de décision d’une entreprise étaient des données structurées provenant de systèmes opérationnels. Aujourd’hui, de nombreux produits intègrent l’IA sous la forme de modèles de vision par ordinateur.

Pourquoi utiliser un entrepôt de données plutôt qu’un lac de données pour l’IA ?

Des avantages 

Un entrepôt de données offre des propriétés de versioning des données, de gouvernance, de sécurité et d’ACID, qui sont nécessaires, même pour des données non structurées.

Quelques améliorations encore nécessaires

Les entrepôts de données actuels réduisent les coûts, mais leurs performances peuvent encore être inférieures à celles des systèmes spécialisés qui ont des années d’investissements et de déploiements réels derrière eux.

Les utilisateurs peuvent préférer certains outils (outils de BI, IDE, notebooks) à d’autres, de sorte que les entrepôts de données devront également améliorer leur interface utilisateur et leurs connecteurs aux outils les plus populaires afin de séduire un large éventail de personnes.

Ces questions, ainsi que d’autres, seront abordées au fur et à mesure de la maturation et du développement de la technologie. Au fil du temps, les entrepôts de stockage de données combleront ces lacunes tout en conservant les propriétés fondamentales de simplicité, de rentabilité et de capacité à servir diverses applications de données.

 

Pour aller plus loin : 

Notre expertise liée à la Data Warehouse

×