Data warehouses et les data marts

Glossaire

Data warehouse, data mart, entrepôt de données… Comme tous les domaines, le Big Data possède son propre jargon et il peut être difficile de s’y retrouver parmi ces termes techniques. Comment distinguer un entrepôt et un magasin de données ? Quels sont leurs avantages et inconvénients ? Voici tout ce qu’il faut savoir.

Data warehouse : définition

Un data warehouse, aussi appelé entrepôt de données, est une base de données relationnelle qui peut être hébergée dans un data center ou dans le cloud. Il permet de recueillir des données de sources diverses et hétérogènes afin de faciliter la prise de décision au sein d’une organisation.

L’entrepôt de données joue un rôle majeur dans la Business Intelligence, puisqu’il permet de stocker des données en grandes quantités, mais aussi d’effectuer des requêtes et des analyses. Concrètement, il transforme la data brute en informations utiles et les rend disponibles et accessibles pour les utilisateurs.

Bon à savoir : Attention à ne pas confondre data lake et data warehouse : bien que similaires, ces deux concepts possèdent des différences notables.
En effet, un data lake (ou lac de données) permet de stocker toutes les données dont l’entreprise dispose sans aucune hiérarchie ou organisation entre les différents éléments.
Ainsi, la data est conservée sous sa forme la plus brute et elle n’est ni traitée ni analysée, du moins dans un premier temps. Autre différence fondamentale avec le data warehouse : dans un lac de données, aucune structure particulière n’est imposée à la data et tous les types de données sont acceptés.

Data mart : définition

Un data mart, aussi appelé magasin de données, est une base de données précise destinée à un groupe d’utilisateurs restreint.

Bill Inmon, reconnu comme l’inventeur de l’entreposage de données, définit le datamart comme un flux de données provenant du data warehouse, qui regroupe des informations spécialisées, agrégées et ciblées dans le but de répondre aux besoins des métiers.

Autrement dit, il s’agit d’un extrait de l’ensemble des données possédées par l’entreprise. Le data mart ne contient que le nécessaire : pour ne pas perturber les utilisateurs, les informations inutiles sont retirées et l’historisation est effectuée en fonction de leurs requêtes.

Bon à savoir : Les datamarts sont parfois confondus avec les cubes de données, car ces deux éléments ont en commun d’être liés aux applications métiers au sein d’un data warehouse. Néanmoins, il existe une différence entre les deux :D’un côté, le magasin de données est un sous-ensemble du data warehouse qui réunit toutes les données relatives à un domaine particulier.De l’autre, le cube permet d’effectuer des requêtes afin de répondre aux questions spécifiques des utilisateurs métiers.

Quelle est la différence entre un magasin de données (data mart) et un entrepôt de données (data warehouse) ?

Un datamart est généralement un sous-élément d’un data warehouse, dont l’objectif est d’organiser les données en fonction des usages métiers. Ainsi, les data warehouses sont conçus pour héberger l’intégralité des données d’une entreprise, tandis que les data marts répondent uniquement aux besoins d’une fonction spécifique. Par conséquent, les entrepôts de données sont souvent bien plus volumineux que les data marts.

Selon l’approche de Ralph Kimball, informaticien renommé, auteur de nombreux ouvrages sur le sujet, l’entrepôt de données peut même être considéré comme un ensemble de data marts. En centralisant les données, il garantit leur sécurité, leur cohérence, mais aussi leur disponibilité pour les datamarts. Le data warehouse assure également la traçabilité de l’information dans toute l’entreprise, là où le magasin de données se limite à satisfaire les besoins d’un métier.

Par ailleurs, les data warehouses permettent de réaliser des requêtes et des rapports complexes. Les magasins de données, quant à eux, sont conçus pour que les utilisateurs puissent accéder facilement et rapidement aux informations dont ils ont besoin. En matière d’organisation des données, data mart et data warehouse se distinguent également. Les entrepôts utilisent généralement des schémas en étoile ou en flocon de neige, tandis que les magasins de données peuvent être structurés de nombreuses façons.

Comment fonctionne un data warehouse ?

Un data warehouse est basé sur le processus ETL (Extract, Tranform, Load), permettant de charger et d’intégrer la data issue de différentes sources de données, par exemple un système transactionnel ou une autre base de données relationnelle.

À la manière d’un répertoire central, il regroupe toutes les données structurées de l’entreprise, avant de les traiter et de les transformer. Les utilisateurs peuvent ensuite accéder à cette data par le biais d’un outil de Business Intelligence, d’un client SQL, voire d’un tableur.

En agrégeant ses données dans un seul et même endroit, l’entreprise bénéficie d’une vue d’ensemble sur les informations essentielles à sa gestion quotidienne.

Comment fonctionne un data mart ?

Il existe plusieurs types de data marts aux modes de fonctionnement distincts.

Le data mart dépendant

Un data mart est dit dépendant lorsqu’il est créé à partir d’un entrepôt de données existant. Il s’inscrit dans une approche “descendante” composée de deux étapes :

  • Le stockage de la totalité des données de l’entreprise dans un répertoire central.
  • L’extraction d’un sous-ensemble de données spécifique à partir de ce gisement, lorsqu’une analyse est nécessaire.

Le data mart indépendant

Un data mart indépendant, à l’inverse, n’est pas basé sur un data warehouse existant. Il s’agit donc d’une base autonome dont les données sont en lien avec un métier ou une activité de l’entreprise. Cette data est extraite directement à partir de sources de données internes ou externes. Elle est ensuite traitée et chargée dans le data mart, où elle sera stockée jusqu’à ce qu’elle soit utilisée pour une analyse ad-hoc.

Le data mart hybride

Comme son nom l’indique, le data mart hybride combine les données d’un data warehouse existant avec celles issues d’autres sources.

Les avantages d’un data warehouse

L’utilisation d’un data warehouse en entreprise est très utile pour simplifier l’accès à des données provenant de sources multiples, avec une approche centralisée.

Il permet à l’organisation :

  • D’obtenir des informations cohérentes et actualisées sur ses différentes activités.
  • De générer des reportings.
  • D’interroger la data en effectuant des requêtes.

Par conséquent, le data warehouse réduit considérablement le temps alloué aux différentes tâches liées à l’analyse de données, y compris l’analyse prédictive. En effet, grâce aux grands volumes de données historiques qu’il contient, il facilite l’étude des grandes tendances sur différentes périodes, afin de mieux anticiper l’avenir.

Les inconvénients d’un data warehouse

L’un des principaux défauts de l’entrepôt de données est qu’il n’est pas adapté pour le stockage de données non structurées. Pour cet usage, il est préférable de remplacer le data warehouse par un data lake.

Ce manque de flexibilité se traduit aussi par des difficultés à modifier les types de données, les requêtes ou encore les schémas de sources de données. Ce genre de plateforme peut donc s’avérer difficile à utiliser pour un utilisateur non-expert et nécessite des efforts de formation non négligeables.

Les avantages d’un data mart

La mise en œuvre d’un data mart permet d’accéder plus facilement et plus rapidement à un sous-ensemble de données spécifique, qui peut être exploité dans le cadre de la Business Intelligence. Ainsi, les utilisateurs métiers obtiennent directement les informations dont ils ont besoin à partir du magasin de données, sans avoir à passer par le service informatique, d’où un gain de productivité.

De plus, un data mart apporte davantage de visibilité et améliore la prise de décision au sein des différents services de l’entreprise. Ces derniers peuvent se focaliser sur des opportunités ou des problématiques spécifiques à leur domaine, qu’il s’agisse de la finance, des ressources humaines ou encore du marketing. Ainsi, les décideurs peuvent tirer davantage d’enseignements de la data et faire des choix éclairés au quotidien.

Les magasins de données se distinguent également par leur implémentation simple et rapide, comparée à celle d’un data warehouse, qui nécessite du temps et des efforts importants. Un data mart indépendant, en particulier, peut être opérationnel en quelques jours et à moindre coût.

Enfin, les data marts permettent de gérer les données avec plus d’agilité et d’évolutivité. Concrètement, les informations collectées précédemment peuvent être réutilisées pour réaliser de nouvelles analyses. Les équipes ont aussi la possibilité de modifier et de mettre à jour leur magasin de données en fonction de leurs projets actuels.

Les inconvénients d’un data mart

L’une des forces des data marts est aussi leur principale faiblesse : à cause de leurs données limitées et concentrées sur un domaine spécifique, ils ne sont pas en mesure de fournir une analyse de la data à l’échelle de l’organisation tout entière.

De plus, une erreur fréquente consiste à créer une multitude de magasins de données disparates, qui n’ont souvent aucun rapport entre eux et n’apportent pas une réelle valeur ajoutée. Cette pratique peut d’ailleurs entraîner une duplication des données dans les différents services de l’entreprise, et donc des rapports et des analyses incohérents.

Bien qu’ils soient très différents, sur leur forme comme dans leurs objectifs, le data warehouse et le data mart sont complémentaires et leur association est très utile pour la gestion des données au sein d’une entreprise data driven. Toutefois, l’organisation doit avoir conscience de leurs atouts et inconvénients respectifs avant de se lancer dans un projet data de grande envergure.

Glossaire
Derniers articles

ETL

Le processus ETL : un outil incontournable pour l’analyse de données