Cube OLAP

Glossaire

Cube OLAP : définition et usage des bases de données multidimensionnelles  

Les cubes OLAP sont aujourd’hui incontournables pour interroger des données à grande échelle au sein d’un système d’information décisionnel. Mais de quoi s’agit-il exactement ? Comment fonctionnent-ils ? Qu’est-ce que la technologie OLAP ? Voici toutes les réponses.

Qu’est-ce qu’un cube de données ?

Dans le domaine de la Business Intelligence, un cube de données multidimensionnel est une structure de données permettant d’organiser et d’analyser la data à travers plusieurs dimensions de manière simultanée. Il ne doit pas être confondu avec un jeu de données.

Là où les bases de données standards stockent la data dans des tableaux à deux dimensions, les bases de données multidimensionnelles sont divisées en plusieurs dimensions qui représentent les différents aspects de la data, par exemple : les produits, les clients, les zones géographiques, le temps, etc.

Par ailleurs, un cube multidimensionnel est construit à partir de plusieurs sources de données. Une fois agrégée, la data est organisée en dimensions et en mesures.

Les dimensions et mesures

Une dimension est un ensemble de modalités pouvant être organisées ou non selon une ou plusieurs hiérarchies. En d’autres termes, il s’agit d’une donnée filtrable et explorable, mais qui ne peut pas être quantifiée : par exemple, une date ou une zone géographique. 

  • Une dimension peut être discrète, ce qui signifie que ses membres (c’est-à-dire ses modalités) n’ont pas d’ordre particulier : par exemple, les régions d’un pays. 
  • Elle peut aussi être continue : dans ce cas, l’ordre des modalités a une importance.

Une mesure est une valeur numérique qui représente une grandeur : par exemple, le chiffre d’affaires d’une entreprise ou le prix d’un produit. Ce type de donnée, qui joue un rôle central dans la Business Intelligence, a donc pour particularité d’être quantifiable. Très utilisées dans les représentations graphiques, les mesures sont souvent associées avec des dimensions.

Ainsi, l’utilisateur peut explorer le cube de données en utilisant certaines combinaisons de dimensions. Cela lui permet d’obtenir des vues spécifiques de la data, mais aussi de réaliser des analyses multidimensionnelles avancées.

La hiérarchie

La hiérarchie est une autre notion importante, puisqu’elle permet aux utilisateurs d’explorer plusieurs niveaux d’information et d’alterner entre une vue globale et une vue plus détaillée.

En Business Intelligence, la hiérarchie est une structure de données permettant d’organiser les membres d’une dimension selon leur niveau de détail, ce qui simplifie l’analyse et la prise de décision. Par exemple, sur une dimension géographique, il est possible de visualiser la data par ville, par département, par région, par pays…

Qu’est-ce que la technologie OLAP ?

L’expression « cube OLAP » est largement répandue, à tel point qu’il existe une confusion fréquente entre le cube de données et la technologie OLAP. En réalité, il s’agit de deux concepts bien distincts.

Un peu d’histoire : en 1993, l’informaticien britannique Edgar Frank Codd formule un ensemble de règles qu’il baptise OLAP (Online Analytical Processing), une expression que l’on peut traduire en français par « traitement analytique en ligne« . Ses douze principes sont les suivants :

  1. Vue conceptuelle multidimensionnelle
  2. Transparence   
  3. Constance des temps de réponse
  4. Accessibilité
  5. Indépendance des dimensions
  6. Architecture client-serveur
  7. Accès multi-utilisateurs
  8. Gestion des matrices creuses
  9. Manipulation aisée des données
  10. Pas de restrictions sur les opérations inter et intra dimensions
  11. Simplicité des rapports
  12. Nombre illimité de dimensions et nombre illimité d’éléments sur les dimensions

Considéré comme l’un des pionniers de la gestion de bases de données relationnelles, Codd a posé les bases de ce qui deviendra le cube de données. En effet, son approche multidimensionnelle permet aux utilisateurs d’explorer la data selon différentes perspectives, avec plusieurs niveaux de granularité.

Le cube OLAP permet d’extraire de l’information pour la visualiser, l’analyser ou la traiter, mais il donne aussi accès à des fonctions de requête en langage MDX (« expressions multidimensionnelles »), qui peut être comparé au langage SQL pour une base de données relationnelles.

À la naissance du cube de données OLAP, les moteurs analytiques étaient encore trop lents pour garantir un temps de réponse satisfaisant. La société Arbor Software a alors développé une technologie « OLAP » permettant de traiter les données à l’avance, de les stocker et de les mettre à disposition des utilisateurs.

Cette technologie a rapidement été adoptée par la plupart des outils analytiques, démocratisant le terme de « cube OLAP ». Toutefois, avec l’émergence de nouvelles technologies plus performantes, OLAP a été peu à peu abandonnée à la fin des années 2000. Par conséquent, parler de « cube OLAP » pour désigner un cube de données multidimensionnel est un abus de langage.

Les déclinaisons de la technologie OLAP

Afin d’implémenter le concept OLAP, il existe plusieurs déclinaisons permettant d’adapter le stockage des données à différents types de base de données : les plus courantes sont sans doute ROLAP et MOLAP.

ROLAP (Relational OLAP)

Le ROLAP est une technique fondée sur une structure relationnelle, permettant de stocker les données et de les modéliser sous forme de schémas en étoile ou en flocon. Ici, les requêtes multidimensionnelles doivent être converties en requêtes relationnelles. L’outil SSAS (SQL Server Analysis Services) est un bon exemple d’implémentation de cette approche.

MOLAP (Multidimensional OLAP)

Fondé sur un entrepôt de données multidimensionnel, le MOLAP permet de représenter les données en croisant plusieurs dimensions. Ici, la data est stockée dans des tableaux multidimensionnels et des techniques de compression sont utilisées. 

Ainsi, le MOLAP permet de stocker des données de taille relativement faible dans le data warehouse, par rapport au ROLAP. Néanmoins, les langages multidimensionnels comme MDX permettent d’écrire des requêtes de façon intuitive et efficace.

Les cubes de données multidimensionnels sont indispensables pour exploiter tout le potentiel de la data, et notamment pour analyser des données massives. C’est pourquoi ils sont omniprésents au sein des logiciels de Business Intelligence (BI).

Glossaire
Derniers articles

ETL

Le processus ETL : un outil incontournable pour l’analyse de données