13 May 2008

Le datawarehouse centralisé a vécu… Vive l’architecture mixte !

Au début, on parlait de SIAD (Système d’Aide à la Décision, DSS en Anglais), ou encore de EIS (Executive Information System). De ces vocables ont émergé la notion de décisionnel, aujourd’hui solidement installée, et celle de datawarehouse. C’est dire qu’on n’a pas attendu les années 2000 pour utiliser les données disponibles pour les transformer en informations et enfin en prise de décision.

Le Datawarehouse à l’infrastructure ; la Business Intelligence aux utilisateurs

.../...


Le Datawarehouse à l’infrastructure ; la Business Intelligence aux utilisateurs

Mais voilà, stocker des données puis les « faire parler » a abouti très vite à des besoins d’outils spécialisés : on ne traite pas en effet de la même manière des approches transactionnelles (transactions courtes impliquant peu de données) et des approches décisionnelles (requêtes plus longues, volumétries plus ou moins importantes). Il semble qu’il y ait aujourd’hui un consensus : le stockage des données doit rester neutre par rapport aux applications décisionnelles, ou, en d’autres termes, le datawarehouse concerne l’infrastructure tandis que la Business Intelligence (BI) est l’affaire des utilisateurs.
Ceci étant, certains points clés de l’infrastructure ont longtemps posé problème : la volumétrie, les performances de restitution, les temps de chargement, le nombre d’accès simultanés, la complexité des requêtes. C’était l’occasion pour certains, comme Teradata, de se poser en champion du datawarehouse, peu de concurrents pouvant, avant 2002/2003, rivaliser avec lui sur la plupart des points ci-dessus, en justifiant cette absence de concurrents par des coûts réputés élevés.
Depuis 2002, avec l’apparition des appliances décisionnelles (Netezza, DATAllegro, …) l’équation a changé, même si certains mythes ont la vie dure.

Peur des gros…

«Les gros font toujours peur»…Il s’agit des datawarehouses bien sûr ! Les pratiques héritées de temps où l’octet coûtait très cher perdurent curieusement : nous sommes pourtant parfaitement habitués aujourd’hui à trouver sur nos portables des processeurs de plus en plus rapides et des disques de plus en plus gros. Le téraoctet est aujourd’hui disponible sur les rayons de la grande distribution pour moins de trois cents euros. Mais dans le monde professionnel, quelques téras pour son datawarehouse en font frémir plus d’un. Alors on continue souvent de restreindre les besoins fonctionnels pour ne pas franchir un seuil psychologique. Pourquoi les entreprises américaines ont-elles depuis longtemps franchi cette barrière auto-imposée, et pas les européennes ? Mystère !

L’entrepôt centralisé : modèle idéal ?

« L’entrepôt centralisé est le modèle idéal ! »… C’est ce que prônent depuis très longtemps les IBM ou Teradata, rejoints aujourd’hui par HP. Intellectuellement, c’est probablement vrai : une boîte, plutôt grosse, plutôt noire, plutôt (très !) chère, censée assurer simultanément les services de chargement, respecter les fenêtres d’exploitation, restituer les données à vitesse de la lumière, fabriquer des agrégats ou datamarts à la volée, souvent appelée EDW pour Entreprise DataWarehouse. Oui mais voilà, dans la vie de tous les jours, ce modèle n’existe pas pour au moins deux raisons de bon sens :
-a. Les urgences fonctionnelles provoquent l’apparition généralement mal contrôlée de datamarts, contre lesquels le Datawarehouse centralisé ne peut rivaliser, ni en délai de mise en œuvre, ni en coût ;
-b. Le manque patent de puissance nécessaire à la simultanéité des services de base (alimentation, stockage, agrégation, restitution, sauvegarde,…). A moins de disposer d’une plateforme démesurée, donc à coût complètement prohibitif, l’utilisation de l’un de ces services pénalise nécessairement les autres. A titre d’exemple, prenons un opérateur de télécommunications, même petit : la caractéristique de son métier est de ne jamais s’arrêter, il fonctionne 24h/24, 7j/7. Or ce secteur est probablement celui qui est le mieux représenté parmi les détenteurs de datawarehouses. Y en a-t-il un seul qui utilise exclusivement un EDW ?
Ainsi, depuis très longtemps, les entreprises doivent composer avec le modèle centralisé pour certains traitements, et avec le modèle décentralisé pour d’autres. L’intégrité référentielle globale des données entre EDW et datamarts n’est pas assurée, ni d’ailleurs la prolifération des datamarts, plus souvent subie que maîtrisée.

Datawarehouse centralisé ou Datawarehouse décentralisé ?

L’apparition des appliances décisionnelles n’a pas nécessairement résolu ce problème de choix d’architecture entre mode centralisé et mode décentralisé. A l’exception notable de DATAllegro, les acteurs de cette tendance se cantonnent toujours soit dans le centralisé (IBM, HP, Teradata) soit dans le décentralisé/datamarts (Netezza, Kognitio, Dataupia, …), laissant les deux questions fondamentales de l’intégrité référentielle et du ratio coût/performance sans réponse satisfaisante.

La cohabitation par une architecture mixte

Une grille d’appliances spécialisées plutôt qu’un monolithe, telle est la réponse. Grâce à des composants technologiques élémentaires totalement standard (Serveurs Intel, SGBD, connectique Infiniband Cisco, disques EMC), il est possible d’être à l’aise dans les deux mondes, depuis les plus petits datamarts jusqu’aux plus gros EDW. Ainsi, un réseau de plusieurs appliances, chacune étant configurée pour une fonction précise (alimentation, agrégation, stockage principal ou hub, restitution, propagation de données, sauvegarde,..) est la réponse appropriée. Cette réponse est rendue possible grâce aux mécanismes de réplication très rapides d’une part (via Infiniband à 20 Gbps), et à la gestion des méta-données, d’autre part. Des références opérationnelles de premier plan existent déjà.
Dans ces conditions, les modèles centralisé et décentralisé cohabitent harmonieusement dans une architecture mixte où chaque département utilisateur et bien sûr l’informatique centrale restent maîtres de leurs budgets respectifs et de leurs choix technologiques et métier. Les applications sont nombreuses : PRA (Plan de Reprise d’Activité), Multi-température des données en fonction de leur âge, ou encore un modèle EDW enfin opérationnel, doté de très hautes performances.
Bernard Fitoussi, DATAllegro Country Manager bernardf@datallegro.com

No comments:

Post a Comment