30 September 2008

Microsoft s'invite sur le marché des entrepôts de données

Interview de Bernard Fitoussi
CIO n°38 - septembre 2008

Une architecture mixte pour dépasser les limites de SQL Server

Quand le géant du logiciel Microsoft présente son projet d'acquérir un fournisseur de solutions intégrées pour la gestion d'entrepôts de données Datallegro, c'est légitimement que l'on s'interroge sur sa stratégie. La réponse est certainement dans la vision technologique de cette jeune société, qui remplace le datawarehouse par des grilles d'appliances décisionnelles. CIO – Microsoft a annoncée son projet d'acquisition de Datallegro, dont vous êtes le représentant en France. Les technologies sont pourtant bien éloignées... 


 Téléchargement de l'article original de CIO Magazine
.../...

Bernard Fitoussi – Microsoft n’a pas seulement acheté une technologie, mais également une vision et un savoir faire dans le domaine du datawarehouse. Datallegro devient ainsi le centre de compétence de Microsoft en la matière. Notre technologie (Linux/Ingres) continuera d’être disponible via nos partenaires, dont Bull en France.

NDLR : L'offre actuelle de Datallegro est basée sur des standards : serveurs Dell sur plate-forme multi-cœurs Intel, stockage EMC sur disques, commutateurs Infiniband à 20 Gbps de Cisco et base de données Open Source Ingres sous Linux. Grâce à la technologie alternatives d'appliances décisionnelles en grid de Datallegro, les entrepôts de données vont s'ouvrir au duo Windows et SQL Server.


Le seul risque dans cette acquisition concernera alors les clients de cette technologie actuelle lorsqu’ils seront incités à migrer vers la version Windows/SQL Server, lorsqu’elle sera disponible. Ce risque, s’il existe, est néanmoins parfaitement identifié et sera limité, puisqu'en particulier les fonctionnalités et les interfaces du produit seront les mêmes. Et les équipes qui développent le produit 100% Microsoft sont celles-là même qui ont développé le produit actuel.


CIO - Bases de données, entrepôts, décisionnel, où en sont les datawarehouse ?


Bernard Fitoussi - Au début, on parlait de SIAD (Système d’Aide à la Décision ou DSS), ou encore de EIS (Executive Information System). De ces vocables ont émergé la notion de décisionnel, aujourd’hui solidement installée, et celle de datawarehouse. C’est dire qu’on n’a pas attendu les années 2000 pour utiliser les données disponibles, pour les transformer en informations et enfin en prise de décision.


Mais voilà, stocker des données puis les 'faire parler' a abouti très vite à des besoins d’outils spécialisés. On ne traite pas en effet de la même manière des approches transactionnelles (transactions courtes impliquant peu de données) et des approches décisionnelles (requêtes plus longues, volumétries plus ou moins importantes). Il semble qu’il y ait aujourd’hui un consensus : le stockage des données doit rester neutre par rapport aux applications décisionnelles, ou, en d’autres termes, le datawarehouse concerne l’infrastructure tandis que la Business Intelligence (BI) est l’affaire des utilisateurs.


Ceci étant, certains points clés de l’infrastructure ont longtemps posé problème : la volumétrie, les performances de restitution, les temps de chargement, le nombre d’accès simultanés, la complexité des requêtes. C’était l’occasion pour certains, comme Teradata, de se poser en champion du datawarehouse, peu de concurrents pouvant, avant 2002/2003, rivaliser avec lui sur la plupart des points ci-dessus, en justifiant cette absence de concurrents par des coûts réputés élevés. Mais depuis 2002, avec l’apparition des appliances décisionnelles, l’équation a changé, même si certains mythes ont la vie dure.


CIO – Pour autant, les 'gros' sont toujours là…


Bernard Fitoussi – Et les gros font toujours peur… Il s’agit des datawarehouses bien sûr ! Les pratiques héritées de temps où l’octet coûtait très cher perdurent curieusement. Nous sommes pourtant parfaitement habitués aujourd’hui à trouver sur nos portables des processeurs de plus en plus rapides et des disques de plus en plus gros. Le téraoctet est même disponible sur les rayons de la grande distribution. Mais dans le monde professionnel, quelques To pour son datawarehouse en font frémir plus d’un ! Alors on continue souvent de restreindre les besoins fonctionnels pour ne pas franchir un seuil psychologique. Pourquoi les entreprises américaines ont-elles depuis longtemps franchi cette barrière auto-imposée, et pas les européennes ? Mystère !


CIO – L'entrepôt centralisé n'est-il pas encore présenté comme le modèle idéal ?


Bernard Fitoussi - C’est tout du moins ce que prônent depuis très longtemps les IBM ou Teradata, rejoints aujourd’hui par HP. Intellectuellement, c’est probablement vrai : une boîte, plutôt grosse, plutôt noire, plutôt (très !) chère, censée assurer simultanément les services de chargement, respecter les fenêtres d’exploitation, restituer les données à la vitesse de la lumière, fabriquer des agrégats ou datamarts à la volée (souvent appelée EDW pour Entreprise DataWarehouse).


Oui mais voilà, dans la vie de tous les jours, ce modèle n’existe pas pour au moins deux raisons de bon sens : les urgences fonctionnelles provoquent l’apparition généralement mal contrôlée de datamarts, contre lesquels le datawarehouse centralisé ne peut rivaliser, ni en délai de mise en œuvre, ni en coût ; le manque patent de puissance nécessaire à la simultanéité des services de base (alimentation, stockage, agrégation, restitution, sauvegarde,…). A moins de disposer d’une plateforme démesurée, donc à coût complètement prohibitif, l’utilisation de l’un de ces services pénalise nécessairement les autres.


Depuis très longtemps, les entreprises doivent composer avec le modèle centralisé pour certains traitements, et avec le modèle décentralisé pour d’autres. L’intégrité référentielle globale des données entre EDW et datamarts n’est pas assurée, ni d’ailleurs la prolifération des datamarts, plus souvent subie que maîtrisée.


CIO – D'où l'intérêt du datawarehouse décentralisé face au centralisé ?


Bernard Fitoussi - En réalité, l’apparition des appliances décisionnelles n’a pas nécessairement résolu ce problème de choix d’architecture entre mode centralisé et mode décentralisé. A quelques rares exceptions, les acteurs de cette tendance se cantonnent toujours soit dans le centralisé (IBM, HP, Teradata) soit dans le décentralisé/datamarts (Netezza, Kognitio, Dataupia…), laissant les deux questions fondamentales de l’intégrité référentielle et du ratio coût/performance sans réponse satisfaisante.


Pourtant, une réponse est apportée par une grille d’appliances spécialisées plutôt qu’un monolithe. Grâce à des composants technologiques élémentaires totalement standard, il est possible d’être à l’aise dans les deux mondes, depuis les plus petits datamarts jusqu’aux plus gros EDW. Un réseau de plusieurs appliances, chacune étant configurée pour une fonction précise (alimentation, agrégation, stockage principal ou hub, restitution, propagation de données, sauvegarde...), est une réponse appropriée. Elle est rendue possible grâce aux mécanismes de réplication très rapides d’une part, et à la gestion des méta-données, d’autre part. Des références opérationnelles de premier plan existent déjà. Dans ces conditions, les modèles centralisé et décentralisé peuvent cohabiter harmonieusement dans une architecture mixte où chaque département utilisateur, et bien sûr l’informatique centrale, restent maîtres de leurs budgets respectifs et de leurs choix technologiques et métier. Les applications sont nombreuses : PRA (Plan de Reprise d’Activité), Multi-température des données en fonction de leur âge, ou encore un modèle EDW enfin opérationnel, doté de très hautes performances.