Vers une démocratisation du DataMining... - Administration - Dossiers par Thème



System i > Dossiers par Thème > Administration

Vers une démocratisation du DataMining...

Tags :  Bases de données / BI / DataMining / Haute Disponibilité / SQL Server / System i

Par Laurent Banon et Sylvie Massy. Mise en ligne : 06 Janvier 2010, Publication : Avril 2009



  • Mais au juste, qu'est-ce que le data mining ?
  • La démarche de mise en oeuvre
  • SQL Server : Plateforme intégrée et cohérente


  • Explorer le DataMining pour en extraire son essence la plus efficace. Laurent Banon et Sylvie Massy se penchent ici sur les rôle et expansion de ce qui est de plus en plus considéré comme une ouverture dans SQL Server. Vers une démocratisation du DataMining, donc. 


    Mais au juste, qu'est-ce que le data mining ? Commençons par rectifier quelques fausses idées. Les activités suivantes ne sont pas une implémentation du data mining...




    Mais au juste, qu'est-ce que le data mining ?


    Commençons par rectifier quelques fausses idées. Les activités suivantes ne sont pas une implémentation du data mining :

    1. Le "reporting ad_hoc". C’est la conception de rapport et la mise en relief de données à partir de méta-données. Ce n’est qu’une présentation des données existantes.
    2. La navigation dans un cube. Dans un cube, les données sont mises en forme de manière structurées et agrégées facilitant ainsi l'interrogation et la comparaison de métriques essentielles à la prise de décision.
    3. L’abonnement à des évènements pour accélérer la prise de décision.
    4. Les statistiques. Bien qu’elles soient à la base du data mining, ça reste différent… Robert Grossman nous donne une définition intéressante : « Le data mining est la conception semi-automatique ou automatique de modèles visant à mettre en avant des liens entre des données, détecter des anomalies, des changements, .., et le tout à partir d'un ensemble important d'informations. » C’est donc le procédé qui permet d’identifier des tendances à partir de fait existants, on l’appelle aussi analyse prédictive ou exploration de données.

    Dans quel cadre s'applique le data mining ? Les usages les plus souvent cités sont :

    1. L'analyse des fraudes. Une compagnie d'assurance doit traiter une quantité importante de dossiers par jour et elle doit s'équiper d'un outil pour déceler les dossiers frauduleux.
    2. L'étude des comportements des consommateurs.
    3. La prédiction, comme le passage d’un client à la concurrence.
    4. La classification des clients afin de cibler une campagne publicitaire sur une population particulière.

    L'exemple historique est celui d’une entreprise de grande distribution américaine. Après avoir analysé les ventes, ils se sont aperçus que les paquets de couches pour bébés étaient souvent achetés le samedi par les pères à cause de leur gros volume. D’où la réorganisation des rayons des supermarchés avec le positionnement des packs de bière à côté des couches.

    Le samedi étant un jour de match, les ventes ont amplement augmenté ! Cette image illustre bien les capacités de retour sur investissement (ROI) des travaux de data mining et plus généralement d'informatique décisionnelle. Le cabinet d'étude IDC estime que dans certains cas, le data mining apporte un ROI de 150 %!

    Afin de répondre aux problèmes adressés par le data mining, il existe un certains nombre de procédés type comme la classification, le regroupement, la mise en association, la prédiction, l'analyse de séquence, la régres sion. C'est à ce niveau qu'intervient le rôle des algorithmes car c'est eux qui permettent d'effectuer ces transformations de données. La figure 1 présente la matrice des différents algorithmes liés aux tâches de transformation de données. 




    La démarche de mise en oeuvre

    Comme dans tous projets, une démarche/méthodologie doit être mise en place pour assurer son bon déroulement. Une méthodologie de référence est celle proposée par le CRISP-DM (CRoss Industry Standard Process for Data Mining). Comme l'illustre la figure 2, cette méthodologie se décompose en 6 phases qui sont :

    1. Analyse du métier. Cette phase initiale permet de définir les objectifs et les besoins d'un point de vue métier, afin de formuler le cahier des charges.
    2. Compréhension des données. Cette phase consiste à partir d'échantillonnage d'évaluer la qualité des données, de définir les premiers jeux d'informations utiles pour répondre aux besoins métiers
    3. Préparation des données. Cette phase permet de construire, transformer les données afin qu'elles puissent être consommées par les outils de modélisation.
    4. Modélisation. Lors de cette phase plusieurs modèles sont appliqués et validés. Il n'est pas rare de revenir à la phase de préparation de données.
    5. Evaluation. A ce niveau d'avancement, il est important de faire valider les modèles dans une perspective métier.
    6. Déploiement. La phase finale consiste à rendre accessible les modèles élaborés aux utilisateurs finaux.

    Mais pourquoi donc une démocratisation du data mining ? Microsoft est entré dans le domaine du data mining avec la version 2000 de SQL Server et le produit a bien évolué avec la version 2005 et maintenant 2008. Comme le montre de nombreuses études, l’outil privilégié des analystes reste Excel. L'idée est donc de fournir dans Excel les outils nécessaires à la mise en oeuvre d'un projet de data mining.

    Depuis le SP2 de SQL Server 2005, un add-in de data mining est intégrable dans Excel. Le lien de pour télécharger cet add-in est mentionné plus loin. Pour s'éloigner un peu de la théorie, présentons par l'exemple un cas concret, celui de la définition des prix d’assurance de voiture en fonction des différentes caractéristiques.

    Notre compagnie d’assurance possède une liste de véhicules avec l’ensemble des attributs qui les caractérisent en particuliers, un coefficient de risque. Comme le montre la figure 3, l’add-in Excel a été conçu pour suivre la méthode CRISP-DM. Décrivons dans le tableau 1 les étapes d’analyse : voir tableau 1 page 28.

    A travers cet exemple, nous venons de montrer comment l’enrichissement d’Excel permet d’aider à la prise de décision. Bien entendu, d’autres scénarios métiers peuvent être entièrement abordés à travers Excel comme déceler les acheteurs potentiels en vue d’une campagne marketing. Au coeur de la bête Nous avons vu comment implémenter un scénario de data mining avec Excel, mais que se passe-t-il en arrière plan ? C’est Analysis Services (SSAS) la plateforme de data mining, bien qu’il soit aussi le moteur multidimensionnel de la suite SQL Server.

    Regardons comment il est structuré pour répondre aux problématiques de data mining. Cet outil est organisé en plusieurs briques, comme le montre la figure 4. La modélisation multidimensionnelle commence par la création d’un cube, qui est la structure visant à manipuler les données. Dans ce cube, des dimensions sont créées afin de disposer de plusieurs axes pour analyser les données.

    La modélisation prédictive (data mining) fonctionne de la même façon : une structure doit être créée pour accueillir les données concernées, et à l’intérieur de celle-ci, un ou plusieurs modèles seront implémentés, afin de dégager les tendances. La création de structures et de modèles est accessible avec le DMX (Data Mining eXtension). Ce langage d’interrogation et de manipulation des objets, qui est au data mining ce que le SQL est à la base de données, a été créé et proposé par Microsoft, afin d’interagir avec Analysis Services.

    Il est relativement simple, comme le montre l’exemple suivant, qui crée un nouveau modèle selon l’algorithme de Naive Bayes :

    CREATE MINING MODEL [NBExemple] ( CustomerKey LONG KEY, Gender TEXT DISCRETE, [Number Cars Owned] LONG DISCRETE, [Bike Buyer] LONG DISCRETE PREDICT ) USING Microsoft_Naive_Bayes

    Quand le volume de données à manipuler est très important ou quand on veut lier des analyses prédictives à de l’analyse multidimensionnelle, Excel ne suffit plus.

    Il faut alors passer dans du développement Business Intelligence Development Studio, c’est pourquoi il est nécessaire de faire collaborer les équipes fonctionnelles et techniques pour les projets avancés. Bien que plusieurs algorithmes soient fournis de base, il est possible d’enrichir l’outil en proposant d’autres personnalisés. On bénéficie ainsi de l’ossature offerte par l’offre Microsoft : Analysis Services et Excel.

    Certains acteurs reconnus dans le monde du data mining ont développé des extensions pour transporter leurs méthodes dans SQL Server. On peut notamment citer SPSS qui propose leurs analyses statistiques ou Visual Numerics qui ont interfacé leurs méthodes d’analyse numériques vers SQL Server. 



      1   2     Suite



    Note : les figures, codes sources et fichiers auquels fait référence l'article sont visualisables au sein de la rubrique Club Abonnés. Une fois authentifié dans le club, il vous suffit de rechercher le dossier concerné dans l'édition de System iNEWS publié en Avril 2009 du Club Abonnés !





    Dossiers System i
    + Administration (120)
    + Architectures (17)
    + Bases de données (51)
    + Hardware (2)
    + Internet Intranet (12)
    + Operating Systems (4)
    + Réseaux (23)


    Accès par mots clés
    + .NET
    + Active Directory
    + Administration
    + Architecture
    + Azure
    + Backup
    + Bases de données
    + BizTalk
    + Cloud Computing
    + Cluster
    + Collaboratif
    + Communauté
    + Communications Unifiées
    + Correctif
    + Cryptage
    + DataMining
    + Datawarehouse
    + Décisionnel
    + Déploiement
    + Développement
    + DNS
    + Enquête
    + Evènement
    + Exchange Server
    + Gestion des tâches
    + Green IT
    + Groove
    + Hardware
    + Haute Disponibilité
    + Hyper-V
    + i
    + IASP
    + IDE
    + Industrialisation
    + Infrastructure
    + Intranet
    + ISA Server
    + iSeries Navigator
    + Livre Blanc
    + Messagerie
    + Microsoft TechDays 2010
    + Migration
    + mvp
    + Office
    + Office 2007
    + Operating System
    + Oracle
    + Partenariat
    + Partenariat
    + PHP
    + PME
    + Poste de travail
    + Power Systems
    + PowerShell
    + PowerSystems
    + recovery
    + Reporting
    + reprise d'activité
    + Réseaux
    + Restauration
    + ROI
    + RPG
    + SaaS
    + Sauvegarde
    + Scripting
    + Sécurité
    + Server
    + Sharepoint
    + SharePoint
    + SOA
    + Solutions
    + SQL Server
    + Stockage
    + Stratégie de groupe
    + Supervision
    + System Center
    + System Center
    + TechDays 2010
    + Tests
    + Travail Collaboratif
    + Update
    + Utilisateurs
    + Virtualisation
    + Visual Studio
    + webcast
    + Webinar
    + WebSphere
    + Windows 7
    + Windows Server
    + Windows Vista
    + Windows XP
    + XML


    Actualités System i
    + FastFax : la version 4.7.6 est disponible

    + Robot/SCHEDULE Enterprise : vers le transfert de fichiers fa...

    + Version 3.7 de Surveyor/400 par Linoma Software





    Virtualisation des postes de travail ..

    Virtualisation des postes de travail …



    Lettres d'information

    La lettre Windows ITPro + Voir un exemple
    La lettre SQL Server + Voir un exemple
    La lettre Exchange + Voir un exemple
    La lettre System iNEWS + Voir un exemple
    envoyer

    Flux RSS

    Les ressources Windows Server
    Les ressources Exchange Server
    Les ressources SQL Server
    Les ressources System i
    Les Livres Blancs et Hors-Série

    Liens & offres technologiques


    Au sommaire du iT Technical Center

    Optimisation des centres de données avec Microsoft® System Center

    Comment la virtualisation peut simplifier la gestion des postes de travail

    Cahier Spécial : Sécurité & Haute disponibilité System i et Power System

    Développement d'applications Power System, Enjeux & Méthodes

    Téléchargez une édition découverte du mensuel « IT Pro Magazine »

    Annonces Google

    IT Media

    + Le Groupe
    + Les Editions
    + Nous contacter
    + Annoncer sur itpro.fr
    + Mentions légales
    Nos magazines IT

    + IT Pro Magazine
    + Exchange Magazine
    + System iNEWS
    + SQL Server Magazine
    + IT Technical Center
    + IT Download Center
    Les flux RSS

    + Windows Server
    + SQL Server
    + Exchange Server
    + System i
    + Les Livres Blancs et Hors-Série
    + de 2.500 Dossiers Informatiques sur :

    + Windows Server 2000 – 2003 - 2008
    + AS/400 – iSeries - System i - Power System
    + SQL Server 2000 – 2005 - 2008
    + Exchange Server 2000 – 2003 – 2007
    + Hors Séries – Suppléments thématiques
    Ressources IT complémentaires

    + Actualités, veille technologique
    Windows System i Exchange SQL Server
    + Nouveaux produits
    Windows System i Exchange SQL Server
    + iTProeurope.com

    IT Pro MagazineSystems iNEWSExchange MagazineLes ressources SQL Server - IT Technical Center - IT Download Center
    Copyright © 2009 IT Media, Tous droits réservés, toutes les marques citées sur ce site sont des marques déposées de leurs propriétaires respectifs