af83

Data Mining et Business Intelligence

Retour sur le "Crunch my Data" camp du 22/03/10 à La Cantine.

Lundi après midi s'est déroulé le "Crunch my Data" camp à La Cantine. AF83 était bien sûr présent parmi les nombreux participants (plus de 90!), par l'intermédiaire de ma humble personne.

La table ronde

Ce camp était précédé d'une table ronde autour de quelques acteurs du data mining, principalement des acteurs français. Durant la table rondes, ont été abordé les sujets suivants :

Le pilotage des projets de data-mining / business intelligence (BI)
Les méthodes agiles avec POC rapide suivi de phases itératives semblent être le modèle qui convient le mieux aux problèmes d'aujourd'hui. Cette affirmation a cependant été nuancée pendant les ateliers, et le cahier des charges reste dans tous les cas nécessaire !
La cohérence des indicateurs choisis, des référentiels
Le rôle des entreprise proposant des services de data mining est de traduire les besoins du client en termes informatiques. Il est donc important de s'appuyer sur l'expertise métier du client pour choisir les indicateurs qui constitueront le modèle.
La qualité des données
Ça paraît évident, mais il fallait le rappeler, la qualité des données est primordiale. Avant de pouvoir faire quoique ce soit avec un ensemble de données, il faut s'assurer qu'il soit pertinent (dédoubloner une liste de clients par exemple).
Les différents stades d'avancement en terme d'équipement BI
Les entreprises n'ont pas toutes pris le train de la BI en marche. Certaines se retrouvent dénudées et fort dépourvues lorsque elles se rendent compte de leur besoin. Étonnamment (ou pas), l'investissement fait dans la BI est plus fort en période de crise (en tout cas pour les banques de détail) : ceci est dû au fait que c'est justement dans ces périodes que l'erreur n'est pas permise.
Comment la BI profite aux particuliers
La BI peut profiter aux particuliers autrement que pour leur éviter des publicités non ciblées. Le STIF utilise par exemple la BI pour analyser les flux de circulation des populations en transport en commun dans la région parisienne afin de prévoir leur évolution et ainsi répondre du mieux possible aux changements. Le gouvernement américain met à disposition du public (http://www.data.gov/) énormément de données brutes, laissant l'interprétation possible à tout le monde (contrairement à l'INSEE).
Le point noir dans tout ça, c'est qu'il est très difficile, voir impossible, pour un individu, d'avoir accès aux informations que les entreprises possèdent sur lui. Si vous essayez, n'attendez pas d'aide de la CNIL, ils sont juste surbooké et n'ont pas assez de moyens.

Les ateliers

La table ronde a été suivie du Barcamp à proprement parler, les ateliers. J'ai pour ma part participé à trois ateliers sur les thèmes suivants :

  • From data to knowledge
  • Passer des données à l'information
  • Industrialisation, agilité, analyse
  • et à la fin de "Business Intelligence du Carbone"

Mais il y avait aussi:

  • Journalisme de données / data visualization
  • Interfaces riches / visualisation
  • Modélisation prédictive
  • un autre atelier dont le sujet m'a échappé

From data to knowledge

Il s'agissait probablement de l'atelier le plus technique. Durant cet atelier ont été évoqués de nombreux outils Open Source (et quelques outils propriétaires) permettant de faire du data mining (allant du stockage à la représentation, en passant par le traitement et l'analyse) :

Le stockage des données
  • Les bases de données avec les bases de données relationnelles classiques, comme PostgreSQL ou MySQL
  • Les dérivés de ces premières (ou construits au dessus) : HiveDB (partitionement horizontal), InfiniDB (stockage en colonnes)
  • Les non dérivés qui supportent encore les requêtes SQL : InforBright
  • Les bases de données NOSQL : Cassandra, MongoDB, Hadoop avec HBase, CouchDB
  • Le moteur de recherche texte Lucene
  • Teiid qui permet de fédérer plusieurs sources de données distinctes
  • Meta Matrix
Le traitement et l'analyse des données
  • Les langages de programmation (Python, Perl...) pour faire vos moulinettes, nettoyer vos données...
  • Map Reduce (en utilisant éventuellement une des bases de données distribuées citées précédemment), et vos algorithmes maison
  • R Project pour faire vos statistiques, WEKA ou RWeka - mais également Mondrian
La visualisation de données
  • Mondrian, R Project (et consorts) servent aussi à la représentation des données calculées
  • Flex et Air, pour faire vos propres représentations dynamiques de données
Les suites (plus ou moins) complètes de data mining / BI

Attention, le listing qui a été fait n'est certainement pas exhaustif, mais permettra à quelqu'un désireux de faire du data mining ou de la BI de trouver quelques points de départ dans le monde OpenSource. Un rapide constat qui a été fait est que l'Open Source rentre en générale dans une entreprise par le côté opérationnel (le département IT), alors que des grands acteurs tels que Oracle ou SAP rentrent pas le côté fonctionnel.

Le très intéressant tableau public a été mentionné en fin d'atelier. Ce site fait écho à la problématique ouverte durant la table ronde sur l'accès au datamining par le grand publique. Si vous ne connaissez pas ce site, faites un tour, ça vaut le coup !

Passer des données à l'information - Industrialisation, agilité, analyse

Ces deux ateliers étaient beaucoup plus orientés business. Les discussions sont revenues sur les sujets abordés durant la table ronde, dont le pilotage des projets, la nécessité d'un cahier des charges petit et de l'établissement d'une discussion entre le client et le data miner, pour que chacun puisse comprendre le métier de l'autre. La rapidité des cycles de développement et les itérations multiples se dégagent comme bonnes garantes d'un résultat rapidement utilisable dans les environnements très dynamiques d'aujourd'hui.

Le deuxième atelier a soulevé la problématique du prototype rapide : celui-ci apportant environ 80% des réponses aux questions que se posait le client, il arrive que ce dernier veuille stopper la collaboration avec l'acteur de data mining. Il faut alors convaincre le client que le prototype n'est pas industrialisé et ne suivra pas l'évolution de l'environnement. Il reste à raffiner les modèles et à rentrer dans la phase de maintenance et d'évolution lente - qui reste importante si l'on ne veut pas se retrouver avec des outils incohérents au bout d'un certain temps.

Business Intelligence du Carbone

Je terminerai cet article par l'aperçu que j'ai eu de l'atelier "Business Intelligence du Carbone". Il s'agit de mettre à profit le data mining et la BI pour aider les entreprises à réduire leur emprunte carbone, ou informer les citoyens de l'impact écologique des biens qu'ils consomment. Le crunching de données peut donc être employé pour le bien, espérons que de telles pratiques se développent !

Bon crunch !

blog comments powered by Disqus