L’exploration de données, également appelée découverte de connaissances dans les bases de données, est, en informatique, le processus de découverte de modèles et de relations intéressants et utiles dans de grands volumes de données. Ce domaine combine des outils de statistiques et d’intelligence artificielle (tels que les réseaux neuronaux et l’apprentissage automatique) avec la gestion de bases de données pour analyser de grandes collections numériques, appelées ensembles de données. L’exploration de données est largement utilisée dans le monde des affaires (assurances, banques, commerce de détail), la recherche scientifique (astronomie, médecine) et la sécurité gouvernementale (détection des criminels et des terroristes).

La prolifération d’un grand nombre de bases de données gouvernementales et privées, parfois connectées entre elles, a conduit à l’adoption de réglementations visant à garantir l’exactitude des données individuelles et leur protection contre toute consultation ou altération non autorisée. La plupart des types d’exploration de données visent à établir des connaissances générales sur un groupe plutôt que des connaissances sur des individus spécifiques – un supermarché est moins préoccupé par la vente d’un article de plus à une personne que par la vente de nombreux articles à de nombreuses personnes – bien que l’analyse des modèles puisse également être utilisée pour discerner un comportement individuel anormal, comme une fraude ou une autre activité criminelle.

Avec l’augmentation des capacités de stockage des ordinateurs dans les années 1980, de nombreuses entreprises ont commencé à stocker davantage de données transactionnelles. Les collections d’enregistrements qui en résultaient, souvent appelées entrepôts de données, étaient trop volumineuses pour être analysées avec les approches statistiques traditionnelles. Plusieurs conférences et ateliers informatiques ont été organisés afin d’examiner comment les récentes avancées dans le domaine de l’intelligence artificielle (IA) – telles que les découvertes des systèmes experts, des algorithmes génétiques, de l’apprentissage automatique et des réseaux neuronaux – pourraient être adaptées à la découverte de connaissances (terme préféré de la communauté informatique). Ce processus a abouti en 1995 à la première conférence internationale sur la découverte de connaissances et l’extraction de données, qui s’est tenue à Montréal, et au lancement en 1997 de la revue Data Mining and Knowledge Discovery. C’est également à cette époque que de nombreuses entreprises d’exploration de données ont été créées et que des produits ont été lancés.

L’une des premières applications réussies de l’exploration de données, peut-être la deuxième après la recherche marketing, a été la détection des fraudes à la carte de crédit. L’étude du comportement d’achat d’un consommateur permet généralement de dégager un modèle typique ; les achats effectués en dehors de ce modèle peuvent alors être signalés pour une enquête ultérieure ou pour refuser une transaction. Cependant, la grande variété de comportements normaux rend cette tâche difficile ; aucune distinction unique entre comportement normal et frauduleux ne fonctionne pour tout le monde ou tout le temps. Chaque individu est susceptible d’effectuer des achats différents de ceux qu’il a effectués auparavant, de sorte que le fait de se baser sur ce qui est normal pour un seul individu risque de donner trop de fausses alertes. Pour améliorer la fiabilité, on peut d’abord regrouper les individus qui ont des habitudes d’achat similaires, car les modèles de groupe sont moins sensibles aux anomalies mineures. Par exemple, un groupe de « grands voyageurs d’affaires » aura probablement un modèle qui inclut des achats sans précédent dans divers endroits, mais les membres de ce groupe pourraient être signalés pour d’autres transactions, telles que des achats par catalogue, qui ne correspondent pas au profil de ce groupe.

click et collect