Pôle de recherche | Laboratoire des Sciences du Numérique de Nantes

SDD - Science des Données et de la Décision

Face à l'augmentation du volume et de la complexité des données sans cesse croissantes, et à leurs complexifications toujours plus importantes, les modèles de classification et les algorithmes de recherche sont au coeur des orientations du pôle « Science des Données et de la Décision ».

Responsable : Patricia SERRANO ALVARADO

Equipes : COMBI, DUKe, GDD, MéForBio, MODELIS, TASC

Les liens entre le traitement statistique des données et l'optimisation ont une longue histoire ; l'importance de l'interdisciplinarité était soulignée dès la création de la Société Française de Recherche Opérationnelle à la fin des années cinquante par son premier président qui était un statisticien reconnu⁽¹⁾. Sous des dénominations parfois différentes, ces liens connaissent aujourd'hui un nouvel essor stimulé d'une part par la confrontation des spécialistes de gestion et de traitement des données à des volumétries qui ne cessent de se multiplier et qui requièrent des algorithmes efficaces, et d'autre part par la nécessité croissante d'affiner les modèles d'optimisation par l'intégration de connaissances de plus en plus riches et de guider les processus de recherche dans des espaces de complexité croissante. Des publications ⁽²⁾ et des workshops interdisciplinaires⁽³⁾ dressent des directions futures des collaborations entre fouille de données, apprentissage, et optimisation combinatoire. Les relations entre ces disciplines et la bio-informatique sont intrinsèquement liées au développement de cette dernière⁽⁴⁾ et se renouvellent aujourd'hui avec les modifications considérables des échelles des données analysables associées aux technologies « omiques ».En s'appuyant sur les compétences et les projets des équipes constituant le pôle SDD, on peut définir en particulier les quatre orientations suivantes qui transcendent les singularités des données traitées dans les différentes équipes.

Enrichissement des modèles : à leur construction, par l'apprentissage de spécifications (e.g. contraintes, objectifs, préférences) à partir d'historiques et la prise en compte de l'aléa (modèles d'incertitude, probabilités) ; dans un processus évolutif, par l'intégration de connaissances issues du traitement de données d'activités (e.g. traces, données de capteurs).
Apprentissage de stratégies de résolution : analyse statique et dynamique d'un espace de recherche et de son évolution pour guider off-line ou on-line la recherche ; apprentissage de paramètres et génération automatique de tactiques dans l'objectif à terme d'une « recherche autonome ».
Analyse des algorithmes de fouille et d'apprentissage : amélioration de l'efficacité des algorithmes de classification et d'apprentissage de métriques et de structures ; introduction de spécifications dans les processus de fouille centrés-utilisateur (« human in the loop »).
Ajout de fonctionnalités en optimisation et en fouille : visualisation des traces d'heuristiques en optimisation et d'observations en fouille de données.

Au-delà de l'amélioration des approches des communautés respectives, des questions fondamentales se posent de façon transversale sur la prise en compte dans la modélisation des systèmes étudiés des différents niveaux d'observation : quelles sont les relations entre les différents niveaux d'observation ? Et comment construire des modèles qui soient « cohérents » à différentes échelles ?

Bibliographie :

⁽¹⁾ D. Bayard (2008). Entretiens avec G.-Th. Guilbaud, Mathématiques et Sciences Humaines, n° 183, pp. 35-53.

⁽²⁾ D. Corne, C. Dhaenes, L. Jourdan (2012). Synergies between operations research and data mining – The emerging use of multi-objective approaches, European J. of Operational Research, vol. 221, n°3, pp. 469-479. M. Milano, P. Van Hentenryck (2014). Looking into the crystal-ball : a bright future for CP, Constraints, vol. 19, pp. 121-125.

⁽³⁾ L. De Raedt, S. Nijssen, B. O'Sullivan, M. Sebag (2014). Constraints, Optimization and Data, Report from Dagstuhl Seminar 1441.

⁽⁴⁾ L.J. Jensen, A. Bateman (2011). The rise and fall of supervised machine learning techniques, Bioinformatics, vol. 27, n°24, pp. 3331-3332. P. Barahona, L. Krippahl, O. Perriquet (2011). Bioinformatics : a challenge to constraint programming, Hybrid Optimization, Springer Optimization and its Applications, vol. 45, pp. 463-487.