Séminaire nantais en Science des données – Invité : Jean-Michel POGGI
13 décembre 2018 @ 14 h 00 min - 17 h 00 min
Le prochain séminaire inter-établissements en Science des Données aura lieu jeudi 13 décembre 2018 à partir de 14h00 (lieu à confirmer). Cet après-midi sera consacré à la thématique des forêts aléatoires. Il s’articulera autour de l’exposé de Jean-Michel Poggi (Univ. Paris Descartes et Univ. Paris-Sud, LM Orsay) :
Forêts aléatoires: importance et sélection de variables
La méthode des forêts aléatoires, introduite par Leo Breiman en 2001, est désormais largement utilisée tant en classification qu’en régression avec un succès spectaculaire. Après avoir rappelé la source et les principes des méthodes d’arbres, on présente les forêts aléatoires, l’erreur Out-of-Bag et le score d’importance des variables par permutation. On esquisse ensuite une stratégie de sélection de variables en deux étapes : le classement des variables basé sur les scores d’importance suivie d’une procédure d’introduction ascendante séquentielle des variables.
Références : R. Genuer, J-M. Poggi. Arbres CART et Forêts aléatoires, Importance et sélection de variables, In Apprentissage Statistique et Données Massives, Maumy-Bertrand M., Saporta G. et Thomas Agnan C. (eds), Technip, p. 295-342, 2018
Pour des raisons d’organisation, l’inscription (en ligne) est obligatoire.
Comité d’organisation : L. BELLANGER (SPAN, LMJL UMR CNRS 6629), V. CARIOU (StatSC, ONIRIS), Y. FOUCHER (SPHERE INSERM UMR 1246 – LabCom RISCA), P.-A. GOURRAUD (ITUN – CRTI – UMR INSERM 1064 – CHU), P. KUNTZ (DUKe, LS2N).