Apprentissage - 2014

Cours M1 de la filière informatique à l'École normale supérieure

Cours de l'année 2013
Cours de l'année 2012



Enseignants


Ce cours est co-enseigné par deux chercheurs: Simon Lacoste-Julien, Francis Bach.

Un chargé de TD assurera les séances pratiques (Rémi Lajugie).


Résumé du cours

L'apprentissage statistique est une discipline en plein essor à l'interface de l'informatique et des mathématiques appliquées (probabilités / statistiques, optimisation, etc.) et qui joue aujourd'hui un rôle majeur en matière d'innovation technologique.

À la différence d'un cours de statistique traditionnel, l'apprentissage statistique se préoccupe particulièrement de l'analyse de données de grande dimension ainsi que de l'efficacité des algorithmes pour traiter d'importants volumes de données telles que rencontrées dans des domaines d'applications divers tels l'analyse d'image et du son, le traitement automatique du langage, la bioinformatique ou la finance.

L'objectif du cours est de présenter les théories et algorithmes majeurs de l'apprentissage statistique. Les méthodes abordées reposeront en particulier sur des arguments d'analyse convexe. Les séances de TDs (dont plus de la moitié seront réalisées sur machines) donneront lieu à des implantations simples des algorithmes vus en cours et à une application à différents domaines comme la vision ou le traitement du langage. Ce cours a comme débouché naturel le master M2 MVA de l'ENS de Cachan.

Les seuls pré-requis sont d'être familier avec les fondements de la théorie des probabilités (notion de variables aléatoires, théorèmes de convergence, espérance conditionnelle).



Méthode pédagogique, attendus et critères d'évaluation

L'objectif de ce cours est de mêler
-- théorie (des théorèmes seront prouvés)
-- et pratique (des algorithmes seront à implémenter sur données réelles ou artificielles).

Nous alternerons, dans la mesure du possible,
-- cours magistral,
-- exercices de mise en application ou d'approfondissement (ensemble ou à la maison),
-- codage d'algorithmes (à la maison, dans le langage de son choix : Matlab, R, Python, C, etc.).

Ce cours durera 50 heures (30 heures de cours + 20 heures de TDs) et peut être validé pour 6 ECTS.

La note du cours sera déterminée à 60% par l'examen et 40% par un TP à rendre.


Notes de cours et déroulement prévisionnel

Les cours auront lieu les vendredis matins, de 8h30 à 12h30, dans la Salle Henri Cartan.
Le déroulement normal sera un cours magistral de 8h30 à 10h20, suivie d'une pause d'environ 20 minutes, et d'un TD de 10h40 à 12h30. Apportez votre portable pour le TD!
Pour utiliser Matlab sur votre portable: vous avez deux options dans le DI:
  1. soit vous installez Matlab directement sur votre portable; pour cela, envoyez un courriel à Jacques Beigbeder du SPI pour les instructions et la licence;
  2. soit vous utilisez Matlab à distance (par SSH) sur les ordinateurs du DI (pour avoir accès à l'interface graphique vous pouvez utiliser FreeNX qui est très rapide selon Jacques Beigbeder).
26/09 Simon
Simon
2h
2h
Introduction
Apprentissage supervisé [éq. ridge corrigée 11/27]

TP d'introduction à Matlab
03/10 Simon
Rémi
2h
2h
Méthodes par moyennage local
(TD) Apprentissage supervisé
10/10 Simon
Rémi
2h
2h
Validation croisée / sélection de modèles
(TD) Méthodes par moyennage local
17/10 Francis
Rémi
2h
2h
Analyse convexe [sec. KKT corrigée 01/08]
(TD) Analyse convexe

Correction de TD
24/10 Francis
Rémi
2h
2h
Optimisation convexe
(TD) Optimisation convexe

Correction de TD
31/10 Simon
Rémi
2h
2h
Théorie, concentration et borne PAC [sec. 2.4 corrigée 01/17]
(TD) Théorie, concentration et borne PAC

Correction de TD
07/11 Simon
Rémi
2h
2h
Méthodes probabilitistes (maximum de vraisemblance)
(TD) Méthodes probabilistes (maximum de vraisemblance)

Correction de TD
14/11 Simon
Rémi
2h
2h
Régression linéaire / logistique
(TD) Régression linéaire / logistique
21/11 Francis
Francis
2h
2h
Méthode à noyaux (I)
Méthode à noyaux (II)
28/11 Simon
Rémi
2h
2h
Régularisation (Stein, analyse biais/variance)
(TD) Méthodes à noyaux
05/12 Francis
Rémi
2h
2h
Classification linéaire par pertes convexes
(TD) Régularisation (Stein, biais/variance)

Elements de correction
09/01 Simon
Simon
2h
2h
Prédiction structurée
Résumé et questions / réponses
23/01 3h EXAMEN


Last updated: January 19, 2015.