Master M2 MASH - Programme

Les cours, d’une vingtaine d’heures chacun (4 ECTS) sont suivis d’un stage (à partir d'avril) valant 28 ECTS. Un minimum de huit cours sont nécessaires pour valider le master, soit 60 ECTS en tout. Les cours auront lieu dans les locaux de l'université Paris Dauphine, à l'ENSAE et à l'ENS Cachan.

Remise à niveau (vivement conseillés)

En septembre, à l'ENS Cachan (Programme détaillé). Voir horaires exacts sur le calendrier.

  • Optimisation convexe

  • Probabilités

  • Statistics

Cours communs (obligatoires)

CM: cours magistraux, TD: travaux dirigés. Les cours communs qui suivent (apprentissage supervisé, méthodes à noyaux, optimisation, modèles graphiques, projets informatiques) et la présence au séminaire sont obligatoires.

Apprentissage

Les cours qui suivent constituent le tronc commun en apprentissage.

Apprentissage supervisé

(CM, N. Vayatis, à l'ENS Cachan)
Bases mathématiques pour la modélisation des problèmes d'apprentissage supervisé et l'analyse des algorithmes de classification en grande dimension. Il s'agit de présenter les bases mathématiques pour la modélisation des problèmes d'apprentissage supervisé et l'analyse des algorithmes de classification en grande dimension. Les principaux thèmes abordés sont:

  • Typologie des problèmes d'apprentissage (supervisé vs. non-supervisé).

  • Modèle statistique pour la classification binaire: Approches génératives vs. discriminantes.

  • Algorithmes classiques : méthodes paramétriques, perceptron, méthodes de partitionnement.

  • Critères de performances : erreur de classification, courbe ROC, AUC.

  • Convexification du risque : Algorithmes de type boosting et SVM. Mesures de complexité combinatoiresmétriquesgéométriques.

  • Sélection de modèle et régularisation.

  • Théorèmes de consistance et vitesses de convergence.

Méthodes à noyaux pour l’apprentissage

(CM, J.-P. Vert, à l'ENS Cachan)
Présenter les bases théoriques et des applications des méthodes à noyaux en apprentissage. Les principaux thèmes abordés sont:

  • Reproducing kernel Hilbert spaces et le “kernel trick”

  • Théorème de représentation

  • Kernel PCA

  • Kernel ridge regression

  • Support vector machines

  • Noyaux sur les semigroupes

  • Noyaux pour le texte, les graphes, etc.

Modèles graphiques

(CM, Guillaume Obozinski, F. Bach, à l'ENS Cachan)
Modélisation probabiliste, apprentissage et inférence sur les modèles graphiques. Les principaux thèmes abordés sont:

  • Maximum de vraisemblance.

  • Régression linéaire.

  • Régression logistique.

  • Modèle de mélange, partitionnement.

  • Modèles graphiques.

  • Familles exponentielles.

  • Algorithme produit-somme.

  • Hidden Markov models.

  • Inférence approximée

  • Méthodes bayésiennes.

Statistique en grandes dimensions

(CM, V. Rivoirard, à Dauphine)
L'objectif de ce cours de statistique est de présenter les outils mathématiques et les méthodologies dans la situation où le nombre de paramètres à inférer est très élevé, typiquement beaucoup plus important que le nombre d'observations. Les principaux thèmes abordés sont :

  • Fléau de la dimension et hypothèse de parcimonie pour la régression gaussienne, les modèles linaires généralisés et les données de comptage

  • Ondelettes et estimation par seuillage

  • Choix de modèles et sélection de variables

  • Estimation par pénalisation convexe : procédure Ridge, lasso, group-lasso,…

  • Liens avec l'approche bayésienne

  • Méthodes d'agrégation

  • Tests multiplies : procédures FDR, FWER

  • Estimation matricielle

Optimisation & programmation

Les deux cours qui suivent couvrent les aspects algorithmiques de l'apprentissage.

Projets informatiques

(TDs et CM. Introduction à Python et Scikit-Learn, CM Igor Colin et Fajwel Fogel, à Dauphine) Programme du cours
L’objectif du cours est l’acquisition de compétence opérationnelles dans un certain nombre de langages informatiques clés: Python (notamment le package scikit-learn), HADOOP, R, MATLAB, Julia, etc. Les élèves pourront appliquer les techniques d’apprentissage acquises en cours magistraux, dans des projets issus de jeux de données réalistes (extraits de KAGGLE par exemple, ou encore de collaborations avec la chaire “intelligence des nouvelles données”). Ces projets seront articulés autour de quelques amphis communs (introduction et évaluation des projets) et de réunions de support avec les chargés de TD.

Optimisation

(CM, Alexandre d’Aspremont, à l'ENS Chachan)
L'objectif de ce cours est d'apprendre à reconnaître, manipuler et résoudre une classe relativement large de problèmes convexes émergents dans des domaines comme, par exemple, l'apprentissage, la finance ou le traitement du signal. Les principaux thèmes abordés sont:

  • Modélisation convexe, rappels d'analyse convexe.

  • Ensembles, fonctions et programmes convexes.

  • Théorie de la dualité.

  • Algorithme de Newton.

  • Contraintes, barrières, méthodes de points intérieurs, self-concordance et complexité.

  • Méthodes du premier ordre, accélération.

  • Applications en statistique, apprentissage, finance, traitement du signal.

  • Combinatoire, relaxations convexes.

Séminaire

En plus des cours précités, un séminaire hebdomadaire sera organisé au deuxième semestre. La présence est obligatoire, mais le séminaire ne valide pas d'ECTS.

Séminaire applications industrielles

(Jean-Michel Lasry, à Dauphine)
Interventions par des industriels, ingénieurs, créateurs d’entreprises sous forme de séminaires.

Cours optionnels

Applications aux sciences humaines

Choisir 4, 8 ou 12 ECTS parmi les cours suivants.

Database marketing

(CM, Paul Ngobo, à Dauphine)

Le Database Marketing est un processus qui consiste à extraire des données pertinentes sur les prospects (ex. leurs caractéristiques socio-démographiques) et les clients (exemple, produits achetés, fréquence d’achat, commande moyenne) afin de gérer la relation (initiation, fidélisation, développement, rupture, réactivation) avec l’entreprise. Le but du cours est de présenter aux étudiants des concepts et méthodes du Database Marketing. Ce cours a une orientation méthodologique. Il s’agit de mettre les étudiants au contact d’applications et de bases de données réelles. Nous porterons une attention particulière sur les modèles:

  • Acquisition des Clients (ex. Arbres de décision, régression logistique)

  • Fidélisation (ex. Continuous & Discrete-time Survival Analysis, HMM)

  • Développement de clientèle (ex. modèles d'associations)

  • Winback (relance de clientèle)

  • Customer lifetime value (rentabilité des clients)

  • Marketing et E-commerce Ces modèles et techniques seront appliquées à des bases de données issues de différents secteurs économiques (distribution, services financiers, télécommunication).

Web Marketing: séminaire

(CM, assuré par 1000mercis, à Dauphine. Uniquement en complément de database marketing, 4ECTS pour ces deux cours)
Ce séminaire conjuguera des présentations théoriques permettant de comprendre les mécanismes en jeu, et des présentations effectuées par des professionnels pour illustrer les applications pratiques et présenter dans le détail les méthodologies.

Applications en journalisme

(CM, Robin Ryder + IPJ, à Dauphine)
L'objectif de ce cours est de mettre en place une interaction entre des étudiants mathématiciens et journalistes, en collaboration avec l'Institut Pratique du Journalisme. Après des interventions de deux professionnels, les étudiants formeront des groupes de 2 à 4 personnes (en mélangeant M2 MASH/TSI et M2 IPJ) pour analyser en autonomie des jeux de données de leur choix, par exemple en provenance d'Etalab. Ils auront à débroussailler les données, trouver une problématique, proposer et valider des modèles pertinents, effectuer des analyses mathématiques, choisir un angle, élaborer des visualisations de données, et rédiger un rapport accessible au grand public sous forme d'article de presse. Des rendez-vous réguliers seront organisés pour chaque groupe.

Evaluation des politiques publiques

(CM, Brigitte Dormont, à Dauphine) Programme du cours
Cours d’économétrie appliqué à l’évaluation des politiques publiques: présentation des méthodes économétriques appliquées à l’évaluation et lecture d'articles académiques pour illustrer ces méthodes. Ce type d’économétrie se fait sur des données microéconomiques avec des échantillons de plus ou moins grande taille. Les applications étudiées portent sur des questions de politiques publiques : l’impact du niveau d’étude sur les salaires, l’impact potentiellement inflationniste des allocations logement sur le niveau des loyers, l’influence de la couverture par l'assurance maladie sur la consommation de soins (faut-il introduire des franchises ?), l’influence des couvertures en complémentaires santé sur le développement des dépassements d’honoraires, etc.”

Protection de la vie privée

(CM, Daniel Le Métayer, à Dauphine).
La protection de la vie privée est devenu un enjeu majeur du développement de l’économie numérique, enjeu tout d’abord en matière de droits fondamentaux des individus, mais qui comporte de multiples dimensions (technique, économique, sociologique, politique, éthique, etc.). L’objectif de ce cours est de présenter ces défis, d’abord sur le plan technique, puis sous différentes perspectives avec des experts des disciplines concernées. Seront notamment abordées les questions suivantes:

  • Comment caractériser la notion de vie privée ? Quels sont les risques en la matière et comment s’en prémunir (instruments techniques et juridiques)?

  • Economie du numérique, valorisation des données personnelles.

  • Les réseaux sociaux, les réseaux pair à pair et la vie privée.

  • Problèmes éthiques posés par le numérique, l’homme augmenté.

  • Vie privée et pouvoirs régaliens (police, justice, renseignement).

  • Gouvernance de l’internet, politiques publiques.

Statistique bayésienne

Choisir 4, 8 ou 12 ECTS parmi les cours suivants.

Méthodes de Monte Carlo par Chaines de Markov

(CM, R. Bardenet, à Dauphine)
Ce cours vise a presenter les bases et les développements recents des méthodes de simulation utilisées en statistique et surtout en statistique bayésienne. Les méthodes de calcul, de maximisation et d'integration en dimension élevée sont en effet devenues nécessaires pour traiter les modèles complexes envisages dans les disciplines utilisatrices de la statistique, comme l’économétrie, la finance, la génétique, l’écologie ou l’épidémiologie (entre autres!). La principale innovation des dix dernières années est l'introduction de techniques markoviennes pour l'approximation des lois de probabilité (et des intégrales correspondantes). Elle forme donc la partie centrale du cours, mais nous aborderons également les systèmes de particules et les méthodes d'optimisation stochastique comme le recuit simule. Plan:

  • Motivations

  • Methodes de Monte Carlo

  • Rappels sur les chaines de Markov

  • La methode de Metropolis-Hastings

  • L’échantillonneur de Gibbs

  • L’échantillonnage parfait

  • Méthodes de Monte Carlo séquentielles

Bayesian Case Studies

(CM, R. Ryder, à Dauphine)
During this course, we shall first introduce the main notions of Bayesian Statistics. We shall then put in practice classical models for statistical inference in a Bayesian setting, and implement computational methods. Using real data, we shall study simple and multiple linear regression, model choice with Bayes factor computation, and a probit model. The implementation shall use several algorithms: Markov Chain Monte Carlo, importance sampling, Approximate Bayesian Computation. The course is based on the free software R.

  • Pre-requisite: Knowledge of the programming language R is essential.

  • Practical information: all sessions will be held in one of the computer rooms. All computers are installed with Ubuntu, R and RStudio. Students may bring their own laptop, which must have R installed before the first session; I strongly suggest installing RStudio (free) as well.

Stage

Le candidat choisit librement un stage proposé par l'un des enseignants du master, un stage en entreprise proposé dans le cadre de la bourse des stages, ou un stage d'origine différente ayant reçu l'agrément d'un enseignant du master. Le stage doit être effectué après l'inscription au master. Il doit présenter un enjeu scientifique réel et le développement applicatif d'un des thèmes développés dans le master. En cas de doute, le responsable scientifique du master nomme un rapporteur de l’équipe enseignante du master. La durée est de quatre mois minimum, entre le 1er avril et le 18 septembre. Sauf dérogation exceptionnelle, le stage doit se terminer au plus tard le 18 septembre.