Cours

Pandas est une bibliothèque Python pour manipuler simplement et efficacement des données structurées.

Les principales possibilités sont :

  • récupérer des données depuis des fichiers CSV, tableaux Excel, des pages web, HDF5, etc. ;
  • grouper, découper, alléger, déplacer, écrire les données ;
  • manipuler ces données (qui peuvent être à une ou deux dimensions), avec des manques, ou encore de façon temporelle avec ou sans périodicité.

Si les données sont correctement formatées, pandas peut s'en sortir même dans le cas où la quantité dépasse les capacités de votre machine en traitant les sources morceaux par morceaux.

Comparaison avec R

pandas se base sur les bonnes idées de R et s'attache à apporter les fonctionnalités manquantes. Pandas profite de l'engouement autour des outils scientifiques en Python. L'aspect généraliste de Python permet également de développer l'intégralité d'une application avec un seul langage ce qui n'est pas le cas de R. Reste la licence de R (GPL) qui peut sembler un obstacle pour certaines finalités, Pandas étant sous licence BSD.

Ressources

Bien que la documentation soit étoffée, pour ceux qui souhaitent être accompagnés sur des cas concrets, il existe un livre de recettes ou bien un guide en 10 minutes. Voici également une page qui rassemble des liens qui seront intégrés à la documentation officielle dans la version suivante.

top

Exercice

Pour cette séance avancée, il n'y pas d'exercice spécifique proposé puisque les possibilités de pandas vont bien au delà des objectifs de ce cours d'introduction. L'objectif pour la séance sera tout d'abord de parcourir le tutoriel à l'adresse suivante (pendant environ une heure).

Dans un deuxième temps, vous utiliserez ce fichier qui contient une base de données complète des naissances aux États-Unis depuis 1880, vous pourrez réaliser les indiquer à la fin du tutoriel .

top