Vérificateur de liens Web

  1. Faire un programme qui, lorsqu'on lui donne comme argument une URL de la forme http:, récupère le document correspondant et en extrait les liens. On ne tiendra compte que des tags A HREF et IMG, ainsi que de la directive BASE.
    Exemple de corrigé en perl
    Un début de corrigé en C
  2. Améliorer ce programe pour qu'il vérifie l'existence des documents indiqués par ces liens.
    Exemple de corrigé
  3. Rajouter la vérification des ancres à l'intérieur des documents (liens de la forme ...#ancre pointant vers A NAME)
  4. Tenir compte des codes de réponse, en particulier 3xx.
    Rajouter une option -file qui indique le code source du fichier HTML, de telle sorte que le programme modifie ce fichier si la page a été déplacée de façon permanente (301).
  5. Faire une version récursive.
  6. Rajouter les protocoles ftp:, mailto:, https:, etc.
Références : Protocoles HTTP
Voir aussi un court texte qui explique combien la fonction connect est en réalité difficile à gérer.