Détection de plagiat
Vendredi 27 avril 2007Un collègue m’a parlé d’une application de la théorie de l’information il y a quelques jours. Je devrai récupérer des références plus précises prochainement - j’actualiserai donc cet article plus tard.
La technique est la suivante :
- prennez toutes les copies de vos élèves et zippez les.
- Zippez chaque copie séparément.
- Comparez la taille du zip contenant toutes les copies avec la somme des tailles des zips contenant une seule copie.
- Si il n’y a pas de redondances entre les copies, la somme des zip sera environ égale au zip de la somme.
- Plus il y a de redondances entre les copies, plus le zip de la somme est inférieur à la somme des zip.
La raison derrière cette propriété ? La compression zip utilise un algorithme qui recherche des schémas qui se répètent dans les fichiers compressés. Si une copie est plagiée sur une autre, la compression des deux fichiers ensembles sera plus efficace que la compression des deux fichiers séparés.
EDIT : voici l’article scientifique (en français) décrivant la technique en détail.