HOME PAGE
Table des matières


La typicalité en psychologie cognitive.

Intérêt de Upamaana.

Ainsi, en mettant l'accent sur les représentants les plus typiques d'une catégorie donnée, il y aurait à la fois une augmentation de l'homogénéité intra-catégorielles et de l'hétérogénéité inter-catégoriels ( Tversky, 1977 ) et contraste maximal entre catégories voisines. Il serait donc intéressant de disposer d?un outil informatique qui permette de trouver les descripteurs qui sont le plus souvent cités ensembles pour une catégorie donnée sans jamais être cités ensemble pour une catégorie contrastée.

C?est ce que se propose de faire le programme upamaana.
 



 
 

Brève description de l?algorithme Upamaana.

Le problème général que le module Upamaana se propose de résoudre peut être énoncé de la manière suivante : " Soit A et B deux ensembles dont les éléments sont des séquences de code. Trouver la combinaison de code la plus fréquente parmi les séquences de A qui n?apparaisse jamais dans les séquences de B ".

Nous travaillerons sur un exemple :

Ici les codes sont représentés par des couleurs.

EnsembleA
 
Ensemble B
rouge
rouge
jaune
rouge
rouge
 
vert
rouge
vert
vert
vert
rouge
vert
 
jaune
vert
bleu
vert
bleu
vert
rouge
 
rouge
bleu
jaune
jaune
jaune
jaune
jaune
 
jaune
rouge
bleu
rouge
bleu
bleu
vert
 
vert
bleu

  La méthode classique pour résoudre ce problème consiste à calculer les combinaisons communes aux séquences de A prises deux à deux, puis trois à trois, quatre à quatre et ainsi de suite jusqu?à obtenir toutes les combinaisons possibles. Une fois ce travail fastidieux terminé, il faut comparer chacune des combinaisons trouvées aux séquences de B afin de déterminer lesquelles n?y apparaissent pas. Finalement, il reste à choisir parmi ces dernières celles qui sont les plus fréquentes dans A.

Nous proposons une solution algorithmique beaucoup moins coûteuse en temps de calcul. Elle est inspirée de la manière dont un être humain agirait.

On reproduit les séquences de A en enlevant les codes dont la fréquence est inférieure à 2, c?est à dire ceux qui apparaissent à la même position dans moins de 2 séquences de A. Puis, on recommence pour ceux qui apparaissent moins de 3 fois, et ainsi de suite jusqu?à ce que les codes les plus fréquents soient seuls à rester. On obtient ainsi un tableau dont les lignes contiennent les séquences privées des codes qui apparaissent un nombre de fois inférieur ou égal au numéro de la ligne.

Exemple :

Dans ce tableau le nombre de fois qu?apparaît une séquence dans A (en d?autres termes sa fréquence) est indiqué sous cette dernière.

  Suppression des codes qui apparaissent 1 fois
 
rouge
rouge
****
rouge
rouge
 
vert
vert
vert
****
vert
 
bleu
vert
bleu
vert
****
 
jaune
jaune
jaune
jaune
jaune
 
bleu
****
bleu
bleu
****
Fréquences
1
1
1
1
1
  Suppression des codes qui apparaissent 2 fois
 
rouge
****
rouge
rouge
 
vert
vert
****
vert
 
****
****
****
****
 
jaune
jaune
jaune
jaune
 
bleu
bleu
bleu
****
Fréquences
1
1
1
2
  Suppression des codes qui apparaissent 3 fois
 
****
rouge
rouge
 
vert
****
vert
 
****
****
****
 
jaune
jaune
jaune
 
****
****
****
Fréquences
1
1
3
  Suppression des codes qui apparaissent 4 fois
 
****
 
 
****
 
 
****
 
 
jaune
 
 
****
 
Fréquences
5
 

  On calcule les combinaisons les plus fréquentes parmi les séquences de la dernière ligne de ce tableau. Comme le nombre de séquence est réduit comparé à l?ensemble A, le calcul devrait être bien plus rapide. On compare chacune des combinaisons trouvées aux séquences de B. S?il en existe qui n?apparaissent pas dans B, on garde celles qui sont les plus fréquentes dans A et on attribue la plus grande fréquence à une variable I.

A présent, il faut déterminer s?il existe une combinaison qui soit plus fréquente que I fois dans A sans apparaître dans B. Cette combinaison apparaîtrait forcément après la ligne I du tableau. En effet, si une combinaison est plus fréquente que I fois, tous ses codes sont plus fréquents que I fois.

On va donc répéter ces opérations pour chaque ligne du tableau en partant de la dernière jusqu?à ce que le numéro de la ligne traitée soit égale à I-1. On notera qu?à chaque nouvelle ligne traitée la valeur de I peut augmenter. Le numéro de la ligne traitée et la variable I convergent donc l?un vers l?autre.

Exemple :

Dans la dernière ligne du tableau, le calcul des combinaisons donne :

****
****
****
jaune
****
La fréquence de cette combinaison est 5. Néanmoins, elle apparaît dans la première séquence de B. Cette combinaison ne vérifie donc pas les conditions attendues. La recherche doit donc se poursuivre.

Les combinaisons calculées dans l?avant-dernière ligne du tableau sont :


 
rouge
rouge
****
****
 
vert
****
****
vert
 
****
****
****
****
 
jaune
jaune
jaune
jaune
 
****
****
****
****
Fréquence dans A :
3
4
5
4
Les combinaisons les plus fréquentes qui n?apparaissent pas dans B sont la deuxième et la quatrième. Leur fréquence est 4, donc on pose I=4. Or on est en train de traiter la 3ième ligne du tableau et I-1=3. Ainsi l?algorithme se termine et les résultats sont :


rouge
****
****
vert
****
****
jaune
jaune
****
****