Table des matières
La typicalité en psychologie
cognitive.
Intérêt de Upamaana.
-
La typicalité est une notion régulièrement rencontrée
dans le domaine de la psychologie cognitive (voire en particulier aux
travaux d?Eleanore Rosch). Elle a de nombreux champs d?applications,
mais elle prend surtout sens dans le domaine de la catégorisation,
de la sémantique ou de la formation de concepts.
-
La typicalité est défini comme caractérisant la représentativité
d?un exemplaire d?une catégorie à l'égard de cette
catégorie. Par exemple, lorsqu?on demande à quelqu?un de
citer un outil, il répond le plus souvent " un marteau ". On dira
que " marteau " est typique de sa catégorie " outil "
-
Il semblerait que le recouvrement des propriétés est plus
important entre exemplaires typiques qu?entre exemplaires typiques et non
typiques ou qu?entre exemplaires non typiques. Ces propriétés
communes engendrent un " air de famille " (soit une ressemblance) entre
les exemplaires typiques, qui constituent ainsi une sorte de " résumé
cognitif " de la catégorie entière ( Rosch et Mervis, 1975
; Dubois, 1983 )
-
D?autre part, la représentativité des exemplaires est également
liée à leurs situations vis à vis des catégories
contrastées. C'est-à-dire qu?un chien particulier est d?autant
plus caractéristique de la catégorie " chien " qu?il est
contrasté de la catégorie " chat " qui lui est poche.
Ainsi, en mettant l'accent sur les représentants les plus typiques
d'une catégorie donnée, il y aurait à la fois une
augmentation de l'homogénéité intra-catégorielles
et de l'hétérogénéité inter-catégoriels
( Tversky, 1977 ) et contraste maximal entre catégories voisines.
-
Il existe plusieurs méthodes expérimentales pour prouver
l?existence de la typicalité. La principale tient compte de la fréquence
d'apparition des descripteurs donnés par des sujets humains ( Cordier,
1983 a ) : Il doivent produire une liste de descripteurs pour une catégorie
donnée. La fréquence de chaque descripteur est ensuite statistiquement
mesurée.
Il serait donc intéressant de disposer d?un outil informatique
qui permette de trouver les descripteurs qui sont le plus souvent cités
ensembles pour une catégorie donnée sans jamais être
cités ensemble pour une catégorie contrastée.
C?est ce que se propose de faire le programme upamaana.
Brève description de l?algorithme
Upamaana.
Le problème général que le module Upamaana
se propose de résoudre peut être énoncé de la
manière suivante : " Soit A et B deux ensembles dont les éléments
sont des séquences de code. Trouver la combinaison de code la plus
fréquente parmi les séquences de A qui n?apparaisse jamais
dans les séquences de B ".
Nous travaillerons sur un exemple :
Ici les codes sont représentés par des couleurs.
EnsembleA
|
|
Ensemble B
|
rouge
|
rouge
|
jaune
|
rouge
|
rouge
|
|
vert
|
rouge
|
vert
|
vert
|
vert
|
rouge
|
vert
|
|
jaune
|
vert
|
bleu
|
vert
|
bleu
|
vert
|
rouge
|
|
rouge
|
bleu
|
jaune
|
jaune
|
jaune
|
jaune
|
jaune
|
|
jaune
|
rouge
|
bleu
|
rouge
|
bleu
|
bleu
|
vert
|
|
vert
|
bleu
|
La méthode classique pour résoudre ce problème
consiste à calculer les combinaisons communes aux séquences
de A prises deux à deux, puis trois à trois, quatre à
quatre et ainsi de suite jusqu?à obtenir toutes les combinaisons
possibles. Une fois ce travail fastidieux terminé, il faut comparer
chacune des combinaisons trouvées aux séquences de B afin
de déterminer lesquelles n?y apparaissent pas. Finalement, il reste
à choisir parmi ces dernières celles qui sont les plus fréquentes
dans A.
Nous proposons une solution algorithmique beaucoup moins coûteuse
en temps de calcul. Elle est inspirée de la manière dont
un être humain agirait.
On reproduit les séquences de A en enlevant les codes dont la
fréquence est inférieure à 2, c?est à dire
ceux qui apparaissent à la même position dans moins de 2 séquences
de A. Puis, on recommence pour ceux qui apparaissent moins de 3 fois, et
ainsi de suite jusqu?à ce que les codes les plus fréquents
soient seuls à rester. On obtient ainsi un tableau dont les lignes
contiennent les séquences privées des codes qui apparaissent
un nombre de fois inférieur ou égal au numéro de la
ligne.
Exemple :
Dans ce tableau le nombre de fois qu?apparaît une séquence
dans A (en d?autres termes sa fréquence) est indiqué sous
cette dernière.
|
Suppression des
codes qui apparaissent 1 fois |
|
rouge
|
rouge
|
****
|
rouge
|
rouge
|
|
vert
|
vert
|
vert
|
****
|
vert
|
|
bleu
|
vert
|
bleu
|
vert
|
****
|
|
jaune
|
jaune
|
jaune
|
jaune
|
jaune
|
|
bleu
|
****
|
bleu
|
bleu
|
****
|
Fréquences
|
1
|
1
|
1
|
1
|
1
|
|
Suppression des
codes qui apparaissent 2 fois |
|
rouge
|
****
|
rouge
|
rouge
|
|
vert
|
vert
|
****
|
vert
|
|
****
|
****
|
****
|
****
|
|
jaune
|
jaune
|
jaune
|
jaune
|
|
bleu
|
bleu
|
bleu
|
****
|
Fréquences
|
1
|
1
|
1
|
2
|
|
Suppression des
codes qui apparaissent 3 fois |
|
****
|
rouge
|
rouge
|
|
vert
|
****
|
vert
|
|
****
|
****
|
****
|
|
jaune
|
jaune
|
jaune
|
|
****
|
****
|
****
|
Fréquences
|
1
|
1
|
3
|
|
Suppression des
codes qui apparaissent 4 fois |
|
****
|
|
|
****
|
|
|
****
|
|
|
jaune
|
|
|
****
|
|
Fréquences
|
5
|
|
On calcule les combinaisons les plus fréquentes parmi les séquences
de la dernière ligne de ce tableau. Comme le nombre de séquence
est réduit comparé à l?ensemble A, le calcul devrait
être bien plus rapide. On compare chacune des combinaisons trouvées
aux séquences de B. S?il en existe qui n?apparaissent pas dans B,
on garde celles qui sont les plus fréquentes dans A et on attribue
la plus grande fréquence à une variable I.
A présent, il faut déterminer s?il existe une combinaison
qui soit plus fréquente que I fois dans A sans apparaître
dans B. Cette combinaison apparaîtrait forcément après
la ligne I du tableau. En effet, si une combinaison est plus fréquente
que I fois, tous ses codes sont plus fréquents que I fois.
On va donc répéter ces opérations pour chaque ligne
du tableau en partant de la dernière jusqu?à ce que le numéro
de la ligne traitée soit égale à I-1. On notera qu?à
chaque nouvelle ligne traitée la valeur de I peut augmenter. Le
numéro de la ligne traitée et la variable I convergent donc
l?un vers l?autre.
Exemple :
Dans la dernière ligne du tableau, le calcul des combinaisons
donne :
****
|
****
|
****
|
jaune
|
****
|
La fréquence de cette combinaison est 5. Néanmoins,
elle apparaît dans la première séquence de B. Cette
combinaison ne vérifie donc pas les conditions attendues. La recherche
doit donc se poursuivre.
Les combinaisons calculées dans l?avant-dernière ligne
du tableau sont :
|
rouge
|
rouge
|
****
|
****
|
|
vert
|
****
|
****
|
vert
|
|
****
|
****
|
****
|
****
|
|
jaune
|
jaune
|
jaune
|
jaune
|
|
****
|
****
|
****
|
****
|
Fréquence dans A :
|
3
|
4
|
5
|
4
|
Les combinaisons les plus fréquentes qui n?apparaissent pas
dans B sont la deuxième et la quatrième. Leur fréquence
est 4, donc on pose I=4. Or on est en train de traiter la 3ième
ligne du tableau et I-1=3. Ainsi l?algorithme se termine et les résultats
sont :
rouge
|
****
|
****
|
vert
|
****
|
****
|
jaune
|
jaune
|
****
|
****
|