Ce texte est une adaptation d’un mini-mémoire rendu à Pierre Wagner (Paris I) en décembre 2025, dans le cadre du cours de philosophie de la logique ayant obtenu la note de 18/20.

Introduction

L’intelligence artificielle contemporaine, et particulièrement l’apprentissage automatique connexionniste, semble opérer selon des principes radicalement différents de ceux qui gouvernent la pratique traditionnelle de la définition. Là où le logicien construit des définitions explicites respectant les critères stricts d’éliminabilité et de non-créativité, le réseau de neurones apprend des représentations vectorielles distribuées dont le statut épistémologique demeure incertain. Cette situation soulève un problème : comment la représentation vectorielle des concepts dans les modèles connexionnistes se rapporte-t-elle à ce qu’est une définition au sens classique du terme ?

La question n’est pas simplement technique. Elle engage notre compréhension même de ce que signifie définir, circonscrire un concept, tracer les limites du sens. La théorie classique de la définition [Wagner, 2017] établit avec rigueur les exigences que toute définition légitime doit satisfaire : l’éliminabilité du défini, la non-créativité ou conservativité, l’univocité du definiendum. Ces critères, forgés dans la tradition logique et philosophique, du Pascal de De l’esprit géométrique [Pascal, 1657] à Frege [Frege, 1884] et Russell [Russell, 1905], constituent notre point de départ obligé.

Or le paradigme connexionniste, fondé sur l’hypothèse distributionnelle de Firth selon laquelle « on connaît un mot par ses fréquentations » [Firth, 1957], propose un mode d’accès au sens qui semble contourner la définition explicite. Un mot n’y est plus défini par un definiens substituable, mais représenté par un vecteur dans un espace de haute dimension, dont la signification émerge de sa position relative par rapport aux autres vecteurs. Sommes-nous encore dans l’ordre de la définition ?

Ce mini-mémoire se propose d’examiner cette tension à travers trois moments. Nous établirons d’abord ce qu’est une définition au sens classique, en nous appuyant principalement sur la théorie de la définition [Wagner, 2017]. Nous interrogerons ensuite le statut des représentations vectorielles au regard des critères classiques. Enfin, nous chercherons à déterminer si le paradigme connexionniste invalide la théorie classique ou en révèle au contraire une forme implicite et élargie.1

L’édifice classique de la définition

Les fonctions de la définition

Avant d’examiner les règles formelles de la définition, il convient d’en rappeler la diversité fonctionnelle. La théorie classique distingue plusieurs modalités définitionnelles qui ne poursuivent pas les mêmes objectifs [Wagner, 2017].

La distinction entre définition nominale et définition réelle, héritée de la scolastique médiévale et reprise par Pascal, oppose deux visées. La définition nominale (definitio nominis) se contente d’expliquer l’usage d’un mot ou d’introduire une abréviation commode. Pascal affirme ainsi que « les définitions ne sont faites que pour désigner les choses que l’on nomme, et non pas pour en montrer la nature » [Wagner, 2017]. À l’inverse, la définition réelle (definitio rei), dans la tradition aristotélicienne, prétend saisir l’essence de la chose, dire ce qu’elle est en elle-même.

Une seconde distinction sépare les définitions stipulatives des définitions descriptives. Les premières introduisent un sens nouveau par décision arbitraire (« soit $x$ le plus petit nombre premier »), tandis que les secondes rapportent l’usage établi au sein d’une communauté linguistique, comme le fait le lexicographe [Wagner, 2017].

Enfin, et c’est peut-être la distinction la plus pertinente pour notre propos, on oppose définitions explicites et définitions implicites. Une définition explicite permet la substitution directe du definiendum par le definiens. Une définition implicite, au sens de Gergonne et Hilbert, définit les termes primitifs non pas isolément, mais par leurs relations mutuelles au sein d’un système d’axiomes [Wagner, 2017]. Les axiomes de la géométrie hilbertienne, par exemple, définissent implicitement « point », « droite » et « plan » par les relations structurelles qu’ils imposent à ces termes.

L’éliminabilité du défini

Le premier critère de la théorie classique est celui de l’éliminabilité. Une définition est essentiellement une abréviation. Si un terme $T$ est défini par une expression $P$, alors dans toute proposition où $T$ apparaît, il doit être possible de remplacer $T$ par $P$ sans altérer la valeur de vérité de la proposition [Wagner, 2017].

Formellement, si nous introduisons un nouveau symbole $s$ dans un langage $\mathcal{L}$ via une définition $\delta$, le langage étendu $\mathcal{L}’$ ne doit contenir aucun contenu sémantique irréductible à $\mathcal{L}$. La définition « 1 = S(0) » (où $S$ est la fonction successeur) nous permet d’éliminer systématiquement le symbole « 1 » de toute formule arithmétique.

Cette exigence d’éliminabilité garantit qu’une définition n’est pas un enrichissement ontologique du langage, mais simplement un instrument de concision. Comme le notent Arnauld et Nicole, le soin apporté aux définitions permet d’« abréger le discours », mais à condition de pouvoir toujours « substituer mentalement la définition à la place du défini » [Wagner, 2017].

Toutefois, l’éliminabilité n’est pas toujours une simple substitution terme à terme. Dans le cas des définitions contextuelles, comme celle de la conjonction logique $\land$ définie à partir de la négation $\neg$ et du conditionnel $\to$, on ne peut substituer directement $\land$ par une expression fixe ; il faut remplacer tout le contexte $(A \land B)$ par $\neg(A \to \neg B)$ [Wagner, 2017].

De surcroît, l’éliminabilité ne vaut que dans certains contextes. Le mot « premier » est éliminable au profit de « divisible par deux nombres exactement » dans le contexte « 13 est… », mais non dans le contexte « Léa ignore que 13 est… », où le principe de substituabilité des identiques ne s’applique pas [Wagner, 2017].

La non-créativité et la conservativité

Le second critère est celui de non-créativité ou de conservativité. Une définition purement définitionnelle ne doit pas permettre de démontrer quoi que ce soit sur les termes primitifs qui n’était déjà démontrable avant son introduction [Wagner, 2017].

Cette exigence peut être formalisée ainsi : soit $\mathcal{L}$ un langage dans lequel est formulée une théorie $T$, et soit $\mathcal{L}’$ le langage obtenu par adjonction d’un mot $m$ défini par $\delta$. On dit que $\delta$ satisfait la condition de conservativité relativement à $T$ si, et seulement si, tout énoncé de $\mathcal{L}$ démontrable à partir de $T \cup {\delta}$ est également démontrable à partir de $T$ seul [Wagner, 2017].

Autrement dit, si $T$ représente nos connaissances et $\delta$ une définition, alors $\delta$ ne doit pas enrichir notre stock de connaissances exprimables dans le langage original. Une définition qui violerait ce principe ne serait pas purement conceptuelle ; elle véhiculerait un contenu épistémique.

Un exemple classique l’illustre bien. La pseudo-définition « Alpha est le plus grand nombre premier » est créative, car elle contredit le théorème d’Euclide sur l’infinitude des nombres premiers [Wagner, 2017]. Plus dramatique encore, la définition russellienne de l’ensemble $E$ de tous les ensembles qui ne s’appartiennent pas à eux-mêmes engendre directement la contradiction $E \in E \leftrightarrow E \notin E$ [Wagner, 2017].

La définition implicite au sens de Gergonne et Hilbert

La théorie classique consacre une analyse importante à la définition implicite, qu’elle distingue soigneusement de la définition explicite [Wagner, 2017]. Dans la géométrie hilbertienne, les termes primitifs « point », « droite », « plan » ne sont pas définis isolément par des definiens explicites. Ils sont définis globalement par l’ensemble des axiomes qui contraignent leurs interprétations possibles.

Cette conception relationnelle et holiste de la définition renonce à l’idéal d’une signification intrinsèque, donnée en dehors de toute structure. Le « sens » d’un point est défini exclusivement par son comportement au sein du système axiomatique. Il n’a pas d’essence hors de ses relations.

Le paradigme connexionniste comme défi à la théorie classique

L’hypothèse distributionnelle

Le traitement automatique des langues contemporain repose sur un principe qui semble étranger à la logique de la définition explicite : l’hypothèse distributionnelle, formulée par le linguiste John Rupert Firth en 1957 : « You shall know a word by the company it keeps » — on connaît un mot par ses fréquentations [Firth, 1957].2

Cette maxime déplace radicalement le fondement du sens. Dans la logique classique, l’identité est absolue : $A = A$. Dans la sémantique distributionnelle, l’identité devient similitude : $A \approx B$ si et seulement si $\text{Contexte}(A) \approx \text{Contexte}(B)$. Le sens n’est plus une propriété intrinsèque, une essence à capturer par un definiens, mais une fonction de la distribution contextuelle du mot.

La réalisation technique de cette hypothèse est le plongement de mots (word embedding), où chaque mot est projeté vers un vecteur dans un espace de haute dimension $\mathbb{R}^d$ [Mikolov et al., 2013; Pennington et al., 2014]. La « définition » du mot « chat » devient un vecteur de 512 nombres réels. Ce vecteur encode les co-occurrences statistiques du mot dans un vaste corpus.

L’embedding comme structuralisme mathématisé

Qu’est-ce qu’un vecteur d’embedding en tant que définition ? La réponse engage une ontologie du sens radicalement différente de celle qui sous-tend la définition classique.

Dans la tradition aristotélicienne et logiciste, définir un terme consiste à en exhiber le contenu intrinsèque : « un triangle est une figure fermée à trois côtés ». Le definiens énonce des propriétés essentielles que possède l’objet défini, indépendamment de toute relation à d’autres objets. Le sens est conçu comme une substance sémantique attachée au signe.

Le vecteur d’embedding rompt avec cette métaphysique substantialiste. Le vecteur $\vec{v}_{\text{chat}} \in \mathbb{R}^{512}$ ne porte en lui-même aucune propriété sémantique intrinsèque. Considéré isolément, ce tuple de 512 nombres réels est dépourvu de signification. Il ne devient porteur de sens que par sa position relative dans l’espace vectoriel — c’est-à-dire par ses distances aux autres vecteurs.

Cette conception réalise mathématiquement l’intuition structuraliste de Ferdinand de Saussure, pour qui « dans la langue, il n’y a que des différences sans termes positifs ». Le sens d’un mot ne lui appartient pas en propre ; il émerge du système de différences qui structure la langue comme totalité. L’embedding vectoriel donne une forme géométrique précise à cette idée : le sens de « chat » est sa différence métrique avec « chien » (distance faible), « table » (distance moyenne), « idée » (distance forte), et tous les autres termes du vocabulaire.

On peut donc dire que l’embedding est une définition purement oppositionnelle : « chat » est défini par n’être ni « chien », ni « maison », ni « courir », selon un système de distances euclidiennes dans $\mathbb{R}^d$. Là où la définition classique répond à la question « qu’est-ce que $X$ ? » par une formule positive (« $X$ est $P$ »), la définition vectorielle répond par une localisation négative : « $X$ occupe cette position dans le réseau des différences ».

Cette ontologie a une conséquence immédiate : elle invalide l’exigence classique d’univocité. Pierre Wagner insiste sur le fait qu’un definiendum doit avoir un sens fixe et unique. Or un vecteur d’embedding n’a pas d’identité stable hors du système qui le produit. Que l’on change le corpus d’entraînement, l’architecture du réseau ou les hyperparamètres, et « chat » recevra un vecteur numériquement distinct. Le sens n’est pas une essence immuable, mais une configuration instable et révisable.

Géométrie et Invariance : l’identité à une rotation près

L’arbitraire du signe saussurien trouve son écho mathématique dans l’arbitraire des bases vectorielles. Un réseau de neurones peut être soumis à une rotation globale sans que ses propriétés fonctionnelles ne changent. Ce qui compte, ce ne sont pas les coordonnées absolues des neurones individuellement ($x_i$), mais les relations géométriques qui les unissent.

Nous pouvons formaliser cette intuition par l’analyse des fonctions de coût et des métriques de similarité. L’apprentissage du modèle est piloté par la minimisation de l’entropie croisée (Cross-Entropy) entre la distribution prédite $q$ et la distribution cible $p$.

\[\begin{align} H(p, q) &= -\sum_{x \in \mathcal{X}} p(x) \log q(x) \\ &= -\mathbb{E}_{x \sim p} [\log q(x)] \end{align}\]

Cette quantité force les représentations internes à s’organiser de manière à maximiser la séparabilité linéaire des classes ou la probabilité du token suivant.

Mais comment comparer ces représentations ? Si l’on entraîne deux modèles identiques avec des initialisations aléatoires différentes, les vecteurs pour « chat » seront numériquement très différents. Pourtant, ils capturent la même « définition ». Il nous faut donc une mesure de similarité qui soit invariante par rotation et permutation orthogonale.

La distance euclidienne classique $|\vec{u} - \vec{v}|$ est sensible à la norme. Les informaticiens en traitement du langage naturel lui préfèrent souvent la similarité cosinus, qui ne considère que l’angle :

\[\begin{align} \text{sim}(\vec{u}, \vec{v}) &= \frac{\vec{u} \cdot \vec{v}}{\|\vec{u}\| \|\vec{v}\|} \\ &= \cos(\theta) \end{align}\]

Cependant, pour comparer des espaces de représentation entiers (par exemple, la couche 3 du modèle A et la couche 3 du modèle B), la mesure la plus robuste est l’alignement de noyau centré (Centered Kernel Alignment, CKA). Elle permet de quantifier la similarité entre deux matrices de représentations $X \in \mathbb{R}^{n \times d_1}$ et $Y \in \mathbb{R}^{n \times d_2}$ de manière invariante aux transformations orthogonales :

\[\begin{align} \text{CKA}(K, L) &= \frac{\text{HSIC}(K, L)}{\sqrt{\text{HSIC}(K, K)\text{HSIC}(L, L)}} \end{align}\]

où $K = XX^T$ et $L = YY^T$ sont les matrices de similarité (kernels) entre exemples. Si $X’ = XQ$ avec $Q$ une matrice orthogonale, alors $K’ = (XQ)(XQ)^T = XQQ^TX^T = XX^T = K$. L’invariance est ainsi mathématiquement garantie.

Cette invariance mathématique n’est pas un simple détail technique. Elle révèle une thèse ontologique forte : la « définition » d’un concept dans un réseau de neurones n’est pas le vecteur particulier (qui dépend de l’initialisation aléatoire), mais la structure géométrique invariante sous transformations isométriques. C’est une forme de réalisme structural : ce qui est réel, ce n’est pas la substance (les coordonnées numériques), mais la forme (les relations métriques). Cette position rappelle Poincaré et Maxwell pour qui ce qui survit aux changements de représentation constitue le contenu objectif de la connaissance scientifique. La « définition » véritable est donc la géométrie relative du nuage de points, non ses coordonnées contingentes.

La définition comme calcul d’attention

Une limite majeure des premiers modèles vectoriels (type Word2Vec) résidait dans le caractère statique de la définition : un mot recevait un vecteur unique, indépendamment de ses acceptions variées. L’architecture des Transformeurs [Vaswani et al., 2017] résout ce problème en rendant la définition dynamique grâce au mécanisme d’attention.

Dans ce formalisme, le sens d’un token n’est pas donné, il est calculé. Pour un token à la position $i$, on projette son vecteur initial $x_i$ vers trois espaces distincts : une requête $q_i$ (query), une clé $k_i$ (key) et une valeur $v_i$ (value), par multiplication avec des matrices apprises $W^Q, W^K, W^V$.

La contribution sémantique de chaque mot du contexte $j$ au mot cible $i$ est déterminée par un score d’attention $A_{i,j}$, calculé comme la compatibilité entre la requête de l’un et la clé de l’autre :

\[A_{i,j} = \text{Softmax}_j \left( \frac{q_i \cdot k_j^T}{\sqrt{d_k}} \right)\]

La représentation finale $z_i$ du mot est alors la somme pondérée des valeurs de tous les mots du contexte :

\[z_i = \sum_{j} A_{i,j} v_j\]

Cette équation donne une forme mathématique précise à l’idée de définition contextuelle. Le « sens » $z_i$ est littéralement la somme des traces laissées par les autres mots ($v_j$), pondérées par leur pertinence contextuelle ($A_{i,j}$).

La polysémie contextuelle comme réfutation de l’univocité

La théorie classique de la définition se heurte à un obstacle empirique majeur : la polysémie contextuelle. Un même mot possède souvent plusieurs sens apparentés mais distincts. La définition classique traite ce phénomène comme une ambiguïté à lever : « banque$_1$ » = institution financière, « banque$_2$ » = bord d’un cours d’eau. Le contexte joue alors le rôle de sélecteur entre ces significations préétablies.

Mais cette conception se révèle inadéquate face à des énoncés comme « j’ai dormi sur la banque ». Quelle acception de « banque » y est sélectionnée ? Ni l’institution financière ni le bord du fleuve ne conviennent — à moins de supposer un troisième sens, « banque$_3$ » = meuble. Or cette multiplication ad hoc des acceptions révèle l’échec de la stratégie : plutôt qu’une définition unique avec des sens préétablis, nous avons une infinité potentielle de micro-sens ajustés au contexte.

Le problème est plus profond encore. Considérons « la température monte ». S’agit-il d’un thermomètre, de la fièvre, de la tension sociale ? La définition classique exigerait de stipuler par avance tous les sens possibles de « monter », ou d’introduire un definiens suffisamment abstrait pour les couvrir tous (« augmenter selon une dimension scalaire »). Mais cette dernière option revient à admettre que le sens concret de « monter » dans chaque contexte ne peut être déduit de la définition générale — il doit être construit par interprétation contextuelle.

C’est ici que le mécanisme d’attention des transformeurs révèle son importance philosophique. Rappelons l’équation :

\[z_i = \sum_{j} A_{i,j} v_j\]

Cette formule montre que la représentation finale $z_i$ du mot $i$ n’est pas sélectionnée parmi un stock de sens préétablis, mais calculée dynamiquement par agrégation pondérée des contributions de tous les mots contextuels $v_j$. Dans « j’ai dormi sur la banque », le vecteur final de « banque » incorpore des traces sémantiques de « dormi » et « sur », produisant une représentation sui generis qui n’existait pas avant le calcul.

Le sens n’est donc pas consultation d’un dictionnaire mental, mais computation. Cette idée trouve un écho dans la philosophie du langage ordinaire. Wittgenstein, dans les Recherches philosophiques, affirme : « Ne demandez pas le sens, demandez l’usage » (§43). Pour lui, le sens d’un mot n’est pas une entité fixe associée au mot, mais sa manière d’être employé dans les jeux de langage.

Le mécanisme d’attention est une formalisation mathématique de cette intuition wittgensteinienne : le « sens » de « banque » dans une phrase donnée est littéralement son usage dans cette configuration syntaxique et sémantique particulière, encodé comme vecteur résultant.3 La définition cesse d’être un stock a priori de significations, pour devenir un processus in situ de construction du sens.

Ceci invalide la présupposition centrale de la théorie classique : que définir consiste à fixer le sens une fois pour toutes. Le paradigme connexionniste montre au contraire que le sens est constitutivement variable, contextuel et émergent.

L’éliminabilité violée

Confrontons cette pratique au critère classique d’éliminabilité. Peut-on éliminer un vecteur d’embedding au profit d’une expression linguistique qui lui serait synonyme ?

La réponse est manifestement négative. Le vecteur $\vec{v}_{\text{roi}}$ n’est pas une chaîne de symboles du langage. C’est une entité mathématique d’une nature ontologique radicalement différente — un point dans $\mathbb{R}^{512}$. On ne peut « substituer mentalement » ce vecteur au mot « roi » dans une phrase ordinaire. La traduction du mot en vecteur n’est pas une substitution de symboles équivalents, mais une projection dans un espace phénoménologique distinct.

De surcroît, cette projection est « lossy » — elle perd de l’information, ou du moins transforme irréversiblement la nature de l’information. Le vecteur capture une distribution statistique, non un sens compositionnel au sens traditionnel. Il n’y a pas d’équivalence stricte au sens classique, mais une correspondance probabiliste. La question de la compositionnalité dans les modèles de langue, notamment les architectures à transformeurs [Vaswani et al., 2017] et les modèles contextuels comme BERT [Devlin et al., 2019], fait l’objet de recherches actives [Pommeret et al., 2025].

Créativité apparente ou découverte structurelle ?

Le second critère classique — la non-créativité — semble violé de manière flagrante par les modèles connexionnistes. Les relations vectorielles permettent des inférences célèbres du type :

\[\vec{v}_{\text{Roi}} - \vec{v}_{\text{Homme}} + \vec{v}_{\text{Femme}} \approx \vec{v}_{\text{Reine}}\]

Cette « arithmétique vectorielle » produit des connaissances qui n’étaient pas explicitement encodées dans les définitions individuelles des termes. Si $T$ désigne notre théorie du langage et $\delta$ la représentation vectorielle de « roi », alors $T \cup {\delta}$ permet d’inférer des relations sémantiques (roi:homme::reine:femme) qui n’étaient pas démontrables dans $T$. En ce sens, la définition vectorielle est créative : elle enrichit notre stock de connaissances.

Mais cette « créativité » est-elle réelle ou apparente ? La question mérite d’être examinée avec soin.

D’un côté, on peut soutenir que l’inférence « roi - homme + femme = reine » ne crée aucune connaissance nouvelle, mais révèle une structure sémantique latente déjà présente dans l’usage linguistique. Cette relation d’analogie entre royauté et genre était implicitement contenue dans la manière dont les locuteurs emploient ces mots. Le modèle vectoriel ne fait que rendre explicite ce qui était déjà implicitement connaissable — exactement comme le géomètre qui démontre un théorème rend explicite ce qui était implicite dans les axiomes.

Dans cette perspective, le critère de non-créativité n’est pas violé. Si l’on définit $T$ non pas comme un ensemble fini de propositions explicites, mais comme l’ensemble de toutes les vérités sémantiques implicites dans l’usage linguistique d’une communauté, alors la relation « roi:homme::reine:femme » était déjà dans $T$. Le modèle connexionniste n’ajoute rien ; il extrait.

Toutefois, cette réponse soulève une objection importante. Chomsky et les symbolistes objecteraient que les régularités statistiques de surface ne capturent pas la structure profonde du langage — les règles syntaxiques universelles, innées, qui génèrent la compétence linguistique. L’arithmétique vectorielle « roi - homme + femme = reine » serait alors un artefact superficiel, non une découverte structurelle authentique.

Mais on peut retourner l’argument : et si la « structure profonde » chomskyenne n’était elle-même qu’un artefact de notre obsession rationaliste pour les règles explicites ? Si la compétence linguistique réelle était statistique, distribuée, émergente ? Les deux positions révèlent des niveaux d’analyse différents : le connexionnisme modélise la performance effective, le symbolisme vise la compétence idéalisée. Ni l’un ni l’autre n’épuise le phénomène.

D’un autre côté, on peut objecter que cette structure géométrique est un artefact du processus d’apprentissage, sans contrepartie réelle dans la compétence linguistique humaine. Aucun locuteur naïf ne manipule mentalement des vecteurs à 512 dimensions ni n’effectue des soustractions vectorielles. Les relations d’analogie capturées par les embeddings sont peut-être des régularisations statistiques produites par l’optimisation, plutôt que des structures cognitives authentiques.

Dans cette lecture sceptique, le modèle est bien créatif : il introduit des relations conceptuelles nouvelles qui n’appartiennent pas à la sémantique ordinaire, mais à une géométrie artificielle projetée sur les données linguistiques. La « découverte » que roi - homme + femme = reine est alors une propriété du modèle, non du langage naturel.

Ce débat révèle une ambiguïté : que définit exactement un embedding vectoriel ? Définit-il le mot tel qu’il est utilisé par les locuteurs (réalisme sémantique), ou tel qu’il est modélisé par une architecture particulière entraînée sur un corpus particulier (instrumentalisme) ?

La philosophie du langage offre une distinction utile ici. Putnam, dans « The Meaning of ‘Meaning’ » [Putnam, 1975], distingue l’intension d’un terme (son sens, sa définition) et son extension (l’ensemble des objets auxquels il réfère dans les usages effectifs).4 Les définitions classiques visent à capturer l’intension ; les embeddings capturent des régularités extensionnelles.

Un vecteur d’embedding n’encode pas « ce que signifie être un roi », mais « comment le mot ‘roi’ se comporte dans les contextes observés ». Il ne définit pas le concept, mais modélise sa distribution. En ce sens, les embeddings ne violent pas tant le critère de non-créativité qu’ils changent de domaine : ils quittent le plan de la définition conceptuelle pour celui de la modélisation statistique.

Définition implicite vectorielle : une analogie avec Hilbert

Face à l’échec apparent des critères classiques (éliminabilité, non-créativité), faut-il conclure que les représentations vectorielles ne sont pas des définitions ? Ce serait hâtif. Elles pourraient constituer une forme particulière de définition implicite, au sens élargi que la théorie classique reconnaît déjà comme légitime.

L’analogie avec la géométrie hilbertienne est instructive. Dans le système axiomatique de Hilbert, les termes primitifs « point », « droite », « plan » ne reçoivent pas de définition explicite. Ils sont définis globalement par l’ensemble des axiomes qui contraignent leurs interprétations possibles. Le « sens » d’un point n’est rien d’autre que le rôle structural qu’il joue dans les relations axiomatiques.

De manière analogue, dans un modèle connexionniste, le sens d’un token n’est pas donné par un definiens linguistique, mais par son interaction avec tous les autres tokens dans l’espace structuré par les poids du réseau. Les poids jouent le rôle des axiomes : ils définissent implicitement les relations admissibles entre termes.

Construisons cette analogie plus rigoureusement :

Définition implicite hilbertienne Définition vectorielle connexionniste
Termes primitifs non définis : point, droite, plan Tokens : « chat », « chien », « roi »
Axiomes : propositions logiques contraignant les relations Poids du réseau : paramètres contraignant les distances vectorielles
Sens = satisfaire les axiomes dans un modèle Sens = position dans l’espace d’embedding
Unicité structurelle si modèles isomorphes Pluralité structurelle : embeddings dépendent du corpus

Toutefois, l’analogie révèle aussi une différence cruciale, de nature épistémologique.

Chez Hilbert, les axiomes sont des propositions a priori dont le statut est (du moins dans l’interprétation logiciste) celui de vérités analytiques ou de stipulations nécessaires. Si « entre » satisfait les axiomes de la géométrie euclidienne, c’est qu’il possède nécessairement la structure euclidienne. Les axiomes contraignent a priori l’espace des interprétations possibles.

En revanche, dans le paradigme connexionniste, les poids du réseau sont des paramètres appris empiriquement par descente de gradient sur un corpus. Ils encodent des régularités statistiques observées dans ce corpus particulier. Si « chat » possède tel vecteur, ce n’est pas une vérité nécessaire sur le concept de chat, mais un fait contingent sur la distribution du mot dans Wikipedia, ou dans Common Crawl, ou dans tel autre corpus d’entraînement.

La définition implicite hilbertienne est donc a priori, là où la définition vectorielle est a posteriori. Cette distinction a des conséquences majeures. Premièrement, les axiomes hilbertiens prétendent à l’universalité, alors que les embeddings sont toujours relatifs à un corpus et à une architecture spécifique. Deuxièmement, là où les axiomes imposent des contraintes nécessaires, les poids neuronaux ne capturent que des tendances probables. Enfin, si la définition hilbertienne aspire à la rigueur logique, la définition vectorielle assume une forme de fluidité statistique.

Cette différence rappelle la critique quinéenne de la distinction analytique/synthétique. Dans « Two Dogmas of Empiricism » [Quine, 1951], Quine conteste l’idée qu’il existerait une frontière nette entre vérités définitionnelles (analytiques) et vérités factuelles (synthétiques). Toute connaissance forme un réseau holistique où les « définitions » elles-mêmes peuvent être révisées à la lumière de l’expérience.

Le paradigme connexionniste donne raison à Quine : la « définition » d’un mot n’est pas un noyau analytique fixe, mais une structure inductive révisable, ancrée dans l’usage linguistique observé. Les embeddings ne sont donc pas des définitions au sens classique, mais des modèles empiriques du sens.

Les limites de l’opacité vectorielle

Transparence définitionnelle versus opacité calculatoire

Si les représentations vectorielles peuvent être comprises comme des formes élargies de définition, elles se distinguent néanmoins des définitions classiques par une propriété épistémique cruciale : leur opacité.

Une définition classique possède une vertu de transparence : elle expose explicitement les conditions d’application du concept. La définition « un nombre premier est un entier naturel divisible par exactement deux nombres distincts » me permet non seulement d’identifier les nombres premiers, mais surtout de comprendre pourquoi 13 est premier et 14 ne l’est pas. La définition fournit les raisons de la classification.

Un vecteur d’embedding, à l’inverse, est opaque. Le vecteur $\vec{v}_{\text{premier}} \in \mathbb{R}^{512}$ peut me permettre de prédire avec précision si un nombre est premier (si le modèle a été entraîné sur cette tâche), mais il ne m’explique rien. Je ne peux inspecter ce vecteur pour y lire les critères qui font qu’un nombre est premier. La représentation vectorielle encapsule des régularités statistiques sans les articuler sous forme de critères intelligibles.

Cette différence n’est pas simplement pragmatique, elle est épistémologique. La définition classique satisfait un idéal de connaissabilité : savoir ce qu’est $X$, c’est pouvoir énoncer explicitement les conditions qui font qu’un objet tombe sous $X$. Le vecteur d’embedding satisfait un idéal de prédictibilité : savoir traiter $X$, c’est pouvoir calculer des réponses correctes impliquant $X$.

On reconnaît ici l’opposition entre deux conceptions de la connaissance : le modèle rationaliste (connaître, c’est posséder des raisons articulables) et le modèle connexionniste (connaître, c’est disposer de capacités de traitement).

Le problème de l’hallucination

Cette opacité a des conséquences pratiques importantes. Les modèles de langue génératifs, entraînés sur des représentations vectorielles, produisent fréquemment des affirmations plausibles mais fausses — le phénomène dit d’« hallucination ». Le modèle génère « La tour Eiffel a été inaugurée en 1887 » (faux : 1889) parce que cette proposition est statistiquement cohérente avec les patterns appris, même si elle est factuellement incorrecte.

Ce problème révèle une limite structurelle des représentations vectorielles : elles capturent la vraisemblance (ce qui ressemble aux données d’entraînement) plutôt que la vérité (ce qui correspond aux faits). Un vecteur n’a pas de critère intrinsèque de correction factuelle ; il n’encode que des probabilités conditionnelles.

Face à ce défi, plusieurs travaux en intelligence artificielle ont tenté de réintroduire des structures discrètes et vérifiables. L’approche dite de « génération augmentée par récupération » (RAG) en est emblématique. Elle repose sur la décomposition du texte en propositions atomiques — des énoncés qui contiennent exactement un fait distinct, autonome et minimal [Pommeret et al., 2024].

Par exemple, la phrase « Le chien et le chat sont dans la cuisine » serait décomposée en deux propositions atomiques : « Le chien est dans la cuisine » et « Le chat est dans la cuisine ».

Chaque proposition peut alors être vérifiée indépendamment contre une base de connaissances fiable. La réponse du modèle est validée ou corrigée en fonction de la correspondance factuelle de ses propositions atomiques.

Cette démarche réintroduit explicitement la logique de l’atomisme logique, défendue par Russell et le premier Wittgenstein [Wittgenstein, 1921]. Selon cette doctrine, le monde est constitué de faits atomiques indépendants, et une proposition vraie correspond à un fait atomique. En imposant cette structure atomique au matériau traité par le modèle vectoriel, on force le système à respecter les frontières logiques des faits.

Une dialectique entre continuité et discrétion

On observe ici une tension dialectique. Le modèle connexionniste est puissant précisément parce qu’il opère dans l’espace continu et distribué des vecteurs. Cette continuité lui permet de généraliser, d’interpoler, de capturer des nuances sémantiques fines. Mais cette puissance se paie d’une perte de contrôle logique.

La réintroduction des propositions atomiques cherche à restaurer la précision factuelle en sacrifiant une part de la fluidité vectorielle. C’est un retour partiel au paradigme classique : des unités discrètes, composables, vérifiables.

Toutefois, ce retour n’est jamais total. Les propositions atomiques elles-mêmes sont identifiées et traitées par des modèles connexionnistes. La vérification factuelle repose encore sur des embeddings pour mesurer la similarité sémantique entre la proposition générée et la base de connaissances. Nous n’avons donc pas un abandon du paradigme vectoriel, mais une hybridation : des structures logiques discrètes ancrées dans un substrat vectoriel continu.

Cette hybridation suggère qu’aucun des deux paradigmes — le logico-symbolique et le connexionniste — ne peut prétendre à l’exclusivité. Les définitions explicites classiques garantissent la rigueur, l’éliminabilité, la transparence épistémique. Mais elles sont fragiles, rigides, et peinent à capturer la richesse contextuelle du langage naturel.

Les représentations vectorielles, à l’inverse, sont robustes, flexibles, et capturent remarquablement bien les nuances distributionnelles. Mais elles violent les critères classiques, produisent des inférences dont la validité logique n’est pas garantie, et demeurent opaques.

L’avenir pourrait donc résider dans des architectures neuro-symboliques, où les vecteurs gèrent la correspondance floue et intuitive, tandis que les structures logiques discrètes (propositions atomiques, graphes de connaissances, règles symboliques) gèrent la précision factuelle et la contrôlabilité. La définition du futur serait alors un objet hybride : un embedding vectoriel ancré à un graphe logique discret.

Conclusion : vers une théorie pluraliste de la définition

La confrontation entre la théorie classique de la définition et le paradigme connexionniste ne révèle pas, comme on aurait pu le craindre, une incompatibilité radicale. Elle révèle plutôt que la notion de « définition » est elle-même plus large et plus hétérogène que ne le laissait penser la tradition logiciste.

La théorie classique, telle que formulée par Pierre Wagner à partir de Pascal, Frege et Russell, a établi avec rigueur les exigences normatives de la définition explicite dans les systèmes formels : éliminabilité du défini par le définissant, non-créativité ou conservativité relativement à une théorie, univocité du definiendum. Ces critères demeurent valides et nécessaires pour les définitions stipulatives en logique et en mathématiques.

Mais la théorie classique reconnaît elle-même l’existence de formes alternatives : la définition implicite à la Hilbert, où les termes sont définis par leurs relations mutuelles dans un système d’axiomes ; la définition récursive, où le défini apparaît dans le définissant sous certaines conditions ; la définition par abstraction, qui introduit de nouveaux objets en quotientant une relation d’équivalence.

Le paradigme connexionniste prolonge cette pluralité en introduisant une nouvelle forme : la définition distributionnelle statistique. Dans ce mode, le sens d’un terme n’est ni une formule substituable (définition explicite), ni un rôle structural dans un système d’axiomes (définition implicite hilbertienne), mais une localisation géométrique dans un espace de co-occurrences apprises.

Cette définition possède des propriétés distinctives qui la singularisent radicalement. Elle est d’abord relationnelle, le sens d’un mot n’étant que sa position relative à tous les autres. Elle est ensuite contextuelle et continue, variant selon l’environnement syntaxique et sémantique et s’exprimant dans un espace métrique plutôt que discret. Enfin, elle est a posteriori et opaque, émergeant de régularités observées sans offrir d’explication articulable.

Ces propriétés violent les critères classiques d’éliminabilité et de non-créativité. Mais elles ne constituent pas pour autant un abandon de la notion de définition. Elles révèlent plutôt que la théorie classique décrivait un cas particulier (la définition explicite formelle) en le prenant pour la forme générale.

Nous pouvons donc proposer une typologie des modes définitionnels qui distingue quatre approches. La définition stipulative explicite (Pascal, Frege), caractérisée par l’éliminabilité stricte et la transparence épistémique, reste l’idéal pour les systèmes formels. La définition implicite structurale (Hilbert), qui définit le sens par les relations axiomatiques, convient aux théories mathématiques. La définition distributionnelle statistique (Firth, connexionnisme), fondée sur les co-occurrences et la généralisation inductive, s’avère puissante pour le traitement du langage naturel malgré son opacité. Enfin, la définition ostensive (Wittgenstein), qui ancre le sens dans l’usage et l’apprentissage direct, demeure fondamentale pour comprendre l’acquisition linguistique ordinaire.

Ces modes ne sont pas mutuellement exclusifs. Ils correspondent à des pratiques cognitives et scientifiques différentes, ayant chacune leur domaine de validité.

Le paradigme connexionniste ne détruit donc pas la théorie classique : il révèle que celle-ci décrivait un cas particulier en le prenant pour la forme générale. L’embedding vectoriel est bien une forme de définition — non pas au sens de l’identité substituable, mais au sens de la localisation structurale d’un concept dans un espace de significations.

Ce que le connexionnisme nous apprend, c’est que définir n’est pas seulement analyser et décomposer (idéal classique), mais aussi situer et relier (idéal structural). La définition n’est pas uniquement un acte de fixation du sens, mais aussi un processus de construction contextuelle.

Reste ouverte une question méta-théorique vertigineuse : si la notion de « définition » elle-même recouvre des pratiques hétérogènes (stipulative, implicite, distributionnelle, ostensive), ne faudrait-il pas une méta-définition qui unifie ces modes ? Ou devons-nous accepter que « définition » soit elle-même un concept polysémique, dont le sens varie avec le contexte théorique ?

Ce serait là une ironie profonde : la confrontation avec le paradigme connexionniste nous contraint à admettre que le concept même de « définition » résiste à une définition univoque et explicite. Validant par là, d’une certaine manière, l’enseignement central du connexionnisme : le sens émerge du réseau des usages, non d’une essence préétablie.

Annexe : La descente de gradient

La descente de gradient est l’algorithme d’optimisation qui permet aux réseaux de neurones d’apprendre à partir de données. Son principe repose sur une idée géométrique simple : pour minimiser une fonction, il suffit de se déplacer dans la direction de sa plus forte décroissance.

Principe mathématique

Considérons un modèle paramétré par un vecteur de poids $\theta \in \mathbb{R}^n$ (où $n$ peut atteindre plusieurs milliards dans les modèles contemporains). L’objectif de l’apprentissage est de minimiser une fonction de coût $\mathcal{L}(\theta)$ qui mesure l’écart entre les prédictions du modèle et les données observées.

Le gradient de cette fonction, noté $\nabla_\theta \mathcal{L}(\theta)$, est un vecteur qui pointe dans la direction de la plus forte croissance de $\mathcal{L}$. Pour minimiser $\mathcal{L}$, on effectue donc des pas dans la direction opposée :

\[\theta_{t+1} = \theta_t - \eta \nabla_\theta \mathcal{L}(\theta_t)\]

où $\eta > 0$ est le taux d’apprentissage (learning rate), un hyperparamètre qui contrôle l’amplitude de chaque pas.

Interprétation géométrique

Imaginons la fonction de coût comme une surface dans un espace de haute dimension. Le gradient indique la « pente » locale en chaque point. L’algorithme procède par descentes successives : partant d’une initialisation aléatoire $\theta_0$, il ajuste itérativement les paramètres en « descendant la pente » jusqu’à atteindre (idéalement) un minimum.

Descente de gradient stochastique

En pratique, calculer le gradient exact sur l’ensemble du corpus d’entraînement est prohibitif. On utilise donc la descente de gradient stochastique (SGD) : à chaque itération, on estime le gradient sur un petit sous-ensemble aléatoire de données (un mini-batch). Bien que cette estimation soit bruitée, elle permet un apprentissage efficace sur de vastes corpus.

Conséquence épistémologique

La descente de gradient révèle le caractère inductif et a posteriori de l’apprentissage connexionniste. Cette opposition a priori/a posteriori réactive un débat philosophique classique : les concepts sont-ils innés (rationalisme cartésien, leibnizien) ou acquis par expérience (empirisme lockéen, huméen) ? Le paradigme connexionniste donne raison aux empiristes : le sens n’est pas stipulé par la raison pure, mais extrait des régularités observées dans l’usage linguistique.

Contrairement aux axiomes hilbertiens, qui fixent a priori la structure géométrique comme vérités nécessaires ou stipulations analytiques, les poids neuronaux émergent d’un processus itératif d’ajustement empirique sur un corpus. Le « sens » d’un mot dans un modèle connexionniste n’est donc pas stipulé comme essence immuable, mais appris inductivement par optimisation statistique. C’est l’expérience linguistique — la distribution observée des mots dans leurs contextes — qui détermine la représentation, non une intuition rationnelle préalable.


Références

Cette réflexion s’appuie sur des travaux de recherche menés à l’Institut de Recherche en Informatique Fondamentale (IRIF) et au Laboratoire Interdisciplinaire des Sciences du Numérique (LISN) [Pommeret et al., 2024], portant notamment sur la compositionnalité dans les transformeurs [Pommeret et al, 2025] et l’évaluation de propositions atomiques pour le fact-checking [Pommeret et al., 2024].

  • [Devlin et al., 2019] Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL.
  • [Distrub. Hypo., 2023] A Review of Distrbutional Hypothesis. ACL.
  • [Firth, 1957] Firth, J. R. (1957). A synopsis of linguistic theory 1930–1955.
  • [Frege, 1884] Frege, G. (1884). Die Grundlagen der Arithmetik.
  • [Mikolov et al., 2013] Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. ICLR.
  • [Pascal, 1657] Pascal, B. (1657). De l’esprit géométrique.
  • [Pennington et al., 2014] Pennington, J., Socher, R., & Manning, C. D. (2014). GloVe: Global Vectors for Word Representation. EMNLP.
  • [Pommeret et al., 2024] Pommeret, L. (2024). Rapport de recherche IRIF.
  • [Pommeret et al., 2024] Pommeret, L., Lassoued, A., & de Rougemont, M. (2025). Composition with Transformers.
  • [Pommeret et al., 2024] Pommeret, L., Rosset, S., Servan, C., & Ghannay, S. (2024). AtomicEval : Evaluation Framework for Atomic Proposition Autonomy with French Propositioner. JDSE.
  • [Putnam, 1975] Putnam, H. (1975). The Meaning of ‘Meaning’.
  • [Quine, 1951] Quine, W. V. O. (1951). Two Dogmas of Empiricism.
  • [Russell, 1905] Russell, B. (1905). On Denoting.
  • [Vaswani et al., 2017] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention Is All You Need. NeurIPS.
  • [Wagner, 2017] Wagner, P. (2017). La définition. https://shs.hal.science/halshs-01494741
  • [Wittgenstein, 1921] Wittgenstein, L. (1921). Tractatus Logico-Philosophicus.
  1. Cette réflexion s’appuie sur des travaux de recherche menés à l’Institut de Recherche en Informatique Fondamentale (IRIF) et au Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), portant notamment sur la compositionnalité dans les transformeurs et l’évaluation de propositions atomiques pour le fact-checking. 

  2. Pour une introduction pédagogique moderne, voir [Distrub. Hypo., 2023]. 

  3. Ludwig Wittgenstein, Recherches philosophiques, §43 : « la signification d’un mot est son emploi dans le langage ». Édition Tel Gallimard, traduit par Dastur, Elie, Gautero, Janicaud et Rigal. 

  4. Cette distinction remonte à la Logique ou l’art de penser (1662) d’Antoine Arnauld et Pierre Nicole, dite logique de Port-Royal, qui opposait la « compréhension » (ensemble des attributs contenus dans l’idée) à l’« extension » (ensemble des objets auxquels l’idée s’applique).