L'argument structurel

Pourquoi l'IA a évolué ainsi -
et pourquoi cette voie ne peut pas résoudre le problème

Un examen de l'hypothèse fondamentale intégrée dans chaque grand système d'IA - et le dossier de recherche indépendant confirmant que personne ne l'a encore remise en question.

Cette page approfondit l'argument présenté dans La voie moins fréquentée - Repenser les coûts, la sécurité et la confiance en matière d'IA générative dans les institutions réglementées, qui explique pourquoi le paradigme standard de l'IA produit des coûts et des risques structurels que les organisations réglementées ne peuvent pas entièrement atténuer. L'analyse ci-dessous prolonge cet argument vers le dossier technique.

Navigation

L'hypothèse que personne n'a remise en question
Ce que le domaine a construit sur cette hypothèse
Ce que la recherche indépendante a révélé
Quatre systèmes d'IA, une seule conclusion
Ce qui change quand on déplace le point de contrôle
Les implications pour les environnements réglementés

L'hypothèse que personne n'a remise en question

Comment une commodité d'ingénierie est devenue un fondement architectural.

Lorsque les premiers grands modèles de langage ont été déployés pour le grand public, une décision a été prise tôt et n'a jamais été reconsidérée : l'inférence se produirait toujours. Lorsqu'un utilisateur soumet une question, le modèle génère une réponse. C'est ainsi que le système fonctionne. Ce n'est pas un choix de politique. Ce n'est pas une option de configuration. C'est l'hypothèse fondamentale de pratiquement chaque système d'IA générative construit au cours de la dernière décennie.

Le raisonnement derrière cette hypothèse était solide. Les modèles déployés comme services doivent être disponibles. La latence compte. Les points de terminaison d'inférence préconfigurés sont plus rapides et moins coûteux à exploiter à grande échelle. Et à l'époque, l'objectif principal était de démontrer les capacités - montrer ce que ces systèmes pouvaient faire lorsqu'on leur posait une question.

Cette décision a façonné tout ce qui a suivi : la gestion des risques, la conception de la sécurité, la vente et le déploiement de l'IA en entreprise, et la raison pour laquelle les hallucinations demeurent un coût accepté dans les environnements à enjeux élevés.

L'hypothèse non examinée

« L'inférence générative est supposée disponible. Le système est conçu pour produire une réponse. Le risque est géré en contrôlant ce qui entre dans le modèle et ce qui en sort - et non en déterminant si le modèle devrait fonctionner du tout. Même lorsque des requêtes individuelles sont bloquées avant l'exécution, le moteur d'inférence demeure déployé, accessible et prêt à fonctionner. »

Cette hypothèse n'est pas déraisonnable pour l'IA grand public. Elle est toutefois structurellement incompatible avec les environnements institutionnels réglementés - et le domaine ne s'est jamais sérieusement demandé si elle devait être vraie.

Ce que le domaine a construit sur cette hypothèse

Des décennies d'innovation - toutes dans les limites de la même contrainte fondamentale.

Une fois que l'inférence-en-premier est devenue la norme, tout un écosystème d'outils et de techniques s'est développé pour gérer les conséquences. Chaque génération d'améliorations s'est attaquée aux symptômes de l'inférence toujours active sans remettre en question les prémisses.

La génération augmentée par récupération (RAG) réduisait ce que le modèle pouvait voir, mais le modèle générait quand même une réponse pour chaque requête - y compris celles pour lesquelles aucune information faisant autorité n'existait. Les garde-fous et les filtres de contenu appliquaient des règles aux sorties après que le modèle les avait déjà produites. Les classificateurs de sécurité évaluaient les réponses après leur génération et substituaient des messages de refus si nécessaire. L'IA constitutionnelle entraînait les modèles à refuser certaines requêtes - mais un refus est lui-même une sortie générative, produite par un processus d'inférence qui s'est déroulé jusqu'à son terme.

Le contrôle d'accès basé sur les rôles déterminait qui pouvait accéder à un point de terminaison d'inférence. Il ne déterminait pas si un moteur d'inférence devait exister pour une requête donnée. La gestion des identités et des accès régissait l'invocation des services. Elle ne régissait pas si la capacité générative du service devait être instanciée du tout.

Dans chaque cas, l'architecture supposait un moteur d'inférence générative permanent et accessible. Certains systèmes - les garde-fous AWS Bedrock, les points de terminaison de modération et les moteurs de politique - peuvent bloquer des requêtes individuelles avant la génération de jetons. Mais le service d'inférence lui-même demeure déployé quel que soit le résultat. Le contrôle est appliqué autour d'une capacité permanente, et non avant qu'elle n'existe.

Le résultat est une course aux armements. Plus les modèles deviennent capables, plus ils sont difficiles à contrôler. Un système plus capable dispose de davantage de moyens pour générer des réponses convaincantes mais incorrectes, de davantage de moyens pour opérer en dehors des limites prévues, et de davantage de moyens pour sembler faire autorité alors qu'il a tort. Le domaine répond en ajoutant plus de contrôles - ce qui augmente la complexité et les coûts sans résoudre le problème structurel sous-jacent. À mesure que les systèmes d'IA continuent de s'améliorer, l'hypothèse selon laquelle ils devraient toujours répondre devient plus difficile - et non plus facile - à justifier dans les environnements réglementés.

Il ne s'agit pas d'une critique d'un système ou d'un fournisseur en particulier. C'est une description de ce qui se produit lorsqu'une industrie entière s'appuie sur une hypothèse partagée que personne n'a testée.

Ce que la recherche indépendante a révélé

Une investigation en quatre étapes sur l'état de la technique, portant sur les brevets, les systèmes révisés par des pairs et les descriptions du cycle de vie de l'exécution.

Pour déterminer si cette distinction architecturale était réellement nouvelle - ou si elle avait simplement été négligée dans la littérature existante - une investigation structurée sur l'état de la technique a été menée en quatre étapes progressives. La recherche a examiné les bases de données de brevets de l'USPTO, de l'OMPI et de l'OEB, ainsi que la littérature académique sur l'architecture des systèmes, en mettant l'accent sur l'ordre d'exécution et la sémantique d'instanciation du moteur d'exécution, et non sur les résultats en matière de sécurité ou les revendications de politique.

L'enquête était délibérément contradictoire. Elle était conçue pour trouver tout ce qui pourrait contredire la revendication architecturale - et non pour la confirmer. Chaque étape a testé un angle différent : réplication directe, état de la technique le plus proche, absence systématique dans le corpus de brevets sur les hallucinations, et un test de résistance final de type examinateur combinant les trois.

Les résultats ont été cohérents tout au long des quatre étapes. Chaque brevet examiné - de Cisco, Microsoft, C3.ai, Intuit, Noblis et d'autres - partageait la même hypothèse d'exécution : l'inférence générative est toujours instanciée et les contrôles sont appliqués pendant ou après la génération. Aucun brevet ni article académique n'a divulgué une architecture dans laquelle un moteur d'inférence générative n'existe pas à moins qu'une étape d'autorisation préalable à l'exécution ne réussisse. Les systèmes existants contrôlent l'accès à l'inférence - via IAM, les garde-fous et les couches de politique - mais ne conditionnent pas l'existence d'un moteur d'inférence pour une requête donnée. C'est précisément cette distinction que le dossier de recherche identifie. Aucune référence ne traitait les requêtes non autorisées comme des états terminaux non génératifs.

Plus révélateur que ce qui était absent, c'est ce qui était systématiquement présent. Le corpus de brevets sur les hallucinations et la sécurité ne s'est pas seulement abstenu d'aborder l'autorisation préalable à l'instanciation - il a activement renforcé l'hypothèse contraire. Les brevets décrivent des systèmes « configurés pour recevoir les données de sortie d'un modèle génératif ». Les diagrammes montrent l'inférence comme la première étape irréversible dans chaque flux d'exécution. Même les réponses « par défaut » pour les requêtes bloquées sont décrites comme des sorties générées - du texte produit par un modèle qui a fonctionné.

La conclusion de la recherche pour les quatre étapes : La littérature dominante et le corpus de brevets supposent uniformément des architectures à inférence-en-premier avec un contrôle post-génération. Cette hypothèse n'est pas accessoire. Elle est structurelle - intégrée dans le langage des revendications, les diagrammes d'exécution et les descriptions architecturales des principales institutions qui travaillent sur ce problème. Aucun système examiné ne divulgue ni ne suggère de conditionner l'existence de l'inférence générative à une autorisation préalable à l'exécution, ni de traiter les requêtes non autorisées comme des états terminaux non génératifs.

Pour les lecteurs qui souhaitent voir comment cette hypothèse apparaît dans les systèmes et brevets réels, les exemples suivants illustrent le même schéma d'exécution répété dans les principales institutions travaillant sur ce problème.

Exemples de brevets et systèmes examinés — notes sur l’exécution

Brevet / Système	Organisation	Ce qu'il fait	Lacune d'exécution
US20250156632A1 - Réduction proactive des hallucinations dans les réponses des modèles d'IA générative	Microsoft	Compare les sorties du modèle à des paires question-réponse vérifiées; substitue une réponse par défaut si la similarité est faible. Le modèle cible est toujours invoqué en premier - la couche de vérification opère sur une réponse déjà générée.	Inférence en premier
US20240386253A1 - Méthode pour détecter et corriger les hallucinations dans les grands modèles de langage génératifs	Cisco	Détecte les schémas d'hallucination dans les sorties du modèle et réinterroge le modèle avec des faits corrigés. Le diagramme de flux ne présente aucune branche où le modèle n'est pas appelé - la détection et la correction se produisent toutes deux après la génération.	Inférence en premier
US20240370709A1 - Architecture anti-hallucination et d'attribution pour l'IA générative en entreprise	C3.ai	Ajoute une couche d'attribution et de validation aux systèmes d'IA générative déployés. Le brevet se décrit explicitement comme un module complémentaire qui « peut être ajouté aux systèmes d'intelligence artificielle générative déployés » - le point de terminaison d'inférence est une base supposée.	Inférence en premier
US12417359B2 - Cadre de prévention des hallucinations et des tentatives de contournement de l'IA	-	Enchaîne trois LLM : le premier transforme le message, le second génère une réponse, le troisième assainit la sortie. L'inférence générative se produit toujours dans le second LLM. Même le chemin de sortie « sécurisé » nécessite l'invocation du modèle.	Inférence en premier
US11875130B1 - Génération de confiance pour la gestion d'un modèle d'IA générative	Intuit	Calcule une métrique de confiance à partir de la question, de la réponse et du contenu, puis utilise cette métrique pour entraîner ou affiner le modèle. La réponse doit exister avant que la confiance puisse être calculée - l'inférence précède le contrôle dans chaque chemin.	Inférence en premier
US20240386207A1 - Systèmes et méthodes pour détecter les erreurs et les hallucinations dans les données de sortie des modèles génératifs	Noblis	Les revendications sont explicitement formulées comme « recevant des données de sortie d'un modèle génératif » et les comparant à des données de référence. Le contrôle est strictement post-génération. Le système ne dispose d'aucun chemin d'exécution empêchant l'invocation du modèle.	Inférence en premier
AWS Bedrock Guardrails	Amazon	Bloque les messages avant la génération de jetons; aucune facturation pour le modèle de fondation si l'entrée est bloquée. Cependant, le service d'inférence demeure déployé et accessible en tant qu'infrastructure permanente. Les requêtes bloquées renvoient des messages prédéfinis - et non des états terminaux non génératifs. Le point de terminaison du modèle existe quel que soit le résultat de l'autorisation.	Moteur persistant
IA constitutionnelle / Piles de refus	Anthropic / OpenAI / DeepMind	Entraîne les modèles à refuser certaines requêtes par alignement comportemental. Un refus est une sortie générée par le modèle - l'inférence a fonctionné pour produire le texte indiquant qu'elle ne répondra pas. Ces systèmes ne préviennent pas l'inférence; ils façonnent ce que l'inférence produit.	Le refus est génératif
Systèmes IAM / RBAC (Azure, AWS, Google Cloud)	Microsoft / Amazon / Google	Autorisent ou refusent l'accès aux points de terminaison d'inférence existants selon l'identité et le rôle. L'autorisation régit qui peut appeler un service déployé - elle ne régit pas si un moteur d'inférence générative peut exister pour une requête donnée. Le point de terminaison du modèle est préconfiguré indépendamment des décisions d'autorisation par requête.	Accès, non existence

Article de recherche

Autoriser les preuves avant l'inférence :
Positionner COMPAiSS dans le paysage émergent des architectures d'IA axées sur la gouvernance

Cet article examine où se situe COMPAiSS dans la littérature émergente sur les architectures d'IA axées sur la gouvernance. Il compare COMPAiSS à Constitutional AI, Llama Guard, NVIDIA NeMo Guardrails, CaMeL et à d'autres approches connexes, en proposant un cadre permettant de comparer les architectures de gouvernance selon le moment où le contrôle est appliqué et ce qui est autorisé.

Plutôt que de prétendre remplacer les approches existantes, l'article présente COMPAiSS comme une mise en œuvre d'un paradigme d'architecture « autorisation d'abord », caractérisé par des preuves autorisées par l'institution, un contrôle déterministe de l'exécution, un comportement fail-closed et des réponses préservant la traçabilité des preuves.

Lire l'article complet (PDF) →

Quatre systèmes d'IA, une seule conclusion

Des vérifications croisées indépendantes par sollicitation contradictoire - chaque système chargé de trouver des preuves contredisant la revendication architecturale.

À titre de vérification croisée indépendante, la même question structurée a été soumise à quatre grands systèmes d'IA - Perplexity (avec recherche de brevets fondée sur des outils), Claude, Gemini et Copilot. Chacun a été sollicité de manière indépendante, avec un accès différent aux sources et sans contexte partagé, pour agir en tant qu'examinateur sceptique spécifiquement chargé de trouver l'état de la technique qui remettrait en question la revendication architecturale.

Les quatre ont convergé vers la même conclusion.

Perplexity (4 étapes)

A conduit quatre investigations progressives sur l'état de la technique avec accès direct aux bases de données de brevets. A examiné les revendications indépendantes et les diagrammes d'exécution de l'USPTO, de l'OMPI et de l'OEB. Chaque étape s'est intensifiée en rigueur - du balayage général au test de résistance de type examinateur.

« Aucun brevet ni article académique identifié ne divulgue une architecture dans laquelle un moteur d'inférence générative n'existe pas à moins que l'autorisation préalable à l'exécution ne réussisse. »

Claude

A caractérisé de manière indépendante les systèmes existants comme suivant un cycle de vie à inférence-en-premier. A explicitement distingué le contrôle d'accès à un service d'inférence déployé du conditionnement de l'existence d'un moteur d'inférence. A examiné séparément AWS, Azure, Google et les systèmes académiques.

« Aucun état de la technique ne divulgue le conditionnement de la construction du moteur d'inférence sur la portée dérivée de l'autorisation. Aucun travail académique identifié ne conditionne l'existence de l'inférence sur l'autorisation. »

Gemini

A identifié une distinction structurelle entre les systèmes qui « pensent d'abord et corrigent ensuite » et les architectures qui déterminent quelle pensée est permise avant que l'inférence n'existe. A caractérisé cela comme une différence dans le cycle de vie de l'exécution et le placement du contrôle - non dans la politique ou la formation.

« En dehors du cadre COMPAiSS, aucune architecture matériellement équivalente n'a été identifiée dans les systèmes d'IA générative standard. »

Copilot

A analysé les architectures documentées publiquement d'Azure OpenAI, Google Vertex AI, AWS Bedrock, l'IA constitutionnelle, les pipelines RAG et les systèmes IAM. Chacun examiné séparément pour l'équivalence du cycle de vie de l'exécution par rapport à la revendication architecturale spécifique.

« Aucun système matériellement équivalent n'a été identifié qui conditionne l'existence d'un moteur d'inférence générative sur une autorisation préalable à l'exécution. »

La convergence entre quatre systèmes indépendants - chacun sollicité de manière contradictoire, chacun ayant accès à des sources différentes, chacun raisonnant sans accès aux résultats des autres - est significative. Ce n'est pas que chaque système n'ait pas trouvé l'état de la technique. C'est que chaque système, examinant le domaine sous un angle différent, a identifié la même hypothèse structurelle : les architectures à inférence-en-premier avec contrôle post-génération sont universelles dans l'art existant. L'alternative - l'autorisation comme condition préalable à l'existence de l'inférence - n'est pas présente. Les résultats sont fondés sur des systèmes documentés publiquement et la littérature disponible - non pas une affirmation qu'aucun système non découvert n'existe, mais une constatation cohérente que le schéma architectural dominant, dans chaque catégorie examinée, traite l'inférence comme une capacité permanente à gouverner plutôt que comme un état conditionnel à mériter.

Voilà ce que le dossier de recherche révèle : non pas que personne n'a réfléchi à la sécurité de l'IA, à la prévention des hallucinations ou à la gouvernance institutionnelle. Les gens ont réfléchi de manière approfondie à toutes ces questions. La recherche montre qu'en abordant tous ces problèmes, le domaine n'a pas systématiquement traité l'existence même de l'inférence comme un point de contrôle. L'hypothèse selon laquelle elle devrait toujours se produire n'a tout simplement jamais été examinée.

Ce qui change quand on déplace le point de contrôle

La conséquence architecturale de poser d'abord une question différente.

La question conventionnelle dans la conception des systèmes d'IA est : comment améliorer les réponses que l'IA produit? Plus de récupération, un meilleur filtrage, des garde-fous plus solides, plus de modération. Chacune de ces réponses suppose que le modèle fonctionnera et demande comment façonner ce qui en sort.

COMPAiSS pose d'abord une question différente : dans quelles conditions ce système devrait-il être autorisé à produire une réponse? Cette question reçoit une réponse avant que l'inférence ne commence. Si la réponse est qu'il n'existe aucune base institutionnelle faisant autorité pour une réponse, le modèle ne fonctionne pas. Il n'y a pas de réponse à filtrer, pas d'hallucination à détecter, pas de refus à générer. Il n'y a pas de réponse à évaluer, parce qu'aucune réponse n'a jamais été produite. Le système entre dans un état non génératif et fournit directement à l'utilisateur la source faisant autorité.

Pour illustrer concrètement ce fonctionnement, considérons ce qui se produit lorsqu’un utilisateur pose à la version de l’Université McGill une question en dehors de son périmètre institutionnel :

Exemple en direct — déploiement COMPAiSS de McGill

Question soumise :
Pourquoi le ciel est-il bleu ?

Réponse de COMPAiSS :
Cette question ne relève pas du champ d’application des programmes, politiques, services et ressources institutionnelles officielles de l’Université McGill.

Cet assistant est conçu spécifiquement pour fournir des renseignements exacts et vérifiés sur McGill, notamment en ce qui concerne les programmes d’études, l’admission, les services aux étudiants, l’emploi et les politiques universitaires.

Si vous avez une question liée à McGill, je serai heureux de vous aider.

Aucune inférence n’a été exécutée. Aucun modèle génératif n’a été sollicité. La réponse ci-dessus a été produite par une redirection déterministe, et non par un modèle de langage. Le système a détecté l’absence d’autorité institutionnelle avant toute étape de calcul en intelligence artificielle et a retourné une réponse structurée non générative. La requête a été traitée sans aucun coût d’inférence.

Cela change plusieurs choses à la fois. Cela empêche la génération de réponses au-delà des sources institutionnelles autorisées — non pas en interceptant les réponses fabriquées après leur production, mais en prévenant les conditions dans lesquelles ces réponses seraient générées. Cela supprime entièrement le coût d'inférence pour les requêtes non autorisées. Cela rend la gouvernance vérifiable au niveau architectural, et non au niveau des sorties : chaque interaction suit un chemin déterministe et documenté à travers la décision d'autorisation avant tout calcul génératif.

Cela change également ce à quoi ressemble un « échec ». Lorsqu'un système d'IA standard rencontre une question à laquelle il ne peut pas répondre de manière fiable, il produit généralement quand même une réponse - une qui peut sembler faire autorité, mélanger des informations exactes avec des inférences, et être utilisée avant que ses limites ne soient reconnues. Lorsque COMPAiSS ne peut pas autoriser une réponse, il ne produit rien de génératif. Le système est honnête sur ses limites de la seule façon dont un système peut être véritablement honnête : en ne fonctionnant pas au-delà d'elles.

La distinction ne porte pas sur la qualité des réponses de l'IA. Elle porte sur la question de savoir si l'IA devrait répondre à une question donnée - et si cette décision est prise de manière architecturale, avant que l'inférence ne commence, plutôt que de manière probabiliste, après qu'une réponse a déjà été produite.

Dans les environnements réglementés, cette distinction représente la différence entre un système qui peut être gouverné et un système qui peut seulement être géré.

Les implications pour les environnements réglementés

Pourquoi cela importe particulièrement là où l'exactitude, l'autorité et la responsabilité sont non négociables.

L'hypothèse d'inférence-en-premier est acceptable - même appropriée - dans les environnements où l'objectif principal est l'étendue, l'utilité et la capacité générale. L'IA grand public, les outils créatifs, les assistants de productivité et les aides à la recherche bénéficient tous de systèmes qui essaient toujours d'aider et gèrent le risque d'imprécision par l'itération, la correction et la supervision humaine.

Les environnements institutionnels réglementés sont différents. Les universités, les ministères des services gouvernementaux, les hôpitaux, les organismes de réglementation professionnelle et autres institutions similaires fournissent des informations qui concernent les droits, les obligations, l'admissibilité et l'accès aux services. Dans ces environnements, une réponse incorrecte n'est pas seulement inutile. Elle peut mal représenter la politique officielle, produire de la désinformation susceptible d'être mise en oeuvre, et avoir des conséquences juridiques, cliniques ou procédurales qui ne peuvent pas être annulées après les faits.

Ces institutions font également face à une obligation de gouvernance spécifique que les contextes d'IA grand public n'ont pas : elles doivent être en mesure de démontrer comment les réponses non autorisées ou hors portée sont prévenues - et non simplement gérées après leur survenue. Les cadres d'approvisionnement, les panels d'examen éthique et les organes de surveillance gouvernementaux exigent de plus en plus que les systèmes d'IA institutionnels démontrent que leur architecture de gouvernance est déterministe et vérifiable, non probabiliste et surveillée.

L'architecture à inférence-en-premier, aussi bien gérée soit-elle, ne peut pas entièrement satisfaire cette exigence. Elle peut montrer que les sorties sont examinées et filtrées. Elle ne peut pas montrer que l'inférence non autorisée ne s'est jamais produite, parce que l'inférence non autorisée est structurellement possible dans tout système où l'inférence est toujours disponible. Les contrôles opèrent après les faits.

COMPAiSS satisfait cette exigence de manière structurelle. Parce que l'autorisation précède l'inférence, chaque interaction suit un chemin documenté et reproductible à travers la décision d'autorisation. L'institution contrôle quelles sources font autorité. L'institution définit la limite de portée. Le système applique les deux avant tout calcul génératif. Ce n'est pas une revendication de surveillance ni une revendication de performance. C'est une revendication architecturale - et c'est une revendication que l'art existant ne fait pas.

Le domaine a passé une décennie à rendre l'IA meilleure pour répondre aux questions. Dans beaucoup des environnements où cela compte le plus, l'exigence critique est différente : un système qui est honnête sur le moment où il ne devrait pas répondre du tout - et qui applique cette honnêteté de manière architecturale, non probabiliste.

C'est le problème que la voie actuelle ne peut pas entièrement résoudre. Et c'est pourquoi une approche architecturale différente n'est pas simplement une amélioration incrémentale, mais un départ structurel de l'hypothèse qui a défini le domaine.

Investigation connexe

Lorsque Copilot a analysé les hypothèses qui sous-tendent les architectures IA modernes, il a convergé vers la même distinction fondamentale décrite sur cette page. Cette progression est documentée dans une investigation analytique structurée.

Lire l’investigation architecturale structurée →

L'implication qui en decoule

A mesure que les modeles de pointe elargissent leurs corpus d'entrainement, ils deviennent plus capables de generer des reponses au ton autoritaire et convaincant a partir d'un bassin croissant d'informations qu'aucune institution n'a examinees ni autorisees. La recherche en anteriorite examinee par COMPAiSS n'a trouve aucune preuve que l'amelioration des modeles de pointe elimine cette dynamique. Le defi de gouvernance s'accroit avec la capacite, et non inversement.

C'est pourquoi la gouvernance doit etre externe au modele plutot que dependante de lui. La decision architecturale prise au debut de cette histoire, de traiter l'inference comme toujours active, amplifie le risque a mesure que l'IA progresse plutot que de le resoudre. Pour les institutions reglementees, attendre de meilleurs modeles n'est pas une strategie d'attenuation. C'est un report d'un probleme qui s'aggrave.

Pourquoi l'IA a évolué ainsi -et pourquoi cette voie ne peut pas résoudre le problème