Sélection de la langue

Recherche

Vue d’ensemble de l’enquête conjointe sur OpenAI OpCo, LLC

Menée par le Commissariat à la protection de la vie privée du Canada, la Commission d’accès à l’information du Québec, le Commissariat à l’information et à la protection de la vie privée de la Colombie-Britannique, et le Commissariat à l’information et à la protection de la vie privée de l’Alberta

Conclusions en vertu de la LPRPDE no 2026-002

Le 6 mai 2026

Vue d’ensemble

Le Commissariat à la protection de la vie privée du Canada (CPVP), la Commission d’accès à l’information du Québec (CAI), le Commissariat à l’information et à la protection de la vie privée de la Colombie-Britannique (CIPVP de la Colombie-Britannique) et le Commissariat à l’information et à la protection de la vie privée de l’Alberta (CIPVP de l’Alberta), désignés collectivement sous le nom de « Commissariats » ou par le pronom « nous », ont entrepris une enquête conjointe sur OpenAI OpCo, LLC (OpenAI ou la partie intimée), une société de recherche et de développement dans le domaine de l’intelligence artificielle (IA). L’enquête visait à déterminer si la collecte, l’utilisation et la communication par OpenAI des renseignements personnels d’individus au Canada par l’intermédiaire de ChatGPT ou relativement à celui-ci, étaient conformes à la loi fédérale et aux lois provinciales sur la protection des renseignements personnels dans le secteur privé (les Lois)Note de bas de page 1.

Lancé en novembre 2022, ChatGPT est offert au Canada et ailleurs dans le monde. Il s’agit d’un service axé sur la conversation qui peut répondre aux invites des utilisateursNote de bas de page 2 et générer divers types de contenu, par exemple des articles ou du code informatique. Chaque version de ChatGPT est alimentée par un grand modèle de langage (GML ou modèle). Les GML sont des systèmes d’apprentissage machine très vastes et complexes qui sont capables de générer du contenu détaillé et plausible – mais pas nécessairement exact – en réponse aux requêtes portant sur pratiquement n’importe quel sujet.

L’enquête portait sur les modèles GPT-3.5 et GPT-4 d’OpenAI, qui alimentaient ChatGPT au moment du lancement de notre enquête. Les Commissariats n’ont pas évalué les modèles ultérieurs (ils ont toutefois considéré le caractère adéquat des nouvelles mesures mises en œuvre par OpenAI en réponse à notre rapport d’enquête préliminaire) ni les autres services d’IA offerts par OpenAI (comme la génération d’images ou de vidéos). Toutefois, les conclusions du présent rapport restent applicables à ces produits.

À moins d’indication contraire, les références aux termes « modèles » ou « modèles d’OpenAI » dans le présent document renvoient aux modèles GPT-3.5 et GPT-4.

Portée de l’enquête

L’enquête a porté sur la collecte (ainsi que sur l’utilisation et la communication subséquentes) de renseignements personnels par OpenAI aux fins de développement et de déploiement des modèles. OpenAI a recueilli ces renseignements à partir de diverses sources, notamment des sources Internet accessibles au public (d’où proviennent la majeure partie des ensembles de données d’entraînement d’OpenAI), des sources tierces autorisées (comme des médias et un important fournisseur d’images d’archives) et des interactions des utilisateurs avec ChatGPT.

Plus précisément, l’enquête visait à établir si la société :

  1. a recueilli, utilisé ou communiqué des renseignements personnels à des fins qu’une personne raisonnable estimerait acceptables dans les circonstances et si la collecte vise uniquement des renseignements nécessaires à ces finsNote de bas de page 3;
  2. a obtenu un consentement valide pour la collecte, l’utilisation et la communication des renseignements personnels par l’intermédiaire de ChatGPT ou relativement à celui-ci pour les individus se trouvant au Canada;
  3. a rempli son obligation de faire preuve de transparence;
  4. a pris des mesures raisonnables pour veiller à ce que les renseignements que ChatGPT produit sur les individus soient aussi exacts, complets et à jour que nécessaire selon les fins auxquelles ils doivent être utilisés;
  5. a donné aux individus la possibilité d’accéder à leurs renseignements personnels et de les corriger;
  6. s’est acquittée de son obligation d’établir des procédures appropriées pour la conservation et le retrait des renseignements personnels qu’elle recueille, utilise et communique;
  7. a assumé la responsabilité des renseignements personnels dont elle a la gestion.

Pour mener l’enquête, les Commissariats ont pris en compte l’information provenant de diverses sources. Ils se sont notamment appuyés sur des observations écrites exhaustives fournies par la partie intimée – par l’entremise de son conseiller juridique – ainsi que sur des entrevues avec des employés d’OpenAI. Les preuves comprenaient des descriptions des mesures et des outils de protection de la vie privée mis en œuvre par OpenAI aux différents stades de développement et de déploiement de ses modèles ainsi que les résultats de ses évaluations internes visant ces mesures et outils.

Contexte technique – Entraînement des modèles

Pour entraîner les modèles, OpenAI a utilisé un processus en deux étapes :

  1. Au cours de la phase initiale, appelée le « préentraînement », les modèles acquièrent une compréhension généraleNote de bas de page 4 du langage en analysant de vastes quantités de données textuelles segmentées en unités (c’est-à-dire des mots ou des parties de mots convertis en chaînes numériques) et en apprenant à prédire le jeton suivant dans une phrase. Les ensembles de données servant au préentraînement sont composés de renseignements recueillis auprès de sources Internet accessibles au public et de tiers autorisés. Lorsqu’elle a développé et déployé les modèles GPT-3.5 et GPT-4, OpenAI a déclaré qu’elle avait retiré certaines données – des catégories précises de sites Web (Web clandestin, sites pornographiques), du contenu en double et du contenu enfreignant ses politiques – des données publiques brutes afin de réduire le traitement des renseignements personnels.
  2. La phase d’« affinage » vise à améliorer davantage la performance du modèle en ce qui a trait à des tâches et à des domaines précis (par exemple, la traduction, la synthèse de l’information, la conversation), et à parfaire la façon dont le modèle se comporte et les corrélations statistiques qu’il établit entre les jetons. L’affinage comprend l’utilisation d’un sous-ensemble de données recueillies au moyen des interactions que les individus ont avec ChatGPT ainsi que l’information fournie par les individus chargés de l’entraînement. OpenAI a affirmé qu’au moment de développer et de déployer les modèles GPT-3.5 et GPT-4, un certain nombre de mesures étaient en place à l’étape de l’affinage pour atténuer les risques pour la vie privée, notamment la suppression du lien qui existe entre les interactions et les comptes des utilisateurs avant d’utiliser les données pour entraîner les modèles et l’utilisation de l’outil de filtrage d’un tiers pour supprimer certaines catégories de renseignements permettant d’identifier une personne à partir de ces interactions. OpenAI a aussi indiqué que les modèles étaient entraînés pour refuser de fournir des renseignements personnels ou sensibles sur des individus, même si les renseignements étaient accessibles au public sur Internet ouvert et étaient fournis par l’intermédiaire de moteurs de recherche.

Analyse

Vous trouverez ci-dessous un résumé de nos conclusions pour chaque enjeu. Celles-ci sont présentées plus en détail dans le rapport.

Dans leur analyse, les Commissariats ont tenu compte à la fois du besoin des organisations de recueillir, d’utiliser et de communiquer des renseignements personnels et du droit à la vie privée des individus. De plus, le CPVP, le CIPVP de l’Alberta et le CIPVP de la Colombie-Britannique ont évalué les fins appropriées à la lumière des valeurs de liberté d’expression et de protection de la vie privée qui sont protégées par la Charte.

Fins appropriées

Les Commissariats conviennent qu’OpenAI a développé et déployé ChatGPT à des fins appropriées (des fins légitimes, réelles et importantes au titre de la Loi sur la protection des renseignements personnels dans le secteur privé [LPRPSP] du Québec). Toutefois, pour établir si OpenAI respectait les dispositions des Lois pour ce qui est des fins appropriées, les Commissariats ont également tenu compte du contexte de la collecte, de l’utilisation et de la communication par OpenAI des renseignements personnels recueillis auprès de différentes sources.

Renseignements recueillis à partir de sources accessibles au public et d’ensembles de données sous licence appartenant à des tiers

Notre enquête nous a permis d’établir que la façon dont OpenAI a initialement recueilli des renseignements personnels à partir de sites Web accessibles au public et de sources tierces autorisées afin d’entraîner les modèles constituait une collecte trop vaste et donc inappropriée. Nous sommes arrivés à cette conclusion après avoir tenu compte de la quantité de renseignements personnels recueillis et utilisés à partir de ces sources, ainsi que de la nature et du degré de sensibilité variable de ces renseignements. Par exemple, les données d’entraînement provenaient de médias sociaux et de forums de discussion, qui peuvent contenir de grandes quantités de renseignements personnels (y compris ceux concernant des enfants). Certains d’entre eux sont de nature sensible (par exemple, les opinions politiques ou l’état de santé) et pourraient être inexacts (par exemple, les opinions personnelles ou les fausses déclarations au sujet d’autres individus). Nous avons jugé que les mesures d’atténuation qu’OpenAI avait en place au moment de l’entraînement des modèles GPT-3.5 et GPT-4 n’étaient pas suffisantes pour limiter la portée de la collecte, de l’utilisation et de la communication des renseignements personnels à ce qui était nécessaire et proportionnel aux fins de cet entraînement. Pour ces raisons, nous avons établi qu’au moment de l’entraînement des modèles en question, les avantages de cette pratique ne l’emportaient pas sur le risque de préjudices pour la vie privée. Par conséquent, nous sommes d’avis que, dans ce contexte, la collecte, l’utilisation et la communication de renseignements personnels par OpenAI étaient inappropriées.

Renseignements recueillis par l’intermédiaire des interactions des utilisateurs

Les Commissariats sont d’avis que la collecte, l’utilisation et la communication des renseignements personnels tirés des interactions des utilisateurs avec ChatGPT ont été utiles pour répondre au besoin légitime (et « nécessaire » au sens de la LPRPSP du Québec) d’OpenAI de développer et de déployer ChatGPT, en particulier pour améliorer les résultats produits par les modèles en réponse aux invites des utilisateurs. Nous sommes également d’avis que les avantages de cette pratique étaient proportionnels au risque résiduel de préjudices pour la vie privée, compte tenu des mesures d’atténuation mises en œuvre par OpenAI au moment de l’entraînement des modèles (y compris l’utilisation de l’outil de filtrage d’un tiers pour retirer les renseignements personnels du sous-ensemble des interactions des utilisateurs utilisées pour entraîner les modèles), de sorte que nous estimons que cet aspect des pratiques d’entraînement de la société n’était pas inapproprié.

Consentement et avis

Les Commissariats ont constaté qu’OpenAI n’a pas obtenu un consentement valide pour la collecte, l’utilisation et la communication des renseignements personnels aux fins de développement et de déploiement des modèles. Les Commissariats ont évalué si OpenAI respectait les dispositions en matière de consentement dans sa collecte et son utilisation de renseignements personnels provenant i) de sites et de pages Web accessibles au public ou de sources tierces autorisées et ii) d’interactions avec les utilisateurs. Ils ont également évalué si la communication des renseignements personnels recueillis à partir de ces sources par OpenAI, par l’intermédiaire des résultats de ChatGPT, était conforme aux exigences en matière de consentement et d’avis.

Collecte de renseignements personnels à partir de sources accessibles au public et utilisation de ces renseignements

La vaste majorité des renseignements (soit plus de 99 %) utilisés par OpenAI pour préentraîner ses modèles ont été obtenus par l’exploration (la collecte automatisée, ou le « moissonnage », de données) de sources accessibles au public, le reste provenant d’ensembles de données sous licence appartenant à des tiers.

La LPRPDE, la PIPA de la C.-B. et la PIPA de l’Alberta comportent des exceptions à l’exigence de consentement lorsque le public a accès aux renseignements personnels en cause, comme il est prévu à l’alinéa 7(1)d) de la LPRPDE, aux alinéas 12(1)e), 15(1)e) et 18(1)e) de la PIPA de la C.-B. et aux alinéas 14e), 17e) et 20j) de la PIPA de l’AlbertaNote de bas de page 5. La définition de « renseignements auxquels le public a accès » est fournie dans le règlement de chaque loiNote de bas de page 6 et est distincte de la compréhension commune des « renseignements accessibles au public ». Bien que l’intimée n’en ait pas fait expressément mention, nous notons qu’OpenAI ne pourrait pas se fier à l’exception de consentement pour les renseignements auxquels le public a accès compte tenu de la diversité des sources à partir desquelles OpenAI recueille des renseignements personnels.

Quoi qu’il en soit, OpenAI a adopté la position selon laquelle elle pouvait compter sur le consentement implicite pour recueillir et utiliser les renseignements provenant de ces sources aux fins d’entraînement de ses modèles.

Le CPVP, le CIPVP de l’Alberta et le CIPVP de la Colombie-Britannique ont conclu qu’OpenAI n’a pas obtenu un consentement valide (implicite ou autre) en ce qui concerne la collecte et l’utilisation de renseignements personnels provenant de sources accessibles au public pour entraîner ses modèles. Plus précisément, les trois commissariats attirent l’attention sur le fait que, lorsque les renseignements recueillis et utilisés sont susceptibles d’être sensibles ou lorsque la pratique est susceptible de dépasser les attentes raisonnables de l’individu, l’obtention d’un consentement exprès est généralement nécessaire. Les sources en question comprenaient un large éventail de renseignements personnels dont le degré de sensibilité variait. Nous n‘admettons pas que les mesures d’atténuation mises en œuvre par OpenAI au moment de l’entraînement des modèles (notamment durant la phase de préentraînement) aient suffisamment réduit la présence de renseignements personnels sensibles dans ces ensembles de données d’entraînement pour permettre l’obtention d’un consentement implicite. De plus, nous avons constaté que les individus (c’est-à-dire ceux dont les renseignements ont été moissonnés par OpenAI) ne pouvaient raisonnablement pas s’attendre à ce que les renseignements à leur sujet affichés publiquement sur Internet puissent être recueillis et utilisés par OpenAI pour entraîner ses modèles, une pratique tout à fait nouvelle et peu comprise à l’époque.

La CAI a conclu qu’OpenAI n’avait pas suffisamment documenté i) le contexte dans lequel l’obligation d’informer prévue par la LPRPSP avait été remplie relativement aux individus concernés par les renseignements personnels qu’elle avait recueillis ou ii) le cas échéant, le contexte dans lequel le consentement de ces individus avait été obtenu.

Collecte et utilisation de renseignements tirés des interactions des utilisateurs

OpenAI a affirmé qu’elle pouvait également se fier à un consentement implicite pour recueillir et utiliser certains renseignements personnels inclus dans les interactions des utilisateurs avec ChatGPT aux fins d’entraînement de ses modèles.

Le CPVP, le CIPVP de l’Alberta et le CIPVP de la Colombie-Britannique ont conclu qu’OpenAI aurait dû obtenir un consentement exprès relativement à cette pratique. Les trois commissariats ont établi que les mesures d’atténuation mises en place par OpenAI au moment du développement et du déploiement des modèles n’étaient pas suffisantes pour garantir que des renseignements personnels sensibles ne seraient pas inclus dans les interactions des utilisateurs servant à entraîner les modèles. Nous avons également conclu qu’au moment du lancement des modèles, l’utilisation par OpenAI des interactions des utilisateurs pour entraîner ses modèles ne faisait pas partie des attentes raisonnables des utilisateurs. En effet, de nombreux utilisateurs n’étaient probablement pas au courant ou n’avaient pas une bonne compréhension de base de l’incidence de l’utilisation de leurs renseignements personnels dans le cadre de la nouvelle pratique d’entraînement des modèles, notamment de l’examen potentiel de leurs conversations par les individus chargés de l’entraînement.

La CAI a conclu que l’information fournie à certains utilisateurs des modèles, plus précisément ceux qui avaient un compte ou qui avaient téléchargé l’application mobile, était conforme aux exigences particulières en matière d’information prévues par la LPRPSP du Québec. Toutefois, la CAI a jugé que l’information fournie aux utilisateurs de la version Web gratuite des modèles était insuffisante pour les informer adéquatement que les renseignements tirés de leurs conversations avec le modèle étaient recueillis à des fins d’entraînement. De plus, la CAI a établi que, conformément à la LPRPSP du Québec, les paramètres de confidentialité des modèles auraient dû, par défaut, être réglés de façon à ce que les conversations des utilisateurs ne servent pas à entraîner les modèles (c’est-à-dire que l’option la plus respectueuse de la vie privée aurait dû être sélectionnée).

Communication par l’intermédiaire des réponses fournies par ChatGPT

OpenAI a reconnu que, dans certaines circonstances, les modèles communiquaient des renseignements personnels en réponse aux invites des utilisateurs. Nous avons constaté qu’au moment de l’entraînement des modèles, il est possible que les ensembles de données d’entraînement d’OpenAI aient pu comprendre des quantités importantes de renseignements personnels ayant divers degrés de sensibilité. Même si OpenAI a affirmé qu’elle avait mis en œuvre diverses mesures pour réduire le risque que les modèles communiquent des renseignements sensibles ou confidentiels, notre enquête a révélé que les catégories de renseignements « sensibles ou confidentiels » qu’OpenAI a cherché à retirer des résultats du modèle étaient plus limitées que le large éventail de renseignements personnels couverts par les Lois (qui comprennent, par exemple, les opinions ou les rumeurs sur des individus).

Par conséquent, le CPVP, le CIPVP de l’Alberta et le CIPVP de la Colombie-Britannique estiment qu’OpenAI aurait dû obtenir le consentement exprès des individus si les renseignements étaient de nature sensible ou si les individus ne pouvaient pas raisonnablement s’attendre à ce que leurs renseignements soient communiqués.

La CAI a conclu que les règles régissant le consentement à la collecte et à l’utilisation de renseignements personnels prévues par la LPRPSP du Québec s’appliquaient aussi à la communication de tels renseignements par OpenAI, de sorte qu’elle en est venue aux mêmes conclusions que pour la collecte et l’utilisation.

Transparence (des modèles)

Le CPVP, le CIPVP de la Colombie-Britannique et le CIPVP de l’Alberta sont d’avis qu’OpenAI n’a pas respecté l’obligation de faire preuve de transparence prévue par leurs Lois respectivesNote de bas de page 7.

Bien que les trois commissariats reconnaissent que les communications sur la confidentialité élaborées par OpenAI étaient, de façon générale, facilement accessibles et rédigées en langage clair, notre enquête a révélé que certains renseignements clés étaient soit incomplets, soit flous. En particulier, nous avons établi qu’OpenAI n’était pas suffisamment transparente en ce qui concerne les catégories et les sources des renseignements personnels qui étaient inclus dans ses ensembles de données d’entraînement, de sorte que les individus ne pouvaient pas nécessairement comprendre, en lisant ces communications, que les renseignements à leur sujet publiés sur un blogue, un forum de discussion ou un média social pourraient être recueillis et utilisés aux fins d’entraînement des modèles d’OpenAI.

Exactitude

Le CPVP, le CIPVP de l’Alberta et le CIPVP de la Colombie-Britannique sont d’avis qu’OpenAI n’a pas respecté les exigences en matière d’exactitude énoncées dans les LoisNote de bas de page 8 Note de bas de page 9.

Les GML sont conçus pour générer du texte plausible dans un style conversationnel en prédisant le prochain mot le plus probable dans une phrase, en se fondant sur des probabilités, un contexte et des paramètres définis. Toutefois, ce mot n’est pas forcément le plus exact sur le plan factuel, et les modèles peuvent parfois générer des déclarations inexactes ou entièrement fabriquées. Bien qu’OpenAI ait déclaré qu’elle avait effectué des évaluations internes de l’exactitude des réponses de ses modèles sur certains sujets tels que les mathématiques ou l’histoire, notre enquête a révélé que la société n’avait pas mené une évaluation visant à valider l’exactitude générale des renseignements personnels fournis par les modèles en réponse à une question concernant un individu ou en rapport avec celui-ci.

Les utilisateurs doivent comprendre le degré d’exactitude des renseignements personnels qui sont inclus dans les résultats produits par ChatGPT afin d’établir si les renseignements fournis sont suffisamment exacts pour les fins prévues.

Bien qu’OpenAI ait déployé certains efforts pour avertir ses utilisateurs de ne pas se fier à l’exactitude factuelle des résultats de ses modèles, les essais que nous avons réalisés sur les modèles ont révélé que la société : i) n’avertissait pas suffisamment les utilisateurs de ChatGPT que les renseignements figurant dans les réponses pouvaient être erronés (c’est-à-dire que les avis relatifs à l’inexactitude possible des réponses n’étaient pas bien visibles et, plus précisément, il n’y avait aucune mention relative à l’exactitude des renseignements personnels figurant dans les réponses); ii) n’incitait pas toujours les utilisateurs à vérifier que les renseignements générés étaient exacts (c’est-à-dire que l’avertissement à ce sujet n’était pas toujours fourni ou, s’il l’était, il n’était pas clair); iii) ne fournissait pas toujours aux utilisateurs un mécanisme viable pour vérifier les faits de manière efficace et fiable (c’est-à-dire que les sources des réponses n’étaient pas incluses dans les résultats du modèle GPT-3.5 et elles n’étaient pas fournies de façon uniforme dans GPT-4 lorsque la fonctionnalité de recherche dans le navigateur était utilisée).

Accès, correction et suppression

Les Commissariats jugent qu’OpenAI n’a pas fourni aux individus les moyens adéquats pour qu’ils puissent accéder à leurs renseignements personnels, les corriger et les supprimer.

Accès aux renseignements personnels liés à un compte ChatGPT ou inclus dans les ensembles de données d’entraînement

Même si nous convenons qu’un outil en libre-service bien conçu peut être efficace pour permettre à un individu d’accéder à ses renseignements personnels, nous ne croyons pas qu’il soit généralement suffisant pour respecter toutes les obligations prévues par les Lois. Dans le cas qui nous occupe, nous avons constaté que les extractions de données fournies par l’outil « Exporter les données » d’OpenAI aux individus cherchant à accéder aux renseignements personnels relatifs à leur compte ChatGPT n’étaient pas suffisamment faciles à lire ou à comprendre. De plus, l’outil « Exporter les données » ne fournit pas, dans chacun des cas, tous les renseignements personnels qu’OpenAI détient ou communique au sujet d’un utilisateur. Enfin, même s’il était possible pour une personne de demander l’accès aux renseignements qui n’étaient pas fournis par l’outil « Exporter les données », OpenAI n’a pas rendu ce mécanisme facilement accessible aux demandeurs.

En ce qui concerne les renseignements personnels contenus dans les ensembles de données d’entraînement, notre enquête a révélé qu’OpenAI ne donne accès aux renseignements personnels que lorsqu’elle peut vérifier qu’ils sont directement et uniquement liés au demandeur. La société a expliqué que faire ce lien peut être un processus extrêmement complexe et difficile en raison de la nature non structurée de ses ensembles de données. Si le lien entre le demandeur et les renseignements personnels demandés ne peut être établi, par exemple lorsque le demandeur porte un nom courant ou qu’il n’existe aucun autre moyen de vérifier que les renseignements le concernent (par exemple, au moyen d’une adresse de courriel ou d’un numéro de téléphone), OpenAI indiquera seulement au demandeur si son nom figure dans ses ensembles de données d’entraînement. Bien que nous reconnaissions que la conception des modèles d’OpenAI et la nature des données qu’elle recueille pour entraîner ces modèles posent des défis techniques, nous avons constaté que, dans le contexte où OpenAI recueillait, utilisait et communiquait de vastes quantités de renseignements personnels, y compris des renseignements sensibles, sans mesures d’atténuation suffisantes pour limiter les renseignements recueillis, elle n’en faisait pas assez pour se conformer à ses obligations en matière d’accès prévues par les Lois.

Correction des renseignements personnels générés par ChatGPT

En ce qui concerne les demandes de correction de renseignements personnels, OpenAI a indiqué que, si elle peut vérifier que les renseignements personnels concernent le demandeur et confirmer que le modèle a produit des renseignements inexacts, elle procédera à une évaluation au cas par cas avant d’essayer de mettre en œuvre une mesure corrective. Plus précisément, si OpenAI ne peut, pour des raisons techniques, corriger l’inexactitude, elle empêchera les renseignements personnels en question de figurer dans les résultats de ChatGPT en ajoutant les renseignements personnels vérifiés du demandeur à une « liste de blocage ».

Bien que nous reconnaissions les efforts déployés par OpenAI pour fournir une solution pragmatique pour répondre aux demandes de correction malgré les défis techniques, nous estimons que cette approche n’est pas sans faille, surtout dans les cas où la société n’est pas en mesure de vérifier que les renseignements personnels concernent le demandeur.

Suppression de renseignements personnels des modèles d’OpenAI

OpenAI a déclaré qu’il n’est pas possible actuellement de « désentraîner » ou de « rétro-entraîner » un GML afin qu’il n’utilise plus ou ne génère plus de renseignements personnels ayant fait l’objet d’une demande de suppression. OpenAI a expliqué que c’est parce que ses modèles sont entraînés en apportant des modifications répétées à des milliards de pondérations (paramètres) au cours d’exécutions successives visant les ensembles de données d’entraînement et qu’ils ne contiennent ni ne sauvegardent des copies des renseignements à partir desquels ils ont été « entraînés ».

OpenAI a expliqué que, lorsqu’elle reçoit une demande de suppression de renseignements personnels vérifiés, elle les empêche de figurer dans les résultats de ChatGPT (en les ajoutant à une liste de blocage) et les filtre lors des entraînements de modèles futurs. OpenAI a affirmé qu’en procédant ainsi, elle vise à assurer un équilibre entre le droit à la vie privée et à la protection des données et d’autres intérêts publics, comme l’accès public à l’information, dans le respect des lois applicables.

Comme pour les demandes d’accès et de correction, OpenAI a confirmé qu’elle ne prendra les mesures décrites ci-dessus que si elle est en mesure de vérifier que les renseignements personnels concernent uniquement le demandeur, ce qui, comme il est mentionné ci-dessus, n’est souvent pas possible.

Conservation

Les Commissariats ont conclu qu’OpenAI n’a pas établi des politiques et des procédures adéquates pour la conservation et le retrait des renseignements personnels qu’elle a recueillis, utilisés et communiqués aux fins de développement et de déploiement des modèles.

Bien qu’OpenAI ait expliqué qu’elle avait établi des périodes de conservation précises pour diverses catégories de renseignements personnels, nous avons constaté qu’elle a lancé ses modèles sans avoir de politique officielle de conservation et de suppression des renseignements personnels.

De plus, notre enquête a révélé qu’OpenAI n’avait pas de calendrier de conservation des données non structurées provenant de sites Web accessibles au public, lesquelles sont conservées aussi longtemps qu’il est nécessaire pour entraîner des itérations successives des modèles d’OpenAI.

Responsabilité

Les Commissariats ont conclu qu’OpenAI n’a pas répondu aux obligations qui lui incombent en matière de responsabilité en ce qui concerne les renseignements personnels dont elle a la gestion.

Nous reconnaissons qu’OpenAI avait mis en place un certain nombre de structures, de politiques et de pratiques visant à protéger les renseignements personnels dont elle avait la gestion. Toutefois, comme il est mentionné ci-dessus, nous avons constaté qu’après avoir recueilli sans discernement les renseignements personnels de millions d’individus au Canada et s’en être servi pour entraîner ChatGPT, sans avoir obtenu un consentement valide de la part des individus, OpenAI a déployé ce service sans avoir préalablement : i) établi le niveau d’exactitude des renseignements personnels communiqués dans les résultats d’un modèle (elle a plutôt opté pour une approche corrective pour remédier aux problèmes d’exactitude systémiques lorsqu’ils ont été découverts); ii) élaboré une politique de conservation des renseignements personnels recueillis aux fins de développement et de déploiement de ses modèles.

Pour illustrer ce manque de responsabilité, nous faisons observer que l’un des cofondateurs d’OpenAI a reconnu que la société s’était montrée préoccupée par le manque d’exactitude de ChatGPT et le fait qu’il avait tendance à générer des résultats indésirables lorsqu’elle a dévoilé l’outil en novembre 2022Note de bas de page 10 :

[Traduction]

« Notre plus grande préoccupation concernait la nature factuelle des résultats, car le modèle aime inventer des choses. Mais (…) d’autres grands modèles de langage existaient déjà, alors nous nous sommes dit que du moment que ChatGPT était meilleur qu’eux pour ce qui était de la réalité des faits et d’autres questions de sécurité, nous pouvions aller de l’avant. Avant le lancement, nous avons eu la confirmation que, selon nos évaluations limitées, nos modèles semblaient un peu plus factuels et sécuritaires que d’autres, alors nous avons décidé d’aller de l’avant avec le lancement. » [caractères gras et soulignement ajoutés]

Ce manque de responsabilité a exposé des individus à des risques de préjudice, notamment à des atteintes à la sécurité de leurs renseignements personnels, à l’inexactitude de leurs renseignements, à de la discrimination fondée sur des renseignements exacts et inexacts à leur sujet, en plus d’autres préjudices personnels et sociaux facilement prévisibles qui ne relèvent pas du mandat des Commissariats.

Réponse d’OpenAI à nos recommandations

À la lumière de ces conclusions, les Commissariats ont formulé un certain nombre de recommandations à l’intention d’OpenAI dans le but de permettre le développement et le déploiement de l’IA générative au Canada d’une manière qui respecte suffisamment la vie privée. Bien qu’OpenAI ne soit généralement pas d’accord avec nos conclusions – elle affirme s’être conformée aux Lois à la plupart des égards, au moyen de pratiques existantes et de communications connexes –, elle a néanmoins largement collaboré avec les Commissariats pour tenter de régler la situation.

Pour être précis, en réponse à notre rapport d’enquête préliminaire, OpenAI a informé les Commissariats qu’elle avait, au cours de notre enquête, mis en œuvre diverses mesures qui, selon elle, répondaient à nos recommandations. Plus précisément, OpenAI a expliqué ce qui suit :

  1. [Abandon des anciens modèles et entraînement des nouveaux modèles] Elle a abandonné (c’est-à-dire mis hors service) ses modèles GPT-3.5 et 4 en juillet 2024 et en avril 2025 respectivement, et elle a appliqué les nouvelles mesures d’atténuation décrites ci-dessous tout au long du développement et du déploiement de ses modèles actuels qui alimentent ChatGPTNote de bas de page 11.
  2. [Limite de l’utilisation de renseignements personnels] Elle a développé et mis en œuvre un outil de filtrage pour détecter et masquer un large éventail de renseignements personnels (comme des noms, des numéros de téléphone, etc.) dans des données Internet accessibles au public et dans des ensembles de données sous licence utilisés pour préentraîner ses modèles, de sorte que les modèles n’« apprennent » pas au moyen de ces données. OpenAI a expliqué qu’elle utilise maintenant également cet outil (au lieu de l’outil de filtrage d’un tiers qu’elle utilisait auparavant) pour caviarder les renseignements permettant d’identifier une personne dans les interactions des utilisateurs qui sont utilisées pour affiner les modèles. L’utilisation de cet outil réduit de façon importante la quantité de renseignements confidentiels et sensibles utilisés pour entraîner les modèles.
  3. [Exactitude] Elle a lancé une nouvelle fonctionnalité de recherche sur le Web qui, lorsqu’elle est activée, effectue une recherche en temps réel et cite des sources Web précises utilisées pour le contenu produit par ChatGPT, permettant ainsi aux utilisateurs de vérifier eux-mêmes les renseignements.
  4. [Exactitude] Elle a commencé à communiquer proactivement de l’information au sujet de ses évaluations de l’exactitude des renseignements sur les individus trouvés dans les résultats des modèles au moyen de « cartes système modèles » dans un Deployment Safety Hub (centre de sécurité de déploiement [en anglais seulement]).
  5. [Exactitude] Elle a lancé de nouvelles évaluations factuelles pour GPT-5, qui visent à poser des questions factuelles ouvertes sur des individus, des lieux ou des concepts, ou à inviter les modèles à produire des notices biographiques sur des personnalités notoires et à évaluer l’exactitude des réponses fournies.
  6. [Accès] Elle a amélioré le courriel de réponse automatique que les utilisateurs reçoivent lorsqu’ils soumettent à OpenAI une demande d’accès par courriel afin de mieux expliquer comment accéder aux différents types de renseignements personnels.
  7. [Correction] Elle utilise la fonction de recherche sur le Web (voir le point 3 ci-dessus) pour simplifier le traitement des demandes de correction. Plus précisément, lorsqu’un individu soumet une demande de correction, OpenAI peut tirer parti de ses capacités de recherche sur le Web et, en réponse aux invites concernant cet individu, inciter le modèle à effectuer des recherches, à récupérer sur Internet des renseignements accessibles au public et à jour sur cet individu, et à utiliser ces renseignements dans ses réponses.
  8. [Correction et suppression] Elle a mis au point une solution technique qui permet de bloquer de façon granulaire certains renseignements personnels concernant une personnalité publique afin qu’ils n’apparaissent pas dans les résultats produits par les modèles, plutôt que de bloquer tous les renseignements concernant cet individu. Ainsi, ChatGPT peut continuer de fournir au public un accès aux renseignements sur les personnalités publiques qui les intéressent, tout en veillant à ce que les personnalités publiques puissent se prévaloir de leur droit à la vie privée.
  9. [Conservation] Elle a mis en œuvre des politiques et des calendriers de conservation officiels régissant la conservation et la suppression des renseignements personnels traités en lien avec ChatGPT.
  10. [Conservation] En ce qui concerne les données d’entraînement non structurées, elle a mis en œuvre des critères de conservation définis ainsi que d’autres mesures afin que les ensembles de données obsolètes et inactifs ne soient plus utilisés pour le développement continu du modèle et soient conservés uniquement comme référence historique à des fins d’intégrité scientifique.

À la suite d’autres discussions menées avec les Commissariats, lesquelles visaient à régler les questions en suspens, OpenAI s’est engagée à mettre en œuvre un certain nombre de mesures supplémentaires.

  1. [Ouverture et transparence (des modèles)] En même temps que la publication du présent rapport, elle publiera sur son site Web un billet de blogue canadien bilingue qui expliquera ses pratiques en matière de protection de la vie privée et elle fera la promotion du blogue et de son contenu dans les médias canadiens. Le billet de blogue informera les individus que, notamment, les interactions des utilisateurs peuvent être examinées et utilisées pour entraîner les modèles, conseillera aux utilisateurs de ne pas fournir de renseignements sensibles dans leurs interactions avec ChatGPT, traitera du sujet de l’exactitude de ses modèles (le billet contiendra un lien vers la version mise à jour de l’article Est-ce que ChatGPT dit la vérité?) et fournira de l’information sur les catégories de contenu utilisées pour entraîner ses modèles.
  2. [Ouverture et transparence (des modèles)] Dans les trois mois suivant la publication du présent rapport, elle étoffera son article intitulé Comment ChatGPT et nos modèles de fondation sont développés pour y inclure des explications plus claires sur les sources d’information utilisées pour entraîner ses modèles.
  3. [Ouverture et transparence (des modèles)] Dans les trois mois suivant la publication du présent rapport, dans le cadre de l’expérience Web de ChatGPT pour les utilisateurs qui n’ont pas de compte – avant que l’utilisateur n’entre sa première invite –, on présentera un avis indiquant que les clavardages peuvent être examinés et utilisés pour entraîner les modèles et conseillant aux utilisateurs de ne pas fournir de renseignements sensibles.
  4. [Accès] Dans les six mois suivant la publication du présent rapport, elle i) utilisera un format plus accessible et plus convivial pour présenter les renseignements personnels dans ses exportations de données et ii) révisera les renseignements qu’elle communique aux utilisateurs qui souhaitent exporter des données afin de les informer des méthodes qui leur sont offertes s’ils souhaitent remettre en question l’exhaustivité, l’exactitude ou la nature des renseignements fournis.
  5. [Conservation] Dans les six mois suivant la publication du présent rapport, en ce qui concerne les futurs ensembles de données recueillis légalement, qui seront obsolètes et utilisés uniquement comme référence historique à des fins d’intégrité scientifique, elle :
    1. confirmera dans un rapport qu’elle devra remettre aux Commissariats que des mesures de contrôle techniques et organisationnelles rigoureuses sont en place pour veiller à ce que les ensembles de données conservés à des fins d’intégrité scientifique connexes ne soient pas utilisés pour le développement actif de modèles une fois qu’ils ne sont plus nécessaires à cette fin;
    2. continuera, dans la mesure où ces ensembles de données conservés contiennent des renseignements personnels, à respecter les droits applicables des individus concernés, comme l’exige la loi;
    3. continuera de réévaluer périodiquement s’il demeure nécessaire, conformément aux critères établis, de conserver chaque ensemble de données.
  6. [Protection de la vie privée des enfants] Dans les six mois suivant la publication du présent rapport, elle testera l’ajout d’une mesure de protection pour les membres mineurs de la famille des personnalités publiques (qui ne sont pas eux-mêmes des personnalités publiques). Cette mesure fera en sorte que les modèles refuseront les demandes relatives au nom ou à la date de naissance des membres mineurs de la famille de ces personnalités, même si lesdits renseignements sont actuellement accessibles au public dans une source en ligne.
  7. [Rapports] Elle remettra aux Commissariats des rapports trimestriels qui confirment et démontrent, au moyen de présentations détaillées et d’éléments probants, qu’elle respecte les engagements énoncés ci-dessus, et ce, jusqu’à ce qu’elle les ait tous tenus.

Conclusion

CPVP : Compte tenu des engagements pris par OpenAI et de la nécessité d’assurer un équilibre entre le droit à la vie privée des individus et les besoins des entreprises d’utiliser des renseignements personnels à des fins appropriées, et conformément à une interprétation pragmatique et souple de la LPRPDE, le CPVP conclut que les enjeux faisant l’objet de la présente enquête sont fondés et conditionnellement résolus.

Pour en arriver à cette conclusion, le CPVP a tenu compte, entre autres facteurs, du fait que les mesures qu’OpenAI a mises en œuvre ou qu’elle mettra en œuvre réduiront considérablement le risque résiduel de préjudice pour les individus en ce qui a trait à la collecte, à l’utilisation et à la communication de leurs renseignements personnels dans le développement et le déploiement des modèles de ChatGPT. Plus précisément :

  1. les nouvelles mesures d’atténuation mises en place par OpenAI, dont le nouvel outil de filtrage, limiteront considérablement la quantité de renseignements personnels, notamment de renseignements personnels sensibles, inclus dans les ensembles de données d’entraînement d’OpenAI;
  2. les connaissances du public au sujet de l’IA et des GML ont évolué depuis le lancement de ChatGPT (GPT-3.5), tout comme les attentes raisonnables des individus concernant les façons dont leurs renseignements personnels peuvent être recueillis et utilisés pour entraîner ces modèles, et ces attentes reposeront davantage sur les mesures de transparence supplémentaires que doit mettre en œuvre OpenAI;
  3. l’abandon par OpenAI des modèles antérieurs entraînés sans ces mesures de protection met effectivement fin à son utilisation trop large des renseignements personnels aux fins d’entraînement des modèles de ChatGPT.

CIPVP de l’Alberta et CIPVP de la Colombie-Britannique : Le CIPVP de la Colombie-Britannique et le CIPVP de l’Alberta ont, de la même manière, adopté une approche pragmatique et souple dans l’interprétation de leurs lois respectives, conformément à l’approche moderne, mais ces lois sont, sur certains points essentiels, plus précises et explicites que la LPRPDE. En particulier, ces lois respectent la norme établie par la LPRPDE en ce qui concerne les fins acceptables et sont donc, essentiellement similaires à la LPRPDE, tout en étant plus précises que celle-ci. Pour cette raison, le CIPVP de la Colombie-Britannique et le CIPVP de l’Alberta n’avaient pas la latitude nécessaire pour interpréter les lois avec autant de latitude que le CPVP. Le CIPVP de la Colombie-Britannique et le CIPVP de l’Alberta concluent que les modèles d’OpenAI sont basés sur des données moissonnées pour lesquelles OpenAI n’a pas obtenu, et ne peut obtenir, de consentement au titre de la PIPA de la C.-B. et de la PIPA de l’Alberta. Bien que le CIPVP de l’Alberta et le CIPVP de la Colombie-Britannique trouvent encourageantes les nouvelles mesures prises par OpenAI depuis le début de cette enquête pour assurer la conformité ainsi que les mesures que la société s’est engagée à mettre en œuvre, ils sont d’avis qu’elles ne suffisent pas à satisfaire à l’exigence fondamentale de consentement prévue par la PIPA de la C.-B. et la PIPA de l’Alberta. Malgré cette conclusion, le CIPVP de la Colombie-Britannique et le CIPVP de l’Alberta se sont joints au CPVP et à la CAI pour formuler des recommandations conjointes et surveiller la mise en œuvre des mesures qu’OpenAI s’est engagée à prendre.

CAI : La CAI considère que les enjeux 1, 5 et 7 (fins appropriées, droits des individus et responsabilité) sont fondés et conditionnellement résolus, et que les enjeux 2 (consentement) et 6 (conservation) sont fondés et non résolus. En raison des spécificités de la loi qu’elle applique, la CAI n’a pas formulé de conclusion sur les enjeux 3 et 4 (transparence et exactitude). De plus, elle a des recommandations précises en matière de consentement et de conservation afin qu’OpenAI se conforme à la LPRPSP du Québec. La CAI entend suivre la mise en œuvre par OpenAI des recommandations conjointes, ainsi que des recommandations propres au Québec. La CAI en tiendra compte afin d’évaluer l’opportunité de prendre d’autres mesures de vérification ou d’enquête ou encore de formuler d’autres recommandations ou de rendre des ordonnances liées à la conformité des pratiques d’OpenAI à la LPRPSP du Québec.

De façon plus générale, les Commissariats s’attendent à ce qu’OpenAI continue de mettre en œuvre et d’améliorer efficacement ses mesures d’atténuation et de développer d’autres techniques novatrices à l’avenir pour maintenir et améliorer la protection de la vie privée dans le cadre du développement et du déploiement de ses modèles.

Enfin, même si le présent rapport vise à traiter et à atténuer le risque pour la vie privée associé au développement et au déploiement de GML, nous reconnaissons que cette technologie soulève beaucoup d’autres questions et défis, notamment des enjeux de nature sociétale et éthique, que les organismes de réglementation, les universitaires et les tribunaux du monde entier tentent actuellement d’évaluer et de traiter. Nous sommes convaincus que cet effort collectif contribuera à façonner et à définir un cadre rigoureux pour le développement futur de l’IA générative, au Canada et ailleurs.

 

 

Date de modification :