Cette annonce intervient un mois seulement après le licenciement du patron du créateur de l’interface conversationnelle ChatGPT, Sam Altman, finalement réintégré au bout de quelques jours.
Selon plusieurs médias américains, des membres du conseil d’administration lui reprochaient de privilégier le développement accéléré d’OpenAI quitte à éluder certaines interrogations sur les possibles dérives de l’IA.
L’équipe d’alerte (preparedness team) sera pilotée par le chercheur en informatique Aleksander Madry, qui s’est mis en congé du Massachusetts Institute of Technology (MIT), où il est professeur, selon un message posté lundi par l’universitaire sur X (ex-Twitter).
So happy about this release and grateful to my awesome Preparedness team (especially @tejalpatwardhan), Policy Research, SuperAlignment and all of OpenAI for the hard work it took to get us here. It is still only a start but the work will continue! https://t.co/ojCfZpb4LQ
— Aleksander Madry (@aleks_madry) December 18, 2023
Elle s’appuiera sur un cadre de travail défini par un document publié lundi et qui établit son champ d’application et des procédures.
Ce nouveau groupe va surtout s’intéresser aux modèles dits «d’avant-garde» (frontier models), en cours d’élaboration et dont les capacités sont supérieures aux logiciels les plus aboutis en matière d’IA.
«Nous pensons que l’étude scientifique des risques de catastrophe découlant de l’IA n’est pas du tout à la hauteur», expliquent les responsables d’OpenAI dans le document. La création de cadre doit «aider à combler ce décalage», selon eux.
We are systemizing our safety thinking with our Preparedness Framework, a living document (currently in beta) which details the technical and operational investments we are adopting to guide the safety of our frontier model development.https://t.co/vWvvmR9tpP
— OpenAI (@OpenAI) December 18, 2023
L’équipe évaluera chaque nouveau modèle et lui assignera un niveau de risque dans quatre catégories principales.
La première concerne la cybersécurité et la capacité du modèle à procéder à des attaques informatiques d’ampleur.
La deuxième mesurera la propension du logiciel à aider à la création d’un mélange chimique, d’un organisme (tel un virus) ou d’une arme nucléaire, tous éléments susceptibles d’être nocifs pour l’humain.
Lire aussi : IA: le développeur de ChatGPT, OpenAI, promet des «superpouvoirs» pour tous
La troisième catégorie touche à la capacité de persuasion du modèle, à savoir dans quelle mesure il peut influencer des comportements humains.
La dernière classe de risque concerne l’autonomie potentielle du modèle, c’est-à-dire déterminer notamment s’il peut s’exfiltrer, ce qui revient à échapper au contrôle des programmeurs qui l’ont créé.
In our safety baselines, only models with a post-mitigation score of medium or below can be deployed, and only models with a post-mitigation score of high or below can be developed further. We also increase security protections commensurate with model risk. pic.twitter.com/xbo3PYM7al
— OpenAI (@OpenAI) December 18, 2023
Une fois les risques identifiés, ils seront soumis au conseil de sécurité (Safety Advisory Group ou SAG), nouvelle entité qui effectuera des recommandations à Sam Altman ou à une personne désignée par lui.
Le patron d’OpenAI statuera alors sur les possibles modifications à apporter à un modèle pour diminuer les risques associés.
Le conseil d’administration sera tenu informé et pourra invalider une décision de la direction. C’est un gage donné aux administrateurs, après la saga du départ temporaire de Sam Altman qui avait valu au conseil des critiques sur sa légitimité.