OpenAI potrebbe essere vicina a rilasciare uno strumento AI in grado di prendere il controllo del PC ed eseguire azioni per conto degli utenti. L’ingegnere informatico Tibor Blaho afferma di aver scoperto le prove dello strumento Operator di OpenAI, di cui si vocifera da tempo. Dovrebbe trattarsi di un "sistema agentico" in grado di gestire autonomamente attività come la scrittura di codice e la prenotazione di viaggi. Tuttavia ad oggi non si conoscono molti dettagli. Secondo The Information, OpenAI sta pensando a gennaio come mese di rilascio di Operator. Il codice scoperto da Blaho questo fine settimana aggiunge credibilità a tale segnalazione. Il client ChatGPT di OpenAI per macOS ha acquisito opzioni (nascoste per ora) per definire scorciatoie per "Attiva/disattiva operatore" e "Forza uscita operatore". Inoltre, Blaho afferma che OpenAI ha aggiunto riferimenti a Operator sul suo sito web, sebbene tali riferimenti non siano ancora visibili pubblicamente.
Secondo l’ingegnere informatico, il sito di OpenAI contiene anche tabelle (non pubbliche) che confrontano le prestazioni di Operator con altri sistemi AI che utilizzano computer. Le tabelle potrebbero essere dei segnaposto. Ma se i numeri sono accurati, questi suggeriscono che Operator non è affidabile al 100%, a seconda dell'attività. Su OSWorld, un benchmark che cerca di imitare un ambiente informatico reale, "OpenAI Computer Use Agent (CUA)" — forse il modello AI che alimenta Operator — ottiene un punteggio del 38,1%, superiore al modello di controllo del computer di Anthropic ma ben al di sotto del punteggio umano del 72,4%. OpenAI CUA supera le prestazioni umane su WebVoyager, che valuta la capacità di un'AI di navigare e interagire con i siti web. Tuttavia, il modello non raggiunge i punteggi a livello umano su un altro benchmark basato sul Web, WebArena, secondo i benchmark trapelati.
OpenAI: Operator ottiene buoni risultati sulla sicurezza
L'imminente ingresso di OpenAI nello spazio degli agenti AI avviene mentre rivali tra cui i già citati Anthropic, Google e altri tentano di accaparrarsi il segmento nascente. Gli agenti AI possono essere rischiosi e speculativi, ma i giganti della tecnologia li stanno già pubblicizzando come la prossima grande novità nell'AI. Secondo la società di analisi Markets and Markets, il mercato degli agenti AI potrebbe valere 47,1 miliardi di dollari entro il 2030. Gli agenti oggi sono piuttosto primitivi. Ma alcuni esperti hanno sollevato preoccupazioni sulla loro sicurezza, qualora la tecnologia migliorasse rapidamente.
Uno dei grafici trapelati mostra che Operator sta ottenendo buoni risultati in determinate valutazioni di sicurezza. Ciò include i test che cercano di far eseguire al sistema "attività illecite" e di cercare "dati personali sensibili". A quanto si dice, i test di sicurezza sono tra le ragioni del lungo ciclo di sviluppo di Operator. In un recente post su X, il co-fondatore di OpenAI Wojciech Zaremba ha criticato Anthropic per aver rilasciato un agente che, a suo dire, non ha mitigazioni di sicurezza. Vale la pena notare che OpenAI è stata criticata dai ricercatori di intelligenza artificiale, tra cui ex dipendenti, per aver presumibilmente de-enfatizzato il lavoro di sicurezza a favore di una rapida produzione della sua tecnologia.