OpenAI ha annunciato la disponibilità di GPT-4. Un modello generativo multimodale perché in grado di generare output testuali accettando input sia sotto forma di testi che di immagini. Questa versione dovrebbe dimostrarsi più performante e affidabile rispetto a GPT-3.5. Tanto che nel comunicato di presentazione gli sviluppatori del progetto hanno sottolineato la sua capacità di garantire delle "human-level performance" in diversi benchmark accademici e professionali.
GPT-4 e benchmark
A tal proposito questo aggiornamento si sarebbe dimostrato in grado di superare un esame simulato per l'abilitazione all'avvocatura (negli USA) con un punteggio intorno a quello del 10% dei migliori candidati. Il punteggio di GPT-3.5 sarebbe stato invece intorno al 10% più basso. Ciò nonostante GPT-4 non sia stato sottoposto ad un training specifico per affrontare i test previsti da questo e altri esami.
È comunque utile sottolineare che nel contesto di una conversazione casuale la differenza tra la release 3.5 e la 4 potrebbe risultare impercettibile. Il discorso cambia invece quando i task sottoposti ai modelli superano un certo livello di complessità. Oltre ad essere più creativo e affidabile, GPT-4 si sarebbe dimostrato anche più abile nell'interpretare le sfumature espresse dal proprio interlocutore.
Lo sviluppo dell'ultima versione è stato effettuato tenendo conto dell'esigenza di fornire output qualitativamente elevati anche in lingue differenti dall'Inglese. A questo scopo il benchmark MMLU (Multi-task Language Understanding), un set composto da 14 mila quesiti a risposta multipla su 57 argomenti differenti, è stato tradotto in 26 lingue con Azure Translate e in 24 di esse (compresi il Lettone, il Gallese e lo Swahili) GPT-4 avrebbe superato le prestazioni in Inglese di GPT-3.5 e di altri modelli linguistici.
GPT-4 e input visuali
Una delle principali novità di GPT-4 riguarda la sua capacità di elaborare con precisione i prompt basati sulle immagini. Tale modello produce infatti output testuali in linguaggio naturale, codice o altra forma sulla base di input rappresentati da testi associati ad immagini. I test sono stati effettuati utilizzando testi e foto così come diagrammi o screenshot. Il livello di precisione mostrato sarebbe stato paragonabile a quello riportato analizzando soltanto input testuali. In questo caso parliamo però di una funzionalità ancora in fase di sperimentazione.
OpenAI ricorda inoltre che, come i suoi predecessori, anche GPT-4 è soggetto ad "allucinazioni". Le sue risposte non possono essere considerate completamente affidabili. I comportamenti inattesi si sarebbero comunque ridotti notevolmente e i test interni avrebbero evidenziato un grado di precisione superiore del 40% rispetto a GPT-3.5.