MindTheChart.io
Blocco Tasto Destro e Protezione Immagini Blocco Tasto Destro e Protezione Immagini

🔵"BrowseComp: Il Nuovo Benchmark di OpenAI per Testare le Capacità di Ricerca degli Agenti AI"

🔵"BrowseComp: Il Nuovo Benchmark di OpenAI per Testare le Capacità di Ricerca degli Agenti AI"

Giorno: 11 aprile 2025 | Ora: 01:15:08 OpenAI ha recentemente rilasciato un nuovo benchmark open source chiamato BrowseComp, progettato per valutare la capacità degli agenti AI di reperire informazioni difficili da trovare su Internet. Questo test presenta 1266 domande particolarmente impegnative, simili a una "caccia al tesoro" online, dove le risposte sono difficili da ottenere ma facili da verificare. Le questioni trattano vari ambiti, tra cui cinema, tecnologia e storia, e la loro difficoltà supera significativamente quella di test precedenti come SimpleQA. Secondo la comunità AIGC, il livello di difficoltà è tale che anche i modelli più avanzati di OpenAI, come GPT-4o e GPT-4.5, hanno registrato tassi di accuratezza di appena 0,6% e 0,9%. Invece, il nuovo modello Agent di OpenAI, Deep Research, ha raggiunto un'accuratezza sorprendente del 51,5%. https://www.panewslab.com/zh/sqarticledetails/ugweotrx.html