Cosa vuol dire che il sistema alla base di o1 è l’apprendimento per rinforzo?

13.09.2024 11:47

Giornalettismo

Non è solo in grado di ragionare come un essere umano, ma è anche in grado di sbagliare come un essere umano. Ed è anche capace – almeno questo dovrebbe essere il principio – di imparare dai propri errori. La famiglia di modelli o1 sviluppati e lanciati sul mercato (solo per gli utenti abbonati) da OpenAI non è perfetta. O, almeno, non lo è per il momento. Al di là della lentezza (in termini temporali) nel presentare le risposte alle query/prompt degli utenti, questo modello di linguaggio ancora commette molti errori che, per stessa ammissione dell’azienda di Sam Altman, sono di gran lunga maggiori (in termini numerici) rispetto a GPT-4o. Ma questo sistema è destinato a migliorare con il tempo, visto che questa tecnologia si basa sul concetto di “apprendimento di rinforzo”.

Come abbiamo raccontato in un precedente articolo – citando un recentissimo documento ufficiale di OpenAI in cui si parla dei pregi e difetti di o1 -, questo modello è ancora vittima di molte allucinazioni e, spesso e volentieri, fornisce delle risposte sbagliate per non ammettere di non essere in grado di rispondere a determinati comandi. Ma coma farà mai a migliorare e diventare una soluzione AI affidabile per quel che riguarda, almeno, la matematica e le scienze?

Apprendimento di rinforzo alla base di OpenAI o1

La risposta arriva da una tecnica di machine learning che dovrebbe rappresentare il fiore all’occhiello della nuova famiglia di modelli sviluppati da OpenAI. Si parla, infatti, di apprendimento di rinforzo con feedback umano (Reinforcement Learning with Human Feedback) che – con il passare del tempo – consentirà a o1 di migliorare non solo le sue risposte – eliminando il più possibile eventuali errori -, ma anche la sua capacità di ragionamento.

«La famiglia di modelli linguistici di grandi dimensioni o1 è addestrata con l’apprendimento per rinforzo per eseguire ragionamenti complessi […] Attraverso l’addestramento, i modelli imparano a perfezionare il loro processo di ragionamento, a provare diverse strategie e a riconoscere i propri errori».

Il più classico dei “sbagliando si impara”. Più che nelle risposte più simili al ragionamento umano (“errare humanum est”), questa capacità di apprendimento partendo dalla base dei propri errori rende questa famiglia di modelli di linguaggio AI molto simile a ciò che fa l’essere umano. E questo non riguarda solamente la risposta finale, ma tutto il processo di ragionamento necessario per replicare a una query. Questo è il principio della tanto temuta AI generale a cui, probabilmente, ci stiamo avvicinando.

L'articolo Cosa vuol dire che il sistema alla base di o1 è l’apprendimento per rinforzo? proviene da Giornalettismo.

Читайте на сайте

Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. Абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.

Новости от наших партнёров в Вашем городе

Ria.city

Музыкальные новости

Новости России

Экология в России и мире

Спорт в России и мире

Moscow.media

Cosa vuol dire che il sistema alla base di o1 è l’apprendimento per rinforzo?

Apprendimento di rinforzo alla base di OpenAI o1

Читайте на сайте

VIP-тусовка

Game24.pro

Ru24.pro

Досуг

Новости от наших партнёров в Вашем городе

Топ новостей на этот час