Kako AI uči da rasuđuje: trka da se modeli nauče gde su pogrešili

Pritisnete Enter i umesto odgovora vidite jednu reč: Thinking. Prođe deset sekundi, pa dvadeset. Zatim se pojavi odgovor — strukturiran, sa samokorekcijom, ponekad hvata sopstvene greške usred rečenice. Ako ste koristili Claude, ChatGPT o3 ili DeepSeek u poslednjoj godini, videli ste ovu pauzu. Većina objašnjenja se zaustavlja na „model rasuđuje korak po korak”, kao da je time sve rečeno.

Nije. Iza te pauze stoji metod obuke koji ima fundamentalnu manu — ograničava sposobnost modela da uči iz sopstvenih grešaka. Upravo sada šest istraživačkih timova iz četiri zemlje se takmiči da to poprave. Svaki je pronašao drugačiji put, ali nijedan nije stigao do cilja. Ishod ove trke će odrediti koliko dobro AI rasuđuje u narednim godinama, a razumevanje onoga što se dešava menja način na koji radite sa ovim alatima već danas.

Nastavnik koji proverava samo krajnji odgovor

Da biste razumeli manu, zamislite analogiju. Učenik predaje rešenje zadatka od šest koraka. Nastavnik gleda na dno stranice, vidi tačan odgovor i piše „dobro” pored svakog koraka. Drugi učenik predaje rešenje gde je prvih pet koraka besprekorno, ali poslednji sadrži aritmetičku grešku. Nastavnik piše „loše” pored svakog koraka, uključujući pet ispravnih.

Otprilike tako funkcioniše najrasprostranjeniji metod obuke — Group Relative Policy Optimization, ili GRPO. GRPO je algoritam na kojem su izgrađeni DeepSeek-R1 i Qwen, dva od najsposobnijih otvorenih reasoning modela. Tokom obuke, model generiše više rešenja istog problema. Rešenja sa tačnim odgovorom dobijaju pozitivnu nagradu. Ona koja ne uspeju dobijaju negativnu. Nagrada se ravnomerno raspoređuje na svaki token u odgovoru — svaka reč, svaki znak interpunkcije, svako „hajde da preispitamo” dobija isti skor.

Ovaj pristup se zove outcome-based reward (nagrada na osnovu rezultata), a mana koju stvara ima tehnički naziv: problem raspodele zasluga (credit assignment problem). Model ne može da razlikuje ključni korak rasuđivanja od fraze-popune, jer oba dobijaju potpuno isti signal za obuku.

Posledice su konkretne. Model obučen na ovaj način može da postigne 97% na matematičkim testovima postdiplomskog nivoa, ali povremeno greši u sabiranju dvocifrenih brojeva — jer proces obuke nikada nije naučio da odvoji trenutke gde je aritmetička preciznost bila kritična od trenutaka gde je model generisao šablonske fraze poput „pristupimo tome sistematski”. Do određenog nivoa složenosti, ravnomerna nagrada funkcioniše dovoljno dobro. Iznad tog plafona napredak se zaustavlja: model generiše sve duže odgovore, ali tačnost prestaje da raste.

Prva popravka: angažovati drugog nastavnika

Prvi tim koji je ozbiljno pristupio ovom problemu bio je OpenAI. 2023. godine objavili su rad pod nazivom „Let’s Verify Step by Step” i izgradili ono što su nazvali Process Reward Model, ili PRM. Ideja je bila jednostavna: umesto da se ocenjuje samo krajnji odgovor, obučiti poseban model koji ocenjuje svaki međukorak.

Da bi ovo funkcionisalo, OpenAI je angažovao anotatore koji su označili više od 800.000 pojedinačnih koraka rasuđivanja u matematičkim rešenjima — obeležavajući svaki kao tačan, netačan ili neutralan. Na tim podacima obučili su poseban model-sudiju. Tokom obuke glavnog modela, PRM je ocenjivao svaki korak i davao detaljnu povratnu informaciju: ovaj korak je ispravan, ovaj je pogrešan, ovaj je irelevantan.

Funkcionisalo je. Povratna informacija na nivou koraka značajno je poboljšala sposobnost glavnog modela za rasuđivanje u poređenju sa ocenjivanjem samo po rezultatu. Rad je postao referentna tačka, a PRM800K dataset se široko citira i danas.

Međutim, pristup je imao ograničenje koje je otežavalo skaliranje. Obuka PRM-a zahtevala je obimno ručno anotiranje za svaki novi domen. Matematičko rasuđivanje je imalo označene podatke; pravno, medicinsko rasuđivanje i programiranje nisu. A održavanje drugog modela — koji je morao da se ponovo obučava zajedno sa glavnim modelom radi kalibracije — stvaralo je značajan računarski trošak.

Pitanje je postalo: da li možete dobiti prednosti povratne informacije na nivou koraka bez troška posebnog sudije? 2025. godine pet timova je ponudilo pet različitih odgovora.

Pet puteva ka istom cilju

Statističko grananje

Tim iz Mila i Microsofta, predvođen istraživačima sa Univerziteta u Montrealu, objavio je VinePPO sredinom 2025. Pristup je bio zasnovan na Monte Carlo proceni: za svaki korak u lancu rasuđivanja generisati desetine alternativnih nastavaka i prebrojati koliko njih na kraju dovede do tačnog odgovora.

Ako 80% grana koje rastu od trećeg koraka vode ka ispravnom rešenju, treći korak je verovatno bio dobar. Ako samo 10% uspe nakon petog koraka, nešto nije bilo u redu na petom koraku. Model koristi ove stope završetka kao nagrade na nivou koraka, bez ikakvog ručnog anotiranja.

Metod je dao osetna poboljšanja na benčmarkovima matematičkog rasuđivanja za modele do 7 milijardi parametara. Ali računarski trošak je bio veliki — generisanje desetina alternativnih grana za svaki korak u svakom primeru obuke zahtevalo je znatno više procesorske snage od standardnog GRPO, što je VinePPO činilo nepraktičnim za veće modele ili obuku u produkcijskoj razmeri.

Tragovi uticaja

Kasnije 2025. godine, Prasanna Parthasarathi u Huaweijevom Noah’s Ark Lab-u i Mathieu Reymond iz Mila krenuli su drugim putem: vratili su se u 1980-e. Klasično učenje potkrepljivanjem već je rešilo verziju problema raspodele zasluga kroz tehniku zvanu eligibility traces (tragovi podobnosti) — mehanizam koji prenosi signale nagrade unazad kroz sekvencu akcija, sa eksponencijalnim opadanjem po rastojanju.

Njihov metod, GRPO-λ, prilagodio je ovaj mehanizam za jezičke modele bez potrebe za modelom-kritičarem. Osnovna ideja: ako je model počeo da generiše tačne tokene nakon određenog koraka, taj korak dobija zaslugu za kasniji uspeh, ponderisanu blizinom dobrom ishodu. Korak koji je neposredno prethodio ispravnom izvodu dobija jaku zaslugu. Korak udaljen deset pozicija dobija slabiju, sa eksponencijalnim opadanjem.

Rezultati su bili ubedljivi: konvergencija tokom obuke ubrzana za 30 do 40% sa doslednim poboljšanjima na matematičkim benčmarkovima na Qwen i LLaMA arhitekturama. Metod nije dodao ni memorijski trošak ni dodatni model. Međutim, eksperimenti su se zaustavili na 7 milijardi parametara, a autori su primetili da se razlika sužavala na većim modelima — ostavljajući otvoreno pitanje da li tragovi uticaja imaju značaj kada je model već dovoljno velik da efikasno uči iz grubljih signala.

Kritičar koji čita u jednom prolazu

Tim Tencenta i Univerziteta Renmin iza metoda CAPO, objavljenog krajem 2025. godine, preuzeo je ideju PRM-a i uklonio trošak obuke posebnog sudije. Umesto specijalizovanog modela nagrade, koristili su postojeći veliki jezički model — Qwen ili Llamu sa 72 milijarde parametara — kao generativnog kritičara. Kritičar čita rešenje u jednom prolazu inferencije i identifikuje koji koraci sadrže greške, donoseći verdikt za svaki korak.

Tokeni u ispravnim koracima dobijaju punu nagradu za rezultat. Tokeni u koracima označenim kao pogrešni dobijaju kaznu. Metod je uveo asimetričnu šemu ponderisanja: tačni odgovori imaju veću težinu od kažnjavanja grešaka, što je sprečavalo da greške kritičara dominiraju signalom za obuku.

CAPO je poboljšao performanse za 2 do 3,5 procentnih poena na više benčmarkova i radio sa različitim modelima-kritičarima bez podešavanja specifičnog za zadatak. Kompromis je bio jasan: obuka posebnog sudije više nije bila potrebna, ali inferencija modela od 72 milijarde parametara za svaki primer obuke ostajala je značajan trošak koji je linearno rastao sa veličinom dataseta.

Poređenje onoga što model već zna

U februaru 2026. Hritik Bansal je objavio DenseR — metod koji je problemu pristupio sa potpuno drugačije strane. Umesto spoljašnjih sudija ili statističkog uzorkovanja, DenseR je pogledao unutar samog modela.

Ključni uvid bio je da unutrašnje reprezentacije modela — skrivena stanja (hidden states) koje proizvodi na poziciji svakog tokena — već sadrže informaciju o tome gde se rasuđivanja razilaze. Kada dva rešenja istog problema počinju identično, ali završavaju različito (jedno tačno, jedno pogrešno), njihova skrivena stanja su gotovo identična na početku i naglo divergiraju u tački gde je jedno rešenje krenulo pogrešnim putem. Ta tačka divergencije je odluka koja je bila presudna.

DenseR koristi kosinusnu sličnost između skrivenih stanja za računanje težine svakog tokena: tokeni gde se tačna i netačna rešenja naglo razilaze dobijaju veću težinu u gradijentu obuke. Tokeni gde sva rešenja izgledaju slično dobijaju manju težinu. Ukupna veličina gradijenta ostaje ista — DenseR samo preraspoređuje gde se učenje dešava, ne koliko ga ima.

Rezultati na modelu od 600 miliona parametara bili su upečatljivi: 12,5 puta bolje performanse na AIME 2024 (benčmark takmičarskih matematičkih zadataka) u poređenju sa standardnim GRPO. Na modelu od 4 milijarde parametara, poboljšanje pass@1 bilo je skromno, ali raznovrsnost tačnih rešenja značajno je porasla — model je nalazio više različitih puteva do ispravnog odgovora.

Ograničenje je bilo podjednako jasno. Poređenje skrivenih stanja funkcioniše čisto kada dva rešenja dele bukvalno isti prefiks i razilaze se u jednoj tački. Kada rešenja koriste suštinski različite pristupe od samog početka, signal divergencije se stapa sa pozadinskim šumom i gubi diskriminativnu moć.

Praćenje pomeranja verovatnoća

Najnoviji rad, objavljen u martu 2026. od strane Qwen tima u Alibabi, je FIPO — Future-KL Influenced Policy Optimization. Tamo gde je DenseR gledao skrivena stanja, FIPO gleda šta se dešava nakon ažuriranja modela.

Metod funkcioniše merenjem kako ažuriranje politike (policy update) menja verovatnoću narednih tokena. Ako ažuriranje modela na određenom primeru obuke „pojačava” tokene koji slede nakon određenog koraka rasuđivanja — čineći model sklonijim da nastavi tim putem u budućnosti — onda je taj korak rasuđivanja bio uticajan i treba da dobije veću težinu pri sledećem ažuriranju.

FIPO koristi diskontovanu sumu ovih pomeranja verovatnoća, sa prozorom eksponencijalnog opadanja kontrolisanim jednim hiperparametrom. Rezultat je gust signal prednosti na nivou tokena koji ne zahteva ni dodatne modele, ni grananje, ni analizu skrivenih stanja — samo logaritme verovatnoća koje GRPO ionako izračunava.

Na Qwen2.5-32B, najvećem modelu testiranom u bilo kojoj od ovih studija, FIPO je podigao tačnost na AIME 2024 sa 50,0% na 58,0% — najbolji prijavljeni rezultat među metodama credit assignment-a. Odgovori modela narasli su sa otprilike 4.000 na više od 10.000 tokena, a kvalitativna analiza je pokazala evoluciju kroz četiri faze: od površinskog planiranja, preko linearnog izvršavanja, do spontane samoprovere, i konačno sistematičkog višeprolaznog rasuđivanja. Standardni GRPO je konvergirao na drugoj fazi; FIPO je stigao do četvrte.

Ali kao i svaki metod u ovoj trci, evaluacija je bila ograničena na matematičko rasuđivanje. Da li isti pristup poboljšava programiranje, pravnu analizu ili naučna istraživanja — ostaje neproveren.

Lideri ne dele

Ovih šest metoda su one za koje znamo jer su timovi objavili svoj rad. Najveće komercijalne laboratorije — OpenAI, Anthropic i Google — nisu otkrile kako obučavaju svoje reasoning modele.

Ono što je javno poznato je ograničeno. OpenAI je potvrdio da se modeli o-serije „obučavaju putem učenja potkrepljivanjem da istražuju različite strategije, razlažu probleme na korake i identifikuju greške”. Konkretna struktura nagrada i metod raspodele zasluga ostaju vlasništvo kompanije. Anthropic je opisao rasuđivanje Claude-a kao „serijsko računanje u vreme inferencije koristeći više sekvencijalnih koraka rasuđivanja”, sa performansama koje logaritamski rastu sa brojem thinking tokena, ali nije objavio ništa o algoritmu obuke. Google je otkrio još manje o obuci rasuđivanja Gemini-ja.

Jedini izuzetak među velikim laboratorijama je DeepSeek, koji je objavio kompletnu metodologiju u radu koji je naknadno recenziran u časopisu Nature. Njihov najznačajniji nalaz nije bio specifičan algoritam, već opažanje: kada su obučili model čistim učenjem potkrepljivanjem uopšte bez nadgledanih podataka o rasuđivanju (DeepSeek-R1-Zero), lančano rasuđivanje, samoprovera i adaptacija strategije pojavili su se spontano. Niko nije programirao model da kaže „sačekajte, da proverim”. Ponašanje se pojavilo samo od sebe, kao nusproizvod cilja obuke.

Ovaj nalaz ima direktnu implikaciju za trku oko credit assignment-a. Ako sofisticirano rasuđivanje može da nastane iz relativno jednostavnih signala za obuku, pitanje nije samo „kako preciznije raspodeliti zasluge?” već i „kolika preciznost je zaista neophodna?” Odgovor još nije jasan, a jaz između otvorenih istraživanja i vlasničkih metoda otežava procenu gde oblast zaista stoji.

Šta ovo znači za vas koji kucate prompt

Istraživanja opisana iznad imaju praktične posledice za svakoga ko koristi reasoning modele u radu.

Različiti modeli su obučeni da razmišljaju različito. Kada Claude, o3 i DeepSeek daju različite stilove rasuđivanja na isti problem, razlika nije slučajna — odražava različite metode obuke. Rasuđivanje DeepSeek-a izraslo je iz čistog RL sa GRPO. Qwen tim eksperimentiše sa FIPO. Pristup OpenAI-ja je nepoznat. Ovi izbori oblikuju kako model strukturira svoje misli, koliko često se samokoriguje i koje tipove grešaka je sklon da propusti.

Pauza „Thinking” nije dekoracija. Kada reasoning model uzme trideset sekundi pre odgovora, generiše interne reasoning tokene — lanac rasuđivanja koji, u dobro obučenim modelima, uključuje korake verifikacije. Istraživanja pokazuju da modeli obučeni sa boljom raspodelom zasluga spontano razvijaju ponašanje samoprovere, bez instrukcije da proveravaju svoj rad. Trajanje faze razmišljanja korelira sa tačnošću na teškim zadacima.

„Think step by step” je već ugrađen. Reasoning modeli su specifično obučeni da proizvode lančano rasuđivanje. Dodavanje „think step by step” u prompt je suvišno za o3, DeepSeek-R1 ili Claude u režimu razmišljanja — a neki nedavni dokazi sugerišu da to čak može da naškodi performansama nadjačavajući istrenirane obrasce rasuđivanja modela. Više pomaže precizna formulacija problema: jasna ograničenja, eksplicitni kriterijumi uspeha i konkretan kontekst koji je modelu potreban.

Teži problemi više profitiraju. Na jednostavnim zadacima, reasoning modeli i standardni modeli rade slično. Poboljšanja credit assignment-a opisana iznad daju najveće dobitke na najtežim benčmarkovima — takmičarska matematika, višekoračni dokazi, problemi koji zahtevaju dugačke logičke lance. Ako vaš rad uključuje složenu analizu, višekoračno rasuđivanje ili sintezu informacija iz mnogih izvora, ova dostignuća u obuci će direktno uticati na vas.

Ova trka je daleko od završetka. Svaki ovde opisan metod objavljen je u poslednjih dvanaest meseci, svaki je testiran prvenstveno na matematici i svaki ima poznata ograničenja. Oblast se kreće dovoljno brzo da će se sposobnosti rasuđivanja modela koje koristite danas osetno razlikovati od onih dostupnih za šest meseci — ne zato što će modeli biti veći, već zato što će biti obučeni da preciznije identifikuju sopstvene greške i uče iz njih.

Izvori: FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization (Qwen/Alibaba, 2026), GRPO-λ: Credit Assignment improves LLM Reasoning (Huawei/Mila, 2025), CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment (Tencent/Renmin University, 2025), DenseR: Dense Rewards For Free in LLM Reasoning (Bansal, 2026), VinePPO: Refining Credit Assignment in RL Training of LLMs (Mila/Microsoft, 2025), Let’s Verify Step by Step (OpenAI, 2023), DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning (DeepSeek, Nature 2025)