29. april 2026 11 min branja Povzetek akademske študije

GPT-4 pospeši delo za 25 %, ampak izven svoje nazobčene meje ga lahko poslabša — analiza Harvard/BCG študije

Fabrizio Dell'Acqua iz Harvard Business School je z osmimi soavtorji (Wharton, MIT, Warwick, BCG) izvedel terensko randomizirano študijo s 758 konzultanti svetovnega podjetja Boston Consulting Group. Rezultati so prelomni in dvoseki: znotraj svoje "nazobčene tehnološke meje" je GPT-4 pospešil delo za 25 %, dvignil kakovost za 40 % in povečal dokončanje nalog za 12 %. Zunaj te meje pa AI dejansko ŠKODI — konzultanti so dosegli slabše rezultate kot tisti brez AI. Spodaj povzemamo, kaj to pomeni za slovenska podjetja, ki uvajajo AI v svoje procese.

Predmet analize
Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality
Avtorji: Fabrizio Dell'Acqua (HBS), Edward McFowland III (HBS), Ethan Mollick (Wharton), Hila Lifshitz-Assaf (Warwick), Katherine Kellogg (MIT Sloan), Saran Rajendran (BCG), Lisa Krayer (BCG), François Candelon (BCG), Karim R. Lakhani (HBS)
Vir: Harvard Business School Working Paper No. 24-013; sprejet za objavo v Organization Science
Datum: 15. september 2023
Vzorec: 758 BCG konzultantov (približno 7 % njihove individualne contribuirne delovne sile), pre-registriran terenski eksperiment, randomizirano dodeljeni v tri pogoje (brez AI, GPT-4, GPT-4 z navodili)
TL;DR — Ključne ugotovitve

Zakaj je ta študija pomembna

Med študijami o vplivu AI na delo je Dell'Acqua et al. (2023) verjetno najbolj metodološko stroga. Trije razlogi:

  1. Pre-registracija. Avtorji so hipoteze in analizni načrt javno objavili pred zbiranjem podatkov. To preprečuje "p-hacking" in selektivno poročanje rezultatov.
  2. Realno okolje, ne laboratorij. 758 BCG konzultantov je opravljalo dejanske, kompleksne svetovalne naloge — ne sintetičnih testov.
  3. Randomizacija. Konzultanti so bili randomizirano dodeljeni v tri pogoje. To je zlat standard za vzročno-posledično interpretacijo rezultatov.

Posledica: ko ekonomi, vodje podjetij ali politiki danes razpravljajo o "stvarnih učinkih AI na delo", ta študija je pogosto referenčna točka.1

O avtorjih in institucijah

Ekipa združuje pet ameriških univerz in svetovno svetovalno podjetje:

Eksperimentalni dizajn

Avtorji so razvili 18 realističnih svetovalnih nalog, ki pokrivajo različne dele konzultantovega dela: kreativnost (npr. razvoj novega produkta), analitično razmišljanje (razlaga podatkov), pisanje, prepričljivost. Vsak konzultant je bil dodeljen v enega od treh pogojev:

  1. Kontrolna skupina — brez dostopa do AI
  2. GPT-4 dostop — uporaba AI brez dodatnih navodil
  3. GPT-4 z navodili — uporaba AI plus strategija za njegovo uporabo

Pred eksperimentom so avtorji izmerili individualno produktivnost vsakega konzultanta na podobnih nalogah — to služi kot baseline, ki omogoča pošteno primerjavo.2

Glavne ugotovitve — del 1: Znotraj "frontier"-a

+25,1 % hitrost izvedbe nalog
+40 % kakovost dela (človeške ocene)
+12,2 % dokončanih nalog
758 analiziranih konzultantov

Za naloge, ki so bile znotraj zmožnosti GPT-4 (kreativnost, strukturirana analiza, pisanje), so konzultanti z AI dostopom dosegli občutno boljše rezultate kot kontrolna skupina. Hitrost se je povečala za četrtino, dokončanje za osmin, kakovost pa za skoraj polovico.

Pomembna stranska ugotovitev: učinek je bil najmočnejši pri spodnji polovici konzultantov (po baseline produktivnosti). Ta vzorec je konsistenten z Brynjolfsson et al. (2023) — AI bolj koristi povprečnim delavcem kot vrhunskim.3

Glavne ugotovitve — del 2: Zunaj "frontier"-a

Najbolj pomembna in najmanj pričakovana ugotovitev: za naloge, ki so bile tik izven zmožnosti GPT-4, so konzultanti z AI dostopom dosegli SLABŠE rezultate kot tisti brez AI.

AI assistance improves performance for some tasks but worsens it for others.
— Dell'Acqua et al. (HBS WP 24-013, 2023)

Avtorji so to poimenovali "jagged technological frontier" — nazobčena meja: AI dobro deluje znotraj svojih zmožnosti, in popolnoma odpove tik zraven, navidezno podobnih nalogah. Za človeka je ta meja težko prepoznavna brez izkušenj. Posledica: konzultant, ki ne ve, kje se meja končuje, lahko slepo zaupa AI tudi takrat, ko ta dela napake.

−19 % povprečna ocena pri nalogah izven "frontier"-a (po nekaterih metrikah do −23 %)
68 % napačnih sklepov, ki so jih konzultanti sprejeli iz AI brez kritike

Avtorji to pojavlja imenujejo "falling asleep at the wheel" (zaspati za volanom) — koncept, ki ga je Dell'Acqua razvil že v predhodnem papirju o AI in HR rekruterjih. Ko AI da prepričljiv napačen odgovor, ljudje pogosto sprejmemo njegov sklep brez preverbe.

Centaurs in Cyborgs

Avtorji so identificirali dva vzorca, kako konzultanti uporabljajo AI:

Obe strategiji sta dosegli boljše rezultate kot kontrolna skupina. Cyborg vzorec je dosegel boljše rezultate pri kreativnih nalogah, Centaur pa pri analitičnih, kjer je razdelitev vlog (človek odloča, AI izvede) bolj produktivna.

Kaj to pomeni za slovenska podjetja

Štirje konkretni operativni zaključki za slovensko MSP, ki uvaja AI orodja:

1. Pred uvedbo: definirajte "frontier"

Vsak AI orodje ima svojo "nazobčeno mejo". Pred široko uvedbo izvedite pilotni test: dajte AI 20–30 različnih nalog iz vašega vsakdana in ocenite, katere opravi dobro in katere ne. Ne predpostavljajte enakomerne sposobnosti — odprite oči za nazobčano naravo zmožnosti.

2. Usposabljanje, ne samo orodje

Glavni razlog za negativne učinke v študiji ni bilo, da je AI slab — ampak da konzultanti niso ločevali, kje AI dobro deluje in kje ne. Vsako uvedbo AI treba kombinirati z delavnico za zaposlene, ki pokaže konkretne primere: tu AI deluje dobro, tu odpove. Slepo zaupanje je dražje od neuporabe.

3. Vgradite safe-fail točke

Pri kritičnih nalogah (denar, pogodbe, javna komunikacija, regulatorni dokumenti) naj AI pripravi samo osnutek. Končna potrditev mora biti vedno na človeku, ki kritično preveri vsako trditev. To je princip, ki ga pri Eflitte sistematično vgrajujemo v vse avtomatizacijske workflow-e.

4. Spremljajte rezultate, ne samo uvedbo

Veliko slovenskih podjetij uvede AI orodje, pohvali se s tem, da "uporabljajo AI", in pozabi spremljati, ali se kakovost izdelka dejansko izboljša. Po študiji je verjetno, da bo brez aktivne pozornosti del nalog padel v "negativen frontier", kar zniža skupno produktivnost. Spremljanje kakovosti rezultatov je ključni del uvedbe, ne nadgradnja zanj.

Najpomembnejša lekcija za vodje: ne sprašujte se "ali uvesti AI". Sprašujte se "kje uvesti AI" — in enako pomembno "kje NE uvesti AI". Brez te razdelitve uvedba AI ni nujno izboljšava poslovanja; lahko je celo poslabšanje.

Omejitve študije

  1. BCG kontekst. Konzultanti so iz top-tier strateškega svetovalnega podjetja, kar je nereprezentativen vzorec za splošno delovno silo. Slovenski MSP ima drugačno strukturo (nižja izobrazba, ožja specializacija). Pričakujemo, da bodo učinki — tako pozitivni kot negativni — še izrazitejši.
  2. GPT-4 specifika. Študija je opravljena s konkretno različico GPT-4 v 2023. Tehnologija se hitro razvija; "frontier" za GPT-5 ali Claude Opus 4.5 je drugje.
  3. Časovno omejena izpostavljenost. Konzultanti so AI uporabljali nekaj tednov, ne let. Kako se vzorci spreminjajo skozi daljše obdobje (učenje, deskilling, prilagajanje), ostane odprto.

Vpliv študije in nadaljnje raziskave

Od objave je papir prejel več kot 1.000 akademskih citacij (po Google Scholar) in je bil obravnavan v Financial Times, Wall Street Journal, Harvard Business Review in The Economist. "Jagged frontier" je postal standardni izraz v razpravi o omejitvah AI. Sledijo nadaljnje raziskave o tem, kako se "frontier" sčasoma spreminja in kako lahko vodje sistematično prepoznajo, kje je njihovo orodje močno in kje ne.

Zaključek

Dell'Acqua et al. (2023) je verjetno najpomembnejša študija o AI v knowledge work doslej. Njena dvosečna ugotovitev — velika izboljšanja znotraj "frontier"-a, škoda zunaj nje — terja od slovenskih vodij novo držo: AI ni orodje, ki se kupi in vključi. Je orodje, ki zahteva razumevanje svojih meja, usposabljanje ekipe, in stalni monitoring rezultatov. Brez teh treh elementov uvedba AI lahko prinese več škode kot koristi.

Viri

  1. Dell'Acqua, F., McFowland III, E., Mollick, E., Lifshitz-Assaf, H., Kellogg, K., Rajendran, S., Krayer, L., Candelon, F., Lakhani, K. R. (2023). Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality. Harvard Business School Working Paper No. 24-013. SSRN: ssrn.com/abstract=4573321.
  2. Harvard Business School Faculty page: hbs.edu/faculty/Pages/item.aspx?num=64700.
  3. Brynjolfsson, E., Li, D., Raymond, L. R. (2023). Generative AI at Work. NBER Working Paper No. 31161. DOI: 10.3386/w31161.
  4. Digital Data Design Institute at Harvard, povzetek študije: d3.harvard.edu.
Pogosto zastavljena vprašanja

Vprašanja o študiji

Študijo je vodil Fabrizio Dell'Acqua (Harvard Business School) skupaj z Edward McFowland III (HBS), Ethan Mollick (Wharton), Hila Lifshitz-Assaf (Warwick), Katherine Kellogg (MIT Sloan), Saran Rajendran (BCG), Lisa Krayer (BCG), François Candelon (BCG) in Karim R. Lakhani (HBS). Lakhani je predsednik Digital Data Design Institute na Harvardu. Pre-print je bil objavljen kot Harvard Business School Working Paper No. 24-013, 15. septembra 2023. Študija je sprejeta za objavo v Organization Science.

Za naloge ZNOTRAJ "nazobčene meje" (kjer je GPT-4 zmožen) so konzultanti z GPT-4 dosegli: 25,1 % hitrejše izvedbo, 40 % višjo kakovost dela (po oceni človeških ocenjevalcev), in 12,2 % več dokončanih nalog. To velja le za naloge znotraj zmožnosti modela — izven nje učinek je nasproten.

Dell'Acqua et al. so opazili, da AI zmogljivosti niso enakomerno razporejene. Znotraj svoje "meje" AI dobro obvlada določene naloge — celo bolje od človeka. Tik zraven, navidezno podobne naloge, lahko AI popolnoma zgreši in povzroči slabše rezultate. Avtorji to opišejo kot "jagged frontier": nazobčeno mejo, ki je za človeka težko zaznavna brez izkušenj. Posledica: knowledge worker, ki ne ve, kje se ta meja končuje, lahko slepo zaupa AI tudi v nalogah, kjer ta dela napake.

Da — pri nalogah izven "jagged frontier"-a so konzultanti z AI dostopom dosegli SLABŠE rezultate kot tisti brez AI. Avtorji so to izrecno izmerili. Razlog: ko AI da napačen odgovor s prepričljivim tonom, konzultanti pogosto blindo sprejmejo njegove navedbe, ne da bi jih kritično preverili. Avtorji to pojavlja imenujejo "unengaged interaction with AI". Ta ugotovitev je verjetno najbolj kontraintuitivna in pomembna lekcija iz študije.

Avtorji so opazili dva vzorca interakcije z AI. (1) "Centaurs" — konzultanti, ki jasno razdelijo delo: nekatere naloge naredijo sami, druge delegirajo AI. (2) "Cyborgs" — konzultanti, ki delajo v stalni interakciji z AI. Obe strategiji sta dosegli izboljšanja, ampak Cyborg model je dosegel višje rezultate pri kreativnih nalogah, Centaur pri analitičnih.

Študija je narejena v specifičnem kontekstu BCG, kar je metodološka omejitev. Vendar se mehanizmi (jagged frontier, blindo sprejemanje AI navedb, Centaur/Cyborg vzorci) verjetno aplicirajo na vse knowledge work poklice: računovodje, pravniki, raziskovalci, marketing strokovnjaki, inženirji. Za slovensko MSP pomeni: vsako uvedbo AI je treba kombinirati z usposabljanjem zaposlenih, KJE AI dobro deluje in kje ne.

Štirje konkretni koraki: (1) Pred uvedbo AI orodja jasno definirajte, KATERE naloge so znotraj njegove "meje" in katere izven. (2) Usposobite zaposlene, da kritično preverjajo AI izhode — slepo zaupanje je glavni razlog za poslabšanje produktivnosti. (3) Vgradite "safe-fail" točke: pri kritičnih nalogah AI pripravi osnutek, končna potrditev je na človeku. (4) Spremljajte rezultate — če se kakovost po uvedbi AI poslabša, je verjetno, da uporabljate AI v nalogah izven njegove meje.

Papir je javno dostopen kot Harvard Business School Working Paper No. 24-013. PDF je na uradni HBS strani. SSRN različica: ssrn.com/abstract=4573321. Sprejet je za objavo v reviji Organization Science. Avtorji so razvili tudi razširjene povzetke za splošno občinstvo na Digital Data Design Institute pri Harvardu (d3.harvard.edu).

Vaše podjetje hoče uvesti AI, brez "frontier" napake?

Pri Pregledu procesov (690 €) najprej testiramo, kateri vaši procesi so znotraj "frontier"-a AI orodij — in kateri so izven. Brez tega koraka je vsaka uvedba ugibanje.

Pišite nam →