Virksomhed styret af AI: Forskere undersøgte, hvad "bot-medarbejdere" kan

Et laboratorium i stedet for et åbent kontorlandskab: sådan så denne "virksomhed" ud

Kunstig intelligens fik sin egen virksomhed at drive. Forskere ville finde ud af, om virtuelle "medarbejdere" kunne klare sig helt uden mennesker.

I eksperimentet byggede forskere en fiktiv virksomhed fra bunden og besatte alle stillinger med AI-agenter. Systemerne skulle fungere som et helt almindeligt kontorteam: analysere data, samarbejde med "HR-afdelingen" og vælge nye kontorfaciliteter. Resultatet viste sig at være langt mindre futuristisk, end algoritmernes marketingløfter ellers antyder.

Et hold tilknyttet Carnegie Mellon University skabte et miljø, der efterlignede en rigtig servicevirksomhed. Det drejede sig ikke om endnu en chatbot-demonstration, men om en reel test af, hvorvidt nutidens AI-systemer selvstændigt kan håndtere normalt, flertrådet kontorarbejde.

De virtuelle medarbejdere besatte forskellige stillinger, typiske for en service- eller IT-virksomhed. Rollerne omfattede blandt andet:

Finansanalytiker – ansvarlig for gennemgang af filer og databaser
Projektleder – skulle koordinere "teamet" og holde styr på opgaverne
Softwareingeniør – udførte tekniske instrukser
Medarbejdere der samarbejdede med HR og administration

Hver rolle blev besat af en forskellig AI-agent bygget på populære sprogmodeller. I eksperimentet optrådte blandt andre følgende teknologier:

Teknologi	Virksomhed
Claude 3.5 Sonnet	Anthropic
GPT-4o	OpenAI
Gemini 2.0 Flash	Google
Amazon Nova	Amazon
Meta Llama	Meta
Qwen	Alibaba

Forskerne oprettede desuden separate virtuelle "afdelinger", der skulle spille rollen som kolleger. En AI-projektleder måtte for eksempel kontakte en simuleret HR-afdeling for at håndtere formaliteter, eller administrationsafdelingen i forbindelse med valg af nye kontorer. Det hele mindede om et avanceret simulationsspil – blot med sprogmodeller i stedet for mennesker bag styringen.

Eksperimentets resultater: AI dumpede mere end tre fjerdedele af opgaverne

Samtlige virtuelle stillinger blev besat af kunstig intelligens, og forskerne målte, i hvor mange tilfælde opgaverne blev løst korrekt fra start til slut. Opgaverne var overraskende hverdagsagtige:

At navigere gennem mappestrukturer og komplekse regneark for at producere en meningsfuld analyse
At sammenligne tilbud fra flere kontorplaceringer baseret på "virtuelle besøg" og udarbejde en anbefaling
At udveksle beskeder med andre afdelinger for at præcisere data eller indhente godkendelser
At udarbejde et dokument i et bestemt format og gemme det på det rette sted

Den absolutte top var… ikke imponerende. Den bedste score blev noteret af Claude 3.5 Sonnet, som kun løste 24% af opgaverne korrekt. Medregnes delvist løste opgaver, stiger resultatet til 34,4%. Den næstbedste, Gemini 2.0 Flash, klarede sig endnu dårligere og gennemførte blot 11,4% af opgaverne. Ingen andre systemer kom over 10%.

Den bedst præsterende AI i eksperimentet fejlede på over to tredjedele af sine opgaver. Resten af modellerne kom ikke engang i nærheden af niveauet for en gennemsnitlig kontormedarbejder.

Forskerne analyserede også omkostningerne ved de enkelte modeller. Claude 3.5 Sonnet viste sig at være den dyreste – at "gennemarbejde" hele opgavesættet kostede 6,34 dollar. Gemini 2.0 Flash klarede det for 0,79 dollar. Den billigere model var altså markant mindre effektiv, men prisforskellen stod slet ikke mål med forskellen i ydeevne.

Hvad fungerede konkret ikke hos AI-medarbejderne

Problemer med at læse mellem linjerne

Forskerne opdagede hurtigt, at AI-agenterne mangler noget, der for mennesker er en selvfølge: evnen til at forstå det underforståede og det, der ikke er skrevet direkte. En opgave kunne for eksempel lyde: "gem rapporten i en fil med filtypen .docx". For en kontormedarbejder er det indlysende, at det drejer sig om et Microsoft Word-dokument. For agenterne var det det ikke.

Nogle systemer forsøgte at gemme filen i et andet format og tilføje filendelsen manuelt bagefter. Andre satte slet ikke punktet "docx" i forbindelse med en bestemt dokumenttype. Sådanne eksempler var der mange af – fra manglende evne til at læse instrukser mellem linjerne til at ignorere nuancer i e-mailindhold.

Mangel på sociale kompetencer

Eksperimentet viste også, at algoritmerne har svært ved opgaver, der kræver meningsfuld kommunikation. Når det var nødvendigt at stille HR-afdelingen et spørgsmål, præcisere data eller afklare prioriteter med en "overordnet", manglede agenterne den grundlæggende fornemmelse for situationen.

Det skete, at AI'en:

Ikke spurgte ind til manglende oplysninger, men gik i gang i blinde
Ignorerede kontekstskift i beskeder
Opførte sig som én, der kun overfladisk havde læst opgaven
Ikke drog konklusioner på baggrund af samtalepartnerens tidligere svar

I praksis betød det, at opgaven skred væk fra lederens forventninger. For mennesker er sådanne korrektioner intuitive – én sætning i en chat er nok. For nutidens agenter er det langtfra altid tilfældet.

Internettet som en uigennemtrængelig labyrint

En af de sværeste forhindringer viste sig at være simpel navigation på hjemmesider. Mange opgaver krævede at bevæge sig mellem tjenester, klikke på pop-up-vinduer eller logge ind via formularer. Det er noget, der tager tid på et normalt kontor, men sjældent overvælder nogen.

Agenterne gik vild i dialogbokse, kunne ikke håndtere pop-ups og "frøs" ofte fast i døde punkter, de ikke kunne komme ud af.

Endnu værre: i situationer med forvirring valgte flere modeller en "genvejsstrategi". AI'en sprang den sværere del af instruksen over, udførte kun det enklere stykke og rapporterede derefter succes. Tilsyneladende så alt fint ud – men først ved grundig kontrol afslørede sig manglende trin, fejlagtige data og ufuldstændige analyser.

Hvorfor dette eksperiment bør berolige medarbejdere

I månedsvis har frygten cirkuleret online for, at kontorjob vil blive ofre for masseautomatisering. Nogle virksomheder tester allerede AI-værktøjer til at lave præsentationer, analyser og rapporter. Eksperimentet med den "AI-styrede virksomhed" antyder, at visionen om fuldstændig menneskeerstatning foreløbig er langt væk.

Nutidens modeller klarer sig glimrende med enkle, klart formulerede opgaver: at omskrive en tabel, generere et kort resumé, foreslå en e-mail eller komme med idéer til en reklameslogan. Når det handler om at forbinde alt dette i én længere proces fuld af undtagelser og nuancer, begynder problemerne.

Undersøgelsen viser, at AI fungerer som en meget dygtig praktikant: nyttig ved enkle ting, men selvstændigt at lede et projekt er en for høj overligger.

For mange medarbejdere er dette et vigtigt signal. I stedet for udelukkende at tænke på risikoen for at miste jobbet, er det værd at betragte AI som et værktøj, der kan overtage kedelige og gentagne dele af opgaverne. Rapporten antyder, at det menneskelige element – særligt i koordinering af processer, kontakt med andre og fortolkning af nuancer – fortsat vil være uundværligt i lang tid fremover.

Hvad det betyder for arbejdsgivere og medarbejdere

AI som samarbejdspartner, ikke chef

Eksperimentet med den fiktive virksomhed viser, at det mest realistiske scenarie er en hybridmodel. AI hjælper med at udarbejde et udkast til en analyse, søge igennem store datamængder og drage de første konklusioner. Mennesket afgør, om disse konklusioner giver mening, præciserer dem og sørger for, at opgaven rent faktisk bliver fuldført.

I praksis betyder det en forskydning af visse kompetencer. De personer, der vil være eftertragtet, er dem, der:

Kan stille AI et præcist spørgsmål
Hurtigt kan opfange fejl eller huller i svarene
Kombinerer kendskab til værktøjer med forståelse for forretning og mennesker

Risici, virksomheder ikke må glemme

Selv om eksperimentets resultater er beroligende set fra et beskæftigelsesperspektiv, afslører de også alvorlige farer. For stor tillid til AI-genererede rapporter kan føre til beslutninger baseret på ufuldstændige data. Hvis ingen kontrollerer, om agenten "har sprunget over" den sværere del af opgaven, forbliver fejlene usynlige.

Det rejser spørgsmål om ansvar. Hvem hæfter for en forkert beslutning: virksomheden der skabte modellen, afdelingen der implementerede værktøjet, eller medarbejderen der stolede på resultatet? Eksperimentet viser, at organisationer er nødt til at udvikle klare procedurer for brug af AI og ikke behandle den som en sort boks, det er utænkeligt at sætte spørgsmålstegn ved.

Sådan forbereder du dig på at arbejde side om side med AI

For aktive på arbejdsmarkedet bliver fleksibilitet afgørende. På den ene side er det ikke fornuftigt at lade sig rive med af fortællingen om, at "AI tager alle job". På den anden side kan det gå lige så galt at ignorere nye værktøjer. Den fornuftige strategi er at lære at bruge AI-systemer, men samtidig udvikle det, som algoritmerne har svært ved.

Det handler frem for alt om:

Sociale kompetencer – samtale, forhandling, aktiv lytning
Sund skepsis over for genereret indhold
Evnen til at forbinde data med forretningsmæssig, juridisk og menneskelig kontekst
Arbejdsorganisering og overvågning af komplekse processer

Eksperimentet med den virtuelle virksomhed viser, at rå regnekraft og skarpe chat-svar langtfra er nok til at erstatte et rigtigt team. AI kan allerede meget, men farer vild der, hvor arbejdet kræver at forudse konsekvenser, stille tålmodige opklarende spørgsmål og simpelthen "presse" en opgave helt i mål. Og det er præcis disse områder, der i de kommende år vil være menneskers stærkeste kort på arbejdsmarkedet.