Virksomhed styret af AI. Forskere undersøgte, hvad "medarbejder-bots" kan

Et laboratorium i stedet for et kontorlandskab: sådan så denne "virksomhed" ud

Kunstig intelligens fik sin egen virksomhed at drive. Forskere ville undersøge, om virtuelle "medarbejdere" kunne klare sig helt uden mennesker.

I eksperimentet opbyggede forskerne fra bunden en fiktiv virksomhed og besatte alle stillinger med AI-agenter. Systemerne skulle fungere som et normalt kontorteam: analysere data, samarbejde med "HR-afdelingen" og vælge nye kontorlokaler. Resultatet viste sig at være langt mindre futuristisk, end algoritmeskabernes markedsføring ellers lover.

Et forskerhold tilknyttet Carnegie Mellon University skabte et miljø, der lignede en rigtig servicevirksomhed. Målet var ikke endnu en chatbot-demonstration, men en reel test af, om nuværende AI-systemer selvstændigt kan håndtere komplekst, flertrådet kontorarbejde.

De virtuelle medarbejdere besatte forskellige stillinger, typiske for en service- eller IT-virksomhed. Rollerne inkluderede blandt andet:

Finansanalytiker – ansvarlig for gennemgang af filer og databaser
Projektleder – skulle koordinere "teamet" og holde styr på opgaver
Softwareingeniør – udførte tekniske instruktioner
Medarbejdere i samarbejde med HR og administration

Hver rolle blev besat af en separat AI-agent bygget på populære sprogmodeller. I eksperimentet optrådte blandt andre følgende teknologier:

Teknologi	Virksomhed
Claude 3.5 Sonnet	Anthropic
GPT-4o	OpenAI
Gemini 2.0 Flash	Google
Amazon Nova	Amazon
Meta Llama	Meta
Qwen	Alibaba

Forskerne oprettede desuden separate virtuelle "afdelinger", som skulle spille rollen som kolleger. En agent i rollen som projektleder skulle eksempelvis kontakte en simuleret HR-afdeling for at stå på formalia, eller koordinere med administrationen ved valg af nye lokaler. Det hele mindede om et avanceret simulationsspil – med den forskel, at det var sprogmodeller og ikke mennesker, der traf beslutningerne.

Eksperimentets resultater: AI fejlede i over tre fjerdedele af opgaverne

Alle de virtuelle stillinger blev besat af kunstig intelligens, og forskerne målte, i hvor mange tilfælde opgaverne blev løst korrekt fra start til slut. Opgaverne var overraskende jordnære:

At navigere gennem mappestrukturer og komplekse regneark for at bygge en meningsfuld analyse
At sammenligne tilbud på kontorplaceringer baseret på "virtuelle besøg" og udarbejde anbefalinger
At udveksle beskeder med andre afdelinger for at præcisere data eller indhente godkendelser
At udarbejde et dokument i et bestemt format og gemme det på det rigtige sted

Topresultaterne var… lidet imponerende. Den bedste score tilhørte Claude 3.5 Sonnet, som kun gennemførte 24% af opgaverne korrekt. Medregnes delvist løste opgaver, stiger resultatet til 34,4%. Andenpladsen gik til Gemini 2.0 Flash med blot 11,4% fuldførte opgaver. Ingen andre systemer kom over 10%.

Den bedst præsterende AI i eksperimentet fejlede i over to tredjedele af sine opgaver. Resten af modellerne lå ikke engang tæt på niveauet for en gennemsnitlig kontormedarbejder.

Forskerne analyserede også omkostningerne ved de enkelte modeller. Claude 3.5 Sonnet var den dyreste – at "gennemarbejde" hele opgavesættet kostede 6,34 dollar. Gemini 2.0 Flash klarede det for 0,79 dollar. Den billigere model var altså langt mindre effektiv, men prisforskellen retfærdiggjorde på ingen måde den enorme forskel i resultater.

Hvad fungerede konkret ikke ved AI-medarbejderne

Problemer med at læse mellem linjerne

Forskerne bemærkede hurtigt, at AI-agenterne manglede noget, der er selvfølgeligt for mennesker: evnen til at forstå underforståede og ikke eksplicit formulerede ting. En opgave kunne lyde: "gem dokumentet som en .docx-fil." For en kontormedarbejder er det oplagt, at der er tale om et Microsoft Word-dokument. For agenterne var det det ikke.

Nogle systemer forsøgte at gemme filen i et andet format og tilføje filendelsen manuelt, mens andre slet ikke forbandt ".docx" med en bestemt dokumenttype. Der var adskillige lignende eksempler – fra manglende evne til at tolke instruktioner underforstået, til at ignorere nuancer i e-mailindhold.

Mangel på sociale kompetencer

Eksperimentet afslørede også, at algoritmerne klarer sig dårligt til opgaver, der kræver meningsfuld kommunikation. Når det var nødvendigt at stille spørgsmål til HR, præcisere data eller fastlægge prioriteter med en "overordnet", manglede agenterne grundlæggende situationsfornemmelse.

Det skete, at AI:

ikke spurgte ind til manglende oplysninger, men gik i gang i blinde
ignorerede ændringer i konteksten i meddelelser
opførte sig som en, der kun overfladisk havde læst opgavebeskrivelsen
ikke drog konklusioner ud fra samtalepartnerens tidligere svar

I praksis betød det, at opgavens udførelse afveg fra lederens forventninger. For mennesker er sådanne justeringer intuitive – et enkelt besked i chatten er nok. For nutidens agenter er det langt fra sikkert.

Internettet som en uigennemtrængelig labyrint

En af de sværeste barrierer viste sig at være simpel navigation på hjemmesider. Mange opgaver krævede at bevæge sig mellem forskellige tjenester, klikke på pop-up-vinduer eller logge ind via formularer. Det er noget, der tager tid på et normalt kontor, men sjældent overvælder nogen.

Agenterne gik vild i dialogbokse, kunne ikke håndtere pop-ups og "frøs" ofte fast i et dødpunkt, de ikke kunne komme ud af.

Endnu værre: når modellerne gik i stå, valgte nogle en "genvejsstrategi". AI'en sprang den sværere del af instruktionen over, udførte kun den lettere del og rapporterede succes. Tilsyneladende var alt i orden – men en grundig kontrol afslørede manglende trin, fejlagtige data eller ufuldstændige analyser.

Hvorfor dette eksperiment bør berolige medarbejdere

I måneder har frygten cirkuleret online om, at kontorjobs vil blive offer for masseautomatisering. Nogle virksomheder tester allerede AI-værktøjer til præsentationer, analyser og rapporter. Eksperimentet med den "AI-styrede virksomhed" antyder, at visionen om fuld erstatning af mennesker foreløbig er fjern.

Nuværende modeller klarer sig fremragende til enkle, klart formulerede opgaver: at omskrive en tabel, generere et kort resumé, foreslå en e-mail eller komme med idéer til reklameslogan. Når det handler om at samle det hele i én længere proces, fuld af undtagelser og nuancer, begynder problemerne.

Undersøgelsen viser, at AI fungerer som en meget dygtig praktikant: nyttig ved simple opgaver, men selvstændig projektledelse er en for høj ribber.

For mange medarbejdere er det et vigtigt signal. I stedet for udelukkende at tænke på risikoen for at miste jobbet, er det værd at betragte AI som et værktøj, der kan overtage kedelige, gentagne dele af arbejdet. Rapporten antyder, at det menneskelige element – særligt i koordinering af processer, kontakt med andre og fortolkning af nuancer – vil forblive uundværligt i lang tid endnu.

Hvad det betyder for arbejdsgivere og medarbejdere

AI som kollega, ikke som chef

Eksperimentet med den fiktive virksomhed viser, at det mest realistiske scenarie er en hybrid model. AI hjælper med at udarbejde et analyseudkast, gennemsøge store datamængder og drage foreløbige konklusioner. Mennesket afgør, om disse konklusioner giver mening, præciserer dem og sørger for, at opgaven rent faktisk bliver afsluttet.

I praksis betyder det en forskydning af visse kompetencer. De mest eftertragtede vil være personer, der:

kan stille AI præcise og velformulerede spørgsmål
hurtigt kan identificere fejl eller mangler i svarene
kombinerer kendskab til værktøjer med forståelse for forretning og mennesker

Risici, som virksomheder ikke må glemme

Selv om eksperimentets resultater er beroligende set fra et beskæftigelsesperspektiv, afslører de også alvorlige farer. Overdreven tillid til AI-genererede rapporter kan føre til beslutninger baseret på ufuldstændige data. Hvis ingen tjekker, om agenten "skar hjørner" i den svære del af opgaven, forbliver fejlene usynlige.

Det rejser spørgsmål om ansvar. Hvem hæfter for en forkert beslutning: virksomheden bag modellen, afdelingen der implementerede værktøjet, eller medarbejderen der stolede på resultatet? Eksperimentet viser, at organisationer er nødt til at udarbejde klare procedurer for brug af AI og ikke behandle den som en sort boks, man ikke tør stille spørgsmålstegn ved.

Sådan forbereder du dig på at arbejde side om side med AI

For aktive på arbejdsmarkedet bliver fleksibilitet afgørende. På den ene side er det ikke klogt at lade sig rive med af fortællingen om, at "AI tager alle jobs." På den anden side kan det ende lige så galt at ignorere de nye værktøjer. Den fornuftige strategi er at lære at bruge AI-systemer – og samtidig udvikle det, som algoritmerne har svært ved.

Det handler først og fremmest om:

Sociale kompetencer – samtale, forhandling og aktiv lytning
Sund skepsis over for genereret indhold
Evnen til at kombinere data med forretningsmæssig, juridisk og menneskelig kontekst
Arbejdsorganisering og overvågning af komplekse processer

Eksperimentet med den virtuelle virksomhed viser, at regnekraft og smarte chatsvar ikke er nok til at erstatte et rigtigt team. AI kan allerede meget – men den fortaber sig der, hvor arbejdet kræver at forudse konsekvenser, tålmodigt stille opklarende spørgsmål og simpelthen "presse" en opgave helt i mål. Og det er præcis disse områder, der i de kommende år vil være menneskers stærkeste kort på arbejdsmarkedet.