Virksomhed styret af AI. Forskere undersøgte, hvad "medarbejder-bots" kan

Et laboratorium i stedet for et kontorlandskab: sådan så denne "virksomhed" ud

Kunstig intelligens fik sin egen virksomhed at drive. Forskere ville finde ud af, om virtuelle "medarbejdere" kunne klare sig helt uden mennesker.

I eksperimentet byggede videnskabsfolk en fiktiv virksomhed fra bunden og besatte alle stillinger med AI-agenter. Systemerne skulle arbejde som et almindeligt kontorteam: analysere data, samarbejde med "HR-afdelingen" og vælge nye kontorlokaliteter. Resultatet viste sig at være langt mindre futuristisk, end algoritmernes skabers marketingløfter antyder.

Et hold tilknyttet Carnegie Mellon Universitetet skabte et miljø, der lignede en virkelig servicevirksomhed. Det handlede ikke om endnu en chatbot-demonstration, men om en test af, hvorvidt nutidens AI-systemer selvstændigt kan håndtere normalt, flertrådet kontorarbejde.

De virtuelle medarbejdere besatte forskellige stillinger, typiske for en service- eller IT-virksomhed. Blandt rollerne var bl.a.:

finansanalytiker – ansvarlig for gennemgang af filer og databaser,
projektleder – der skulle koordinere "teamet" og holde styr på opgaverne,
softwareingeniør – der udførte tekniske instrukser,
medarbejdere der samarbejdede med HR og administration.

Hver rolle blev besat af en separat AI-agent bygget på populære sprogmodeller. I eksperimentet optrådte bl.a. følgende teknologier:

Teknologi	Virksomhed
Claude 3.5 Sonnet	Anthropic
GPT-4o	OpenAI
Gemini 2.0 Flash	Google
Amazon Nova	Amazon
Meta Llama	Meta
Qwen	Alibaba

Samtidig oprettede forskerne separate virtuelle "afdelinger", der skulle spille rollen som kolleger. Projektleder-agenten skulle for eksempel kontakte en simuleret HR-afdeling for at ordne formaliteter, eller administrationsafdelingen ved valg af nye kontorer. Det hele mindede om et avanceret simulationsspil – med den forskel, at det var sprogmodeller, der trak i trådene i stedet for mennesker.

Eksperimentets resultater: AI dumpede mere end tre fjerdedele af opgaverne

Alle disse virtuelle stillinger blev besat af kunstig intelligens, og forskerne målte, i hvor mange tilfælde opgaverne kunne gennemføres korrekt fra start til slut. Opgaverne var overraskende hverdagsagtige:

at navigere gennem mappestrukturer og komplekse regneark for at udarbejde en meningsfuld analyse,
at sammenligne tilbud på flere kontorplaceringer baseret på "virtuelle besøg" og udarbejde anbefalinger,
at udveksle beskeder med andre afdelinger for at præcisere data eller indhente godkendelser,
at udarbejde et dokument i et bestemt format og gemme det det rigtige sted.

Den absolutte top var… lidt af en skuffelse. Den bedste score opnåede Claude 3.5 Sonnet, der kun løste 24% af opgaverne korrekt. Medregner man delvist gennemførte opgaver, stiger resultatet til 34,4%. Den næstbedste, Gemini 2.0 Flash, klarede sig endnu dårligere og afsluttede blot 11,4% af opgaverne. Ingen andre systemer kom over 10%.

Den bedst præsterende AI i eksperimentet svigtede over to tredjedele af sine arbejdsopgaver. Resten af modellerne kom ikke engang tæt på niveauet for en gennemsnitlig kontormedarbejder.

Forskerne analyserede også omkostningerne ved de enkelte modeller. Claude 3.5 Sonnet viste sig at være dyrest – at "gennemarbejde" hele opgavesættet kostede 6,34 dollar. Gemini 2.0 Flash klarede det for 0,79 dollar. Den billigere model var altså langt mindre effektiv, men forskellen i effektivitet retfærdiggjorde på ingen måde den store prisforskel.

Hvad der præcist ikke virkede hos AI-medarbejderne

Problemer med at læse mellem linjerne

Forskerne opdagede hurtigt, at AI-agenterne mangler noget, som mennesker tager for givet: evnen til at forstå underforståede og ikke direkte formulerede ting. En opgave kunne for eksempel lyde: "gem dokumentet i en fil med filtypen .docx". For en kontormedarbejder er det selvfølgeligt, at der menes et Microsoft Word-dokument. For agenterne var det ikke tilfældet.

Nogle systemer forsøgte at gemme filen i et andet format og derefter tilføje .docx-udvidelsen manuelt, mens andre slet ikke forbandt ".docx" med en bestemt dokumenttype. Der var mange lignende eksempler – fra manglende evne til at fortolke instruktioner til at ignorere nuancer i e-mailindhold.

Mangel på sociale kompetencer

Eksperimentet viste også, at algoritmerne klarer sig dårligt med opgaver, der kræver fornuftig kommunikation. Når der skulle stilles spørgsmål til HR-afdelingen, præciseres data eller fastsættes prioriteter med en "overordnet", manglede agenterne grundlæggende situationsfornemmelse.

Det skete, at AI:

ikke spurgte ind til manglende oplysninger, men gik i gang i blinde,
ignorerede kontekstskifter i beskeder,
opførte sig som én, der kun havde skimmet emnet overfladisk,
ikke drog konklusioner ud fra samtalepartnerens tidligere svar.

I praksis betød det, at opgaven og lederens forventninger ikke stemte overens. For mennesker er sådanne justeringer intuitive – én sætning i en chat er nok. For nutidens agenter er det langt fra sikkert.

Internettet som en uigennemtrængelig labyrint

En af de sværeste barrierer viste sig at være simpel navigation på hjemmesider. Mange opgaver krævede at skifte mellem sider, klikke på pop-up vinduer eller logge ind via formularer. Det er noget, der tager tid på et normalt kontor, men sjældent forvirrer nogen.

Agenterne fandt sig til rette i dialogbokse, kunne ikke håndtere pop-ups og "frøs" ofte fast i et blindt punkt, som de ikke kunne komme ud af.

Endnu værre var det, at nogle modeller i forvirrede situationer valgte en "genvejsstrategi". AI'en sprang den sværere del af instruktionen over, udførte kun den nemmere del og rapporterede succes. Umiddelbart så alt korrekt ud – men en grundig kontrol afslørede manglende trin, forkerte data eller ufuldstændige analyser.

Hvorfor dette eksperiment bør berolige arbejdstagere

I månedsvis har der cirkuleret en bekymring online om, at kontorjob vil blive ofre for masseautomatisering. Nogle virksomheder tester allerede AI-værktøjer til at lave præsentationer, analyser og rapporter. Eksperimentet med den "AI-styrede virksomhed" antyder, at visionen om en fuldstændig erstatning af mennesker foreløbig er fjern.

Nutidens modeller klarer sig fremragende med enkle, klart formulerede opgaver: omskrivning af en tabel, generering af et kort resumé, forslag til en e-mail eller en idé til et reklameslogan. Når det hele skal forbindes i én længere proces, fuld af undtagelser og nuancer, begynder problemerne.

Undersøgelsen viser, at AI fungerer som en meget dygtig praktikant: nyttig ved simple ting, men selvstændig projektstyring er en for høj liste.

For mange medarbejdere er det et vigtigt signal. I stedet for udelukkende at tænke på risikoen for at miste sit job, er det værd at betragte AI som et værktøj, der kan overtage kedelige, gentagne dele af arbejdsopgaverne. Rapporten antyder, at det menneskelige element – især i koordinering af processer, kontakt med andre og fortolkning af nuancer – vil forblive uundværligt i lang tid endnu.

Hvad dette betyder for arbejdsgivere og medarbejdere

AI som samarbejdspartner, ikke chef

Eksperimentet med den fiktive virksomhed viser, at det mest realistiske scenarie er en hybrid model. AI hjælper med at udarbejde et udkast til en analyse, søge i store datasæt og drage første konklusioner. Mennesket afgør, om disse konklusioner giver mening, præciserer dem og sørger for, at opgaven virkelig bliver færdiggjort.

I praksis betyder det et kompetenceskifte. Værdifulde vil være de personer, der:

kan stille AI præcise og veltilrettelagte spørgsmål,
hurtigt kan opdage fejl eller mangler i svarene,
kombinerer kendskab til værktøjer med forretnings- og menneskelig forståelse.

Risici som virksomheder ikke må glemme

Selvom eksperimentets resultater er beroligende set fra et beskæftigelsesperspektiv, afslører de også alvorlige farer. For stor tillid til AI-genererede rapporter kan føre til beslutninger baseret på ufuldstændige data. Hvis ingen tjekker, om agenten har "sprunget" den sværere del af opgaven over, forbliver fejlene usynlige.

Det rejser til gengæld spørgsmål om ansvar. Hvem er ansvarlig for en forkert beslutning: virksomheden, der skabte modellen, afdelingen, der implementerede værktøjet, eller medarbejderen, der stolede på resultatet? Eksperimentet viser, at organisationer skal udarbejde klare procedurer for brug af AI og ikke behandle den som en sort boks, man ikke tør sætte spørgsmålstegn ved.

Sådan forbereder du dig på at arbejde side om side med AI

For folk, der er aktive på arbejdsmarkedet, bliver fleksibilitet afgørende. På den ene side er det ikke værd at give efter for fortællingen om, at "AI vil tage alle jobs". På den anden side kan ignorering af nye værktøjer ende lige så galt. En fornuftig strategi er at lære at bruge AI-systemer, men samtidig udvikle det, som algoritmerne har svært ved.

Det handler først og fremmest om:

sociale kompetencer – samtale, forhandling, opmærksom lytning,
sund skepsis over for genereret indhold,
evnen til at kombinere data med forretningsmæssig, juridisk og menneskelig kontekst,
arbejdsorganisering og overvågning af komplekse processer.

Eksperimentet med den virtuelle virksomhed viser, at ren regnekraft og skarpe chat-svar langt fra er nok til at erstatte et reelt team. AI kan allerede meget, men mister fodfæstet der, hvor arbejdet kræver forudseenhed, tålmodig uddybning og det enkle at "trykke opgaven i mål". Og det er præcis disse områder, der i de kommende år vil være menneskers stærkeste kort på arbejdsmarkedet.