사티아 나델라의 분노는 거버넌스가 아니다

In partnership with

Your prompts are leaving out 80% of what you're thinking.

When you type a prompt, you summarize. When you speak one, you explain. Wispr Flow captures your full reasoning — constraints, edge cases, examples, tone — and turns it into clean, structured text you paste into ChatGPT, Claude, or any AI tool. The difference shows up immediately. More context in, fewer follow-ups out.

89% of messages sent with zero edits. Used by teams at OpenAI, Vercel, and Clay. Try Wispr Flow free — works on Mac, Windows, and iPhone.

Start flowing free

지난주, 마이크로소프트의 내부 문건 하나가 새어 나왔습니다. 올해 마이크로소프트 빌드 행사에서 공개된 AI 에이전트 '스카우트(Scout)'의 개발 전략 문서였습니다.

스카우트는 마이크로소프트가 '오토파일럿'이라고 부르는 새로운 종류의 에이전트입니다. 코파일럿처럼 물어보면 답하는 비서가 아니라, 한번 켜 두면 메일과 메시지와 일정을 알아서 처리해 줍니다. 팀즈 계정과 회사 이메일 주소를 따로 받고, 사용자가 일하는 방식을 옆에서 익히고, 지시가 없어도 백그라운드에서 움직입니다. '마이크로소프트 365라는 사무실로 출근하는 디지털 동료'라고 생각해 볼 수도 있을 것 같아요. 빌드 발표 무대에서 마이크로소프트는 이 '새로운 동료'가 조직의 규정과 컴플라이언스를 지키도록 설계됐다고 강조하기도 했습니다.

무대 위에서 회사가 한 말은 그랬는데, 유출된 문건은 같은 제품을 두고 다른 말을 하고 있었습니다. 제품의 로드맵을 "중독적인 앱에서 에이전트 플랫폼으로 가는 3단계 전략"이라고 적었고, 그 1단계 목표가 "사용자를 중독시키기"라고 못박아 놓고 있었거든요.

마이크로소프트의 CEO 사티아 나델라는 즉각 '절대 그건 회사의 목표가 아니고, 그런 생각을 가진 사람이라면 다른 데서 일하는 게 낫겠다'고 반박했고, '화면 사용 시간을 늘리는 게 아니라 사용자에게 시간을 돌려주는 게 목표'라는 공식적인 회사 성명도 나왔습니다. 여기에 언론은 '중독 논란'이라는 이름을 붙였지만, 아마 몇 주 지나면 또 잊혀 가겠죠.

'중독'이라는 단어에 시선이 쏠리는 건 당연합니다. 그런데 그 단어를 한 꺼풀 걷어내면, 더 오래 남는 질문이 그 밑에 있습니다.

분노가 진심이라 하더라도

사티아 나델라의 분노는 진심이었을 겁니다. 본인은 정말 몰랐을 수도 있고, 정말 화났을 수도 있습니다. 문건을 쓴 임원의 입장도 변호할 여지는 있습니다. 업계에서 'addictive(중독적인)'는 그렇게 부정적인 말이 아니잖아요? '한번 잡으면 손에서 못 놓는 제품'이라는 뜻으로 흔히들 쓰는 것 아실테고, 그 임원도 그 정도 가벼운 감각으로 적었을 겁니다.

그런데 저는 그 점이 더 불편합니다. 변명조차 필요 없는 일상어가 되었다는 건, 그게 업계의 기본값이라는 뜻이니까요. 한 사람의 일탈이었다면 차라리 간단했을 텐데요.

단어의 결이 어떻든, 사실 하나는 남습니다. 그 문장이 적힌 전략 문건이 핵심 엔지니어 쉰여 명에게 배포됐고, 최고경영자가 모르는 사이에 회사가 내건 가치와는 전혀 다른 목표가 제품 조직의 실제 노선 위에 올라가 있었던 겁니다. 이게 마이크로소프트만의 일일 리 없습니다. 규모가 일정 수준을 넘은 조직이라면 위에서 말하는 가치와 아래에서 실제로 좇는 지표는 어긋나기 마련이고, 새삼스러운 얘기도 아닙니다. 다른 게 있다면, 이번엔 그런 상황이 '유출'이라는 우연으로 문서로까지 확인됐다는 것이겠죠.

문건이 유출되지 않았다면 우리는 몰랐겠죠. 그 문장은 지금쯤 어딘가에서 조용히 지워지고 있을 겁니다. 하지만 그 문장을 쓰게 만든 인센티브는 그대로 남습니다.

이 장면, 이미 본 적이 있는 장면입니다

이 이야기, 어디서 한 번 들어본 것 같지 않으세요? 2021년, 프랜시스 하우겐이 페이스북 내부 문서를 들고나왔을 때가 그랬습니다. 페이스북에서는 자사의 연구를 통해서 만들어진 제품이 십대에게 해로울 수 있다는 걸 이미 알고 있었으면서도 밖으로는 딴 말을 했죠. 그 뒤의 일어난 일은 우리가 아는 그대로구요. 유출, 해명, 청문회, 분노, 그리고 망각. 그 한 바퀴가 다 돌고 난 뒤에도, '사람들을 붙잡아 두고 싶다'는 동기는 조금도 줄지 않았고, 소셜미디어를 겨눈 제대로 된 규제가 나오기까지는 아주 오랜 시간이 걸렸습니다. 사실 지금도 다 제대로 나왔다고 보기 어렵죠.

그러니 이번에도 이 '분노의 사이클'은 같은 길을 갈 거라 볼 수 있습니다. 그런데 딱 하나가 다르고, 이 글은 그 하나에 관한 겁니다.

소셜미디어의 피드는 '보여주기'만 할 뿐이지만, 에이전트는 '실행'합니다. 소셜미디어의 중독 설계가 아무리 정교해도, 마지막에 클릭하는 건 늘 사람이었습니다. 그래서 "결국 본인이 누른 거잖아"라는 변명이 궁색하게나마 통했죠. 하지만, 상시로 실행되는 에이전트는 사람에게 남겨진 그 마지막 클릭마저 자기 것으로 가져가요. 메일을 대신 보내고, 일정을 대신 잡고, 문서를 대신 씁니다. 사람을 붙잡아 두도록 길들여진 시스템에 실행의 권한까지 쥐여 준 적은, 소셜미디어 시대엔 없었습니다.

화면은 우리를 붙잡아 두기만 했다면, 이제 그 화면에 손이 달린 겁니다.

"시간을 돌려준다"는 해명이 비껴가는 것

마이크로소프트의 해명을 다시 읽어볼 만합니다: "화면 사용 시간을 늘리는 게 아니라 사용자에게 시간을 돌려주는 게 목표다". 좋은 문장이고, 아마 사실일 겁니다. 문제는 이게 반박이 못 된다는 데 있습니다. 에이전트의 중독은 화면 시간으로 잴 수 있는 게 아니거든요.

스카우트가 잘 돌수록 사용자는 화면을 덜 봅니다. 처음엔 결과를 하나하나 확인하던 사람이 몇 주 뒤엔 요약만 훑고, 몇 달 뒤엔 승인 단추를 누르는 손이 빨라집니다. 그러다 어느 순간, 검토했다고 믿지만 실은 안 한 상태가 됩니다. 화면 시간은 줄었습니다. 약속대로 시간을 돌려받은 거죠. 대신 내준 게 있습니다. 들여다보는 습관입니다.

소셜미디어의 중독을 재는 자가 세션 길이였다면, 에이전트의 중독을 재는 자는 검토 없는 승인률입니다. 제안을 안 읽고 수락하는 비율, 사람한테 올라오는 보고가 줄어드는 속도, '전부 승인'이 기본이 되어가는 곡선. 도파민이 아니라 위임이 거는 거지만, 끊기 어렵긴 마찬가지입니다. 오히려 더합니다. 소셜미디어를 끊으면 시간이 생기는데, 에이전트를 끊으면 일이 돌아오니까요.

여기서 간담이 서늘해집니다. '시간을 돌려준다'는 선의의 목표와 '사용자를 중독시킨다'는 유출된 목표가, 에이전트에선 결국 같은 행동으로 수렴하거든요. 사용자가 신경을 끄게 만드는 것. 한쪽은 그걸 '마찰 없는 경험'이라 부르고, 다른 쪽은 '중독'이라 불렀을 뿐입니다. 사티아 나델라, 그리고 이 문건을 쓴 임원은, 어쩌면 같은 제품을 서로 다른 단어로 설명하고 있었던 건지도 모릅니다.

'우리는 기업 고객이니까'라는 생각의 함정

소비자 앱 얘기일 뿐 우리 회사와는 무관하다 — 그렇게 넘기고 싶겠지만, 그 길은 처음부터 막혀 있습니다. 스카우트는 소비자 앱이 아니거든요. 마이크로소프트 365 안으로 들어와서 팀즈 계정과 사내 메일 주소를 받는, 당신의 직장 한복판에 놓이는 제품입니다. '사용자를 중독시키기'가 겨눈 그 사용자가, 바로 직원인 겁니다.

계약서가 지켜주지 않냐고 할 수 있습니다. 맞아요, 기업 계약엔 SLA가 있고, 감사권이 있고, 배상 조항이 있죠. 다만 기업용이라고 벤더가 모델을 따로 만들어주는 건 아닙니다. 사람을 붙잡도록 길들여진 그 모델, 그 학습 방식은 소비자용이든 기업용이든 똑같이 쓰입니다. 계약서는 벤더가 뭘 하겠다는 약속을 바꿀 뿐, 모델에 이미 밴 버릇까지 바꾸지는 못합니다. 게다가 '검토 없는 승인'은 소비자보다 기업에서 더 위험합니다. 신경을 끈 직원의 에이전트가 손대는 게 개인 일정표가 아니라 회사 시스템이고, 고객 데이터고, 돈이 오가는 일이니까요.

튜링 포스트 코리아는 독자들의 응원으로 만들어집니다. 가치있는 컨텐츠를 지속적으로 여러분과
공유할 수 있도록, 커피 한 잔으로 힘을 보태주세요 ☕

‘커피 한 잔’ ☕ 응원하기

도입 전에 한 번 검사하면 된다는 생각

그러면 '들여놓기 전에 한 번 제대로 검사하면 되지 않냐?'고 생각하실 수 있겠지만, 그게 생각만큼 미덥지 않습니다.

지난해 ICLR에 발표된 한 연구(Williams, Carroll 외)는 '좋아요' 같은 사용자 반응을 보상으로 줘서 AI를 학습시키면 무슨 일이 벌어지는지 실험했습니다. AI는 좋은 반응을 더 받으려고, 사용자를 구슬리고 속이는 쪽으로 행동을 바꿔갔습니다. 여기까진 그러려니 합니다. 놀라운 건 그다음입니다. 이렇게 몸에 밴 조작 성향이, 기존의 검사 방식으로는 걸러지지 않았습니다. 막으려고 손을 대자, AI는 더 교묘한 수법을 찾아냈고요.

사람과 AI의 상호작용을 다루는 연구들도 같은 방향을 가리킵니다. 지난해 CHI의 한 연구는 AI 챗봇이 사용자를 붙잡아 두는 방식 네 가지를 추렸는데, 그중 하나가 '공감하고 맞장구쳐 주는 말투'였습니다. 알림이나 화면 설계 같은 겉의 장치만이 아니라, AI가 말하는 방식 그 자체가 사람을 붙드는 장치라는 겁니다. 그리고 말투는 제품 사양서에 적히지 않죠.

통제된 실험이라 곧이곧대로 일반화하긴 조심스럽지만, 방향만큼은 분명합니다. 사람을 붙잡아 두려는 성향이 학습 과정에서 한번 몸에 배고 나면, 출시 전에 아무리 검사해도 그걸 믿을 만큼 걸러내지 못한다는 겁니다. 시험 볼 때만 얌전한 학생인 셈이죠.

한 가지는 솔직히 인정하고 갑니다. 운영 중에 지켜본다고 이 모든 게 잡히는 것도 아닙니다. 비위 맞추는 답변, 사용자를 슬그머니 붙드는 말투 같은 건 '무슨 말을 했느냐'의 문제라, 행동 기록에는 남지 않습니다. 그건 말의 내용을 들여다보는 다른 도구가 맡을 몫입니다. 행동 기록이 잡아내는 건 더 굵직한 층위 — 에이전트가 실제로 뭘 했고, 사람이 그걸 얼마나 들여다봤느냐입니다. 그렇다고 행동 기록이 무력한 건 아니고, 오히려 그 반대입니다. 에이전트의 중독은 결국 '행동'으로 드러나거든요. 사용자가 점점 읽지도 않고 승인 버튼을 누르는 것, 그게 중독의 핵심 증상입니다. 물론 승인이 빨라진다고 다 문제는 아닙니다. 손에 익어서, 혹은 에이전트가 정말 믿을 만해져서 빨라지는 거라면 그건 좋은 신호죠. 검토하고 빠르게 누르는 것과, 안 보고 누르는 것은 다릅니다. 문제는, 이 둘을 가르려면 적어도 기록이 있어야 한다는 겁니다. 사람이 거치는 검토 단계가 언제부터 줄기 시작했는지, 에스컬레이션이 어느 시점부터 사라졌는지, 그 곡선이 남아 있어야 "이거 괜찮은 거 맞나"라고 물어볼 수라도 있습니다. 기록이 없으면, 물어볼 도리조차 없습니다.

"몰랐다"는 변명은 안 통합니다

게다가 규제는 이미 의도를 따지지 않는 쪽으로 와 있습니다. 유럽연합 AI법 제5조는 사람의 행동을 교묘하게 비트는 AI를 금지하는데, 집행위 가이드라인은 그 사례로 "중독적인 보상 설계, 도파민을 자극하는 반복 고리"를 콕 집어 적어두었습니다. 여기서 중요한 건, 이 금지가 '그러려고 했느냐'가 아니라 '그렇게 됐느냐'를 본다는 점입니다. 의도가 없었다는 항변이 통하지 않는다는 뜻이죠. 나델라의 분노가 아무리 진심이어도 달라지지 않습니다.

너무 앞서가진 맙시다. 이 조항이 걸리려면 '중대한 피해'라는 높은 문턱을 넘어야 하고, 유럽과 엮일 일 없는 기업엔 아직 먼 얘기일 수 있습니다. 도입한 회사더러 "우리 에이전트는 멀쩡하다"를 미리 증명하라는 것도 아니고요. 그래도 규제라는 게 실제로 어떻게 작동하는지 떠올려 보면, 결국 질문은 이렇게 옵니다. 일이 터졌을 때, 누군가 따져 물을 때, 내놓을 기록이 있는가. 에이전트를 사다가 직원들 앞에 풀어놓은 건 벤더가 아니라 그 회사이고, 그 질문을 받는 것도 그 회사입니다.

심판이 선수와 같은 편이라면

벤더가 거버넌스 도구도 같이 주지 않냐고요? 줍니다. 사실 스카우트는 이쪽으로 꽤 단단히 무장하고 나왔습니다. 에이전트마다 따로 신원을 부여하고, 어떤 데이터에 손댈 수 있는지 권한을 잘게 쪼개고, 처음엔 '제안만' 하는 모드로 출발해서 보안·법무팀이 승인하기 전엔 제멋대로 움직이지 못하게 막아둡니다. 한 일은 빠짐없이 기록에 남고요. 일이 벌어진 뒤에 들춰보는 게 아니라 벌어지기 전에 거르는, 제법 진지한 설계입니다.

그러니 "빅테크는 사고 난 뒤에나 들여다본다"는 흔한 비판은 이제 절반쯤 빗나가는 셈이지만, 진짜 문제는 다른 데 있습니다.

첫째, 무엇을 기록하고 무엇을 '정상'으로 칠지를 벤더가 정합니다. 벤더가 기록을 조작할 거란 얘기가 아닙니다. 그럴 이유도 없고, 거짓말은 필요하지도 않습니다. 자기한테 불리한 항목을 아예 측정하지 않으면 그만이니까요. 스카우트 문건의 1단계 목표가 사용자 중독이었다면, 그 무렵 대시보드에 큼지막하게 떠 있던 숫자는 일일 사용자 수와 사용 시간이었을 겁니다. 그 숫자들은 단 한 군데도 틀리지 않게 정확했겠죠. 다만 '읽지도 않고 누른 승인이 얼마나 늘었나' 같은 숫자는 거기 없었을 겁니다. 그건 벤더가 자랑하고 싶은 성과와 정반대를 가리키는 숫자니까요. 심판이 점수를 정직하게 매겨도, 규칙을 그 심판이 쓰면 경기는 이미 기울어진 운동장에서 진행되는 거죠.

둘째, 그 거버넌스의 레이어를 누가 쥐고 있느냐의 문제입니다. 실제 회사는 한 군데 제품만 쓰지 않습니다. 마이크로소프트 에이전트 옆에서 사내에서 만든 에이전트, 다른 서비스에 딸려 온 에이전트가 함께 돌아갑니다. 마이크로소프트는 이걸 압니다 — 그래서 Agent 365로 자사 것만이 아니라 외부 에이전트까지 한데 모아 감독하겠다고 나섰죠. 그런데 바로 거기서 같은 질문이 되돌아옵니다. 내 에이전트도, 경쟁사 에이전트도, 그 행동 기록이 전부 한 시장 경쟁자의 인프라를 거쳐 그가 정한 형식으로 쌓인다면 — 심판이 경기장까지 소유한 셈입니다.

그래서 저는 에이전트가 한 일의 기록만큼은 적어도 한 벌, 벤더 손이 닿지 않는 곳에 따로 있어야 한다고 봅니다. 감시받는 쪽이 감시의 규칙까지 정하게 둬선 안 되고, 그 자리는 어느 한 벤더도 대신 채워줄 수 없으니까요. 그걸 어디에 어떻게 세울지, 결국 벤더가 열어준 문으로 드나들어야 한다면 같은 함정에 다시 빠지는 건 아닌지 — 그건 그것대로 만만치 않은 숙제입니다.

스카우트 문건, 우연을 거쳐 유출되었기 때문에 세상에 알려졌죠. 그게 아니라면, SOC 2 보고서로도, ISO 인증서로도, 계약서의 감사 조항으로도 이 문건은 잡히지 않았을 겁니다. 그것들이 보장하는 건 벤더가 절차를 잘 지키느냐지, 벤더가 무엇을 노리느냐가 아니니까요. 그렇다면 새어 나오지 않은 문건들에 대해, 지금 기업들은 대체 무엇을 믿고 자기 에이전트를 쓰고 있는 걸까요.

저는 아직 그 답을 듣지 못했습니다.

이런 문제를 풀고 있는 팀이 궁금하시다면: 임페라이(ImperAI)는 기업이 AI 에이전트를 안전하게 도입하고 그 행동에 책임을 물을 수 있도록, EACP(Enterprise Agent Control Plane) Toren을 만들고 있습니다. (→ imperai.ai 둘러보기)

Turing Post Korea 뉴스레터 가입

*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.

사티아 나델라의 분노는 거버넌스가 아니다

Your prompts are leaving out 80% of what you're thinking.

분노가 진심이라 하더라도

이 장면, 이미 본 적이 있는 장면입니다

"시간을 돌려준다"는 해명이 비껴가는 것

'우리는 기업 고객이니까'라는 생각의 함정

도입 전에 한 번 검사하면 된다는 생각

"몰랐다"는 변명은 안 통합니다

심판이 선수와 같은 편이라면

Reply

Keep Reading

Turing Post Korea

Home

Account