토큰은 AI 모델이 처리하는 데이터 단위를 뜻합니다.
2026년 2월 현재에도 토큰 사용량, 토큰 수요, 토큰 비용에 대한 문제들은 '여전히' 과소평가 되고 있는 것 같습니다. 거의 1년째 이런 얘기를 하는 것 같습니다만 한 번 짚고 넘어가보겠습니다. 비슷한 질문을 계속 받게 되서요.
고성능 AI API 모델의 출력 토큰은 너무 비쌉니다.
최근 Agentic work에 입문하신 분들은 ‘AI 토큰은 너무 저렴해, 이걸로 얼마나 많은 대단한 일을 할 수 있는데’ 같은 말씀을 많이 하십니다.
아주 이해가 안 가는 바는 아니지만 대부분 개인 사용자 선의 담론인 것 같습니다.
효용대비 비싸다는 것이 아닙니다. 개발자를 고용하던 것을 생각하면 AI가 해주는 코딩은 너무 저렴해 보이죠. AI 모델 출력을 이용해서 이전보다 훨씬 많은 문제들을 해결할 수 있게 되었으니, '고작 $100 들여서 ~~를 만들었다'같은 스토리에서는 언뜻 저렴해보일 수도 있겠죠.
하지만 엔터프라이즈 레벨에서는 잘 살펴봐야 합니다.

제가 사랑하는 클로드이지만 출력 1M에 $25는 너무 비싸죠. 솔직히 반값인 Gemini와 GPT의 $12, $14도 비싸보입니다.
보통 출력 토큰은 1M(백만) 단위로 과금됩니다. 그렇다면 1M이 어느 정도인가?
아주 쉽게 뉴스기사 1,000건을 작성할 수 있을 정도라고 생각하시면 됩니다.
어찌보면 엄청나게 많아 보입니다. 하지만 AI 모델이 ‘생각’을 하기 시작하면 보통 더 많은 토큰이 소모됩니다. 실제로 대부분의 모델은 텍스트 생성 이상의 작업에서 스스로 독백하는 시간을 거쳐 결과물을 냅니다. 그래서 PPT 슬라이드 1장을 만들려면, 뉴스기사 3~4건의 연산량이 소모됩니다.
그럼 이제 Claude 프론티어 모델 기준으로, 뉴스기사 1,000건에 $25 혹은 PPT 슬라이드 300장에 $25 이런 식으로 생각하시면 됩니다. 저렴해보이시나요?
첫째로, 그 필수성에 대비해서 비쌉니다. 수많은 소프트웨어에 AI 기능이 정착할 것으로 고려하면 그 필수성에 대비해서 비싼 것이지요.
지금 AI 모델 토큰 사용은 ‘낮은 진입 비용 대비 비싼 유지 비용’의 구조를 갖고 있습니다. 이것이 종량제죠. 통신과 클라우드 인프라가 스케일 대비 낮은 유지비를 갖고 있는 것과는 다릅니다.
대부분의 SaaS는 AI 토큰을 ‘사와서’ 기존의 서비스에 적용해야하기에 비용 구조가 나빠질 수 밖에 없습니다. 비싼 종량제로 인해 매출의 대부분을 OpenAI나 Anthropic에 갖다 바쳐야 되는 구조가 되는 것이지요.
사용자당 월 $20씩 받는 구독형 SaaS는 ‘사용자가 체감할 수 있는 수준’의 지능적 요소를 구현하려면 최소 월 $3~4는 모델사에 지불해야 하는 것이 현실입니다. 셈법은 정교하지 않지만 이해를 돕기 위해 오류를 무릎쓰고 단순화시켜서 설명해보자면 그렇습니다. 수많은 SaaS가 AI 기능에 대해서만큼은 ‘크레딧’으로 제한을 두는 데에는 이유가 있습니다.
그렇기 때문에 SaaS 기업의 주가 하락은 장단기 리스크를 모두 반영합니다. 장기적으로는 그들이 AI에 대체될 위험을 반영하고, 단기적으로도 악화된 영업 이익을 반영하는 것이지요. 반대로 AI 기능을 도입하지 않으면 시장에서 퇴출되니, AI 토큰을 사오지 않을 요량도 없습니다.
둘째로, 수요 과잉과 공급 부족을 대변하고 있을 정도로 비쌉니다.
2025년 12월 Gemini는 3 pro 출시에 맞춰 토큰 가격을 인상했습니다. 중국계 모델의 선두주자인 GLM api도 2026년 2월 기준 토큰 가격을 인상했습니다. 그런데 GLM은 ‘가격을 올렸는데도’ 사용자 폭증으로 장애를 겪었고, 3월 결국 지푸AI CEO가 컴퓨팅 자원 부족을 인정했습니다.
아직 시장 점유율 경쟁을 해야하는 수많은 기업들이 가격을 인상한다는 것은 다른 앱이나 SaaS의 현대사를 보면 이례적인 현상입니다.
'이제 고객들이 앵커링 되었으니 수익을 내자'가 아니라, 자세한 내막은 알 수 없지만 '이 정도라도 올려서 받지 않으면 파산하겠다'는 종류의 판단에서 나온 가격 인상일 겁니다.
데이터센터가 토큰을 제공하기 위해선 ‘전력’과 더불어 여러 인프라가 필요하지만 여전히 가장 높은 비용의 축은 GPU입니다.
2024년 초반부터, 엔비디아 주가나 GPU 수요 전망에 대한 질문을 농담 아니고 백번 보다는 넘게 받은 것 같습니다. 그때마다 제가 했던 대답은 이랬습니다.
‘GPU 공급이 수요를 초과하게 되었을 때에 클라우드 제공자는 반드시 GPU 대여를 할인하게 된다. 운영비와 감가상각을 고려하면 할인을 해서라도 GPU 자원을 파는 것이 이득이기 때문이다. 할인이 시작되면 알려드리겠다’ 였습니다.
그런데 놀랍게도 2026년 초반까지 2년 동안 그런 일이 한 번도 일어나지 않았습니다.
이 얘기를 제가 왜 하고 있을까요? 누군가 비싸다고 느끼는 것은, 누군가 마진을 먹고 있다는 얘기입니다.
이 모든 밸류체인의 뒷단에서 GPU와 HBM의 제조사 같은 곳들이 제조업치고는 폭리에 해당하는 영업 이익을 누리고 있다는 점이 작용하고 있겠지만, 그렇기에 더욱 AI 모델 토큰 가격이 저렴하거나 합리적으로 보이는 착각 혹은 착시에서 벗어나야 합니다.
모델 API 제공사들이 성능이 상향평준화된 상태에서 가격으로 경쟁하기 시작하면 다시 가격이 떨어질 수 있겠죠. 그래서 실제로 "1/10 가격이기 때문에" Claude 대신 Deepseek 도입을 고려했던 기업도 있었습니다.
하지만 문제는 거시적 관점에서 향후 2~3년 간은 이 토큰 수요 공급 불균형 문제가 해결될 기미가 보이지 않는다는 것이지요.
(오늘의 주제는 아니지만 중국 모델들은 미국 모델 대비 1/4~1/10까지 저렴합니다. 중국 모델의 제공 비용이 저렴한 것에는 복합적 이유가 있지만 원가 차이가 큽니다. 심지어 중국은 전기 공급도 미국보다 1/3 수준으로 저렴하죠)
Claude의 더 비싼 간접 요금제, Fast mode가 출시되었습니다. 저는 고속 요금제가 아니라 새치기 요금제라고 불러보겠습니다.
2026년 2월, Claude가 2.5배 빠른 속도의 API를 6배 비싼 가격에 제공하기로 한 비즈니스적 결정은 굉장히 많은 것을 시사합니다. 노동 집약적 시대에도, 소프트웨어의 시대에도, 인간은 '시간을 단축'시킬 수 있는 것에 쉽게 돈을 냅니다.
심지어 이 '지능'의 활용은 거의 무한하게 병렬화시킬 수 있습니다. 그렇기에 소프트웨어 엔지니어링과 컴퓨팅을 통한 데이터 처리에서는, 좋은 설계가 있다면 토큰과 함께 작업 시간을 1/100, 혹은 1/1000로 단축하는 것도 가능해집니다.
물론 여기에 "AI 기능은 부가적인 것이고 말 그대로 부가가치를 내기 위한 것이지, 전기와 통신에 비유한 것은 과도하다"라고 말씀하신다면, 그저 저와 근본적으로 세계관이 다른 것이기 때문에 굳이 접점을 찾으실 필요는 없습니다.
저는 Claude의 새치기 요금제가 굉장히 미국적인 것이라는 생각이 들었습니다. 어렸을 때에 미국 여행을 처음 갔을 때에 디즈니랜드의 어트랙션 입장이나, 라스베가스의 뷔페 입장에서 돈을 더 내면 줄을 서지 않고 새치기를 할 수 있다는 것에 약간 컬쳐 쇼크를 받았었거든요.
2.5배 빠른 속도에 6배 가격을 내는 새치기를 실제로 구매하는 주체들이 있다는 것, 이것이 시장의 니즈이기도 합니다. 이미 Claude는 제일 비싼데, 더 비싸게 팔아도 팔리는 단계가 있는 것이지요.
"그래서 '비싸다'는 얘기가 맞다고 치면 어쩔건대"라고 하시면,
자연스럽게 여기에서 유추될 수 있는 기업의 대응과 적응이 있으리라 생각합니다.
제일 먼저, 첫째로 AI 토큰을 사용하는 주체에게 새로운 비용 관리와 원가 회계 매트릭스가 필요할 것입니다. 단순한 사용량이 아니라, 지능 수준, 속도, 사용 총량, 그리고 그에 맞는 가격을 효율화하고 최적화할 수 있는 기업에게만 마진이 허용될 겁니다.
저희 팀도 자체 개발한 서비스에 비용 효율화를 위해 CTO가 별도의 '모델 라우터'를 만들게 되었지만, 이렇게 사용 끝단에 있는 작은 지점에서부터, 여러 측면에서 비용을 효율화하고 과정을 최적화 해야 AI 전환의 ROI가 나올겁니다.
둘째로 데이터 센터 인프라에 관한 산업은 세계 각지에서 최소 1-2년은 계속해서 호황일 것입니다. 물론 앤트로픽 CEO 아모데이가 말한 것처럼 AI 토큰 공급사라고 하여 무작정 데이터 센터를 늘리는 것에도 큰 리스크가 있습니다. 이건 앤트로픽이든 SK하이닉스든 무조건 당장 CAPEX 투자를 늘리지 않는 관점을 이해할 필요는 있습니다. 너무 적게 투자하면 고객과 매출을 잃는 정도이지만, 너무 많이 투자했다가 수요 예측에 실패하면 파산 위험을 맞이할 수도 있을 정도로 큰 투자를 해야하니까요.
그러니 거시적으로는 인류가 처한 컴퓨팅 파워 부족에 대한 크고 작은 새로운 산업이 탄생하고, 연구와 발명이 이루어질 겁니다. 조금 과장하자면 이제 한동안 Capacity의 시대입니다.
'AI 모델의 출력 토큰이 너무 비싸다'는 생각을 해보지 않으면, 이 모든 것이 잘 보이지 않습니다,
토큰 가격이 저렴해지는 시나리오는 몇 가지가 있습니다. 단순히 공급이 수요를 넘어서며 가격 인하 경쟁이 일어나거나, 혹은 모든 API 모델이 상향 평준화된 상태에서 공급자들이 가격 경쟁을 해야합니다. 혹은 실제 원가가 낮아져야 합니다. 2026년 상반기 현재에는 어느 쪽도 기미가 보이지 않습니다.
엔비디아의 영업이익이 60%에 육박하는데, 제조업에서 영업이익 60%가 말이 되는 얘기라고 생각하십니까? 저는 말도 안 되는 얘기라고 생각합니다.
그러니 엔비디아의 영업이익을 좀 말이 되게 이해를 해보기 위해, 엔비디아는 팹리스이기도 하고 독점력이 소프트웨어에서도 나오기 때문에, 제조업이 아니라 컴퓨팅 인프라 기업이라고 이해해보는 것일 뿐이지요. 수많은 기업이 엔비디아 GPU 대체에 목숨을 거는 것은 당연합니다,
온프레미스에 대한 견해나 질문은 우선 패스하도록 하겠습니다, 온프레미스는 구축, 관리, 유지와 그에 들어가는 인력의 총 비용을 고려하고 특히 '성능'을 함수에 넣으면, 2026년 2월 현재로는 무슨 짓을 해도, 대부분의 기업 입장에서는 아무리 비싸도 온프레미스로 자체 모델 돌리는 것보다 API 모델 토큰값을 내는 것이 1~2년 계획에서는 저렴합니다.
오류와 오해를 감안하고 단순화시켜서 예를 들자면, 5억짜리 GPU 서버 구매해서 오픈 소스 모델 튜닝해서 돌려도 Agent가 100시간 돌아서 해결 못하는 엔지니어링 문제를 Claude Opus 4.6으로 $200에 1시간에 해결할 수 있을 정도입니다. 온프레미스는 대부분은 규제 때문에 법을 준수해야하는 기업들의 선택지일 것이라 생각합니다. 설치형 모델의 효용은 지금보다 두 세대 정도 모델이 더 발전하면 미래는 바뀔 수 있지만 2026년 상반기 현재는 아닙니다.
마지막으로, 한 번 더 착시 점검하기.
'아니 서대표, 그래도 모델들이 지능은 높아지고 토큰 값은 그대로이거나 오히려 내려갔으니, 지능 대비 저렴해지고 있는 방향성인 것 아냐?'라고 하는 분들도 있습니다. 아주 틀린 얘기는 아닙니다.
하지만 전 세계적 토큰 수요를 함께 봐야합니다. 그 착시에 대해 마지막으로 한 번만 더 설명 드리자면 이렇게 비유로 설명할 수 있을 것 같습니다. 비싸다고 생각해야 절약과 효율화를 생각할 수 있기 때문이죠. 저렴하다고 생각하면 그 모든 것이 보이지 않으니까요.

는 아래 글을 그대로 주고 제미나이가 그림을 그려줬습니다
"125cc 이륜 바이크는 50kg 하중을 싣고 리터당 50km 미터를 가는데, 어차피 토크가 약해서 산업용으로 쓸 수 없었습니다. 한 번에 운송할 수 있는 물건의 크기도 극히 한정적이고요.
그런데 이제 인류가 덤프 트럭을 발명했습니다, 50kg의 50배인 25톤을 한 번에 실을 수 있게 되었고 대신 리터당 연비가 2.5km 정도입니다.
기기 단위로 보면 연비가 1/20이지만, 같은 연료를 써서 실을 수 있는 하중이 125cc 바이크가 나눠서 실을 수 있는 것 대비 덤프 트럭이 50배가 되었습니다.
그러면 연료를 써서 실을 수 있는 하중 대비 굉장히 연료비가 저렴해진 것처럼 느껴집니다. 무엇보다 125cc 바이크로는 아예 운송 할 수 없는 큰 것들을 해결할 수 있게 되었습니다.
그런데 문명이 발전하고 산업의 밸류체인 자체가 전환되어서, 운송해야할 모든 재화의 하중이 바이크 시절보다 100배 무거워졌고, 이제 모든 기업이 덤프 트럭을 운용할 수 밖에 없도록 시장 상황이 변했습니다. 심지어 덤프 트럭을 운용하지 않으면 경쟁력이 없어져서 시장에서 도태될 위기에 처할 수 있습니다.
리터당 연료비는 그대로이고, 심지어 엔진이 좋아져서 연비와 운송 효율도 그 사이 더 좋아졌지만, 모두가 덤프 트럭을 운용하며 경쟁하기 때문에 사실 내 회사의 수입은 크게 변하지 않았고, 나는 이전보다 더 많은 연료를 쓰게 되었습니다.
나는 사업을 운영하는 주체로서 연료비가 저렴해졌다고 인식해야할까요?"
연료 자체가 산술적으로 저렴해지고 효율이 좋아져도, 생태계 전체를 구성하는 ‘연료비의 이코노미’에서 기업의 부담은 커진 것입니다. 이것이 AI 기능을 도입해야하는 수많은 기업들의 현실입니다.
쓰다보니 떠오른 것인데, 국가별로 AI 도입 비중이 높은 곳일수록 조만간 커다란 인플레이션 위험이 찾아오겠군요,