Kimi K2.7 Code 출시, K2.6과 무엇이 달라졌을까? 가격·벤치마크·사용법 총정리

개발 테크
6시간 전
조회수
35

Kimi 의 새로운 모델 K2.7 Code가 출시되었습니다.

* 이미지 출처: Kimi 홈페이지

Claude Fable 5가 출시된 지 사흘 만에, 그 10분의 1 수준 가격을 내세운 오픈 웨이트 코딩 모델이 등장했습니다. 바로 Moonshot AI의 'Kimi K2.7 Code' 입니다.

Kimi K2.7 Code는 이전 버전보다 적은 추론 토큰으로 더 높은 작업 완성도를 내는 것을 목표로 설계되었습니다. 장시간 이어지는 에이전트형 코딩 작업에 초점을 두 것으로 보이는데요.

이 글에서는 Kimi K2.7 Code가 어떤 모델인지, K2.6과 무엇이 달라졌는지, 벤치마크 결과의 숨은 의도가 무엇인지, 도입 전에 확인해야 할 주의사항 등을 정리았습니다.

 

Kimi K2.7 Code 핵심 요약

  • 코딩 특화 오픈 웨이트 모델 Moonshot AI가 2026년 6월 12일 공개한 K2 시리즈의 다섯 번째 메이저 릴리스입니다. K2 시리즈 최초로 이름에 'Code'가 붙은 코딩 전용 모델입니다.
  • 1조 파라미터 MoE 구조 총 1조 개 파라미터 중 토큰당 32B만 활성화하는 Mixture-of-Experts 구조로, 컨텍스트 윈도우는 256K 토큰입니다.
  • 추론 토큰 30% 절감 개발사는 K2.6 대비 추론(thinking) 토큰 사용량을 약 30% 줄이면서 자체 코딩 벤치마크 점수는 높였다고 발표했습니다.
  • 공격적인 API 가격 입력 100만 토큰당 $0.95, 출력 $4.00, 캐시 적중 시 $0.19입니다. 가중치는 Hugging Face에서 무료로 받아 자체 호스팅할 수 있습니다.
  • Modified MIT 라이선스 상업적 이용이 가능하며, 대규모 서비스에는 표기 의무 조건이 있어 라이선스 원문 확인이 필요합니다.

 

Kimi K2.7 Code란?

Kimi K2.7 Codeㅇ의 특징에 대해서 정리했습니다.

Kimi K2.7 Code는 Moonshot AI가 공개한 코딩·에이전트 작업 특화 대규모 언어 모델입니다. 이번 버전은 시리즈 최초로 이름에 'Code'를 붙여, 범용 대화가 아닌 소프트웨어 엔지니어링에 초점을 맞춘 모델임을 분명히 했습니다.

작동 구조를 간단히 짚으면, K2.7 Code는 Mixture-of-Experts(MoE) 방식을 사용합니다. 모델 내부에 384개의 전문가(expert) 네트워크를 두고, 토큰마다 8개의 전문가만 선택해 계산하는 구조입니다. 그래서 총 파라미터는 1조 개지만 실제 연산에 쓰이는 활성 파라미터는 32B에 그쳐, 거대한 모델 크기에 비해 추론 비용을 낮게 유지할 수 있습니다. 아키텍처가 K2.5, K2.6과 동일하기 때문에 기존 배포 환경에서는 가중치만 교체해 그대로 사용할 수 있습니다.

 

갑작스럽게 출시된 K 2.7 Code, 원인은 Claude Fable 5?

이번 출시에서 가장 눈에 띄는 부분은 발표 시점입니다. Anthropic의 최신 모델인 Claude Fable 5가 공개된 지 불과 3일 만에 K2.7 Code가 출시됐기 때문입니다. 일부 기술 매체에서는 이를 최상위 코딩 AI 시장을 겨냥한 Moonshot AI의 가격 경쟁 전략으로 해석하고 있습니다.

K2.6이 공개된 지 약 2개월 만에 후속 모델이 발표된 것을 출시 속도도 매우 빠른 편입니다. 일반적으로 대규모 AI 모델은 업데이트 주기가 더 긴 경우가 많다는 점을 고려하면 이례적인 행보로 볼 수 있습니다.

그렇다면 이번 새 모델은 어떤 부분이 달라졌을까요? 

 

K2.6 vs K2.7 Code, 무엇이 달라졌을까?

1. 추론 토큰을 30% 줄였습니다

K2.7 Code는 K2.6 대비 추론 토큰 사용량이 약 30% 감소했다고 발표되었습니다덕분에 에이전트가 수십 번의 도구 호출을 반복하는 장시간 작업에서 비용 부담이 현저히 줄어들었습니다. 

2. 장시간 에이전트 작업의 완성도를 높였습니다

K2.7 Code는 긴 작업 과정에서도 지시사항을 유지하고 일관성을 지키는 능력 향상에 초점을 맞췄습니다. 코딩 에이전트가 긴 작업을 수행할수록 앞선 지시를 잊거나 일관성이 무너지는 문제 없이, 단발성 코드 생성을 넘어 계획 → 실행 → 디버깅으로 이어지는 멀티스텝 작업에 활용 범위가 넓어졌습니다.

3. 추론 과정을 유지하는 Preserve Thinking이 기본입니다

K2.7 Code는 thinking과 preserve_thinking이 강제로 활성화되어, 이전 턴의 추론 맥락을 유지한 채 다음 작업을 이어갑니다. 이를 통해 아키텍처 결정 이유를 기억한 상태로 다음 파일을 작성하거나, 엣지 케이스 지적에 앞선 판단을 재검토하는 식의 연속 작업이 가능해집니다. 

 

Kimi K2.7 Code 벤치마크, 

성능은 얼마나 달라졌을까?

벤치마크

Kimi K2.7 Code

GPT-5.5

Claude Opus 4.8

K2.6 대비

Kimi Code Bench v2

62.0

69.0

67.4

+21.8% (50.9)

Program Bench

53.6

69.1

63.8

+11.0% (48.3)

MLS Bench Lite

35.1

35.5

42.8

+31.5% (26.7)

Kimi Claw 24/7 Bench

46.9

52.8

50.4

+9.3% (42.9)

MCP Atlas

76.0

79.4

81.3

+9.5% (69.4)

MCP Mark Verified

81.1

92.9

76.4

+11.4% (72.8)

Kimi K 2.7 개발사가 공개한 벤치마크는 코딩 평가 3종과 에이전트·도구 활용 평가 3종, 총 6개 항목입니다.

코딩 영역부터 보면, 실전 코딩 과제를 평가하는 Kimi Code Bench v2에서 62.0점을 기록해 K2.6보다 11점 이상 상승했습니다. 프로그래밍 문제 해결을 평가하는 Program Bench 53.6점으로 K2.6보다 5.4점 높아졌습니다. 

ML 엔지니어링 에이전트 과제를 평가하는 MLS Bench Lite에서는 35.1점으로 이번 벤치마크 결과에서 가장 큰 상승 폭(+31.5%)을 보였습니다.

에이전트·도구 활용 영역에서도 K 2.6 대비 모두 상승한 것으로 평가됩니다. 장시간 에이전트 가동을 평가하는 Kimi Claw 24/7 Bench는 46.9점, MCP 도구 활용을 평가하는 MCP Atlas는 76.0점이 평가됐으며, 특히 MCP 도구 호출의 정확성을 검증하는 MCP Mark Verified에서는 81.1점으로 Opus 4.8의 결과 보다도 4.7점 앞선 것으로 발표되었습니다.

특이한 것은 GPT-5.5나 Opus 4.8보다 낮은 점수를 받았음에도 그대로 공개되었다는 것입니다.

 

Claude Fable 5 공개 이후 불과 3일 만에 발표된 K2.7

K 2.7 버전 벤치마크 결과 발표가 특이하게도 GPT-5.5나 Opus 4.8보다 낮은 점수를 받았음에도 그대로 공개된 것을 보면 이번 K2.7의 목표가 최고 성능을 기록하는 데 있지 않았을 가능성을 시사합니다.

6개 평가 항목 가운데 절반인 3개가 장시간 작업 수행 능력과 MCP 같은 외부 도구 활용 능력을 측정하는 항목입니다. 

여기에 추론 과정에서 사용하는 토큰 수를 약 30% 줄였다는 점과, 최상위 AI 모델보다 상대적으로 저렴한 가격 정책까지 함께 고려하면 K 2.7 버전에서 중요하게 생각하는 것은 최고 점수 경쟁이 아니라, 같은 작업을 얼마나 적은 비용으로 성공적으로 처리할 수 있는지가 핵심 목표였을 가능성이 있습니다. 

K2.7이 Claude Fable 5 공개 이후 불과 3일 만에 발표된 점 역시 경쟁 모델과 정면으로 성능 경쟁을 하기보다, 비용 효율이 높은 AI 에이전트 시장을 공략하려는 의도가 담겨 있을 가능성이 있습니다.

※ 모든 점수는 Moonshot AI가 직접 측정한 결과이며, 비교 AI 모델들 또한 각각의 환경에서 측정된 점수 결과를 언급했습니다.

 

Kimi K2.7 Code, 실무에서는 이렇게 활용하세요

비용에 민감한 AI 코딩 자동화 환경

K2.7 Code는 입력 토큰 기준 100만 토큰당 0.95달러, 캐시 적중 시 0.19달러의 비교적 저렴한 가격 정책을 제공합니다. 여기에 추론 토큰 사용량을 줄인 설계가 적용되어 있어AI를 반복적으로 호출하는 자동화 환경에서 비용 절감 효과를 기대할 수 있습니다.

특히 AI를 활용한 코드 생성, 테스트, 문서화 작업을 자동으로 처리하는 워크플로를 운영하고 있다면 모델 사용 비용을 줄이는 데 도움이 될 수 있습니다. 다만 실제 도입 전에는 현재 사용 중인 모델과 코드 품질 및 작업 성공률을 비교해보는 것이 좋습니다.

외부 전송이 어려운 환경의 자체 구축형 AI

K2.7 Code는 모델 가중치가 공개되어 있어 기업 내부 서버에 직접 설치해 사용할 수 있습니다. 또한 기존 K2.5 또는 K2.6을 운영하던 환경을 그대로 활용할 수 있어 도입 과정도 비교적 단순합니다.

이 때문에 보안 규정상 소스코드를 외부 서비스로 전송하기 어려운 금융기관, 공공기관, 대기업 연구소 등에서 자체 AI 코딩 환경을 구축하려는 경우 검토해볼 수 있습니다.

기존 AI 개발 서비스의 보조 모델

K2.7 Code는 OpenAI와 Anthropic API 형식을 지원해 기존 서비스에 비교적 쉽게 연동할 수 있습니다. 기본 URL만 변경해 사용할 수 있는 구조이기 때문에 이미 AI 기반 개발 도구를 운영하고 있는 팀이라면 추가 개발 부담을 줄일 수 있습니다.

특히 비용이 높은 프리미엄 모델을 기본으로 사용하면서, 단순 작업은 K2.7 Code로 처리하거나 장애 발생 시 대체 모델로 활용하는 이중화 전략에도 적용할 수 있습니다.

 

Kimi K2.7 Code 요금제

항목

가격 (100만 토큰당)

입력

$0.95

출력

$4.00

캐시 적중 입력

$0.19

가중치 자체는 Hugging Face에서 무료로 받을 수 있으며, 이 경우 라이선스 비용 없이 자체 인프라 비용만 부담합니다. 공식 플랫폼에는 출시 기념 한시 프로모션이 안내되어 있습니다.

요금제와 제공 기능은 변경될 수 있으므로, 정확한 금액과 최신 한도는 공식 홈페이지에서 확인하는 것을 권장합니다.

 

Kimi K2.7 Code 사용 시 주의사항

벤치마크는 전부 개발사 자체 측정입니다. 

출시 시점 기준 시스템 카드가 공개되지 않았고 제3자 벤치마크도 아직 없습니다. +21.8% 같은 수치는 참고 기준으로 보고, 도입 판단은 자사 코드 기준의 자체 평가로 내려야 합니다.

추론(Thinking)을 끌 수 없습니다. 

thinking이 강제 활성화되어 있어 단순한 호출에도 추론 토큰이 소모됩니다. 짧은 단발성 요청이 많은 워크로드라면 단가가 싸도 총비용이 기대만큼 낮지 않을 수 있습니다.

코딩 특화 변형만 출시되었습니다. 

출시 시점에는 범용 대화용 K2.7이나 Instruct 변형이 없습니다. 일반 챗봇 용도라면 다른 모델이 적합합니다.

라이선스 표기 의무를 확인해야 합니다. 

Modified MIT 라이선스는 상업 이용을 허용하지만, 월 사용자 약 1억 명 또는 월 매출 약 2,000만 달러 이상 규모의 서비스에는 ‘Kimi K2.7’ 표기 의무가 보도되어 있습니다. 대규모 서비스에 도입한다면 라이선스 원문을 직접 확인해야 합니다.

생성된 코드는 직접 검증해야 합니다. 

에이전트가 파일 수정과 셸 명령 실행까지 수행하므로, 저장소 권한과 실행 범위를 제한하고 변경 사항을 사람이 확인하는 절차를 운영에 포함하는 것이 안전합니다. 외부 API 사용 시 코드가 해외 서버로 전송된다는 점도 보안 정책 검토 대상입니다.

 

최신 AI 출시 소식 보러가기

Claude Fable 5 사용법, 활용 사례부터 주의사항까지 총정리

Claude Opus 4.8 출시, 달라진 점부터 실제 성능 테스트까지 총정리

제미나이 3.5 Flash 공개, 이제 AI는 답변을 넘어 실행으로 간다

FAQ

freelancerBanner
projectBanner
댓글0
이랜서에 로그인하고 댓글을 남겨보세요!
0
/200
이랜서에 로그인하고 댓글을 남겨보세요!
0
/200
실시간 인기 게시물
이랜서 PICK 추천 게시물