[스탠포드 황승진 교수님 칼럼] 우버는 어떻게 LLM으로 14만 시간을 혁신했을까?

실리콘밸리 AI 칼럼

2025. 05. 19

조회수

1,156

LLM의 등장은 다양한 산업에 새로운 혁신을 불러오고 있습니다. 수백만 건의 데이터를 단시간에 처리할 수 있는 AI 기술 덕분에, 기업들은 생산 시간을 대폭 단축하며 업무 효율을 비약적으로 끌어올리고 있습니다.

SQL 처리 방식도 예외는 아닙니다. 실리콘밸리에서는 이미 LLM을 SQL에 접목해 새로운 형태의 효율화를 실현하고 있으며, 특히 우버는 이 시스템을 도입한 뒤 한 달에 약 14만 시간을 절약하는 성과를 거두고 있습니다.

이번 글에서는, 한국인 최초의 스탠포드 종신 교수이자 현재 스탠포드 경영 대학원 명예교수로 활동 중인 황승진 교수님의 칼럼을 바탕으로, 우버가 LLM을 활용해 SQL 처리 방식을 어떻게 실질적으로 혁신했는지 그 과정을 소개해드리겠습니다.

코딩하는 LLM -우버 이야기

언어, 이미지, 소리를 이해하고 표현하는 능력 외에도, LLM은 ‘코딩’이라는 놀라운 기술을 갖추고 있다.

내가 스탠포드 MBA에서 진행하는 "모델링 및 최적화" 수업에서는, 학생들에게 영어로 작성된 비즈니스 상황을 제시하고, 이를 바탕으로 경영적 결정을 유도하는 1페이지 분량의 과제를 준다.

학생들은 해당 내용을 수학적으로 모델링 한 뒤, 이를 해결하기 위해 Python으로 코드를 짠다. 멋지지 않은가.

예전엔 코딩이야말로 논리력과 창의성을 동시에 요구하는, 인간만의 고유한 능력이라고 믿었다. 그런데 아니었다.

단순한 소프트웨어로 보였던 LLM이 내 학생들처럼 문제를 분석하고 프로그래밍까지 해낸다.

그 과제를 영어 원문 그대로 LLM 채팅창에 넣으면, 곧바로 Python 코드가 튀어나온다. (물론, 가끔 엉뚱한 실수를 하기도 한다는 점은 유의해야 한다.)

오픈 AI의 공동 창업자 앙드레 카파시는 이 과정을 “의도를 명확히 전달하고, LLM이 코드를 작성하게 한 후, 사람이 검토하는 방식”이라고 설명하며, 이를 “바이브 코딩(vibe coding)”이라 부른다.

이 기능은 초보를 넘어 전문가 수준에서도 강력하다. Cursor나 Copilot 같은 개발 플랫폼에서는, 마치 대화를 나누듯 코드가 생성된다.

작성한 코드에 대해 조언을 받거나 개선점을 제안받을 수도 있다. 대다수는 그 결과물에 감탄하지만, 일부는 스타일이 마음에 안 든다거나 디버깅이 부족하다고 불평하기도 한다.

어떤 프로그래머는 이 방식으로 개발한 비행기에는 절대 타지 않겠다고 말한다. 하지만 한 가지는 분명하다. 우리는 지금, 코딩의 새로운 시대에 발을 들였다.

사람이 프로그램을 배우던 시대에서, AI가 사람을 학습하는 시대로

인간과 기계는 각자 다른 언어를 가지고 태어났다. 소통을 위해, 초기에는 인간이 기계에 맞춰야 했다. 어셈블리 같은 기계어 유사 언어를 사용하며, 사람이 기계를 흉내 낸 것이다.

그 뒤 Fortran, Cobol, Pascal, C, Python 등 다양한 언어를 거치며 인간과 기계는 점차 중간 지점에서 접점을 찾았다.

이제는 반대다. 기계가 인간을 따라 하기 시작했고, 마침내 인간의 언어로 통일되기에 이르렀다. 기계어도, Python도, 일상 언어도 자유롭게 다룰 수 있는 LLM 덕분이다.

Python처럼 구조화된 전산 언어뿐만 아니라, LLM은 SQL도 다룰 줄 안다. 이른바 Text-to-SQL 기능이다.

SQL은 관계형 데이터베이스를 다루는 언어로, 기본적인 사용은 단순하지만 상황에 따라 매우 복잡해질 수 있다. 우버의 사례는 이를 잘 보여준다.

Text-to-SQL용 LLM-RAG 에이전트 시스템을 통해

약 14만 시간을 절약한 우버

2023년 5월, 우버가 주최한 “생성 AI Hackday”에서 한 팀은 ‘쿼리GPT(QueryGPT)’라는 이름의 Text-to-SQL 용 LLM-RAG 에이전트 시스템을 개발했다.

이 프로젝트의 출발점은 간단했다. SQL 쿼리 작성의 효율을 끌어올리는 것이었다. 우버는 매달 약 120만 건의 대화형 쿼리를 처리하며, 사용자 한 명당 쿼리 작성에 평균 10분을 소비한다.

이 팀은 만약 사용자가 SQL 대신 자연어를 활용할 수 있다면, 그 시간을 3분까지 줄일 수 있을 것으로 보았다.

그렇게 되면 한 달에 약 14만 시간을 절약할 수 있다. 이는 사용자 입장에서 보면 엄청난 시간 절감 효과다.

쿼리GPT의 목표는 다음과 같은 대화였다.

사용자 프롬프트: “다음 문장의 SQL을 주십시오. ‘지난 주 로스앤젤레스에서 운전 기사가 취소한 여행 횟수는 얼마입니까?’”
LLM 출력: 여기 원하시는 SQL입니다. "SELECT COUNT(‘Cancelled’) FROM .. WHERE .."

우버 팀은 LLM이 Text-to-SQL 작업을 무리 없이 해낼 것이라 기대했다. 하지만 현실은 그렇게 간단하지 않았다.

우버의 데이터베이스는 무려 500개의 테이블과 수천 개의 열(column)로 구성된 방대한 구조였기 때문이다. LLM은 쿼리에 적합한 테이블과 열을 정확히 선택하지 못해, 생성된 SQL의 정확도가 자주 떨어졌다.

이에 따라 팀은 쿼리GPT의 작동 방식과 내부 프로세스를 무려 20차례 이상 개선하며 성능을 끌어올렸다.

최신 버전은 ‘멀티에이전트 모델’로 구성되어 있다. ‘의도(intent) 에이전트’, ‘테이블 에이전트’, ‘열(Column) 제거 에이전트’—이 세 개의 LLM 에이전트가 하나의 마스터 LLM의 지휘를 받으며 작동한다.

먼저, 의도 에이전트는 사용자의 입력을 분석해 관련된 비즈니스 도메인(예: 광고, 모빌리티, 코어 서비스 등)을 파악하고자 LLM을 호출한다. 이 과정은 인간 사용자와의 대화를 통해 진행되며, 사용자의 승인을 받아야 다음 단계로 넘어간다.

그 다음, 테이블 에이전트는 쿼리에 포함될 적절한 테이블을 선택하는 작업을 수행한다. 이 역시 대화형으로 진행된다. 마지막으로, 열 제거 에이전트는 불필요한 열을 필터링해 쿼리의 범위를 보다 명확하게 좁힌다.

이러한 단계적 협업 구조를 통해, 팀은 마침내 목표로 삼았던 3분 내 응답 시간을 달성할 수 있었다.

우버의 사례로 보는 AI 설계 및 구현 전략

여기서 우리는 LLM, 에이전트, 인간 사용자, 그리고 RAG가 어떻게 결합되어 엔터프라이즈 AI 시스템을 구성하는지를 명확히 볼 수 있다.

각 에이전트는 마스터 LLM의 지시에 따라 작동하며, 이들 역시 모두 LLM으로 구성되어 있다. 흥미로운 점은, 이 에이전트들이 반드시 동일한 LLM일 필요는 없다는 것이다.

예를 들어, 하나는 ChatGPT일 수 있고, 다른 하나는 Llama일 수도 있다. 이 우버 사례는 ‘AI의 설계 및 구현’에 대해 몇 가지 중요한 교훈을 남긴다.

첫째, 이 시스템에서 AI는 인간과의 대화를 중심으로 작동한다.

이러한 ‘인간-기계 인터페이스’는 의료, 회계 등 다양한 산업 분야에서도 유사하게 적용될 수 있다. 하지만 주의할 점도 있다.

AI의 의견은 무의식적으로 전문가의 판단에 영향을 미칠 수 있으며, 이는 독립성을 해칠 가능성이 있다. 반대로, 자존심이나 신뢰 부족으로 인해 AI의 조언을 무시하게 되는 경우도 생길 수 있다.

둘째, 쿼리GPT는 단순한 결과 제공을 넘어서, 설명의 요소를 포함한다.

예컨대 “다음과 같은 이유로 이러한 열을 제외했습니다.”라는 식의 설명을 덧붙임으로써, AI가 왜 그런 결정을 내렸는지 사용자에게 투명하게 보여준다. 이로써 인간과의 마찰을 줄이고, 시스템에 대한 신뢰를 높일 수 있다.

셋째, 이 시스템은 한 번에 완성된 것이 아니라, 반복적인 개선 과정의 산물이다.

우버 팀은 이 과정을 ‘여정(journey)’이라고 표현하며, 다양한 성능 지표를 지속적으로 추적하고 개선해 왔다. 그리고 아마 지금 이 순간에도, 그들은 여전히 시스템을 진화시키고 있을 것이다.

참고로, 최근에는 구글-스탠포드의 CHASE-SQL과 알리바바의 XiYan-SQL 같은 멀티에이전트 기반의 일반적인 Text-to-SQL 솔루션들도 발표되었다.

하지만 이들 역시 아직은 완벽하지 않다. 정확도는 90%를 넘기지 못하고 있다. 그만큼 Text-to-SQL은 여전히 어려운 문제다. 그럼에도 불구하고, 한 가지는 분명해 보인다.

1979년 IBM이 SQL을 출시한 이래, 질문조차 어려워 답을 얻지 못했던 시대는 이제 저무는 듯 하다.

스탠포드-황승진-교수

황 승 진

한국인 최초의 스탠포드 석좌교수

스탠포드 경영 대학원 잭디프 로시니 싱 명예교수

'알토스벤처스'와 ‘길리아드’ 등 20여 개 기업의 어드바이저 역임

[한국인 최초 스탠포드 종신 교수, 황승진의 인공지능 칼럼]

‘우버는 어떻게 LLM으로 14만 시간을 혁신했을까?’는 한국인 최초로 스탠포드 경영 대학원 석좌 명예교수로 임명된 황승진 교수님의 인공지능 칼럼 '코딩하는 LLM-우버이야기'를 이랜서에서 재편집한 글입니다. 황승진 교수님의 인공지능 칼럼은 총 20회에 걸쳐, AI 혁신과 비즈니스 변화를 심층적으로 다룹니다.

이랜서에 로그인하고 댓글을 남겨보세요!

0자

/200자

이랜서에 로그인하고 댓글을 남겨보세요!

0자

/200자

실시간 인기 게시물

이랜서 PICK 추천 게시물