[스탠포드 황승진 교수님 칼럼] AI가 수백만 개의 데이터를 분석해 의미 있는 정보를 찾아내는 방법

AI가 보편화되면서 이를 활용한 데이터 분석도 점점 활발해지고 있습니다. 수천 개의 변수와 수백만 개의 데이터 포인트 속에서 의미 있는 패턴을 찾아내는 AI의 힘 덕분에, 의료, 증권, 금융, 의류업계 등 다양한 산업에서 분석용 AI를 적극적으로 도입하고 있는데요.
그렇다면 AI는 과연 어떤 방식으로 방대한 데이터를 분석해 유의미한 패턴을 찾아내는 걸까요?
이번 글에서는 한국인 최초 스탠포드 종신 교수이자, 현재 스탠포드 경영대학원 명예교수로 활동 중인 황승진 교수님의 칼럼을 통해, 무수한 데이터 속에서 AI가 어떻게 의미 있는 정보를 도출하는지 살펴보겠습니다.
분석용 AI

만능선수 AI는 분석 도구로도 활약이 크다. 그러면 AI가 어떻게 분석에 사용될지 보기로 하자.
고차원 데이터를 축소해 특징적인 패턴을 찾아내는 차원 축소
AI 분야에는 임베딩을 비롯해 다양한 형태의 벡터들이 등장한다. 4차원 이상의 고차원 공간에서는 시각적 직관이 통하지 않기 때문에, 다소 부정확하더라도 고차원 데이터를 2차원이나 3차원으로 축소해 투영할 필요가 있다. 이를 ‘차원 축소’라고 부른다.
예를 들어, 50개의 100차원 벡터를 2차원으로 근사해 변환한 뒤, X-Y 평면에 50개의 점으로 나타내는 방식이다. 마치 마술사가 하늘을 나는 비둘기를 한 장의 종이로 바꾸는 것과 같다.
차원 축소 기법에는 UMAP, PCA, Biplot 등 다양한 방법이 있지만, AI 분야에서는 힌턴(Hinton)이 개발한 t-SNE(발음: ‘테스니’) 가 널리 활용된다.
t-SNE의 핵심은 고차원 공간에서 임의의 두 점 사이 ‘거리’와 2차원으로 축소했을 때의 ‘거리’를 최대한 비슷하게 유지하는 데 있다. 차원을 줄이는 과정에서 여러 세부사항은 희생되더라도, ‘각 쌍의 거리 관계’만큼은 되도록 살리려는 것이다.
예를 들어, 유럽 50개국 각각의 1인당 20개 식품 소비량을 벡터로 나타낸다고 하자. 식품 벡터는 (쇠고기, 와인, 맥주, 올리브 오일, …)처럼 구성되고, 각 국가는 (130, 34, 23, 17, …) 식으로 표현된다.
잠시 국가 이름을 숨기고 이 벡터만 본다면, 어느 나라에 해당하는지 구별할 수 없다.
이제 t-SNE를 적용해 50개국을 50개의 점으로 X-Y 평면에 나타낸다. 그런 다음 국명을 공개하면, 지중해 지역에 위치한 이탈리아와 그리스가 X-Y 평면상에서 서로 인접해 있는 것을 알 수 있다.
이웃 국가인 스페인과 포르투갈 역시 가까운 위치에 있어, 마치 지도를 재구성한 듯한 모습이다. 하지만 항상 그런 것은 아니다. 예를 들어, 지리적으로 인접한 독일과 프랑스는 이 X-Y 평면에서는 상당히 떨어져 있다.
결국, t-SNE를 활용하면 50개국의 지리적, 문화적, 유전적 특성을 하나의 평면 위에서 비교할 수 있다. 나름의 ‘의미적 패턴’을 포착할 수 있는 것이다. 이제 차원축소의 다른 사례를 살펴보자.
차원 축소의 실제 적용 사례
미·중 공동 연구팀은 여러 나라 국민 2054명의 유전자 데이터를 분석했다. SNP 어레이라는 DNA 분석 기술로 얻은 벡터 데이터를 t-SNE에 적용한 결과, 유럽인, 미국인, 북아시아인, 남아시아인, 아프리카인이 각각 그룹을 이루어 모여 있었다. 다만 미국인과 유럽인 사이에는 일부 겹치는 부분이 나타났다.
인종 간에 DNA가 다르다는 것은 이미 잘 알려진 사실이다. 그러나 t-SNE가 이를 2차원 공간으로 축소해 뚜렷하게 구분해낸다는 점은 인상적이다.
t-SNE는 여기서 한층 더 나아가, 제1염색체만을 분석해서도 유럽 내부나 아시아 내부에서의 인종적 차이를 식별할 수 있게 해준다.
증권가의 분석팀들 역시 t-SNE를 폭넓게 활용한다고 한다. 수백 종목의 주가 움직임을 각각 벡터로 표현하고, 이를 t-SNE를 이용해 X-Y 평면에 플롯하면 어떤 주식들이 서로 유사한지를 확인할 수 있다.
또 일부 주식들이 멀리 떨어져 있다면, 이를 분석해 그동안 알지 못했던 차별화 요인을 발견하거나, 차익거래(arbitrage) 기회로 연결할 수도 있다.
분석을 통해 최적의 속성 조합을 찾아내는 ‘랜덤 포레스트’
결정 트리(Decision Tree)라는 분석 기법이 있다. 예를 들어, 한 의류 회사가 다양한 종류의 셔츠 1,000벌을 판매했다고 하자. 어떤 제품은 많이 팔리고, 어떤 제품은 덜 팔렸다. 이 경우, 분석이 필요하다.
분석의 핵심은 어떤 ‘속성’ 조합이 판매를 촉진했는지를 찾아내는 것이다. 제품들은 성별, 색상, 목 칼라, 소매 형태, 재료 등 여러 속성을 가지고 있다.
분석은 다음과 같은 방식으로 진행된다. 트리의 꼭대기 노드에는 총 판매량 1,000을 기록한다. 거기서 목 칼라 종류에 따라 세 갈래로 나뉘어 세 개의 하위 노드를 만든다.
각각의 노드에는 “칼라 (판매량 600)”, “노칼라 (판매량 250)”, “V넥 (판매량 150)”처럼 적는다.
그 다음 단계에서는, 각 노드별로 색상에 따라 다시 가지를 나누고, 새로 생긴 노드마다 해당 판매량을 기록한다. 예를 들면 “노칼라-파랑 (200)” 같은 식이다.
이런 식으로 분석하면, 어떤 속성 조합이 시장에서 좋은 반응을 얻었는지를 알 수 있다.
그렇다면 수많은 속성들 중에서 다음에는 어떤 기준으로 가지를 나눌까? 차별력을 최대화하는 방향으로 결정한다. 남녀 간 구매량이 비슷하다면 성별은 선택하지 않는다. 성별이 차별력을 가지지 못하기 때문이다.
기계는 이를 엔트로피라는 수학 공식을 이용해 판단한다. 하지만 이 방법은 한 단계 아래만 고려하는 근시성(myopic) 때문에 최상의 결과를 보장할 수 없다. 이를 보완하기 위해 데이터 일부를 무작위로 추출하고, 속성도 일부 무작위로 선택한다.
이렇게 선택된 데이터와 속성으로 트리 분석을 수행하고, 다음에는 또 다른 데이터와 속성으로 다시 트리 분석을 한다. 이 과정을 여러 번 반복해, 마지막에는 결과를 평균낸다.
즉, 한 그루의 트리를 만드는 것이 아니라, 100그루의 숲을 만드는 것이다. 이를 ‘랜덤 포레스트(Random Forest)’라고 부른다. 또한, 트리에서 모든 속성이 소진될 때까지 계속 내려가서는 안 된다.
마지막 노드(잎사귀 노드)가 너무 작아지면, 오버피팅(overfitting)이 발생할 수 있다. 기존 데이터 세트는 잘 설명하지만, 새로운 데이터를 설명하는 능력은 떨어진다. 그래서 적절한 시점에 멈춰야 한다. 예를 들어, 5층 정도까지 내려간 후 중단하는 식이다.
이처럼 랜덤 포레스트를 이용하면, 어떤 속성 조합이 가장 바람직한지를 파악할 수 있다. 상업용 패키지도 많이 나와 있고, 개념이 단순해 기업에서는 제품 개발 용도로 매우 자주 활용된다.
예를 들어, 어떤 약이 한 그룹의 환자에게는 효과가 있지만 다른 그룹에게는 전혀 효과가 없다면, 환자의 어떤 속성이 이 결과를 결정짓는지를 분석할 수 있다. 성별, 나이, 혈액형, 몸무게, 혹은 제1염색체 같은 요소가 될 수 있다.
만약 85% 성공률을 보이는 훌륭한 신약이 있다고 할 때, 어떤 85% 환자에게 효과가 나타나는지를 알게 된다면 이는 매우 가치 있는 정보가 된다.
하지만 같은 분석 기법을 5% 성공률밖에 되지 않는 실패한 약물에 적용하는 것은 오히려 더 유익할 수 있다. 왜냐하면, 이런 실패작 약물이 훨씬 더 많기 때문이다.
황 승 진
한국인 최초의 스탠포드 석좌교수
스탠포드 경영 대학원 잭디프 로시니 싱 명예교수
'알토스벤처'와 ‘길리아드’ 등 20여 개 기업의 사회 이사 역임
[한국인 최초 스탠포드 종신 교수, 황승진의 인공지능 칼럼]
‘AI가 데이터를 분석해 의미 있는 정보를 찾아내는 방법’는 한국인 최초로 스탠포드 경영 대학원 석좌 명예교수로 임명된 황승진 교수님의 인공지능 칼럼 '분석용 AI'을 이랜서에서 재편집한 글입니다. 황승진 교수님의 인공지능 칼럼은 총 20회에 걸쳐, AI 혁신과 비즈니스 변화를 심층적으로 다룹니다.

