본문 바로가기
Column/IT

AI의 현재 확장 상황 - 세대 간 잠시 멈춤...

by 작은별하나 2024. 9. 27.
반응형

에단 몰릭: 와튼 스쿨 교수

 

2024년 9월 16일 One Useful

 

AI 모델의 현주소와 미래에 대해 논의하기에 아주 적절한 시기임을 말씀해 주셨습니다. 특히 ChatGPT와 Gemini와 같은 대규모 언어 모델을 기반으로 한 챗봇이 어떻게 발전해 왔고, 앞으로 어떤 변화가 있을지에 대해 이해하는 것은 매우 흥미로운 주제입니다. 이러한 모델들이 시간이 지남에 따라 점점 더 "스마트(smart)"해지는 이유를 살펴보는 것은 그 발전 과정을 이해하는 데 중요합니다.

 

먼저, 대규모 언어 모델은 방대한 양의 데이터를 통해 학습됩니다. 이 과정에서 모델은 패턴과 관계를 학습하여, 새로운 질문이나 요청에 대해 적절한 응답을 생성할 수 있습니다. 하지만 여기서 중요한 점은 이러한 학습 과정이 반복될수록, 모델은 점차 더 복잡하고 섬세한 질문에도 대응할 수 있도록 성능이 향상된다는 것입니다.

 

비기술적인 관점에서 설명드리자면, AI는 기본적으로 수많은 데이터를 통해 경험을 쌓는다고 볼 수 있습니다. 그 결과, 이전에는 어려웠던 문제들도 더 쉽게 해결할 수 있게 됩니다. 예를 들어, AI 모델은 언어의 문법적 구조뿐만 아니라 맥락을 이해하는 능력도 발전시키고 있습니다.

 

미래에는 이러한 모델들이 더 자연스럽고 사람처럼 대화할 수 있는 능력을 갖출 것으로 예상되며, 다양한 전문 분야에서 더 많은 역할을 할 것입니다. 대규모 언어 모델이 어떻게 학습되고 진화하는지에 대한 자세한 기술적 설명은 여기서 생략하더라도, 핵심은 AI가 더 많은 데이터를 학습할수록 "똑똑해진다"는 점입니다.

 

모델 크기 조정하기: 큰 언어 모델에 큰 것을 넣기

 

대규모 언어 모델(LLM)의 현재 위치를 이해하려면, 그 규모가 성능에 미치는 영향을 파악하는 것이 중요합니다. AI에서는 흔히 "스케일링 법칙"이라고 불리는 개념이 있는데, 이는 간단히 말해 모델이 클수록 성능이 더 뛰어나다는 관찰에 기반한 규칙입니다. 모델이 크다는 것은 그 모델이 매개변수라 불리는, 조정 가능한 값의 수가 많다는 것을 의미합니다. 매개변수는 모델이 입력된 데이터를 기반으로 다음에 나올 내용을 예측할 때 사용하는 핵심 요소입니다.

 

이러한 대규모 모델은 토큰으로 측정되는 더 많은 양의 데이터를 통해 학습되며, LLM의 경우 이 토큰은 일반적으로 단어나 그 일부에 해당합니다. 모델이 커질수록 더 많은 데이터를 처리하고 학습해야 하므로, 컴퓨팅 성능도 더 많이 필요합니다. 이 컴퓨팅 성능은 흔히 부동 소수점 연산(FLOPs, Floating Point Operations)으로 측정됩니다. FLOP은 컴퓨터가 AI 학습 과정에서 수행하는 기본 수학 연산(덧셈, 곱셈 등)의 수를 정량화하는 방법입니다.

 

따라서, 연산능력이 뛰어난 모델은 더 복잡한 작업을 효과적으로 수행할 수 있으며, 다양한 벤치마크와 시험에서 더 높은 점수를 받는 경향이 있습니다. 이러한 모델은 더 많은 계산을 처리할 수 있을 뿐만 아니라, 다양한 언어적 맥락과 패턴을 학습함으로써 일반적으로 '더 똑똑해진다'는 평가를 받습니다.

 

이와 같은 규모와 성능의 관계를 이해하는 것은 앞으로 AI 기술이 어디로 발전할지를 예상하는 데 중요한 역할을 합니다.

 

 

이 발췌문에서는 AI 모델의 성능 향상과 그에 따른 비용 및 자원 요구에 대한 중요한 논의가 담겨 있습니다. 규모의 중요성을 강조하면서, 컴퓨팅 성능과 데이터의 양이 증가할수록 모델이 더 뛰어난 성능을 발휘한다는 점을 짚고 있습니다.

 

블룸버그GPT의 사례는 특히 흥미롭습니다. 이 모델은 금융 분석과 예측을 위해 특별히 훈련된 모델로, 금융 데이터를 이해하고 분석하는 능력이 뛰어났습니다. 그러나 GPT-4와의 비교에서, 블룸버그GPT는 금융 관련 데이터를 대량으로 학습했음에도 불구하고, 그보다 더 큰 GPT-4 모델에 성능이 밀렸습니다. 이는 GPT-4가 더 많은 연산 능력을 활용한 모델이었기 때문에 가능한 결과입니다.

 

GPT-4는 대략 20 요타플롭(YottaFLOPs), 즉 \(2 \times 10^{25}\)의 연산 성능을 가지고 있다고 추정되며, 이는 블룸버그GPT의 200 제타플롭(ZettaFLOPs), 즉 \(2 \times 10^{23}\)보다 약 100배 더 큰 연산 능력을 의미합니다. 이러한 규모의 차이는 금융 문서의 감정 파악 같은 특정 작업에서조차 더 큰 모델이 더 뛰어난 결과를 내는 이유로 설명됩니다.

 

또한, 모델 연산 능력이 10배 증가할 때마다 생산적인 작업에서 성능이 개선된다는 점이 번역가 실험을 통해 확인되었습니다. 번역 작업에서 10배 더 큰 모델을 사용하면 번역사가 작업을 12.3% 더 빨리 완료하고, 0.18 표준편차만큼 더 높은 점수를 받으며, 분당 수입이 16.1% 증가한 결과를 보였습니다. 이는 단순히 모델의 크기와 성능이 생산성에도 큰 영향을 미친다는 것을 보여주는 예입니다.

 

하지만 큰 모델일수록 더 많은 자원이 필요합니다. 더 많은 데이터를 수집하고, 모델을 학습시키는 데 더 많은 컴퓨팅 시간이 필요하며, 이를 위해 더 많은 컴퓨터 칩과 전력이 소모됩니다. 기하급수적인 개선을 이루기 위해서는 데이터와 컴퓨팅 성능을 10배 이상 늘려야 하는데, 이에 따라 비용도 급증하게 됩니다.

 

이러한 논의는 AI의 미래 거버넌스에서 중요한 주제가 될 수 있으며, 컴퓨팅 파워와 자원의 효율적 배분이 AI 모델의 발전에 중요한 영향을 미칠 것입니다.

 

규모와 관련된 여러 측면이 서로 얽혀 있다는 점을 지적해주셨듯이, AI 모델의 성능과 크기를 측정하는 방법은 복잡하고, 용어도 많아 혼란을 줄 수 있습니다. 특히 AI 회사들이 자사 모델의 세부 사항을 비밀로 유지하거나 모호한 이름을 부여하는 경향이 있어서, 모델의 실제 성능을 이해하는 것이 어려운 경우가 많습니다.

 

하지만 조금 더 단순화해서 설명하자면, AI 역량은 주로 모델 크기의 확장과 관련이 있습니다. 그리고 이 모델의 크기는 시간이 지남에 따라 점진적으로 발전하는 세대별 접근 방식을 따릅니다. 각 세대마다 더 크고 더 나은 모델을 만들기 위해, 10배 더 많은 데이터와 컴퓨팅 성능이 필요하게 됩니다. 이러한 이유로 각 세대의 AI 모델을 발전시키기 위해서는 상당한 양의 계획과 자금이 필요하며, 이는 연구와 개발 과정에서 중요한 부분을 차지합니다.

 

우리가 프론티어 모델이라 부르는 것은 그 시점에서 가장 크고 강력한 AI 모델을 의미합니다. 이 프론티어 모델은 AI 기술의 최첨단을 대표하며, 각 세대마다 이전 세대보다 훨씬 더 뛰어난 성능을 발휘할 수 있습니다. 그러나 이러한 모델들은 학습에 필요한 데이터와 컴퓨팅 자원의 양이 엄청나게 많아지기 때문에, 더 발전된 모델을 만들기 위한 경제적·기술적 부담도 함께 증가합니다.

 

따라서 AI의 발전은 점진적이며, 각 세대의 모델이 이전 세대보다 더 크고, 더 복잡하며, 더 많은 자원을 필요로 한다는 공통된 패턴을 따릅니다.

 

. 1세대 모델(2022년): 생성형 AI의 돌풍을 일으킨 OpenAI 모델인 ChatGPT-3.5의 기능을 갖춘 모델입니다. \(10^{25}\) FLOPs 미만의 연산이 필요하며 일반적으로 훈련하는 데 1,000만 달러 이하의 비용이 듭니다. 오픈 소스 버전을 포함한 다양한 1세대 모델이 있습니다.

 

. 2세대 모델(2023~2024년): 동급 최초의 모델인 GPT-4의 기능을 갖춘 모델입니다. 대략 \(10^{25}\)~\(10^{26}\) FLOPs의 연산이 필요하며 훈련하는 데 1억 달러 이상의 비용이 들 수 있습 니다. 현재 여러 Gen2 모델이 있습니다.

 

. 3세대 모델(2025년?~2026년?): 현재로서는 Gen3 모델이 아직 출시되지 않았지만, GPT-5와 Grok 3 등 여러 모델이 곧 출시될 예정으로 알고 있습니다. 이 모델들은 \(10^{26}\)~\(10^{27}\) FLOPs의 연산 능력과 10억 달러(또는 그 이상)의 훈련 비용이 필요합니다.

 

. 4세대 모델, 그리고 그 이후: 몇 년 안에 Gen4 모델을 보게 될 것이며, 이 모델은 훈련하는 데 100억 달러 이상의 비용이 들 수 있습니다. 제가 대화를 나눈 내부자들은 최소한 4세대 이전에는 확장의 이점이 사라질 것으로 예상하는 사람이 거의 없었습니다. 그 이후에는 10년 말까지 확장성이 3세대보다 1,000배 이상 증가할 가능성도 있지만, 확실하지는 않습니다. 그 렇기 때문에 미래 모델을 구동하는 데 필요한 에너지와 데이터를 확보하는 방법에 대해 많은 논의가 이루어지고 있습니다.

 

GPT-4가 2세대 시대를 열었지만 이제 다른 회사들이 따라잡았고, 우리는 첫 번째 3세대 모델의 정점에 서 있습니다. 저는 특히 5개의 AI가 선두를 달리고 있는 2세대 현황에 초점을 맞추고자 합니다.

 

5개의 프론티어 2세대 모델

 

다른 모델도 2세대 모델에 해당하지만, 일대일 비교에서 지속적으로 우위를 점하고 있는 5가지 모델이 있습니다. 5가지 프론티어 모델에는 많은 차이점이 있지만, 서로 비슷한 수준의 '지능'을 가지고 있기 때문에 대략 비슷한 수준의 '지능'을 가지고 있습니다. 각 모델을 살펴보고 각 모델의 기능을 설명하기 위해 동일한 세 가지 질문을 던지겠습니다:

 

. 사람들이 공유를 원하지 않을 수 있는 이유를 고려하여 조직 내 사람들이 업무에 도움을 주 기 위해 생성형AI를 사용하는 방식을 경영진과 공유하도록 장려할 수 있는 계획을 세 단락 이하로 작성하세요. 단계별로 생각하세요.

. 이 이미지와 이것이 중요한 이유를 설명합니다 [위의 교육 비용 그래프에 붙여넣었습니다].

. 이 데이터를 통계적으로 분석하여(정교한 기법을 사용하여) 새로운 고급 AI 모델을 학습시키 는 데 필요한 노력의 추세에 대해 알려주는 내용을 파악합니다. 수행한 작업과 중요한 시사 점을 단락과 그래프로 요약하세요. [수백 개의 모델에 대한 학습 세부 정보에 대한 방대한 데이터 세트를 CSV 파일에 붙여 넣었습니다.]

 

GPT-4o. 이 모델이 ChatGPT와 Microsoft Copilot을 구동하는 모델입니다. 또한 현존하는 프론티어 모델 중 가장 많은 기능을 갖추고 있으며 일대일 비교에서 선두를 달리고 있는 모델입니다. 이 제품은 멀티모달로 음성, 이미지, 파일(PDF 및 스프레드시트 포함) 데이터로 작업할 수 있으며 코드를 생성할 수 있습니다. 또한 음성, 파일, 이미지를 출력할 수 있습니다(통합 이미지 생성기인 DALL-E3 사용). 또한 코드 인터프리터를 통해 웹을 검색하고 코드를 실행할 수 있습니다. 음성을 사용하는 다른 모델과 달리 GPT-4o는 모델 자체가 듣고 말하기 때문에 훨씬 더 강력한 고급 음성 모드가 있습니다. 다른 모델은 음성을 텍스트로 변환한 다음 모델에 전달하고 별도의 프로그램이 모델의 답변을 읽어주는 텍스트 음성 변환을 사용합니다. AI를 처음 시작하는 사람이라면 GPT-4o가 좋은 선택이며, AI를 진지하게 다루는 대부분의 사람들이 적어도 어느 정도는 사용하고 싶어 할 모델일 것입니다.

 

 

클로드 3.5 소네트. 매우 영리한 2세대 모델인 Sonnet은 특히 대량의 텍스트 작업에 능숙합니다. 부분적으로 다중 모드를 지원하며 이미지나 파일(PDF 포함)로 작업할 수 있고 애플리케이션에서 직접 실행할 수 있는 텍스트나 아티팩트라고 하는 작은 프로그램을 출력할 수 있습니다. 이미지나 음성을 생성할 수 없고, 데이터 분석 코드를 쉽게 실행할 수 없으며, 웹에 연결되지 않습니다. 모바일 앱은 꽤 괜찮은 편이며, 현재 글쓰기 작업을 할 때 가장 자주 사용하는 모델입니다. 실제로 블로그 포스팅을 작성한 후에 이 앱에 피드백을 요청하기도 합니다(이 글에서 플롭을 설명하는 좋은 방법을 생각해내는 데 도움이 되었습니다).

 

 

제미나이 1.5 프로. 이것은 Google의 가장 진보된 모델입니다. 부분적으로 다중 모드를 지원하므로 음성, 텍스트, 파일 또는 이미지 데이터로 작업할 수 있으며 음성 및 이미지 출력도 가능합니다(음성 모드는 현재 기본적으로 다중 모드를 지원하지 않고 텍스트 음성 변환을 사용함). 컨텍스트 창이 방대하기 때문에 엄청난 양의 데이터를 처리할 수 있으며 동영상도 처리할 수 있습니다. 또한 웹을 검색하고 코드를 실행할 수도 있습니다(때로는 코드를 실행할 수 있는 경우와 실행할 수 없는 경우가 명확하지 않을 때가 있습니다). Gemini 웹 인터페이스는 여러 모델을 실행하기 때문에 약간 혼란스럽지만, 가장 강력한 버전인 Gemini 1.5 Pro Experimental 0827(이름 짓기가 끔찍하다고 했죠)은 Google의 AI 스튜디오를 통해 직접 액세스할 수 있습니다.

 

 

마지막 두 모델은 아직 멀티 모달이 아니므로 이미지, 파일 및 음성으로 작업할 수 없습니다. 또한 코드를 실행하거나 오픈 웹을 검색할 수도 없습니다. 따라서 이 모델에는 그래프나 데이터 분석 문제는 포함하지 않았습니다. 하지만 다른 모델에는 없는 몇 가지 흥미로운 기능이 있습니다.

 

Grok 2. 엘론 머스크의 X.AI는 인공지능 중 다크호스 후보입니다. 후발 주자인 X는 칩과 전력에 빠르게 접근할 수 있는 영리한 접근 방식 덕분에 매우 빠르게 세대를 확장하고 있습니다. 현재 Grok 2는 트위터/X 인터페이스에 갇혀 있는 매우 유능한 2세대 모델입니다. 트위터에서 정보를 가져올 수 있고, Flux라는 오픈 소스 이미지 생성기를 통해 이미지를 출력할 수 있습니다(다른 이미지 생성기와 달리 가드레일이 많지 않아서 실제 사람의 가짜 이미지를 사실적으로 만들 수 있습니다). 다소 긴장된 ‘재미있는’ 시스템 프롬프트 옵션이 있지만, Grok 2가 강력한 모델이며 주요 AI 리더보드에서 2위를 차지하고 있다는 사실에 주의를 분산시키지 마세요.

 

라마 3.1 405B. 이것은 Meta의 2세대 모델로, 아직 멀티모달(multi-modal)은 아니지만 오픈 웨이트이기 때문에 2세대 모델 중에서는 독특합니다. 즉, Meta가 전 세계에 공개했으며 누구나 다운로드하여 사용할 수 있고, 어느 정도는 수정 및 조정도 가능합니다. 이러한 특성 덕분에 다른 사람들이 기능을 확장하는 방법을 찾아내면서 빠르게 발전할 가능성이 높습니다.

 

 

이번 투어에서는 많은 부분이 생략되었습니다. 예를 들어, 거의 모든 가장 강력한 모델에는 상위 모델에서 파생된 소형 버전이 있습니다. GPT-4o 미니, 그로크 2 미니, 라마 3.1 70B, 제미니 1.5 플래시, 클로드 3 하이쿠 등이 그 예입니다. 프론티어 2세대 모델만큼 스마트하지는 않지만 훨씬 빠르고 저렴하기 때문에 풀 프론티어 모델이 필요하지 않을 때 자주 사용됩니다. 마찬가지로 규모만이 모델을 개선하는 유일한 방법은 아니며, 시스템 아키텍처와 트레이닝에 대한 다양한 접근 방식을 통해 일부 모델을 다른 모델보다 더 나은 모델로 만들 수 있습니다. 하지만 현재로서는 규모가 지배적입니다. 그리고 규모 확대는 항상 AI에 더 많은 '교육'을 주입하는 것, 즉 학습 과정에서 더 많은 데이터를 채우는 것을 의미했습니다. 하지만 지난 주에 우리는 새로운 확장 방법을 알게 되었습니다.

 

새로운 형태의 확장: 사고

 

지난 주에 공개된 OpenAI의 o1-preview 및 o1-mini 모델은 확장에 대해 근본적으로 다른 접근 방식을 취했습니다. 훈련 규모에 따라 2세대 모델과 비슷하지만(OpenAI는 구체적인 내용을 공개하지 않았습니다), o1-preview는 모델이 훈련된 후에 발생하는 새로운 형태의 확장을 사용하여 좁은 영역에서 매우 놀라운 성능을 달성합니다. 추론 컴퓨팅(문제에 대해 '사고'하는 데 사용되는 컴퓨터 성능의 양)에도 자체적인 스케일링 법칙이 있다는 것이 밝혀졌습니다. 이 '사고' 과정은 본질적으로 모델이 출력을 생성하기 전에 여러 내부 추론 단계를 수행하여 더 정확한 응답을 이끌어낼 수 있습니다(AI는 실제 의미에서 생각하지 않지만 약간 의인화하면 설명하기가 더 쉽습니다).

 

백그라운드에서 처리할 수 있는 컴퓨터와 달리 LLM은 단어와 토큰을 생성할 때만 '생각'할 수 있습니다. 우리는 모델의 정확도를 향상시키는 가장 효과적인 방법 중 하나가 AI가 단계적으로 '생각'하도록 하기 때문에 일련의 사고(예를 들어, 먼저 데이터를 조회하고, 옵션을 고려한 다음, 최선의 선택을 선택하고, 마지막으로 결과를 작성하도록 유도)를 따르도록 하는 것임을 오랫동안 알고 있었습니다. OpenAI는 o1 모델에 이러한 '사고' 과정을 거치도록 하여 최종 답을 내리기 전에 숨겨진 사고 토큰을 생성하도록 했습니다. 이를 통해 모델이 '생각'하는 시간이 길수록 더 나은 답을 내놓는다는 또 다른 확장 법칙을 발견했습니다. 학습의 스케일링 법칙과 마찬가지로 이 역시 한계가 없어 보이지만 기하급수적이기 때문에 계속해서 출력을 향상시키려면 AI가 더 오랜 시간 동안 '생각'하게 해야 합니다. 궁극적인 질문에 대한 궁극적인 답을 알아내는 데 750만 년이 걸렸다는 <은하수를 여행하는 히치하이커>의 가상의 컴퓨터가 공상 과학 농담이 아닌 예언처럼 느껴지는 이유입니다. 우리는 아직 '사고' 확장 법칙의 초기 단계에 있지만, 미래에 대한 많은 가능성을 보여주고 있습니다.

 

다음 단계는 무엇인가요?

 

훈련과 '사고'에 대한 두 가지 확장 법칙이 존재한다는 것은 향후 몇 년 동안 AI 역량이 극적으로 향상될 수 있음을 시사합니다. 더 큰 모델을 훈련하는 데 한계에 부딪히더라도(적어도 향후 몇 세대 동안은 그럴 가능성이 낮아 보입니다), AI는 '사고'에 더 많은 컴퓨팅 파워를 할당함으로써 점점 더 복잡한 문제를 해결할 수 있습니다. 확장에 대한 이러한 두 가지 접근 방식은 사회, 경제, 환경에 광범위한 영향을 미치면서 더 강력한 AI를 위한 경쟁이 줄어들지 않을 것임을 사실상 보장합니다.

 

모델 아키텍처와 학습 기술의 지속적인 발전으로 우리는 AI 기능의 새로운 지평에 다가서고 있습니다. 기술 기업들이 오랫동안 약속해왔던 독립적인 AI 에이전트가 머지않은 미래에 등장할 가능성이 높습니다. 이러한 시스템은 인간의 감독을 최소화하면서 복잡한 작업을 처리할 수 있을 것이며, 광범위한 영향을 미칠 것입니다. AI 개발 속도가 더욱 빨라질 것이 확실해 보이는 지금, 우리는 앞으로 다가올 기회와 도전에 모두 대비해야 합니다.

 


 

1이 섹션에 대한 피드백을 위해 Grok 2에 피드백을 요청했을 때, "Grok 2가 트위터/X 인터페이스에 갇혀 있다"는 표현은 오해의 소지가 있을 수 있다'고 덧붙여 달라는 요청을 받았습니다. X와 통합되어 있지만 '갇혀 있다'는 표현은 해당 에코시스템 내에서 의도된 설계와 유용성을 과소평가할 수 있습니다."

 

 

728x90

댓글