토종 수학 AI, 챗GPT 넘고 ‘세계 1위’

토종 수학 AI, 챗GPT 넘고 ‘세계 1위’

김민석 기자
김민석 기자
입력 2024-01-09 02:33
수정 2024-01-09 02:33
  • 기사 읽어주기
    다시듣기
  • 글씨 크기 조절
  • 댓글
    0

AI 수학능력 평가 ‘역대 최고점’

업스테이지·KT·콴다 공동개발
매스GPT, 1점 만점에 0.488점
토종 인공지능(AI) 스타트업 업스테이지와 매스프레소(콴다), KT가 함께 만든 수학 특화 언어모델이 AI의 수학 능력을 평가하는 테스트에서 마이크로소프트(MS)와 오픈AI를 뛰어넘고 세계 1위를 차지했다. 업스테이지는 지난해 12월엔 ‘솔라’라는 경량 언어모델로 세계 성능 순위표에서 1위를 차지하기도 했다.

업스테이지는 수학 특화 언어모델 ‘매스(Math)GPT’가 고난도 수학 경시 문제 1만 2500개로 구성된 테스트에서 1점 만점에 0.488점을 받아 0.481점을 받은 MS의 ‘토라(ToRA)13B’를 제치고 역대 최고점을 기록했다고 밝혔다. 매스GPT는 업스테이지의 모델 설계, 수학 공부앱 ‘콴다’를 만든 매스프레소의 학습할 데이터 제공, KT의 그래픽처리장치(GPU)와 클라우드 등 인프라 지원으로 만들어졌다.

매스GPT와 토라13B는 AI 모델의 규모를 의미하는 매개변수가 약 130억개다. 업계가 300억 매개변수 이하를 경량 언어모델(SLM)로 구분하는 만큼 두 모델 역시 SLM에 해당한다. 그럼에도 매스GPT가 획득한 점수는 매개변수 1750억개인 오픈AI의 ‘챗GPT’(GPT-3.5, 0.355점)는 물론 조 단위 매개변수로 추정되는 같은 회사의 ‘GPT-4’(0.425점)보다도 앞섰다.

매스GPT는 초등·중학교 수학 문제 8500개로 구성된 연산 테스트 ‘GSM8K’에서도 SLM 중 최고점인 0.782점을 기록했다.

업계에 따르면 GSM8K에서 매스GPT보다 점수가 높은 모델은 매개변수가 2조~5조개로 추정되는 구글의 ‘제미나이’(0.944점)와 GPT-4(0.92점)뿐이다. MS의 토라13B는 0.758점을 기록했다.

MATH와 GSM8K는 누구나 소스코드를 가져다 자신의 AI를 테스트할 수 있는 측정 도구로, 모델들이 경쟁해 순위를 매기는 플랫폼은 아니다. 업스테이지는 측정 결과를 담은 논문을 통해 매스GPT를 전 세계 개발자들과 공유할 방침이다.
2024-01-09 18면
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지
close button
많이 본 뉴스
1 / 3
'민생회복 소비쿠폰'에 대한 여러분의 생각은?
정부가 추가경정예산(추경)을 통해 총 13조원 규모의 ‘민생회복 소비쿠폰’을 지급하기로 하자 이를 둘러싸고 소셜미디어(SNS) 등에서 갑론을박이 벌어지고 있다. 경기에 활기가 돌 것을 기대하는 의견이 있는 반면 SNS와 온라인 커뮤니티에서는 ‘소비쿠폰 거부운동’을 주장하는 이미지가 확산되기도 했다. ‘민생회복 소비쿠폰’ 여러분은 어떻게 생각하나요?
경기 활성화에 도움이 된다고 생각한다.
포퓰리즘 정책이라고 생각한다.
광고삭제
광고삭제
위로