공유된 기사
"구글, '링 어텐션' 기법으로 AI 모델 컨텍스트 창에 수백만 단어 입력 가능"
구글이 '컨텍스트 창(context Window)'에 수백만 단어를 입력할 수 있는 새로운 방법을 공개했다. 이는 대형언어모델(LLM)을 제공하는 대부분 인공지능(AI) 기업들이 지원하는 것으로, 이제는 LLM 모델의 기본 요소로 자리 잡는 모양새다. 구글과 데이터브릭스, UC 버클리 연구진이 수백만 단어를 입력할 수 있도록 컨텍스트 창을 확장하는 ‘링 어텐션(Ring Attention)’ 기법에 관한 논문을 온라인 아카이브(arXiv)에 게재했다고 비즈니스인사이더가 보도했다.
링 어텐션 기법은 프로세스의 비트를 다음 GPU로 전달하는 동시에 인접한 다른 GPU로부터 유사한 블록을 수신하는 일종의 'GPU 링'을 형성한다. 이 기법은 매우 큰 컨텍스트를 분할, 링을 구성하는 모든 GPU에서 분산 처리한다. 따라서 전체 링이 하나의 GPU가 전체 컨텍스트를 처리하는 것처럼 동작한다. 이를 통해 각 GPU에 걸린 메모리 제약을 효과적으로 제거할 수 있다.
연구진은 "링 어텐션 기법을 사용하면 AI 모델의 컨텍스트 창에 수만단어가 아닌 수백만 단어를 입력할 수 있게 된다"고 설명했다. 또 256개의 엔비디아 'A100' GPU에서 구동하는 130억개의 매개변수 AI 모델의 경우, 기존 방식으로는 1만6000개의 토큰 컨텍스트 창에서 처리할 수 있는 컨텍스트 길이가 최대 1만6000개의 토큰으로 제한된다. 하지만 링 어텐션 방식을 사용하면 동일한 조건에서 400만개의 토큰 컨텍스트 창을 처리할 수 있다. 같은 수의 GPU로 250배 많은 작업을 수행할 수 있다는 결론이다.
링 어텐션 기법은 프로세스의 비트를 다음 GPU로 전달하는 동시에 인접한 다른 GPU로부터 유사한 블록을 수신하는 일종의 'GPU 링'을 형성한다. 이 기법은 매우 큰 컨텍스트를 분할, 링을 구성하는 모든 GPU에서 분산 처리한다. 따라서 전체 링이 하나의 GPU가 전체 컨텍스트를 처리하는 것처럼 동작한다. 이를 통해 각 GPU에 걸린 메모리 제약을 효과적으로 제거할 수 있다.
연구진은 "링 어텐션 기법을 사용하면 AI 모델의 컨텍스트 창에 수만단어가 아닌 수백만 단어를 입력할 수 있게 된다"고 설명했다. 또 256개의 엔비디아 'A100' GPU에서 구동하는 130억개의 매개변수 AI 모델의 경우, 기존 방식으로는 1만6000개의 토큰 컨텍스트 창에서 처리할 수 있는 컨텍스트 길이가 최대 1만6000개의 토큰으로 제한된다. 하지만 링 어텐션 방식을 사용하면 동일한 조건에서 400만개의 토큰 컨텍스트 창을 처리할 수 있다. 같은 수의 GPU로 250배 많은 작업을 수행할 수 있다는 결론이다.