공유된 기사
"바이트댄스, AI 에이전트 'UI-TARS-1.5' 공개 - 오픈AI·앤트로픽 능가하는 성능 입증"
바이트댄스가 최신 인공지능 에이전트 'UI•TARS-1.5'를 공개하며, 오픈AI의 '오퍼레이터'와 앤트로픽의 '클로드 3.7'을 능가하는 성능을 자랑했다. 이 모델은 시각-언어 모델(VLM)을 기반으로 구축된 오픈소스 멀티모달 에이전트로, 그래픽 사용자 인터페이스(GUI) 및 게임 상호작용을 위해 설계되었다. 특히, 지각, 인지, 행동을 통합한 '네이티브 에이전트 모델'로, 사용자의 명령을 이해하고 직접 행동할 수 있는 능력을 갖추고 있다.
UI•TARS-1.5는 '생각 후 행동(Think-Then-Act)' 메커니즘을 통해 복잡한 과제를 정확히 파악하고, 시각 정보를 기반으로 정밀한 판단을 내릴 수 있다. 또한, 데스크톱과 모바일, 게임 등 다양한 환경에서 일관된 사용 경험을 제공할 수 있도록 설계되었다. '자기 진화 학습(Self-Evolution)' 기능을 통해 모델은 과거의 행동을 분석하고 개선하며, 지속적으로 학습하고 적응할 수 있는 능력을 키운다. 이를 통해 장기적인 상호작용과 오류 발생 시의 유연한 복구, 복잡한 작업 순서를 계획하는 능력을 안정적으로 수행할 수 있다.
다양한 벤치마크에서 UI•TARS-1.5는 경쟁 모델들을 능가하는 성과를 보였다. 'OSWorld' 벤치마크에서 42.5%의 성공률을 기록하며 오퍼레이터와 클로드 3.7을 앞질렀고, '윈도우 에이전트 아레나'와 '안드로이드 월드'에서도 높은 성과를 보였다. '스크린스팟-V2'와 '스크린스팟프로'에서는 각각 94.2%와 61.6%의 정확도를 기록하며 경쟁 모델들을 압도했다. 이 모델은 허깅페이스와 깃허브에서 다운로드 가능하며, 상업적 용도로도 사용할 수 있다.
UI•TARS-1.5는 '생각 후 행동(Think-Then-Act)' 메커니즘을 통해 복잡한 과제를 정확히 파악하고, 시각 정보를 기반으로 정밀한 판단을 내릴 수 있다. 또한, 데스크톱과 모바일, 게임 등 다양한 환경에서 일관된 사용 경험을 제공할 수 있도록 설계되었다. '자기 진화 학습(Self-Evolution)' 기능을 통해 모델은 과거의 행동을 분석하고 개선하며, 지속적으로 학습하고 적응할 수 있는 능력을 키운다. 이를 통해 장기적인 상호작용과 오류 발생 시의 유연한 복구, 복잡한 작업 순서를 계획하는 능력을 안정적으로 수행할 수 있다.
다양한 벤치마크에서 UI•TARS-1.5는 경쟁 모델들을 능가하는 성과를 보였다. 'OSWorld' 벤치마크에서 42.5%의 성공률을 기록하며 오퍼레이터와 클로드 3.7을 앞질렀고, '윈도우 에이전트 아레나'와 '안드로이드 월드'에서도 높은 성과를 보였다. '스크린스팟-V2'와 '스크린스팟프로'에서는 각각 94.2%와 61.6%의 정확도를 기록하며 경쟁 모델들을 압도했다. 이 모델은 허깅페이스와 깃허브에서 다운로드 가능하며, 상업적 용도로도 사용할 수 있다.