애저 코그니티브 서비스의 미리보기로 제공
마이크로소프트가 영상에서 인물과 사물을 자동으로 구별하고 캡션까지 추가하는 컴퓨터 비전 인공지능(AI)모델을 공개했다.
마이크로소프트는 새로운 AI서비스를 자동 캡션 추가, 배경제거, 이미지 검색 등에 활용할 수 있다고 밝혔다.
대규모 언어 데이터를 바탕으로 이미지나 영상에 가장 적합한 단어로 캡션을 추가할 수 있으며, 기미지에서 각 객체를 구분할 수 있어 배경에서 사람과 물체를 분할 후 다른 배경 등으로 전환할 수도 있다.
이미지와 텍스트 간의 유사성을 기반으로 이미지 검색도 지원한다. 실제로 함께 공개된 영상에서는 초원의 언덕에 앉아 있는 치타와 뒤로 지나가는 차량을 비롯해 차 안에 앉아 있는 2명의 여성을 실시간으로 분석하고 적합하게 캡션이 적용 되는 모습을 확인할 수 있다.