[해외 DS] Meta, 컴퓨터 비전 분야 혁신하다

Meta의 SAM(Segment Anything Model), 이미지의 개체에 속하는 픽셀을 보다 쉽고 정확하게 식별가능해 SAM, 유저친화적 인터페이스 통해 개체의 해상도를 유지하면서 쉽게 이미지에서부터 개체를 분리할 수 있어 전문가들 해당 모델이 컴퓨터 비전 분야와 VR 및 AR 헤드셋의 물체 감지 등 광범위하게 활용될 것이라 기대

pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

사진= AI 비즈니스

최근 Meta가 개발한 컴퓨터 비전 인공지능 모델인 SAM(Segment Anything Model)은 이미지 또는 비디오의 특정 픽셀이 어떤 객체에 속하는지 빠르고 정확하게 식별할 수 있습니다. 또한 사람이 훈련시키지 않은 객체도 스스로 학습할 수 있습니다. Meta 연구원 A씨는 “SAM이 이미지 편집뿐만 아니라 과학적 이미지 분석에 이르는 작업까지 광범위하게 사용될 수 있기를 기대한다”고 말했습니다.

이어 A씨는 “앞으로 우리 모델은 웹 상의 이미지와 텍스트 컨텐츠를 학습하여 시각, 청각을 비롯한 여러 인터페이스를 통해 정보를 받아 학습하는 멀티모달 AI로 발전할 것”이라고 말했습니다.

SAM은 딥러닝의 학습 방식인 이미지의 대화형 분할 방식과 자동 분할 방식을 조합한 보다 일반적인 인공지능 모델입니다. 전문가들은 해당 모델은 유저가 직접 분할 데이터를 수집하고 모델을 조정할 필요가 없다는 점에서 유저 친화적인 모델이라고 평가하고 있습니다.

Meta AI 연구 부사장 Joelle Pineau는 “사용자의 시각 정보가 객체를 인식하기 위한 입력값으로 들어가는 AR 및 VR분야에 SAM을 적극 활용할 수 있다”며 “SAM은 Meta가 이전에 수행한 그 어떤 프로젝트보다 큰 파장을 불러일으킬 것”이라고 밝혔습니다.

Meta는 퍼미시브 오픈 라이센스(permissive license)로 모델을 배포했습니다. 퍼미시브 오픈 라이센스는 독점적 저작권과 오픈 소스의 성격이 동시에 존재하는 오픈 소스 라이센스입니다. 또한 Meta는 컴퓨터 비전 연구원들을 위해 사상 최대 규모의 분할 데이터 세트를 공개하고 있습니다. 해당 데이터 세트는 Github를 통해 확인할 수 있습니다.

작동 방식

SAM은 앞서 언급했듯 이미지의 픽셀을 구분하여 객체를 식별할 수 있습니다. 유저는 객체를 클릭해서 마스크를 추가하고, 이를 이미지로부터 잘라내어 사진으로부터 객체를 분리할 수 있습니다.

예시로 장난감을 물고 있는 강아지를 배경으로부터 분리해보겠습니다.

사진= AI 비즈니스

왼쪽의 ‘Add Mask(마스크 추가)’를 선택한 후 사진에서 분리할 객체인 강아지와 장난감 두 개를 클릭합니다.

아래 두 개의 다이아몬드는 사용자가 마스크를 적용하기 위해 클릭한 위치를 나타냅니다.

사진= AI 비즈니스

이제 원하는 마스크가 배치됐으니, ‘Cut out object’를 눌러 원하는 이미지를 추출합니다. 한편 객체의 해상도를 유지하면서 새 이미지로 저장할 수도 있습니다.

Meta 연구자 A씨는 SAM의 기술적 원리에 대해 “일반 이미지 인코더는 이미지에 대한 일회성 임베딩을 생성하지만, SAM의 경량 인코더는 모든 명령을 실시간으로 임베딩 벡터로 변환한다”며 “경량 인코더를 통해 변환된 벡터들은 분할 마스크를 예측하는 경량 디코더에서 결합된다”고 말했습니다.

이어 “이미지 임베딩이 계산된 후 SAM은 웹 브라우저에서 유저가 프롬프트를 입력하면 단 50밀리초 만에 세그먼트를 생성할 수 있다”고 덧붙였습니다.

현재 SAM은 연구 목적으로 사용되는 데모판으로 공개된 바 있습니다. Meta는 데모에 업로드 된 모든 이미지는 데모 공개 기간이 끝나면 삭제될 것이라고 밝혔습니다.

Meta의 생성 AI 모델 개발에 대한 노력은 이번 SAM이 처음은 아닙니다. 이전 LLaMA 및 OPT-175B와 같은 언어 모델을 출시한 바 있으며, 모회사인 Facebook은 작년 메타버스 시장 진입을 선언하면서 이미지 및 비디오 중심 모델에 대한 AI연구에 집중해왔습니다.

지난 작년 9월, 메타는 텍스트 프롬프트를 통해 비디오를 생성할 수 있는 Make-A-Video를 출시했습니다. 또한 그 이전에는 사용자가 텍스트 프롬프트나 프리 스케치를 입력하여 사실적인 이미지를 출력해낼 수 있는 Make-A-Scene을 출시한 바 있습니다.

Meta의 수석 AI 과학자인 Yann LeCun은 SAM과 같은 멀티모달 생성 AI 모델이 앞으로 점점 더 대중화될 것이라고 예측했습니다.


Meta’s researchers have developed an AI model that has the potential to revolutionize the way images are identified in computer vision.

The Segment Anything Model (SAM) can more quickly, easily and accurately identify which pixels in an image or video belong to an object. It can even learn by itself to identify an object for which it was not trained. This capability can be broadly applied to tasks ranging from image editing to analyzing of scientific imagery, among other uses.

In the future, SAM could become part of larger AI systems for a more “general multimodal understanding of the world” such as understanding the images and text content of a webpage, the researchers said.

SAM uses a combination of interactive and automatic segmentation of images to create a more general-use model. It is designed to be easy and flexible to use as it removes the need for users to collect their own segmentation data and fine-tune a model for a specific use case.

Further, Meta’s researchers claim that SAM could be used in AR and VR headsets, where a user’s gaze is the input for identifying objects.

SAM “allows a greater degree of expressivity than any project Meta has done before,” said Meta AI research vice president Joelle Pineau.

Meta released the model under a permissive open license. It is also releasing the dataset, specifically for researchers, with the company claiming it is the largest-ever segmentation dataset. The dataset can be accessed via GitHub to aid further research in computer vision use cases.

How it works

SAM can identify pixels belonging to an object in an image for removal or edits. Users can click on the object to add a mask and then cut it out of the image to create a separate object. Users can also use a natural language prompt to select the object they want the model to mask.

Let’s say you want to cut out the image of Barney the dog with toys in tow, in the image below.

After choosing ‘add mask’ on the left, click on the object you want to remove from the picture. Here, two masks are required as the model first selects just the dog, but not the toys. Simply clicking again on the toys allows both objects to be selected.

The two diamonds represent where the user clicked to apply the mask.

Once your desired masks are in place, hit ‘cut out object’ and your desired image will be extracted. It can then be saved as a new image while maintaining the object’s resolutions.

Meta explains the technical details: “Under the hood, an image encoder produces a one-time embedding for the image, while a lightweight encoder converts any prompt into an embedding vector in real-time. These two information sources are then combined in a lightweight decoder that predicts segmentation masks. After the image embedding is computed, SAM can produce a segment in just 50 milliseconds given any prompt in a web browser.”

Users can try SAM here, although it is a demo to be used for research and not for commercial purposes. Meta said that any images uploaded in the demo will be deleted at the end of the session.

The creation of Segment Anything marks another milestone in AI for Meta. Despite releasing language models like LLaMA and OPT-175B, the Facebook parent has largely focused its AI research in the past year on more image and video-focused models given its pivot to the metaverse.

Last September, it published the text-to-video tool Make-A-Video which can generate videos from text prompts. And before Make-A-Video, Meta released Make-A-Scene, a multimodal generative AI method capable of creating photorealistic illustrations from text inputs and freeform sketches.

Meta’s own chief AI scientist, Yann LeCun, has said that multimodal generative AI models like SAM will be increasingly used in the future.

Similar Posts