04/29/2025 | Press release | Distributed by Public on 04/28/2025 17:21
스마트폰 갤러리에서 원하는 사진을 빠르게 찾고 싶다면?
여러 개의 영상을 일일이 확인하고 편집하는 게 번거로웠다면?
사진이 너무 많아 찾기 어려웠던 순간은 누구나 한 번쯤 겪어봤을 것이다. 또한 동영상을 원하는 대로 편집하는 일도 여전히 어렵고 번거롭다. 갤럭시 S25 시리즈는 자연어 이해와 비전 AI 기술 기반으로 이러한 고민을 해결하고, 일상 속에서 사용자에게 더욱 자연스럽고 직관적인 모바일 경험을 제공한다. 갤러리에 있는 사진을 검색할 때 사용자가 날짜, 장소, 물체, 행동 등을 포함한 사진의 상황을 묘사하는 검색어를 입력하면 AI가 이를 분석해 검색어에 맞는 사진을 찾아준다. 또한, 여러 영상에서 주요 장면만 자동으로 골라 새로운 영상으로 편집해주는 기능도 선보였다.
이 모든 기능은 시각 기술 선행연구와 솔루션 구현을 위한 긴밀한 협업의 결과다. 뉴스룸이 삼성리서치 비주얼 테크놀로지팀과 MX사업부 비주얼 솔루션팀 개발자들을 만나 사진과 영상에서 더욱 스마트해진 사용자 경험을 제공하는 개발 스토리를 들어봤다.
▲(사진 왼쪽부터) 삼성전자 삼성리서치와 MX사업부에서 갤러리 경험 기술을 담당한 이원우, 최인호, 이홍표, 김성환 프로
"사진 속 요소마다 이름표" AI 기반 분류 정확도 향상
사용자마다 평균 수천 장에서 많게는 수만장에 달하는 방대한 사진이 저장되는 스마트폰. 소중한 기록이 늘어날수록 원하는 사진을 찾기는 어려워진다. 삼성전자의 갤러리 검색 기술은 사진 속의 물체, 인물, 장소 등 다양한 요소를 자동으로 태깅(Tagging)하고 분류해서, 원하는 사진을 빠르고 정확하게 찾을 수 있도록 한다. 이는 과거의 추억을 되살리거나 중요한 정보를 신속하게 확인하고자 하는 사용자에게 큰 편의와 만족감을 제공한다.
검색이 잘 되려면 우선 분류가 중요하다. 개발진은 사진에 포함된 각각의 대상을 인식하고 이름표를 붙이는 태그의 종류를 갤럭시 S25 시리즈에서 전작 대비 3배 수준으로 늘렸다. 또 인물 분류를 위해 데이터를 그룹화하는 클러스터링(Clustering)의 범위도 확대했다. 삼성리서치 이홍표 프로는 "이미지 분석 엔진을 개발하고, 제로 샷(Zero-shot) 기술을 활용해 분석 엔진이 처음 보는 물체 데이터도 잘 인식할 수 있도록 성능을 높였다"며 "인물에 대해선 얼굴 정보뿐 아니라 의상, 촬영 시간과 위치 정보 등을 종합적으로 분석해 동일 인물을 효과적으로 그룹화할 수 있도록 했다"고 설명했다.
▲갤러리 검색 기능
"일상 속 대화처럼 찾는다" 자연어 검색 성능 강화
삼성전자는 갤러리 검색을 위해 자연어 검색 성능 강화에 주력했다. 단어 위주의 검색에서 나아가 일상 대화처럼 자연스러운 문장으로도 원하는 사진을 찾을 수 있도록 사용자가 자주 사용하는 문장과 다양한 응용 사례를 고려해 검색 모델을 개발했다.
삼성리서치 이홍표 프로는 "이미지와 텍스트를 연계해 학습하는 비전-언어 모델을 활용하고, 사용자가 입력할 수 있는 다양한 문장을 생성형 AI로 자동 생성했다"며 "특히 검색 모델이 스마트폰에서 온디바이스로 빠르게 작동하도록 모델 경량화에도 힘썼다"고 말했다. 또 MX사업부 최인호 프로는 "이미지의 맥락을 이해하는 비전 분석 엔진, 거대언어모델(LLM) 등 선행연구 성과를 바탕으로 자연어 처리 기능을 제품에 효과적으로 적용할 수 있었다"고 밝혔다.
편향되지 않고 보다 정확한 검색 결과를 위해서도 노력했다. MX사업부 최인호 프로는 "악의적인 검색어로 인해 잘못된 결과가 나오지 않도록 다양한 사용 시나리오를 가정하고 발생 가능한 문제점을 사전에 파악하고자 했다"며 "부정적 단어나 비속어, 신조어 데이터베이스를 구축하고, 사용자 테스트를 통해 검색의 정확도를 높인 과정이 가장 힘들면서도 보람 있었다"고 말했다.
▲갤러리 검색 기술을 담당한 MX사업부 최인호, 삼성리서치 이홍표 프로
"여러 개의 영상도 AI가 알아서 편집" 자동 잘라내기
갤러리 경험에서 동영상 편집의 중요성도 날로 커지고 있다. 동영상을 이용한 미디어 소비가 확대되고 있지만, 동영상 편집 도구를 자유자재로 사용하는 것은 생각보다 쉽지 않다. 이에 갤럭시 S25 시리즈는 AI 기반 동영상 분석 기술을 강화해 편집을 훨씬 빠르고 편리하게 만들어주는 기능을 선보였다. '자동 잘라내기' 기능을 활용하면 사용자가 선택한 긴 영상이나 여러 개의 영상에서 주요 장면을 추출해 하나의 짧은 영상을 새로 만들 수 있다.
자동 잘라내기 기능을 위해선 최대 90분 길이의 영상도 빠르게 분석해 편집 영상을 만들어내고 편집 영상의 길이를 자유롭게 조절할 수 있는 성능이 중요했다. 개발진은 삼성리서치의 선행기술 노하우와 MX사업부의 모바일 최적화 역량을 통합해 긴밀한 협업을 이어갔다.
MX사업부 김성환 프로는 "기존 동영상 분석 기술은 모델 용량이 크고 처리 속도가 느리거나, 동영상의 주요 구간을 획일적으로 선택하는 등의 한계가 있었다"며 "온디바이스 AI 기반으로 쉽고 빠른 편집 경험을 제공할 수 있도록 여러 후보안을 도출하고 검증하면서 동영상 처리를 최적화했다"고 말했다.
삼성리서치 이원우 프로는 "사진에 비해 데이터량이 많은 동영상으로부터 주요 구간을 빠르게 찾고, 주요 구간을 사용자가 원하는 길이로 조절할 수 있는 기능을 개발하였다"며 "AI가 사람의 감성과 비슷한 수준으로 영상 속 하이라이트를 판단하도록 하는 것이 난제였지만, 연구소와 사업부가 함께 기준을 세워가면서 기능의 완성도를 높일 수 있었다"고 협력 과정을 소개했다.
▲동영상 자동 잘라내기 기능
"분석에서 생성까지" 비전 AI의 가능성
삼성전자는 스마트폰에 적용한 촬영·편집 기술부터 AR·VR 등에 활용할 수 있는 멀티모달 인터랙션 기술까지 폭넓은 비전 AI 기술을 연구하고 있다. 이러한 연구의 핵심은 영상 속 인물이나 동물 등 피사체와 주변 상황을 온디바이스로 빠르고 정확하게 분석하고 의미 있는 순간을 인식하는 것이다. 삼성전자는 비전 AI 기술을 통해 스마트폰의 대표 기능인 촬영과 감상 경험을 한층 진화시키고 사용자에게 새로운 방식의 콘텐츠 소비 경험을 제공할 계획이다.
MX사업부 김성환 프로는 "동영상 편집 분야에서 '쉽고 빠른 편집'과 '완성도 높은 편집'을 위해 AI 기술을 적극 활용하고 있다"며 "AI가 영상의 맥락을 더욱 잘 이해해 편집 시간을 효과적으로 단축하고, 전문적인 편집 지식 없이도 사용자의 감성을 반영한 고품질의 결과물을 생성할 수 있도록 기술 개발에 힘쓰겠다"고 밝혔다.
삼성리서치 이원우 프로 역시 "동영상 분석 기술을 더욱 고도화하면 동영상 검색 기능, 차별화된 편집 효과 등을 개발할 수 있을 것"이라며 "다양한 응용 분야에 활용할 수 있는 비전 AI 기술을 확보해 나가겠다"고 말했다.
▲동영상 편집 기술을 담당한 MX사업부 김성환, 삼성리서치 이원우 프로
갤러리 검색과 영상 자동 잘라내기 기능은 AI 기술이 일상 속에서 어떻게 활용될 수 있는지를 잘 보여주는 대표적인 사례다. 삼성전자는 이미지와 영상 분석 기술을 지속적으로 고도화하면서 사용자가 더욱 쉽고 직관적으로 추억을 찾고 기록할 수 있는 새로운 경험을 만들어가고 있다. 앞으로도 일상 속에서 실질적인 편의를 제공하는 갤럭시 AI의 진화가 기대된다.