“사진 속 깊이까지 읽는다”... 3차원 공간 추론 프롬프트 학습 기술 개발

켄텍 이석주 교수 연구팀, 경량 프롬프트 학습 기술 개발로 인공지능 공간 이해 한계 돌파

한국에너지공대(KENTECH, 총장직무대행 박진호)는 이석주 교수 연구팀이 비전-언어 모델(Vision Language Model, VLM)의 3차원 공간적 추론을 가능하게 하는 경량 프롬프트 학습 기술을 개발했다고 1일 밝혔다. 연구진은 이 기술을 단일 카메라 기반의 깊이 추정 기법에 응용해 인공지능의 공간 이해 능력을 크게 향상시켰다.

기존 모델이 인간 언어 기반 토큰으로는 깊이 정보를 충분히 반영하지 못했던 것과 달리, 이번에 발표된 기술은 기계가 직접 이해할 수 있는 경량 프롬프트 학습을 설계해 단일 카메라 영상에서도 사물의 거리와 깊이를 정밀하게 추정한다.

멀티모달 및 비전-언어 모델 CLIP은 이미지와 텍스트를 동시에 이해하는 인공지능으로, 비전과 자연어 처리 융합 분야에서 널리 활용된다. 예를 들어 ‘고양이’라는 단어를 보여주면 수많은 사진 속에서 고양이를 찾아내는 방식이다. 하지만 거리와 깊이 인식과 같은 기하학적 공간 이해 영역에는 한계가 있었다.

연구팀은 이를 극복하기 위해 사람이 쓰는 언어 대신, 기계가 이해하기 최적화된 새로운 표현 방식인 비인간 언어 프롬프트를 도입했다. 이를 통해 카메라에 찍힌 사진이나 영상만으로도 물체의 깊이를 정밀하게 파악할 수 있도록 했다.

실험 결과, 이번 기술은 약 110만 개 학습 파라미터만으로도 기존의 대형 모델들(3억 개 이상)과 견줄 만한 성능을 보였다. 필요한 파라미터 수가 300분의 1 수준으로 줄었지만, 성능 저하 없이 효과적인 학습이 가능했다. 이석주 교수는 “자율주행, 로봇 비전, 증강현실 등 경량화가 필수적인 다양한 공간 컴퓨팅 분야에 활용 가능한 핵심 원천기술로 자리매김할 것”이라고 강조했다.

이번 연구는 산업통상자원부, 한국연구재단, 한국천문연구원의 지원을 받아 수행됐으며, 컴퓨터 비전 및 기계 학습 분야의 세계적 권위 학술지 Pattern Recognition (Elsevier, SCIE Q1, IF=7.6)에 9월 26일 온라인 게재됐다.

닷새 만에 또...쿠팡물류센터 50대 근로자 사망, 새벽배송 금지 여론 재점화하나

삼성물산·엘리엇 사태 재발 막는다? 민주당 ‘자사주 방패’ 폐지 드라이브.. 어떻게 보는가

LS그룹, 2026년 임원 인사 단행…‘안정·미래·성과주의’ 3축 강화

삼성증권, 2026년 정기 임원 인사…부사장 1명·상무 4명 승진

휘닉스 파크, ‘핑구 스노우빌리지’ 오픈…90년대 감성+키즈 겨냥 겨울 콘텐츠로 볼거리 즐길거리 UP

정부 규제 3연타에 시장 멈췄다…‘부동산 쇼크’ 전문가 진단 나선다

레몬헬스케어, 진짜 SaaS인가? 기술특례 상장 앞두고 밸류 논쟁 본격화

드디어 날짜 잡은 '현역가왕3', '미스트롯4'와 대결구도 완성...시청자가 바라는 세가지는?

대박 난 '신임감독 김연경', 8구단 탄생?...한화생명·전주시 거론한 카더라 소문 확산

동아에스티 간절함 통했나…신약허가 혁신 프로세스 성공 뇌전증 치료제 엑스코프리, 식약처 국민 불편해소 위한 결정

“사진 속 깊이까지 읽는다”... 3차원 공간 추론 프롬프트 학습 기술 개발

켄텍 이석주 교수 연구팀, 경량 프롬프트 학습 기술 개발로 인공지능 공간 이해 한계 돌파