Apple의 AI 연구팀은 기계가 깊이를 인식하는 방식을 크게 발전시켜 증강 현실에서 자율 주행 차량에 이르기까지 다양한 산업을 혁신할 수 있는 새로운 모델을 개발했습니다.
Depth Pro라고 불리는 이 시스템은 기존에 이러한 예측을 위해 필요했던 카메라 데이터에 의존하지 않고도 단일 2D 이미지에서 상세한 3D 깊이 맵을 1초 만에 생성할 수 있습니다. 이 기술은 'Depth Pro'라는 제목의 연구 논문에서 자세히 설명합니다: 1초 이내에 선명한 단안식 측정 깊이"라는 제목의 연구 논문에 자세히 설명된 이 기술은 단 하나의 이미지로 깊이를 추론하는 프로세스인 단안식 깊이 추정 분야에서 큰 진전을 이룬 것으로, 실시간 공간 인식이 중요한 분야 전반에 걸쳐 광범위하게 응용될 수 있습니다.
이 모델의 개발자인 알렉세이 보흐코브스키와 블라드렌 콜툰은 Depth Pro가 가장 빠르고 정확한 시스템 중 하나라고 설명합니다.
하지만 Depth Pro는 이러한 요구사항을 우회하여, 일반적인 GPU에서 단 0.3초 만에 고해상도 깊이 맵을 생성합니다. 이 모델은 2.25메가픽셀의 맵을 뛰어난 선명도로 만들어낼 수 있으며, 다른 방법들이 종종 간과하는 머리카락이나 식물과 같은 아주 미세한 세부사항까지 포착합니다.
"이러한 특성들은 밀집 예측을 위한 효율적인 다중 규모 비전 트랜스포머를 포함한 여러 기술적 기여를 통해 가능해졌습니다,"라고 연구진들은 논문에서 설명합니다. 이 아키텍처를 통해 모델은 이미지의 전체적인 맥락과 세부 사항을 동시에 처리할 수 있게 되었습니다—이는 이전의 느리고 덜 정확한 모델들로부터 엄청난 도약입니다.
"이 방법은 이상적으로 제로샷 체제에서 메트릭 깊이 맵을 생성하여 물체 형태, 장면 배치, 절대적 크기를 정확하게 재현해야 합니다,"라고 연구진은 기술하며, 더 일반적인 AI 모델 훈련과 관련된 시간과 비용을 줄일 수 있는 모델의 잠재력을 강조합니다.
깊이 추정의 과제 해결
깊이 추정에서 가장 어려운 과제 중 하나는 "부유 픽셀"로 알려진 문제를 다루는 것입니다—깊이 매핑 오류로 인해 공중에 떠 있는 것처럼 보이는 픽셀들입니다. Depth Pro는 이 문제를 정면으로 다루어, 정확성이 가장 중요한 3D 재구성과 가상 환경과 같은 응용 분야에서 특히 효과적입니다.
또한, Depth Pro는 경계 추적에서 뛰어나, 물체와 그 가장자리를 선명하게 구분하는 데 있어 이전 모델들보다 우수한 성능을 보입니다. 연구진은 이 시스템이 "경계 정확도에서 배수적인 요인으로" 다른 시스템들을 능가한다고 주장하며, 이는 이미지 매팅과 의료 영상과 같이 정밀한 객체 분할이 필요한 응용 분야에서 핵심적입니다.
오픈소스와 확장 가능성
채택을 가속화할 수 있는 움직임으로, Apple은 Depth Pro를 오픈소스로 공개했습니다. 사전 훈련된 모델 가중치와 함께 코드가 GitHub에서 제공되어, 개발자와 연구자들이 이 기술을 실험하고 더욱 개선할 수 있게 되었습니다. 저장소에는 모델의 아키텍처부터 사전 훈련된 체크포인트까지 모든 것이 포함되어 있어, 다른 이들이 Apple의 작업을 기반으로 쉽게 발전시킬 수 있습니다.
연구팀은 또한 로봇공학, 제조업, 의료 분야와 같은 영역에서 Depth Pro의 잠재력을 더욱 탐구하도록 장려하고 있습니다. "우리는 https://github.com/apple/ml-depth-pro에서 코드와 가중치를 공개합니다,"라고 저자들은 기술하며, 이것이 모델의 시작에 불과하다는 신호를 보냅니다.
AI 깊이 인식의 다음 단계
인공지능이 가능성의 경계를 계속 넓혀감에 따라, Depth Pro는 단안 깊이 추정의 속도와 정확성에서 새로운 기준을 설정합니다. 단일 이미지로부터 고품질의 실시간 깊이 맵을 생성하는 능력은 공간 인식에 의존하는 산업 전반에 걸쳐 광범위한 영향을 미칠 수 있습니다.
AI가 의사결정과 제품 개발에 점점 더 중요해지는 세상에서, Depth Pro는 최첨단 연구가 어떻게 실용적인 실제 솔루션으로 전환될 수 있는지를 보여줍니다. 기계가 주변 환경을 인식하는 방식을 개선하든, 소비자 경험을 향상시키든, Depth Pro의 잠재적 용도는 광범위하고 다양합니다.
연구진이 결론짓듯이, "Depth Pro는 머리카락, 털, 식물과 같은 미세한 구조를 포함하여 물체 경계의 선명한 구분에서 모든 이전 작업을 극적으로 능가합니다." 오픈소스 공개와 함께, Depth Pro는 곧 자율주행부터 증강현실까지 다양한 산업 분야에서 필수적인 요소가 될 수 있습니다—기계와 사람이 3D 환경과 상호작용하는 방식을 변화시키며.
(IP보기클릭)180.69.***.***
와 오픈소스네
(IP보기클릭)182.172.***.***
그러다간 사진으로도 잠금 풀릴수 있어서 라이다는 안빼는게 좋을듯요 https://www.youtube.com/watch?v=7WQUL2_u7sw
(IP보기클릭)118.32.***.***
이게 비전프로2에는 들어갈텐데 과연
(IP보기클릭)39.7.***.***
아이폰 페이스아이디는 tof비슷하게 사용합니다. 라이다는 프로계열에 후면카메라 공간 측정에 사용합니다.
(IP보기클릭)118.32.***.***
이게 비전프로2에는 들어갈텐데 과연
(IP보기클릭)124.50.***.***
(IP보기클릭)180.69.***.***
와 오픈소스네
(IP보기클릭)39.7.***.***
(IP보기클릭)182.172.***.***
얼음공룡
그러다간 사진으로도 잠금 풀릴수 있어서 라이다는 안빼는게 좋을듯요 https://www.youtube.com/watch?v=7WQUL2_u7sw | 24.10.05 18:40 | | |
(IP보기클릭)39.7.***.***
스피네루
아이폰 페이스아이디는 tof비슷하게 사용합니다. 라이다는 프로계열에 후면카메라 공간 측정에 사용합니다. | 24.10.05 19:10 | | |
(IP보기클릭)121.164.***.***
함께 병용하는 하이브리드 구조로 갈 것 같고, 이미 있는 라이다를 뺄 것 같진 않습니다. AI모델로 2차원 사진에서 3차원 공간 정보를 따내는 건 어디까지나 "추론"의 영역이라 광학적으로 3D매핑을 하는 Lidar 등을 완전 대체하진 못할겁니다. | 24.10.05 19:16 | | |
(IP보기클릭)39.7.***.***
페이스아이디도 레이저 쏘는건 똑같은데 라이다처럼 반사하고 돌아오는 시간 측정 방식은 아니였군요 | 24.10.05 19:21 | | |
(IP보기클릭)39.7.***.***
여튼 실제 레이저 쏘는 대신 2D를 3D로 분석하는 기술이 안면인식에 쓰인다면 보안 뚫릴수 있어서 대체하지 않았으면 하네요 | 24.10.05 19:26 | | |
(IP보기클릭)125.141.***.***
(IP보기클릭)118.235.***.***
(IP보기클릭)210.219.***.***