1. 개요
- NeRF는 2020년 UC Berkeley와 Google Research에서 발표한 3차원 신경 렌더링 기술임
- 연속적인 3D 장면을 재구성하고, 다양한 시점에서의 이미지를 고화질로 렌더링하기 위해 딥러닝 기반 MLP(Multi-Layer Perceptron)를 활용함
- 기존의 볼륨 렌더링 기법에 신경망 기반의 표현력을 더해, sparse한 2D 이미지로부터 연속적인 3D 장면의 시각화를 가능하게 함
2. 기술적 배경
- 컴퓨터 비전과 컴퓨터 그래픽스의 융합 영역에서 발전된 기술로, 전통적인 Structure-from-Motion(SfM), Multi-View Stereo(MVS) 방식과 차별화됨
- 기존 방식은 명시적인 3D 구조(예: 포인트 클라우드, 메쉬 등)를 복원하는 데 초점을 두는 반면, NeRF는 암묵적으로 볼륨 정보를 신경망 내부에 저장함
- 고정된 시점에서 찍은 다수의 2D 이미지들을 활용하여, 새로운 시점에서의 이미지를 합성(rendering)하는 것을 목표로 함
3. NeRF의 구조
- NeRF는 5D 입력(3D 위치(x, y, z) + 2D 시점 방향(θ, φ))을 받아, RGB 색상 값과 볼륨 밀도(density)를 출력하는 MLP로 구성됨
- 입력된 위치와 방향 정보를 positional encoding 기법을 통해 고주파 정보로 변환한 후, 이를 MLP에 입력하여 높은 표현력을 확보함
- MLP의 출력은 해당 위치의 색상(RGB) 및 투명도(σ)로 해석되며, 이를 수치적 적분(volumetric rendering)을 통해 시점 기반의 최종 이미지를 생성함
[입력] 위치(x, y, z) + 시점 방향(θ, φ)
↓ Positional Encoding
↓
[Neural Network] → RGB 색상 + 밀도(σ)
↓
[Volumetric Rendering] → 시점 기반 합성 이미지
4. 수치적 렌더링 (Volumetric Rendering)
- 픽셀을 따라 가상의 광선을 투사한 뒤, 광선이 통과하는 각 지점에서의 색상 및 밀도를 추출하여, 수치적으로 색을 누적함
- 이 누적 과정은 안개나 투명체와 유사한 볼륨 기반 렌더링 식을 기반으로 하며, 다음과 같은 수식으로 표현됨
): 앞선 지점들에서의 누적 투명도 (transmittance) ): 해당 지점의 밀도 (density) ): 샘플 간 거리 (distance between samples) ): 해당 지점의 RGB 색상 값 (color at the point)
5. Positional Encoding의 필요성
- MLP는 고주파 정보를 표현하는 데 한계가 있으므로, sin/cos 기반의 positional encoding을 활용하여 위치 정보를 더 복잡한 패턴으로 확장함
- 예:
) - 이를 통해 미세한 디테일 표현, 정밀한 구조 재현 가능
6. 특징
- 연속 공간 표현: 3D 장면을 voxel 형태로 제한하지 않고 연속적인 함수로 표현함
- 고해상도 렌더링: sparse한 이미지로부터 새로운 시점에서의 고품질 이미지를 합성 가능
- 신경망 기반 학습: 장면 별로 하나의 신경망을 학습하여 해당 장면을 "기억"하게 함
7. 장점
- 기존 3D 복원 기법보다 훨씬 더 부드럽고 정밀한 시각적 결과 도출 가능
- 복잡한 기하 구조나 텍스처를 보존하면서도 일반적인 카메라 위치에서의 새로운 뷰 합성이 가능함
- 표면 추정 없이도 실제와 유사한 광선 기반 표현이 가능함
8. 단점 및 한계
- 하나의 장면(scene)마다 개별 학습이 필요하므로 실시간 처리에는 부적합함
- 학습 시간 및 계산량이 매우 많아 실용화에 제약이 존재함
- 반투명 객체나 복잡한 반사 효과 처리에 제한이 존재함
- 초기 NeRF는 dynamic scene, non-rigid object 처리에 취약함
9. 개선된 파생 모델들
- Mip-NeRF: anti-aliasing 문제를 해결하기 위한 멀티스케일 NeRF
- NeRF-W: 다양한 조명 및 날씨 조건이 있는 장면에서도 잘 동작하도록 개선
- Instant-NGP: hash encoding을 활용하여 실시간 NeRF 구현 가능하게 한 기술
- Dynamic NeRF (D-NeRF): 시간에 따라 변화하는 dynamic scene을 처리 가능하게 함
- Urban-NeRF: 자율주행 데이터셋을 활용한 대규모 야외 장면 학습에 특화
10. 활용 분야
- VR/AR: 360도 시점에서의 자연스러운 시각 재현 가능
- 게임 엔진: 고품질 3D 장면을 데이터 기반으로 빠르게 렌더링 가능
- 영화/영상 산업: 실제 촬영 데이터를 기반으로 CG와 결합한 장면 재구성에 활용
- 디지털 트윈: 실제 공간을 신경망 기반으로 압축 표현하여 3D 모델 생성
- 자율주행: 도시 환경의 정확한 시각적 재현을 통한 시뮬레이션 및 테스트 가능
11. 결론
- NeRF는 기존 3D 복원 방식과 차별화된 방식으로, 연속 공간 기반의 장면 렌더링을 가능하게 한 혁신적 기술임
- 다양한 파생 모델이 등장하며 실시간화, 대규모화, 동적 장면 처리 등으로 발전하고 있음
- VR, AR, 자율주행, 디지털 트윈 등 현실 세계를 3D로 이해하고 재현해야 하는 다양한 산업 분야에서 핵심 기술로 자리잡는 중임
'IT Study > 인공지능 관련' 카테고리의 다른 글
🤖 AI 탈옥(AI Jailbreak) (1) | 2025.03.31 |
---|---|
🤖 딥페이크(DeepFake) (6) | 2025.03.31 |
🤖 마스크드 오토인코더(Masked Autoencoder) (0) | 2025.03.31 |
🤖 AI 모델 양자화(AI Model Quantization) (1) | 2025.03.31 |
🤖 AI 모델 경량화(AI Model Compression) (0) | 2025.03.31 |