IT Study/인공지능 관련

🤖 NeRF(Neural Radiance Fields)

cs_bot 2025. 3. 31. 11:52

1. 개요

  • NeRF는 2020년 UC Berkeley와 Google Research에서 발표한 3차원 신경 렌더링 기술임
  • 연속적인 3D 장면을 재구성하고, 다양한 시점에서의 이미지를 고화질로 렌더링하기 위해 딥러닝 기반 MLP(Multi-Layer Perceptron)를 활용함
  • 기존의 볼륨 렌더링 기법에 신경망 기반의 표현력을 더해, sparse한 2D 이미지로부터 연속적인 3D 장면의 시각화를 가능하게 함

2. 기술적 배경

  • 컴퓨터 비전과 컴퓨터 그래픽스의 융합 영역에서 발전된 기술로, 전통적인 Structure-from-Motion(SfM), Multi-View Stereo(MVS) 방식과 차별화됨
  • 기존 방식은 명시적인 3D 구조(예: 포인트 클라우드, 메쉬 등)를 복원하는 데 초점을 두는 반면, NeRF는 암묵적으로 볼륨 정보를 신경망 내부에 저장함
  • 고정된 시점에서 찍은 다수의 2D 이미지들을 활용하여, 새로운 시점에서의 이미지를 합성(rendering)하는 것을 목표로 함

3. NeRF의 구조

  • NeRF는 5D 입력(3D 위치(x, y, z) + 2D 시점 방향(θ, φ))을 받아, RGB 색상 값과 볼륨 밀도(density)를 출력하는 MLP로 구성됨
  • 입력된 위치와 방향 정보를 positional encoding 기법을 통해 고주파 정보로 변환한 후, 이를 MLP에 입력하여 높은 표현력을 확보함
  • MLP의 출력은 해당 위치의 색상(RGB) 및 투명도(σ)로 해석되며, 이를 수치적 적분(volumetric rendering)을 통해 시점 기반의 최종 이미지를 생성함
[입력] 위치(x, y, z) + 시점 방향(θ, φ)
     ↓ Positional Encoding
     ↓
[Neural Network] → RGB 색상 + 밀도(σ)
     ↓
[Volumetric Rendering] → 시점 기반 합성 이미지

4. 수치적 렌더링 (Volumetric Rendering)

  • 픽셀을 따라 가상의 광선을 투사한 뒤, 광선이 통과하는 각 지점에서의 색상 및 밀도를 추출하여, 수치적으로 색을 누적함
  • 이 누적 과정은 안개나 투명체와 유사한 볼륨 기반 렌더링 식을 기반으로 하며, 다음과 같은 수식으로 표현됨

C(r)=i=1NTi(1exp(σiδi))ci

  • (Ti): 앞선 지점들에서의 누적 투명도 (transmittance)
  • (σi): 해당 지점의 밀도 (density)
  • (δi): 샘플 간 거리 (distance between samples)
  • (ci): 해당 지점의 RGB 색상 값 (color at the point)

5. Positional Encoding의 필요성

  • MLP는 고주파 정보를 표현하는 데 한계가 있으므로, sin/cos 기반의 positional encoding을 활용하여 위치 정보를 더 복잡한 패턴으로 확장함
  • 예: (γ(x)=[sin(20πx),cos(20πx),,sin(2Lπx),cos(2Lπx)])
  • 이를 통해 미세한 디테일 표현, 정밀한 구조 재현 가능

6. 특징

  • 연속 공간 표현: 3D 장면을 voxel 형태로 제한하지 않고 연속적인 함수로 표현함
  • 고해상도 렌더링: sparse한 이미지로부터 새로운 시점에서의 고품질 이미지를 합성 가능
  • 신경망 기반 학습: 장면 별로 하나의 신경망을 학습하여 해당 장면을 "기억"하게 함

7. 장점

  • 기존 3D 복원 기법보다 훨씬 더 부드럽고 정밀한 시각적 결과 도출 가능
  • 복잡한 기하 구조나 텍스처를 보존하면서도 일반적인 카메라 위치에서의 새로운 뷰 합성이 가능함
  • 표면 추정 없이도 실제와 유사한 광선 기반 표현이 가능함

8. 단점 및 한계

  • 하나의 장면(scene)마다 개별 학습이 필요하므로 실시간 처리에는 부적합함
  • 학습 시간 및 계산량이 매우 많아 실용화에 제약이 존재함
  • 반투명 객체나 복잡한 반사 효과 처리에 제한이 존재함
  • 초기 NeRF는 dynamic scene, non-rigid object 처리에 취약함

9. 개선된 파생 모델들

  • Mip-NeRF: anti-aliasing 문제를 해결하기 위한 멀티스케일 NeRF
  • NeRF-W: 다양한 조명 및 날씨 조건이 있는 장면에서도 잘 동작하도록 개선
  • Instant-NGP: hash encoding을 활용하여 실시간 NeRF 구현 가능하게 한 기술
  • Dynamic NeRF (D-NeRF): 시간에 따라 변화하는 dynamic scene을 처리 가능하게 함
  • Urban-NeRF: 자율주행 데이터셋을 활용한 대규모 야외 장면 학습에 특화

10. 활용 분야

  • VR/AR: 360도 시점에서의 자연스러운 시각 재현 가능
  • 게임 엔진: 고품질 3D 장면을 데이터 기반으로 빠르게 렌더링 가능
  • 영화/영상 산업: 실제 촬영 데이터를 기반으로 CG와 결합한 장면 재구성에 활용
  • 디지털 트윈: 실제 공간을 신경망 기반으로 압축 표현하여 3D 모델 생성
  • 자율주행: 도시 환경의 정확한 시각적 재현을 통한 시뮬레이션 및 테스트 가능

11. 결론

  • NeRF는 기존 3D 복원 방식과 차별화된 방식으로, 연속 공간 기반의 장면 렌더링을 가능하게 한 혁신적 기술임
  • 다양한 파생 모델이 등장하며 실시간화, 대규모화, 동적 장면 처리 등으로 발전하고 있음
  • VR, AR, 자율주행, 디지털 트윈 등 현실 세계를 3D로 이해하고 재현해야 하는 다양한 산업 분야에서 핵심 기술로 자리잡는 중임