ml-sharp-web: 애플의 SHARP 모델을 사용하는 브라우저 기반 가우시안 스플랫 생성기
단일 입력 이미지로부터 가우시안 스플랫을 브라우저 내에서 생성하고 미리 볼 수 있는 기술적 웹 애플리케이션. ONNX Runtime Web을 사용하여 효율적인 브라우저 측 계산으로 복잡한 추론 파이프라인을 실행합니다.
베타ml-sharp-web
ml-sharp-web은 SHARP (Single-image High-resolution Appearance Reconstruction Program) 원리의 매우 실용적이고 브라우저 네이티브한 구현입니다. 핵심적으로 단일 2D 사진에서 3D 장면 표현 (특히 가우시안 스플랫)을 추론하는 까다로운 작업을 해결합니다. 그 강점은 완전한 클라이언트 측 실행 모델에 있어, 백엔드 API 호출에 대한 의존도를 줄이고 최신 브라우저를 가진 모든 사용자가 즉시 접근할 수 있게 합니다.
기술적 관점에서 스택은 강력하고 현대적입니다. UI에는 React/TypeScript, 번들링에는 Vite를 사용하고, 중요하게는 계산적으로 집약적인 AI 추론에 ONNX Runtime Web을 결합합니다. 설계는 모델 배포의 복잡성를 올바르게 처리하며, SHARP 내보내기에는 `.onnx` 그래프와 필요한 `.onnx.data` 가중치 사이드카를 모두 제공해야 한다는 점을 주목합니다. 이는 웹 ML 배포의 일반적인 함정입니다. GaussianSplats3D의 포함은 필요한 시각화 파이프라인이 이미 통합되었음을 시사합니다.
설명된 개발 과정은 상세하며, Bun을 사용한 종속성 설치부터 Python과 특정 내보내기 도구를 사용한 업스트림 내보내기 단계까지 포함됩니다. 메모리 사용량과 필요한 브라우저 기능 (WebGPU/WASM)에 대한 명시적 경고를 포함한 이 세부 수준은 제한된 환경에서 대규모 모델을 실행하는 운영 제약 조건에 대한 저자의 깊은 이해를 보여줍니다. 그러나 이러한 복잡성은 제한 사항이기도 합니다: 배포와 최적 성능은 브라우저 하드웨어와 현재 WASM/WebGPU 지원에 매우 민감하여 사용자 경험이 일관되지 않을 수 있습니다.
요약하자면, 이는 단순한 데모가 아니라 고급 학술 컴퓨터 비전 모델 (SHARP와 같은)을 즉시 소비 가능하고 자체 포함된 웹 애플리케이션으로 배포하는 작동하는, 잘 문서화된 개념 증명입니다. 브라우저 환경에서 대규모 ONNX 모델의 성능 오버헤드를 감수할 의향이 있는 개발자들에게 클라이언트 측 AI의 경계를 밀어붙이기 위한 훌륭한 참조 아키텍처 역할을 합니다.