# Qwen-Image-Layered 클라우드 전환 (1/10): 로컬 GPU에서 벗어나기

## 기존 프로젝트의 한계

이전 시리즈 [20251221-qwen-image-layered](../20251221-qwen-image-layered/qwen-image-layered-v1.md)에서 Qwen-Image-Layered를 사용한 포스터 자동 레이어 분해 시스템을 구축했다.

**당시 아키텍처**:
```
[웹 브라우저] → [FastAPI 서버] → [로컬 GPU (RTX 3090)]
                                      ↓
                              [Qwen-Image-Layered 모델]
                                      ↓
                              [RGBA 레이어 출력]
```

**핵심 요구사항**:
- GPU 메모리: 최소 8GB, 권장 16GB
- 처리 시간: 1024px 이미지 5레이어 분해 시 30-60초
- 동시 작업: GPU 메모리 제약으로 1-2개만 가능

이 시스템은 **로컬 환경에서는 잘 작동했지만**, 다음과 같은 문제가 발생했다.

## 문제 1: 하드웨어 접근성

**현실적인 제약**:
- RTX 3090급 GPU를 보유한 개발 환경이 항상 가능한 것은 아니다
- 노트북이나 원격 서버에서는 GPU가 없거나 성능이 부족
- 개발자가 이동하거나 여러 환경에서 작업할 때 제약

**구체적 사례**:
```bash
# 로컬 GPU 확인
nvidia-smi

# 출력: No devices were found
# → 모델 실행 불가능
```

CPU로 실행하면 처리 시간이 30초 → **5-10분**으로 증가한다.

## 문제 2: 확장성 한계

**동시 사용자 처리 불가**:

로컬 GPU는 단일 물리 장비다. 여러 사용자가 동시에 요청하면:

```python
# GPU 메모리 사용량
작업 1개: 8GB
작업 2개: 16GB (한계)
작업 3개: → CUDA Out of Memory Error
```

**스케일링 불가능**:
- 수평 확장(Scale Out) 불가: GPU 장비를 여러 대 추가하기 어렵다
- 수직 확장(Scale Up) 한계: 더 큰 GPU로 교체하는 것도 비용/시간 소요

웹 서비스로 공개하려면 **최소 수십 명의 동시 사용자를 처리해야 하는데**, 로컬 GPU로는 불가능하다.

## 문제 3: 비용 효율성

**24시간 GPU 가동의 비현실성**:

```
로컬 GPU 서버 운영 비용:
- 전기료: RTX 3090 (350W) × 24시간 × 30일 = 252kWh/월
  → 약 $30-40/월 (전기료 국가별 차이)
- 하드웨어 감가상각: $1,500 GPU ÷ 3년 = $42/월
- 총 고정 비용: ~$80/월

실제 사용률:
- 업무 시간 (9-18시): 9시간/일
- 야간/주말: 대부분 유휴
- 실제 활용률: ~30%

유휴 시간에도 전기료는 동일하게 발생
```

**클라우드 GPU는 사용한 만큼만 과금**되므로 훨씬 효율적이다.

## 문제 4: 유지보수와 관리

**로컬 GPU 운영의 복잡성**:

1. **하드웨어 관리**
   - GPU 드라이버 업데이트
   - CUDA 버전 호환성
   - 냉각 시스템 관리
   - 하드웨어 고장 시 복구

2. **보안**
   - 공인 IP 노출 시 DDoS 위험
   - 방화벽, VPN 설정 필요
   - SSL 인증서 관리

3. **백업 및 복구**
   - 디스크 고장 대비
   - 모델 파일 백업 (수십 GB)

**전문 CTO가 아닌 개발자에게는 부담**이 크다.

## 클라우드 전환의 필요성

위 문제들을 해결하기 위해 **Hugging Face API** 또는 **Google Cloud Vertex AI**로 전환을 고려한다.

### 옵션 1: Hugging Face Inference API

[Hugging Face](https://huggingface.co/)는 Qwen-Image-Layered 모델을 호스팅하고 있다.

**장점**:
- 모델이 이미 [Hugging Face Hub](https://huggingface.co/Qwen/Qwen-Image-Layered)에 있다
- Inference API로 즉시 호출 가능
- API 토큰만 있으면 사용 가능

**의문점**:
- Qwen-Image-Layered가 Inference API를 지원하는가?
- GPU 인스턴스 비용은 얼마인가?
- 콜드 스타트 문제는 없는가?

### 옵션 2: Vertex AI + Hugging Face

Google Cloud는 [Vertex AI Model Garden](https://cloud.google.com/vertex-ai/generative-ai/docs/open-models/use-hugging-face-models)에서 Hugging Face 모델을 직접 배포할 수 있다.

**최신 정보 (2025-12-22 기준)**:
- **4,000개 이상의 Hugging Face 모델을 원클릭 배포** 가능
- Google Cloud의 보안 스캔 자동 적용
- Hugging Face 모델을 Google Cloud에 **캐싱**하여 다운로드 시간 단축 (수 시간 → 수 분)

**장점**:
- **자동 스케일링**: 사용량에 따라 GPU 인스턴스 자동 증감
- **보안**: Google Cloud의 보안 프로토콜 적용
- **통합**: 기존 Google Cloud 인프라와 통합 용이

**의문점**:
- Qwen-Image-Layered가 Vertex AI Model Garden에서 지원되는가?
- 배포 과정이 복잡한가?
- 비용 구조는 어떻게 되는가?

## 프로젝트 업그레이드 목표

이 시리즈에서 달성할 것:

### 1. 하드웨어 독립성
- ✅ 로컬 GPU 없이도 서비스 운영 가능
- ✅ 개발자 노트북에서 API 호출만으로 테스트

### 2. 무한 확장성
- ✅ 동시 사용자 수 제한 없음
- ✅ 트래픽 급증 시 자동 스케일링

### 3. 비용 최적화
- ✅ 사용한 만큼만 과금 (Pay-as-you-go)
- ✅ 유휴 시간에는 비용 0원
- ✅ 월간 예산 상한선 설정

### 4. 운영 간소화
- ✅ 하드웨어 관리 불필요
- ✅ Google Cloud 모니터링 대시보드 활용
- ✅ 자동 백업 및 복구

## 기술적 도전 과제

### 과제 1: API 통합 복잡성

기존 코드는 로컬 모델 직접 호출:

```python
# 기존 방식 (로컬)
from diffusers import QwenImageLayeredPipeline
import torch

pipeline = QwenImageLayeredPipeline.from_pretrained("Qwen/Qwen-Image-Layered")
pipeline = pipeline.to("cuda", torch.bfloat16)

layers = pipeline(
    image=image,
    layers=5,
    resolution=1024
)
```

**클라우드로 전환하면**:
- HTTP API 호출로 변경 필요
- 이미지 업로드 방식 변경 (바이너리 → Base64 또는 URL)
- 비동기 처리 (즉시 응답 → 작업 ID 반환 → 폴링)

### 과제 2: 지연 시간 증가

**네트워크 오버헤드**:
```
로컬 GPU:
  - 이미지 로드: 10ms
  - 추론: 30초
  - 총: ~30초

클라우드 API:
  - 이미지 업로드: 500ms (1MB 기준)
  - 대기 시간: ?초 (큐 대기)
  - 추론: 30초
  - 결과 다운로드: 1초 (5 레이어 PNG)
  - 총: 31-32초 + 대기
```

대기 시간을 최소화하기 위한 전략이 필요하다.

### 과제 3: 비용 예측 불확실성

**질문**:
- Vertex AI GPU 인스턴스 비용은 분당 얼마인가?
- 추론 1회당 실제 비용은?
- 월 1,000회 사용 시 총 비용은?

이를 정확히 계산해야 한다.

### 과제 4: 폴백 전략

만약 클라우드 API가 다운되면?

**하이브리드 아키텍처 고려**:
```
1차 시도: Vertex AI API
  ↓ (실패 시)
2차 시도: Hugging Face Inference API
  ↓ (실패 시)
3차 시도: 로컬 GPU (가능하면)
```

## 예상 비용 분석 (예비 계산)

### Vertex AI 예상 비용

Google Cloud GPU 가격 (us-central1 기준, 2025년 추정):

```
T4 GPU (16GB VRAM):
- 시간당: ~$0.35
- 분당: ~$0.0058
- 30초 추론: ~$0.0029

추론 1회당: ~$0.003 (약 ₩4)
월 1,000회: ~$3 (약 ₩4,000)
월 10,000회: ~$30 (약 ₩40,000)
```

### 로컬 GPU 비교

```
고정 비용: ~$80/월
추론 횟수 무관

손익 분기점:
$80 = $0.003 × N
N = 26,666회

월 26,666회 이상 사용 시 로컬 GPU가 유리
월 1,000회 미만 사용 시 클라우드가 압도적 유리
```

**결론**: 초기 서비스나 중소 규모에서는 클라우드가 훨씬 경제적이다.

## 시리즈 구성

이 업그레이드 여정을 10부작으로 기록한다:

1. **[현재글] 프로젝트 업그레이드 배경** - 로컬 GPU의 한계와 클라우드 전환 필요성
2. **Hugging Face vs Vertex AI 비교** - 두 옵션의 장단점 심층 분석
3. **Hugging Face Inference API 통합** - 첫 번째 시도와 한계
4. **Vertex AI Model Garden 배포** - Hugging Face 모델을 Vertex AI에 배포
5. **API 엔드포인트 재설계** - 클라우드 기반 아키텍처로 리팩토링
6. **자동 스케일링 구현** - GPU 리소스 최적화 및 비용 절감
7. **성능 벤치마크** - 로컬 vs 클라우드 정량적 비교
8. **하이브리드 아키텍처** - 클라우드 + 로컬 폴백 전략
9. **비용 모니터링 대시보드** - 실시간 비용 추적 및 알림
10. **운영 가이드 및 결론** - 프로덕션 배포 및 교훈

## 다음 단계

v2에서는 **Hugging Face Inference API와 Vertex AI를 심층 비교**한다:
- 각 플랫폼의 가격 구조 분석
- Qwen-Image-Layered 지원 여부 확인
- 배포 난이도 비교
- 최종 선택 기준

이 프로젝트의 핵심은 **"로컬 하드웨어 제약에서 벗어나 진정한 서비스로 진화"**하는 것이다. GPU를 소유하지 않아도 누구나 AI 모델을 활용할 수 있는 시대, 그 여정을 함께 기록하겠다.

---

**다음 글**: [Hugging Face vs Vertex AI 비교 (2/10)](./update-qwen-image-layered-project-v2.md)

**참고 자료**:
- [Use Hugging Face Models on Vertex AI](https://cloud.google.com/vertex-ai/generative-ai/docs/open-models/use-hugging-face-models)
- [Hugging Face + Google Cloud Partnership](https://huggingface.co/blog/google-cloud-model-garden)
- [Qwen-Image-Layered on Hugging Face](https://huggingface.co/Qwen/Qwen-Image-Layered)