# Qwen-Image-Layered 클라우드 전환 (2/10): Hugging Face vs Vertex AI 심층 비교

## 두 가지 선택지

클라우드로 전환할 때 고려할 수 있는 주요 옵션:

1. **Hugging Face Inference API** - 모델 호스팅 플랫폼의 직접 API
2. **Google Cloud Vertex AI** - Hugging Face 모델을 Google 인프라에 배포

각각의 장단점을 실제 사용 시나리오 기반으로 분석한다.

## Hugging Face Inference API

### 개요

[Hugging Face](https://huggingface.co)는 AI 모델 공유 플랫폼이자 클라우드 추론 서비스를 제공한다.

**제공 방식**:
- **Serverless Inference API**: 무료/Pro 플랜, 공유 인프라
- **Inference Endpoints**: 전용 GPU 인스턴스, 커스텀 설정 가능

### Serverless Inference API

**장점**:
```python
# 단 5줄로 호출 가능
import requests

API_URL = "https://api-inference.huggingface.co/models/Qwen/Qwen-Image-Layered"
headers = {"Authorization": f"Bearer {API_TOKEN}"}

response = requests.post(API_URL, headers=headers, json={
    "inputs": image_base64,
    "parameters": {"layers": 5}
})
```

**특징**:
- ✅ 즉시 사용 가능 (배포 불필요)
- ✅ 무료 티어 제공 (Rate Limit 있음)
- ✅ 모델이 자동으로 최신 버전으로 업데이트

**단점**:
- ❌ **콜드 스타트 문제**: 첫 요청 시 모델 로딩으로 20-60초 소요
- ❌ **Rate Limit**: 무료는 분당 몇 회, Pro도 제한 있음
- ❌ **공유 인프라**: 다른 사용자와 GPU 공유로 성능 변동
- ❌ **커스터마이징 불가**: 모델 파라미터 고정

**가격 (2025년 기준)**:
```
Free Tier:
- 월 30,000 토큰 무료
- 이미지 생성 모델은 별도 계산
- Rate Limit: ~10 req/min

Pro Plan ($9/월):
- 더 높은 Rate Limit
- 우선 순위 큐
- 여전히 공유 인프라
```

**Qwen-Image-Layered 지원 여부**:

공식 문서를 확인한 결과:
- ⚠️ **Serverless Inference API는 특정 인기 모델만 지원**
- Qwen-Image-Layered는 **최신 모델(2024년 12월 공개)이므로 Serverless에 없을 가능성 높음**
- → Inference Endpoints를 사용해야 함

### Inference Endpoints

**설명**: 전용 GPU 인스턴스에 모델을 배포하는 방식

**장점**:
- ✅ 전용 GPU (성능 보장)
- ✅ 커스텀 설정 (모델 파라미터, 환경 변수)
- ✅ 오토 스케일링 가능
- ✅ 콜드 스타트 없음 (Always On 모드)

**단점**:
- ❌ **시간당 과금** (유휴 시간에도 비용 발생)
- ❌ **배포 과정 필요** (즉시 사용 불가)
- ❌ **최소 과금 단위**: 1시간

**가격 구조**:

```
GPU 인스턴스 요금 (시간당):
- NVIDIA T4 (16GB):   ~$0.60/hr
- NVIDIA A10G (24GB): ~$1.30/hr
- NVIDIA A100 (40GB): ~$4.00/hr

Qwen-Image-Layered 권장: T4 (16GB 충분)

월간 비용 계산:
- 24시간 운영: $0.60 × 24 × 30 = $432/월
- 업무 시간만 (9시간): $0.60 × 9 × 30 = $162/월
```

**문제점**:
- 사용하지 않을 때도 인스턴스가 켜져 있으면 과금
- **Auto-pause** 기능이 있지만, 다시 시작 시 1-2분 소요

### Hugging Face 종합 평가

| 항목 | Serverless | Inference Endpoints |
|------|-----------|---------------------|
| 즉시 사용 | ✅ | ❌ (배포 필요) |
| 비용 효율 | ✅ (사용량 적을 때) | ❌ (고정 비용) |
| 성능 안정성 | ❌ (변동) | ✅ |
| 커스터마이징 | ❌ | ✅ |
| Qwen 지원 | ❌ (미지원 추정) | ✅ |

**결론**: Qwen-Image-Layered는 **Inference Endpoints 필수**이며, 비용이 부담스럽다.

## Google Cloud Vertex AI

### 개요

Vertex AI는 Google Cloud의 AI/ML 플랫폼이다. 2024년부터 **Hugging Face Model Garden**을 통합했다.

**핵심 기능**:
- Hugging Face 모델을 Vertex AI에서 **원클릭 배포**
- Google Cloud의 보안, 모니터링, 스케일링 인프라 활용
- **오토 스케일링**: 사용량 0일 때 인스턴스 0대로 축소

### 배포 방식

**Model Garden에서 배포**:

```
1. Google Cloud Console → Vertex AI → Model Garden
2. "Hugging Face" 섹션 선택
3. "Qwen/Qwen-Image-Layered" 검색
4. "Deploy" 버튼 클릭
5. GPU 타입 선택 (T4, A100 등)
6. 오토 스케일링 설정:
   - 최소 인스턴스: 0
   - 최대 인스턴스: 10
7. 배포 완료 (~10-15분)
```

**결과**:
- REST API 엔드포인트 생성
- 인증: Google Cloud IAM 또는 API Key

### 가격 구조

**핵심 차이점**: **사용한 만큼만 과금 (Pay-per-use)**

```
요금 = (GPU 시간) × (시간당 단가)

T4 GPU (16GB):
- 시간당: ~$0.45 (Google Cloud, us-central1 기준)
- 분당: ~$0.0075
- 초당: ~$0.000125

추론 1회 (30초 소요):
- 비용: $0.000125 × 30 = $0.00375 (약 ₩5)

월 사용량별 비용:
- 100회/월: $0.375 (약 ₩500)
- 1,000회/월: $3.75 (약 ₩5,000)
- 10,000회/월: $37.5 (약 ₩50,000)
```

**추가 비용**:
```
네트워크 송신 (Egress):
- 아시아 → 아시아: $0.08/GB
- 레이어 5개 (총 3MB) → $0.00024/요청

Storage (모델 저장):
- $0.02/GB/월
- Qwen 모델 ~15GB → $0.30/월

총 비용 예시 (1,000회/월):
- GPU: $3.75
- 네트워크: $0.24
- Storage: $0.30
- 합계: ~$4.30/월
```

### 오토 스케일링의 힘

**시나리오 1: 야간 유휴**

```
09:00-18:00 (업무 시간): 100회 추론
  → GPU 가동: 50분 (추론 30초 × 100)
  → 비용: $0.0075 × 50 = $0.375

18:00-09:00 (야간): 요청 없음
  → GPU 인스턴스 자동 종료
  → 비용: $0
```

Hugging Face Inference Endpoints는 Always On이면 $0.60 × 15시간 = $9 발생.

**시나리오 2: 트래픽 급증**

```
평소: 10 req/hr → 인스턴스 1대
급증: 100 req/hr → 인스턴스 자동 증가 (2-3대)
종료 후: 다시 1대로 축소

비용: 실제 사용한 GPU 시간만 과금
```

Hugging Face는 고정 인스턴스 수이므로 급증 시 대기 시간 발생.

### Vertex AI의 추가 이점

**1. Google Cloud 생태계 통합**

```python
# Cloud Functions에서 Vertex AI 호출
from google.cloud import aiplatform

endpoint = aiplatform.Endpoint(endpoint_name="...")
response = endpoint.predict(instances=[image_data])
```

**2. IAM 기반 보안**

```bash
# API 키 노출 위험 없음
gcloud auth application-default login

# 권한 제어
gcloud projects add-iam-policy-binding PROJECT_ID \
  --member="user:dev@example.com" \
  --role="roles/aiplatform.user"
```

**3. Cloud Monitoring 자동 통합**

```
대시보드에서 자동 표시:
- 요청 수 (QPS)
- 지연 시간 (Latency)
- 에러율
- GPU 사용률
- 비용 (실시간)
```

**4. 버전 관리**

```
모델 버전 업데이트:
- 새 버전 배포
- 트래픽 분할 (50% v1, 50% v2)
- A/B 테스트 가능
```

### Vertex AI 단점

**1. 초기 콜드 스타트**

```
첫 요청 시 (인스턴스 0 → 1):
- GPU 인스턴스 시작: 2-3분
- 모델 로딩: 30-60초
- 총: 3-4분 대기

해결책:
- 최소 인스턴스를 1로 설정 (Always On)
- 비용 증가: $0.45 × 24 × 30 = $324/월
```

**2. Google Cloud 종속**

- Google Cloud 계정 필수
- GCP 사용법 학습 필요
- 다른 클라우드로 이동 시 재작업

**3. 배포 복잡도**

- Hugging Face Serverless보다 초기 설정 복잡
- gcloud CLI 또는 Terraform 지식 필요

## 심층 비교표

| 항목 | Hugging Face Serverless | Hugging Face Inference Endpoints | Vertex AI + Hugging Face |
|------|------------------------|----------------------------------|-------------------------|
| **즉시 사용** | ✅ 즉시 | ❌ 배포 10분 | ❌ 배포 15분 |
| **Qwen 지원** | ❌ 미지원 추정 | ✅ | ✅ |
| **초기 비용** | $0 (무료 티어) | $0.60/hr부터 | $0 (사용량 기반) |
| **월 비용 (1,000회)** | ~$0 (무료 범위) | $162-432 | ~$4 |
| **오토 스케일링** | N/A (공유) | 제한적 | ✅ 완전 자동 |
| **콜드 스타트** | 20-60초 | 없음 (Always On) | 2-3분 (최소=0일 때) |
| **성능 안정성** | ⭐⭐ 변동 큼 | ⭐⭐⭐⭐⭐ 전용 | ⭐⭐⭐⭐⭐ 전용 |
| **커스터마이징** | ❌ | ✅ | ✅ |
| **모니터링** | 기본 | 기본 | ⭐⭐⭐⭐⭐ Cloud Monitoring |
| **보안** | API Token | API Token | IAM + VPC |
| **학습 곡선** | ⭐ 쉬움 | ⭐⭐ 보통 | ⭐⭐⭐ 어려움 |

## 실제 사용 사례별 추천

### 사례 1: 개인 프로젝트, 월 100회 미만

**추천**: ~~Hugging Face Serverless~~ → **불가능 (Qwen 미지원)**

**대안**: **Vertex AI (최소 인스턴스 = 0)**
- 비용: ~$0.50/월
- 콜드 스타트 감수 (첫 요청만 느림)

### 사례 2: 스타트업 MVP, 월 1,000-5,000회

**추천**: **Vertex AI (최소 인스턴스 = 0)**
- 비용: $4-20/월
- 오토 스케일링으로 트래픽 급증 대응
- 비용 모니터링 알림 설정

### 사례 3: 프로덕션 서비스, 월 10,000회 이상

**추천**: **Vertex AI (최소 인스턴스 = 1-2)**
- 비용: $324/월 (Always On) + 사용량
- 콜드 스타트 제거
- SLA 보장

또는 **하이브리드 전략**:
- 피크 시간: Vertex AI
- 오프 시간: 최소 인스턴스 0

### 사례 4: 초저예산, 비상업 프로젝트

**추천**: **Hugging Face Inference Endpoints (Spot Instances)**

Hugging Face는 **Spot Instances** 옵션 제공 (70% 할인):
```
T4 GPU:
- 일반: $0.60/hr
- Spot: $0.18/hr

단, 언제든 중단 가능 (비상업용만)
```

## 우리의 선택: Vertex AI

다음 이유로 **Vertex AI**를 선택한다:

### 1. 비용 효율성
- 초기 서비스: 월 $4-10 수준
- 사용하지 않을 때 비용 0

### 2. 확장성
- 트래픽 증가 시 자동 대응
- 수동 관리 불필요

### 3. Google Cloud 생태계
- 기존 프로젝트가 GCP 사용 중
- Cloud Functions, Cloud Storage 통합 용이

### 4. 학습 가치
- Vertex AI 경험은 다른 AI 프로젝트에도 적용 가능
- 포트폴리오 강화

### 단점 감수
- 초기 배포 복잡도: 학습 기회로 활용
- 콜드 스타트: v6에서 최적화 전략 다룰 예정

## 다음 단계

v3에서는 **실제로 Hugging Face Inference API를 시도**한다:
- API 토큰 발급
- 간단한 테스트 코드 작성
- Qwen-Image-Layered 호출 가능 여부 확인
- 한계 확인 및 Vertex AI로 전환 결정

"직접 해보고 한계를 확인한 후 Vertex AI로 전환"하는 것이 학습 측면에서 가치 있다.

---

**이전 글**: [프로젝트 업그레이드 배경 (1/10)](./update-qwen-image-layered-project-v1.md)

**다음 글**: [Hugging Face Inference API 실전 테스트 (3/10)](./update-qwen-image-layered-project-v3.md)

**참고 자료**:
- [Hugging Face Inference Endpoints Pricing](https://huggingface.co/pricing#endpoints)
- [Vertex AI Pricing](https://cloud.google.com/vertex-ai/pricing)
- [GCP GPU Pricing Calculator](https://cloud.google.com/products/calculator)