# Qwen-Image-Layered로 포스터 자동 레이어 분해 (1/10): 프로젝트 시작과 목표

## 왜 이 프로젝트를 시작했나

디자인 작업을 하다 보면 완성된 포스터나 이미지를 레이어별로 분리해야 할 때가 있다. 특히:

- 클라이언트가 PSD 원본 없이 완성된 이미지만 제공할 때
- 경쟁사 포스터를 분석하여 구조를 이해하고 싶을 때
- AI 생성 이미지를 편집 가능한 형태로 변환하고 싶을 때

전통적으로는 Photoshop에서 수작업으로 선택 도구와 마스크를 사용해야 했다. 하지만 2024년 12월, Alibaba의 Qwen 팀이 **Qwen-Image-Layered**라는 흥미로운 모델을 공개했다.

## Qwen-Image-Layered란?

**단 하나의 이미지를 여러 개의 RGBA 레이어로 자동 분해하는 AI 모델**이다.

기존 이미지 분할(segmentation) 모델과 다른 점:
- 단순히 객체를 찾는 게 아니라, 편집 가능한 레이어 구조로 분해
- 각 레이어는 투명도(alpha channel)를 포함한 PNG
- 레이어 개수를 유연하게 조정 가능 (3개, 5개, 10개 등)
- 재귀적 분해 지원 (특정 레이어를 다시 세분화)

**논문 정보**:
- 제목: "Qwen-Image-Layered: Inherent Editability via Layer Decomposition"
- 발표: 2024년 12월 (arXiv:2512.15603)
- 라이선스: Apache 2.0 (상업적 사용 가능)

## 프로젝트 목표

이 시리즈에서 구축할 시스템:

```
[웹 브라우저] → [포스터 이미지 업로드]
       ↓
[Qwen-Image-Layered AI 처리]
       ↓
[레이어 1.png, 레이어 2.png, ... 다운로드]
```

### 핵심 기능

1. **웹 기반 인터페이스**
   - 드래그 앤 드롭으로 이미지 업로드
   - 레이어 개수 선택 (3-10개)
   - 실시간 진행 상황 표시

2. **AI 자동 분해**
   - Qwen-Image-Layered 모델 사용
   - GPU 가속 추론
   - RGBA PNG 형식 출력

3. **Vertex AI 보조 기능**
   - 각 레이어 자동 설명 생성 (Gemini Vision API)
   - 이미지 복잡도 분석 후 최적 레이어 수 추천

4. **결과물 관리**
   - 개별 레이어 다운로드
   - 전체 레이어 ZIP 다운로드
   - 레이어별 설명 메타데이터

## 실제 사용 시나리오

### 시나리오 1: 마케팅 포스터 리디자인

팀에서 작년에 만든 이벤트 포스터를 재활용하려는데 PSD 파일을 잃어버렸다.

```
원본 포스터 (JPG) → Qwen-Image-Layered
  ↓
레이어 0: 배경 그라디언트
레이어 1: 메인 타이틀 텍스트
레이어 2: 날짜/장소 정보
레이어 3: 메인 이미지 (인물)
레이어 4: 장식 요소
```

각 레이어를 PNG로 받아 Figma나 Photoshop에서 재편집할 수 있다.

### 시나리오 2: 경쟁사 분석

경쟁사의 우수한 포스터 디자인을 구조적으로 분석하고 싶을 때:

```
경쟁사 포스터 → 레이어 분해 → 구조 분석
- 어떤 요소가 별도 레이어인가?
- 텍스트와 이미지의 배치 전략
- 배경과 전경의 관계
```

### 시나리오 3: AI 생성 이미지 편집

Midjourney나 DALL-E로 생성한 이미지를 편집 가능한 형태로 변환:

```
AI 생성 이미지 (단일 레이어) → 레이어 분해 → 부분 수정
- 배경만 교체
- 특정 객체만 크기 조정
- 텍스트만 다국어로 변경
```

## 기술적 도전 과제

이 프로젝트를 진행하면서 해결해야 할 주요 문제들:

### 1. 모델 통합

Qwen-Image-Layered는 Python 기반 AI 모델이다. 필요한 것:
- Hugging Face `transformers` 라이브러리 (최소 4.51.3)
- `diffusers` 라이브러리 (레이어 생성에 diffusion 사용)
- GPU 메모리 최소 8GB (권장 16GB)

### 2. 성능 최적화

1024px 이미지를 5개 레이어로 분해할 때:
- **GPU (RTX 3090)**: 30-60초
- **CPU**: 5-10분

사용자 경험을 위해 GPU 필수. 만약 로컬 GPU가 없다면?
→ Vertex AI Prediction 엔드포인트로 오프로드

### 3. 웹 인터페이스와 백엔드 통합

AI 모델은 Python이지만 웹 인터페이스는 HTML/JavaScript다. 어떻게 연결?
- FastAPI로 RESTful API 구축
- WebSocket으로 실시간 진행 상황 전송
- 비동기 작업 큐 (Celery or Redis Queue)

### 4. 레이어 품질 보장

AI 모델이 항상 완벽한 레이어를 만들진 않는다. 후처리 필요:
- Alpha matting refinement (경계선 부드럽게)
- 빈 레이어 제거
- 레이어 순서 최적화 (배경 → 전경)

## 참조 프로젝트

이 시리즈를 진행하면서 과거 프로젝트의 패턴을 재사용한다:

### 20251219-make-certificate-automation
**차용할 요소**:
- 웹 인터페이스 구조 (파일 업로드, 진행 표시)
- 프로덕션급 시스템 아키텍처
- 에러 핸들링 및 로깅

이 프로젝트는 SSL 증명서 자동화 시스템을 10부작으로 구축했다. 특히 사용자 친화적인 웹 UI와 안정적인 백엔드 구조가 참고할 만하다.

### 20251130-post-money-forward-vertex-ai
**차용할 요소**:
- Vertex AI 클라이언트 초기화 패턴
- TypeScript 프로젝트 구조
- OAuth 및 환경 변수 관리

이 프로젝트는 Google Cloud Vertex AI를 TypeScript에서 사용하는 방법을 보여준다. Gemini Vision API 통합 부분을 그대로 활용할 수 있다.

## 시리즈 구성

이 프로젝트는 10부작으로 진행된다:

1. **[현재글] 프로젝트 시작과 목표** - 왜, 무엇을, 어떻게?
2. **기술 스택 선정과 아키텍처 설계** - Python vs Node.js, 시스템 구조
3. **Qwen-Image-Layered 모델 깊이 이해** - 논문 리뷰, 작동 원리
4. **로컬 환경 세팅과 첫 추론** - 모델 다운로드, 테스트 실행
5. **FastAPI 백엔드 구축** - REST API, 파일 업로드, 작업 큐
6. **Vertex AI 통합** - Gemini Vision으로 레이어 설명 생성
7. **웹 인터페이스 구현** - HTML/CSS/JavaScript, 실시간 업데이트
8. **레이어 후처리와 최적화** - Alpha matting, GPU 최적화
9. **배포와 성능 튜닝** - Docker, Nginx, 모니터링
10. **프로덕션 운영 가이드** - 에러 대응, 확장성, 유지보수

## 예상 개발 기간

- **Phase 1 (v1-v4)**: 기초 연구 및 모델 검증 - 4-5일
- **Phase 2 (v5-v7)**: 백엔드 및 프론트엔드 개발 - 5-6일
- **Phase 3 (v8-v10)**: 최적화 및 배포 - 4-5일

**총 예상 기간**: 13-16일 (약 2-3주)

## 기대 효과

이 프로젝트가 완성되면:

### 개인적 가치
- 최신 AI 모델(Qwen-Image-Layered) 실전 활용 경험
- Vertex AI와 로컬 AI 모델 하이브리드 아키텍처 구축 능력
- 엔드-투-엔드 웹 애플리케이션 설계 및 배포 역량

### 실용적 가치
- 디자인 작업 시간 단축 (수작업 1시간 → AI 1분)
- PSD 원본 없이도 이미지 재편집 가능
- 디자인 구조 분석 도구로 활용

### 기술적 학습
- Diffusion 기반 이미지 생성 모델의 실제 활용
- GPU 워크로드 최적화
- 대용량 파일 처리 및 스트리밍

## 다음 단계

v2에서는 **기술 스택 선정**을 다룬다:
- Python vs Node.js 백엔드 비교
- FastAPI vs Flask 선택
- Vertex AI vs 로컬 GPU 전략
- 전체 시스템 아키텍처 설계

이 프로젝트의 핵심은 "최신 AI 연구를 실용적인 웹 서비스로 전환하는 것"이다. Qwen-Image-Layered 논문이 공개된 지 불과 며칠밖에 안 됐지만, 이미 실무에 적용할 수 있는 단계까지 왔다.

AI 모델을 단순히 실행해보는 것을 넘어, 실제 사용자가 쓸 수 있는 서비스로 만드는 여정을 함께 기록하겠다.

---

**다음 글**: [기술 스택 선정과 아키텍처 설계 (2/10)](./qwen-image-layered-v2.md)

**프로젝트 GitHub**: (v10에서 공개 예정)