showmygear

Layer Infrastruktur: Di Mana Model Hidup

[!NOTE] Anda tidak perlu memiliki pembangkit listrik untuk menyalakan lampu. Tapi terkadang, Anda butuh genset sendiri.

Dokumen ini menganalisis Deployment Strategy untuk Model AI. Kita bergerak melampaui “Lokal vs OpenAI” menuju lanskap matang AI Infrastructure.

1. Lanskap: Tiga Pilar Hosting

flowchart TD
    User[Kode Anda] --> Choice{"Strategi?"}
    
    Choice -->|"API Simpel (Nol Ops)"| Aggregators["Aggregators"]
    Choice -->|"Skala/Cepat (Bayar/detik)"| Serverless["Serverless GPU"]
    Choice -->|"Kontrol Penuh (Root)"| Dedicated["Dedicated/VPS"]
    Choice -->|"Privasi/Gratis"| Local["Localhost"]


    subgraph "Aggregators"
    OpenRouter
    DeepInfra
    end

    subgraph "Serverless"
    Groq
    Novita
    Replicate
    end

    subgraph "Dedicated"
    DatabaseMart
    RunPod
    Lambda
    end
    style Dedicated fill:#f9f,stroke:#333,stroke-width:2px

Strategi Regional (Indonesia)

Hosting AI lokal atau di node regional (Singapura) sangat penting untuk aplikasi yang sensitif terhadap latensi.

Cloud Proxies: Menggunakan Vercel Edge Functions untuk mem-proxy request ke AI API di Amerika Serikat.
Formula Latensi: $User Experience \propto \frac{1}{Network Latency + Inference Latency}$

2. Aggregators (“Steam”-nya AI)

Filosofi: Satu API. Nol DevOps.

OpenRouter:
- Terbaik Untuk: Mengakses segalanya via satu key. Merutekan ke provider termurah/tercepat secara otomatis.
- Biaya: Harga pasar (seringkali lebih murah dari direct).
DeepInfra:
- Terbaik Untuk: Stabilitas production-grade untuk model open source umum (Llama 3, Mixtral).

3. Serverless GPU (“Uber”-nya Komputasi)

Filosofi: Bayar hanya saat GPU berputar. Skala ke nol.

Groq (The Speed Demon):
- Teknologi: LPU (Language Processing Unit).
- Kecepatan: ~800 token/detik.
- Kasus Pakai: Asisten suara real-time, chatbot instan.
Novita AI (Raja Budget):
- Teknologi: GPU konsumer terdistribusi.
- Biaya: Sangat kompetitif. Bagus untuk batch processing di mana ultra-low latency bukan prioritas.
Replicate / Together AI:
- Kasus Pakai: Model spesifik (Image Gen, Flux, fine-tune). “Sewa H100 selama 5 detik”.

4. Dedicated GPU / VPS (“Mobil Sewaan”)

Filosofi: Root Access. Persistent Storage. Mesin Anda.

Database Mart / GPU Mart:
- Peran: The Enterprise VPS.
- Spek: Menawarkan node dedicated (misal: RTX 4090, A100/H100).
- Mengapa: Tidak seperti serverless, Anda punya Persistent Disk. Sebagaimana dibahas di Strategi Data, persistensi adalah kunci untuk Vector DB dan Fine-tuning.
- Biaya: Harga bulanan terprediksi.
RunPod:
- Peran: Cloud Komunitas.
- Mengapa: Sangat populer untuk Spot Instances (lelang GPU murah). Bagus untuk One-off Training.

5. Local Hosting (“Bunker”)

Filosofi: Hardware Saya. Aturan Saya.

[!TIP] Ini adalah ekstensi dari mentalitas Terminal Cockpit—kedaulatan mutlak atas komputasi.

Ollama: “Docker”-nya LLM. ollama run llama3.
LM Studio: GUI untuk menguji level Quantization (GGUF).

6. The Engine Room: Software Stack (Apa yang berjalan di VPS?)

Jika Anda menyewa GPU Dedicated, Anda butuh software untuk menyetirnya.

vLLM: Standar Emas.
- Mengapa: Menggunakan PagedAttention untuk manajemen memori GPU. Menghasilkan Throughput 2x-5x lebih tinggi daripada Hugging Face Transformers standar.
- Aturan: Jika Anda self-host di Database Mart/RunPod, gunakan vLLM.
FastAPI: Pembungkusnya.
- Mengapa: Anda membungkus vLLM dalam container FastAPI untuk mengeksposnya sebagai web server (endpoint kompatibel OpenAI).
AWS Bedrock: Bunker Korporat.
- Mengapa: Jika Anda butuh kepatuhan (HIPAA/SOC2) dan tidak ingin mengurus server atau menggunakan API publik sembarangan. Ini AWS Fully Managed.

7. Ekonomi: Sewa vs Beli (Perbandingan)

Asumsi: Menjalankan Llama 3 70B (Model Berat)

Strategi	Contoh Provider	Est. Biaya (IDR)	Kontrol	Kesulitan Setup	Terbaik Untuk
Aggregator	OpenRouter	~Rp 20.000 / 1M token	🔴 Nihil	🟢 Instan	Prototyping
Serverless	Groq / Novita	~Rp 15.000 / 1M token	🟡 Rendah	🟢 Instan	Scaling Produksi
Dedicated	Database Mart	~Rp 5.000.000 / bulan	🟢 Root	🔴 Tinggi (Linux)	Aplikasi Berat 24/7
Lokal	RTX 4090 Sendiri	Rp 30.000.000 (Di Depan)	🟢 God Mode	🟡 Sedang	Privasi / Hobi

Aturan Main Keputusan

Drafting/Testing: Gunakan OpenRouter.
Aplikasi Viral (Trafik Lonjak): Gunakan Groq/Serverless (Auto-scale).
Bisnis Stabil (Trafik 24/7): Sewa Dedicated VPS (Database Mart). Harganya jatuh lebih murah daripada serverless pada volume tinggi.

quadrantChart
    title Hosting Strategy Matrix
    x-axis Capex Rendah --> Capex Tinggi
    y-axis Kontrol Rendah --> Kontrol Tinggi
    quadrant-1 "Hobbyist (Privasi)"
    quadrant-2 "The Bunker (Sovereign)"
    quadrant-3 "Startup (Speed)"
    quadrant-4 "Scale-Up (Optimized)"
    
    "Aggregators" : [0.1, 0.1]
    "Serverless GPU" : [0.2, 0.3]
    "Dedicated VPS" : [0.6, 0.8]
    "Local 4090" : [0.9, 0.95]

8. Alat Spesialis (Pemain “Niche”)

A. UI Lokal: LM Studio

Apa itu?: Aplikasi desktop ramah pengguna (Windows/Mac/Linux) untuk menjalankan LLM secara lokal. Ia mengunduh model langsung dari HuggingFace (format GGUF).
Masalah Bisnis yang Diselesaikan:
- Privasi: Nol data keluar dari laptop. Kritis untuk pemrosesan data medis/hukum.
- Offline Dev: Coding di pesawat/kereta tanpa internet.
- Testing: “Rasanya model kuantisasi 4-bit beda gimana sama yang 8-bit?”
Alternatif: Ollama (Berbasis CLI, lebih baik untuk scripting), Jan.ai (Alternatif Open Source untuk LM Studio).
Spesialis Serverless: Baseten
Apa itu?: Platform Inference performa tinggi. Berbeda dengan cloud umum, ia mengoptimalkan Cold Starts (membangunkan GPU Idle secara instan).
Harga: Bayar-per-menit penggunaan GPU. (misal: ~$0.02/menit untuk A10G).
Masalah Bisnis yang Diselesaikan:
- Workload “Spiky”: Jika aplikasi ML Anda dapat 1000 user jam 9 pagi dan 0 user jam 2 pagi, Baseten Scale-to-zero (biaya Rp 0) saat malam.
- Deploy Model Kustom: Anda melatih Fine-tune Stable Diffusion sendiri? Baseten membuatnya semudah truss push.
Alternatif: Modal (Infrastruktur Python-native), Replicate (Lebih simpel, kontrol kurang granular).

C. Pabrik Media: Kie.ai

Apa itu?: Penyedia API agresif yang fokus pada biaya rendah untuk Generative Media (Video/Gambar).
Harga:
- Video (Google Veo 3): ~$0.30 per 8s video (vs ~$6.00 di tempat lain). 95% Lebih Murah.
- Gambar: ~$0.02 per gambar.
Masalah Bisnis yang Diselesaikan:
- Content Farms: Menghasilkan ribuan video/gambar pemasaran setiap hari tanpa bangkrut.
- Akses Eksklusif: Menyediakan akses API ke model eksklusif (seperti Google Veo atau Kling) yang sulit dijangkau.
Alternatif: Fal.ai (Raja kecepatan media), Replicate (Perpustakaan standar).

9. Bacaan Wajib

Hugging Face vs The World - Daftar Maya Akim: Bacaan wajib untuk memahami nuansa hosting di luar dasar-dasar.

🏠 Home | 🗺️ Roadmap