Layer Infrastruktur: Di Mana Model Hidup
[!NOTE]
Anda tidak perlu memiliki pembangkit listrik untuk menyalakan lampu. Tapi terkadang, Anda butuh genset sendiri.
Dokumen ini menganalisis Deployment Strategy untuk Model AI. Kita bergerak melampaui “Lokal vs OpenAI” menuju lanskap matang AI Infrastructure.
📖 Daftar Isi
1. Lanskap: Tiga Pilar Hosting
flowchart TD
User[Kode Anda] --> Choice{"Strategi?"}
Choice -->|"API Simpel (Nol Ops)"| Aggregators["Aggregators"]
Choice -->|"Skala/Cepat (Bayar/detik)"| Serverless["Serverless GPU"]
Choice -->|"Kontrol Penuh (Root)"| Dedicated["Dedicated/VPS"]
Choice -->|"Privasi/Gratis"| Local["Localhost"]
subgraph "Aggregators"
OpenRouter
DeepInfra
end
subgraph "Serverless"
Groq
Novita
Replicate
end
subgraph "Dedicated"
DatabaseMart
RunPod
Lambda
end
style Dedicated fill:#f9f,stroke:#333,stroke-width:2px
Strategi Regional (Indonesia)
Hosting AI lokal atau di node regional (Singapura) sangat penting untuk aplikasi yang sensitif terhadap latensi.
- Cloud Proxies: Menggunakan Vercel Edge Functions untuk mem-proxy request ke AI API di Amerika Serikat.
- Formula Latensi:
\(User Experience \propto \frac{1}{Network Latency + Inference Latency}\)
2. Aggregators (“Steam”-nya AI)
Filosofi: Satu API. Nol DevOps.
- OpenRouter:
- Terbaik Untuk: Mengakses segalanya via satu key. Merutekan ke provider termurah/tercepat secara otomatis.
- Biaya: Harga pasar (seringkali lebih murah dari direct).
- DeepInfra:
- Terbaik Untuk: Stabilitas production-grade untuk model open source umum (Llama 3, Mixtral).
3. Serverless GPU (“Uber”-nya Komputasi)
Filosofi: Bayar hanya saat GPU berputar. Skala ke nol.
- Groq (The Speed Demon):
- Teknologi: LPU (Language Processing Unit).
- Kecepatan: ~800 token/detik.
- Kasus Pakai: Asisten suara real-time, chatbot instan.
- Novita AI (Raja Budget):
- Teknologi: GPU konsumer terdistribusi.
- Biaya: Sangat kompetitif. Bagus untuk batch processing di mana ultra-low latency bukan prioritas.
- Replicate / Together AI:
- Kasus Pakai: Model spesifik (Image Gen, Flux, fine-tune). “Sewa H100 selama 5 detik”.
4. Dedicated GPU / VPS (“Mobil Sewaan”)
Filosofi: Root Access. Persistent Storage. Mesin Anda.
- Database Mart / GPU Mart:
- Peran: The Enterprise VPS.
- Spek: Menawarkan node dedicated (misal: RTX 4090, A100/H100).
- Mengapa: Tidak seperti serverless, Anda punya Persistent Disk. Sebagaimana dibahas di Strategi Data, persistensi adalah kunci untuk Vector DB dan Fine-tuning.
- Biaya: Harga bulanan terprediksi.
- RunPod:
- Peran: Cloud Komunitas.
- Mengapa: Sangat populer untuk Spot Instances (lelang GPU murah). Bagus untuk One-off Training.
5. Local Hosting (“Bunker”)
Filosofi: Hardware Saya. Aturan Saya.
[!TIP]
Ini adalah ekstensi dari mentalitas Terminal Cockpit—kedaulatan mutlak atas komputasi.
- Ollama: “Docker”-nya LLM.
ollama run llama3.
- LM Studio: GUI untuk menguji level Quantization (GGUF).
6. The Engine Room: Software Stack (Apa yang berjalan di VPS?)
Jika Anda menyewa GPU Dedicated, Anda butuh software untuk menyetirnya.
- vLLM: Standar Emas.
- Mengapa: Menggunakan PagedAttention untuk manajemen memori GPU. Menghasilkan Throughput 2x-5x lebih tinggi daripada Hugging Face Transformers standar.
- Aturan: Jika Anda self-host di Database Mart/RunPod, gunakan vLLM.
- FastAPI: Pembungkusnya.
- Mengapa: Anda membungkus vLLM dalam container FastAPI untuk mengeksposnya sebagai web server (endpoint kompatibel OpenAI).
- AWS Bedrock: Bunker Korporat.
- Mengapa: Jika Anda butuh kepatuhan (HIPAA/SOC2) dan tidak ingin mengurus server atau menggunakan API publik sembarangan. Ini AWS Fully Managed.
7. Ekonomi: Sewa vs Beli (Perbandingan)
Asumsi: Menjalankan Llama 3 70B (Model Berat)
| Strategi |
Contoh Provider |
Est. Biaya (IDR) |
Kontrol |
Kesulitan Setup |
Terbaik Untuk |
| Aggregator |
OpenRouter |
~Rp 20.000 / 1M token |
🔴 Nihil |
🟢 Instan |
Prototyping |
| Serverless |
Groq / Novita |
~Rp 15.000 / 1M token |
🟡 Rendah |
🟢 Instan |
Scaling Produksi |
| Dedicated |
Database Mart |
~Rp 5.000.000 / bulan |
🟢 Root |
🔴 Tinggi (Linux) |
Aplikasi Berat 24/7 |
| Lokal |
RTX 4090 Sendiri |
Rp 30.000.000 (Di Depan) |
🟢 God Mode |
🟡 Sedang |
Privasi / Hobi |
Aturan Main Keputusan
- Drafting/Testing: Gunakan OpenRouter.
- Aplikasi Viral (Trafik Lonjak): Gunakan Groq/Serverless (Auto-scale).
- Bisnis Stabil (Trafik 24/7): Sewa Dedicated VPS (Database Mart). Harganya jatuh lebih murah daripada serverless pada volume tinggi.
quadrantChart
title Hosting Strategy Matrix
x-axis Capex Rendah --> Capex Tinggi
y-axis Kontrol Rendah --> Kontrol Tinggi
quadrant-1 "Hobbyist (Privasi)"
quadrant-2 "The Bunker (Sovereign)"
quadrant-3 "Startup (Speed)"
quadrant-4 "Scale-Up (Optimized)"
"Aggregators" : [0.1, 0.1]
"Serverless GPU" : [0.2, 0.3]
"Dedicated VPS" : [0.6, 0.8]
"Local 4090" : [0.9, 0.95]
8. Alat Spesialis (Pemain “Niche”)
A. UI Lokal: LM Studio
- Apa itu?: Aplikasi desktop ramah pengguna (Windows/Mac/Linux) untuk menjalankan LLM secara lokal. Ia mengunduh model langsung dari HuggingFace (format GGUF).
- Masalah Bisnis yang Diselesaikan:
- Privasi: Nol data keluar dari laptop. Kritis untuk pemrosesan data medis/hukum.
- Offline Dev: Coding di pesawat/kereta tanpa internet.
- Testing: “Rasanya model kuantisasi 4-bit beda gimana sama yang 8-bit?”
-
Alternatif: Ollama (Berbasis CLI, lebih baik untuk scripting), Jan.ai (Alternatif Open Source untuk LM Studio).
- Spesialis Serverless: Baseten
- Apa itu?: Platform Inference performa tinggi. Berbeda dengan cloud umum, ia mengoptimalkan Cold Starts (membangunkan GPU Idle secara instan).
-
Harga: Bayar-per-menit penggunaan GPU. (misal: ~$0.02/menit untuk A10G).
- Masalah Bisnis yang Diselesaikan:
- Workload “Spiky”: Jika aplikasi ML Anda dapat 1000 user jam 9 pagi dan 0 user jam 2 pagi, Baseten Scale-to-zero (biaya Rp 0) saat malam.
- Deploy Model Kustom: Anda melatih Fine-tune Stable Diffusion sendiri? Baseten membuatnya semudah
truss push.
- Alternatif: Modal (Infrastruktur Python-native), Replicate (Lebih simpel, kontrol kurang granular).
- Apa itu?: Penyedia API agresif yang fokus pada biaya rendah untuk Generative Media (Video/Gambar).
- Harga:
- Video (Google Veo 3): ~$0.30 per 8s video (vs ~$6.00 di tempat lain). 95% Lebih Murah.
- Gambar: ~$0.02 per gambar.
- Masalah Bisnis yang Diselesaikan:
- Content Farms: Menghasilkan ribuan video/gambar pemasaran setiap hari tanpa bangkrut.
- Akses Eksklusif: Menyediakan akses API ke model eksklusif (seperti Google Veo atau Kling) yang sulit dijangkau.
- Alternatif: Fal.ai (Raja kecepatan media), Replicate (Perpustakaan standar).
9. Bacaan Wajib
🏠 Home | 🗺️ Roadmap