Implementasi NEO GPU sebagai LLM Server
0 people liked this article
A. Pendahuluan
NEO GPU dapat digunakan untuk membangun sistem dengan memanfaatkan sumber daya GPU (Graphics Processing Unit), seperti untuk kebutuhan sistem Deep Learning, Natural Language Processing (NLP), Computer Vision, maupun Data Analytics. Pada kali ini kita akan mempelajari cara mengimplementasikan layanan GIO as a Service sebagai Large Language Model (LLM) Server.
B. Panduan
Pada kali ini penulis akan menggunakan model DeepSeek-R1-Distill-Qwen-32B.
1. Akses layanan GPU as a Service secara SSH menggunakan akses yang sudah diberikan pada saat pemesanan. Pemesanan dapat dilakukan dengan menghubungi Tim Sales pada email sales@biznetgio.com
2. Unduh model DeepSeek-R1-Distill-Qwen-32B, model ini bisa didapatkan pada repository AI seperti https://huggingface.co/.
git lfs install
git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
*Agar proses download tidak terganggu anda bisa menggunakan screen.
3. Buat dan aktifkan virtual environment python.
python3 -m venv envname
source envname/bin/activate
**Instal Python apabila belum terpasang pada OS dan ganti envname dengan nama environment yang diinginkan

3. Install modul vllm sebagai vllm interface.
pip install vllm
python3 -m pip show vllm
Buat file bash script dan berikan permission eksekusi.
touch startvllm.sh
chmod +x startvllm.sh
lalu masukkan kode berikut dan sesuaikan.
#!/bin/bash
API_KEY="sk-abc12ABC321" #Input key yang unik sebagai API Key
MODEL_NAME="DeepSeek-R1-Distill-Qwen-32B"
MODEL_PATH="/home/cebgn/DeepSeek-R1-Distill-Qwen-32B" #Sesuaikan path directory sesuai tempat model berada
DOWNLOAD_DIR="/home/cebgn" #Sesuaikan path directory sebagai download directory
# Jalankan server vLLM
python3 -m vllm.entrypoints.openai.api_server \
--host 0.0.0.0 \
--port 8080 \
--api-key $API_KEY \
--served-model-name $MODEL_NAME \
--model $MODEL_PATH \
--download-dir $DOWNLOAD_DIR \
--gpu-memory-utilization 0.95 \
--max-model-len 32768 \
--enforce-eager
Lalu start bash script yang sudah dibuat
./startvllm.sh

4. Menjalankan service pada background, jika model sudah berjalan dengan baik saat foreground, jalankan secara background service dengan supervisord.
Buat konfigurasi pada /etc/supervisor/conf.d/vllm-qwen3-4b.conf
[program:vllm-qwen3-4b]
#sesuaikan nama direktori, environment dan user anda
directory=/home/cebgn
command=/home/cebgn/ce-vllm/bin/python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 8080 --api-key sk-gantiapikeyini --served-model-name DeepSeek-R1-Distill-Qwen-32B --model /home/cebgn/DeepSeek-R1-Distill-Qwen-32B --download-dir /home/cebgn --gpu-memory-utilization 0.95 --max-model-len 32768 --enforce-eager
autostart=true
autorestart=true
stdout_logfile=/var/log/supervisor/vllm-qwen3-4b.log
stderr_logfile=/var/log/supervisor/vllm-qwen3-4b.log
stdout_logfile_maxbytes=50MB
stdout_logfile_backups=10
stderr_logfile_maxbytes=50MB
stderr_logfile_backups=10
environment=PYTHONUNBUFFERED=1,CUDA_VISIBLE_DEVICES=0,PATH="/home/cebgn/venv/bin:/usr/local/cuda/bin:%(ENV_PATH)s",LD_LIBRARY_PATH="/usr/local/cuda/lib64:%(ENV_LD_LIBRARY_PATH)s",HF_HOME="/home/cebgn/.cache/huggingface"
priority=10
user=cebgn
numprocs=1
startsecs=30
startretries=3
stopwaitsecs=120
stopsignal=TERM
killasgroup=true
stopasgroup=true
redirect_stderr=true
Update dan running konfigurasi.
supervisorctl reread
supervisorctl update
Jalankan service vllm.
supervisorctl stop vllm-qwen3-4b
supervisorctl start vllm-qwen3-4b
Status apabila service berhasil running

Pastikan port sudah listen

5. Coba API yang telah dibuat.
Contoh penggunaan curl :
curl http://IP-Public:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer [API_KEY]" \
-d '{
"model": "DeepSeek-R1-Distill-Qwen-32B",
"messages": [
{
"role": "user",
"content": "[Prompt]"
}
]
}'
*IP Public dan Port bisa disederhanakan menggunakan reverse proxy sebagai endpoint, berikut panduan Konfigurasi Reverse Proxy Nginx dan Apache
Contoh output

C. Kesimpulan
NEO GPU dapat digunakan untuk implementasi LLM server, API yang dibuat dapat langsung digunakan dengan mudah.
Semoga artikel ini dapat membantu Anda. Temukan bantuan lainnya melalui Knowledge Base Biznet Gio. Jika Anda masih memiliki kendala silakan hubungi Support Biznet GIO melalui email support@biznetgio.com atau live chat maupun WA ke website www.biznetgio.com dan bisa juga melalui telepon ke nomor (021) 5714567.
Popular Articles
-
Cara Install & Konfigurasi Monitoring Cacti Serta Mengetahui Fungsi Fitur Pada Cacti
10 people say this guide was helpful
-
Cara Mengaktifkan Telnet pada Windows 7, 8 dan 10
4 people say this guide was helpful
-
Install dan Konfigurasi Samba Server pada Ubuntu
2 people say this guide was helpful
-
Jenis-Jenis Software Virtualisasi untuk Membuat Virtual Machine
6 people say this guide was helpful