Implementasi NEO GPU sebagai LLM Server

0 people liked this article

A. Pendahuluan

NEO GPU dapat digunakan untuk membangun sistem dengan memanfaatkan sumber daya GPU (Graphics Processing Unit), seperti untuk kebutuhan sistem Deep Learning, Natural Language Processing (NLP), Computer Vision, maupun Data Analytics. Pada kali ini kita akan mempelajari cara mengimplementasikan layanan GIO as a Service sebagai Large Language Model (LLM) Server.

B. Panduan

Pada kali ini penulis akan menggunakan model DeepSeek-R1-Distill-Qwen-32B.

1. Akses layanan GPU as a Service secara SSH menggunakan akses yang sudah diberikan pada saat pemesanan. Pemesanan dapat dilakukan dengan menghubungi Tim Sales pada email sales@biznetgio.com

2. Unduh model DeepSeek-R1-Distill-Qwen-32B, model ini bisa didapatkan pada repository AI seperti https://huggingface.co/.

git lfs install 
git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

*Agar proses download tidak terganggu anda bisa menggunakan screen.

3. Buat dan aktifkan virtual environment python.

python3 -m venv envname 
source envname/bin/activate

**Instal Python apabila belum terpasang pada OS dan ganti envname dengan nama environment yang diinginkan

3. Install modul vllm sebagai vllm interface.

pip install vllm 
python3 -m pip show vllm

Buat file bash script dan berikan permission eksekusi.

touch startvllm.sh 
chmod +x startvllm.sh

lalu masukkan kode berikut dan sesuaikan.

#!/bin/bash

API_KEY="sk-abc12ABC321" #Input key yang unik sebagai API Key 
MODEL_NAME="DeepSeek-R1-Distill-Qwen-32B" 
MODEL_PATH="/home/cebgn/DeepSeek-R1-Distill-Qwen-32B" #Sesuaikan path directory sesuai tempat model berada 
DOWNLOAD_DIR="/home/cebgn" #Sesuaikan path directory sebagai download directory 
# Jalankan server vLLM 
python3 -m vllm.entrypoints.openai.api_server \ 
--host 0.0.0.0 \ 
--port 8080 \ 
--api-key $API_KEY \ 
--served-model-name $MODEL_NAME \ 
--model $MODEL_PATH \ 
--download-dir $DOWNLOAD_DIR \ 
--gpu-memory-utilization 0.95 \ 
--max-model-len 32768 \ 
--enforce-eager

Lalu start bash script yang sudah dibuat

./startvllm.sh

4. Menjalankan service pada background, jika model sudah berjalan dengan baik saat foreground, jalankan secara background service dengan supervisord.

Buat konfigurasi pada /etc/supervisor/conf.d/vllm-qwen3-4b.conf

[program:vllm-qwen3-4b]
#sesuaikan nama direktori, environment dan user anda
directory=/home/cebgn 
command=/home/cebgn/ce-vllm/bin/python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 8080 --api-key sk-gantiapikeyini  --served-model-name DeepSeek-R1-Distill-Qwen-32B --model /home/cebgn/DeepSeek-R1-Distill-Qwen-32B --download-dir /home/cebgn --gpu-memory-utilization 0.95 --max-model-len 32768 --enforce-eager
autostart=true
autorestart=true
stdout_logfile=/var/log/supervisor/vllm-qwen3-4b.log
stderr_logfile=/var/log/supervisor/vllm-qwen3-4b.log
stdout_logfile_maxbytes=50MB
stdout_logfile_backups=10
stderr_logfile_maxbytes=50MB
stderr_logfile_backups=10
environment=PYTHONUNBUFFERED=1,CUDA_VISIBLE_DEVICES=0,PATH="/home/cebgn/venv/bin:/usr/local/cuda/bin:%(ENV_PATH)s",LD_LIBRARY_PATH="/usr/local/cuda/lib64:%(ENV_LD_LIBRARY_PATH)s",HF_HOME="/home/cebgn/.cache/huggingface"
priority=10
user=cebgn
numprocs=1
startsecs=30
startretries=3
stopwaitsecs=120
stopsignal=TERM
killasgroup=true
stopasgroup=true
redirect_stderr=true

Update dan running konfigurasi.

supervisorctl reread
supervisorctl update

Jalankan service vllm.

supervisorctl stop vllm-qwen3-4b
supervisorctl start vllm-qwen3-4b

Status apabila service berhasil running

Gambar 3. Service VLLM pada Supervisord Aktif

Pastikan port sudah listen

5. Coba API yang telah dibuat.

Contoh penggunaan curl :

curl http://IP-Public:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer [API_KEY]" \
  -d '{
    "model": "DeepSeek-R1-Distill-Qwen-32B",
    "messages": [
      {
        "role": "user",
        "content": "[Prompt]"
      }
    ]
  }'

*IP Public dan Port bisa disederhanakan menggunakan reverse proxy sebagai endpoint, berikut panduan Konfigurasi Reverse Proxy Nginx dan Apache

Contoh output

C. Kesimpulan

NEO GPU dapat digunakan untuk implementasi LLM server, API yang dibuat dapat langsung digunakan dengan mudah.

Semoga artikel ini dapat membantu Anda. Temukan bantuan lainnya melalui Knowledge Base Biznet Gio. Jika Anda masih memiliki kendala silakan hubungi Support Biznet GIO melalui email support@biznetgio.com atau live chat maupun WA ke website www.biznetgio.com dan bisa juga melalui telepon ke nomor (021) 5714567.

data analytics computer vision nlp llm access key kecerdasan buatan gpu gpu as a service gaas

Apa yang bisa kami bantu?

Implementasi NEO GPU sebagai LLM Server

A. Pendahuluan

B. Panduan

C. Kesimpulan

Popular Articles

Apa yang bisa kami bantu?

Contact Us

Implementasi NEO GPU sebagai LLM Server

A. Pendahuluan

B. Panduan

C. Kesimpulan

Related Articles

Popular Articles