Tự host ChatGPT riêng: Hướng dẫn chuyên nghiệp về Open WebUI và Docker

Table of Contents

Kiểm soát dữ liệu của bạn

Quyền riêng tư là lý do chính để từ bỏ AI dựa trên đám mây. Mọi câu lệnh (prompt) gửi đến một mô hình công khai đều có khả năng bị lưu trữ, kiểm duyệt hoặc sử dụng để huấn luyện. Đối với các lập trình viên xử lý mã nguồn nhạy cảm của khách hàng hoặc dữ liệu độc quyền, đây là một rủi ro lớn. Open WebUI lấp đầy khoảng trống này. Nó cung cấp một giao diện trau chuốt, giống như ChatGPT, chạy cục bộ trên phần cứng của chính bạn.

Tôi đã sử dụng thiết lập này để kết nối các mô hình cục bộ thô sơ với một môi trường làm việc hiệu quả cho đội ngũ. Nó biến một công cụ dòng lệnh thành một nền tảng cộng tác. Bạn không chỉ đang chạy một mô hình; bạn đang xây dựng một hệ sinh thái AI riêng tư.

Bắt đầu nhanh: Chạy ngay trong 5 phút

Nếu Docker đã sẵn sàng và Ollama đang chạy trên máy của bạn, bạn có thể khởi chạy giao diện chỉ với một câu lệnh. Đây là cách nhanh nhất để kiểm tra giao diện trước khi tiến hành cấu hình lâu dài.

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Sau khi container khởi động, hãy truy cập http://localhost:3000. Người dùng đầu tiên đăng ký sẽ trở thành quản trị viên. Tham số host.docker.internal là “bí quyết” ở đây. Nó cho phép giao diện chạy trong container giao tiếp với dịch vụ Ollama đang chạy trên hệ điều hành máy chủ của bạn.

Triển khai chuyên nghiệp với Docker Compose

Một câu lệnh docker run đơn lẻ là đủ để thử nghiệm, nhưng tôi khuyên bạn nên sử dụng Docker Compose để sử dụng lâu dài. Nó tập trung các biến môi trường, thiết lập mạng và volume dữ liệu vào một tệp duy nhất được quản lý phiên bản. Cách tiếp cận này rất cần thiết khi bạn bắt đầu tích hợp RAG (Retrieval-Augmented Generation) hoặc kết nối nhiều backend.

Cấu hình tối ưu

Tạo một tệp docker-compose.yaml. Cấu hình này đảm bảo giao diện UI và backend Ollama nằm trên cùng một mạng ảo để giao tiếp ổn định.

services:
  ollama:
    volumes:
      - ./ollama:/root/.ollama
    container_name: ollama
    pull_policy: always
    tty: true
    restart: unless-stopped
    image: ollama/ollama:latest

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    volumes:
      - ./open-webui:/app/backend/data
    depends_on:
      - ollama
    ports:
      - 3000:8080
    environment:
      - 'OLLAMA_BASE_URL=http://ollama:11434'
      - 'WEBUI_SECRET_KEY=thay_doi_thanh_mot_chuoi_ngau_nhien_dai'
    restart: unless-stopped

Đừng để mất dữ liệu

Một sai lầm phổ biến là quên ánh xạ volume. Open WebUI lưu trữ lịch sử trò chuyện và cài đặt người dùng trong cơ sở dữ liệu SQLite bên trong container. Nếu bạn không ánh xạ /app/backend/data vào một thư mục trên ổ cứng, dữ liệu của bạn sẽ biến mất trong lần cập nhật tiếp theo. Trong ví dụ trên, tôi sử dụng ./open-webui để giữ mọi thứ có thể di động và dễ dàng sao lưu.

Hiệu suất nâng cao: GPU và RAG

Chạy một mô hình như Llama 3.1 70B trên CPU là một trải nghiệm gây ức chế. Bạn có thể sẽ thấy tốc độ chậm tới mức 1-2 token mỗi giây. Để đạt được hơn 50 token mỗi giây, bạn phải chuyển quyền truy cập GPU vào Docker. Người dùng NVIDIA sẽ cần cài đặt NVIDIA Container Toolkit trên hệ hệ thống máy chủ.

Kích hoạt tăng tốc phần cứng

Cập nhật dịch vụ ollama trong tệp Compose của bạn để dành riêng tài nguyên GPU:

deploy:
  resources:
    reservations:
      devices:
        - driver: nvidia
          count: all
          capabilities: [gpu]

Sự bổ sung đơn giản này thay đổi hoàn toàn trải nghiệm. Phản hồi chuyển từ việc tạo ra từng từ chậm chạp sang kết quả gần như tức thì.

Làm cho AI thông minh hơn với RAG

Open WebUI bao gồm một công cụ RAG tích hợp sẵn. Bạn có thể thả các tệp PDF hoặc tệp văn bản trực tiếp vào cửa sổ chat. Hệ thống sẽ lập chỉ mục và sử dụng ngữ cảnh đó để trả lời câu hỏi. Đối với tài liệu kỹ thuật, tôi khuyên bạn nên đặt RAG_TOP_K thành 5 hoặc 10. Điều này buộc mô hình phải xem xét nhiều đoạn trích dẫn tài liệu hơn, dẫn đến các câu trả lời kỹ thuật chính xác hơn.

Mẹo bảo trì và bảo mật

Cập nhật an toàn

Đội ngũ Open WebUI phát hành các bản cập nhật thường xuyên—thường là vài lần một tuần. Để cập nhật mà không mất lịch sử chat, hãy làm theo quy trình ba bước sau:

docker compose down để dừng các dịch vụ.
docker compose pull để tải về các image mới nhất.
docker compose up -d để khởi động lại.

Vì chúng ta đã định nghĩa các persistent volume trước đó, cơ sở dữ liệu của bạn vẫn an toàn.

Tăng cường bảo mật cho nhóm sử dụng

Nếu bạn chia sẻ phiên bản này với đồng nghiệp, các cài đặt mặc định là quá lỏng lẻo. Khi mọi người đã có tài khoản, hãy đặt ENABLE_SIGNUP=False trong các biến môi trường để ngăn người lạ tạo tài khoản. Ngoài ra, hãy luôn sử dụng một reverse proxy như Nginx hoặc Traefik để bật HTTPS nếu giao diện UI có thể truy cập qua mạng.

Chiến lược trung tâm hỗn hợp (Hybrid Hub)

Các mô hình cục bộ rất tuyệt vời, nhưng đôi khi bạn cần sức mạnh thuần túy của GPT-4o. Tôi thường sử dụng Open WebUI như một trung tâm hỗn hợp. Bằng cách thêm khóa API OpenAI hoặc Anthropic trong phần cài đặt, bạn có thể chuyển đổi giữa mô hình cục bộ miễn phí cho các tác vụ cơ bản và mô hình đám mây cao cấp cho các suy luận phức tạp—tất cả trong cùng một luồng hội thoại.

Cuối cùng, hãy để mắt đến phần cứng của bạn. Nếu giao diện có cảm giác lag, hãy kiểm tra phân bổ RAM. Docker Desktop trên Windows và Mac mặc định là 2GB hoặc 4GB RAM. Để có trải nghiệm mượt mà với các LLM, tôi khuyên bạn nên nâng mức này lên ít nhất 16GB trong cài đặt Docker.