Xây dựng Hộp thư Thông minh hơn: Tự động hóa Phân loại Email với LangChain và Gmail API

Table of Contents

Tiếng chuông Pager kinh hoàng lúc 2:15 sáng

Đó là một sáng Thứ Ba khi chuông báo (pager) của tôi vang lên. Hộp thư hỗ trợ của sản phẩm SaaS chủ lực của chúng tôi đã chạm ngưỡng quá tải. Một chiến dịch quảng bá vừa mới lan truyền mạnh mẽ (viral) nhưng theo một cách không hề mong muốn. Người dùng bối rối, và thư mục ‘Yêu cầu chung’ đang bùng nổ với hơn 400 luồng tin nhắn chưa đọc. Đội ngũ của tôi đang chìm trong cơn ác mộng phân loại thủ công. Chúng tôi phải click qua vô số tin nhắn chỉ để phân biệt giữa một lời ‘cảm ơn’ và một lỗi thanh toán nghiêm trọng.

Nhìn vào hàng đợi ngày càng dài, tôi nhận ra các bộ lọc dựa trên từ khóa của chúng tôi còn tệ hơn cả vô dụng. Chúng thiếu đi một thứ duy nhất mà chúng tôi cần để sống sót qua đợt cao điểm này: ngữ cảnh.

Nút thắt cổ chai: Tại sao các hệ thống dựa trên quy tắc lại thất bại

Sự hỗn loạn không phải do thiếu nhân sự, mà do sự cứng nhắc của hệ thống tự động hóa. Các bộ lọc email truyền thống dựa trên việc khớp chuỗi chính xác. Nếu người dùng viết ‘Tài khoản của tôi bị hỏng’, một regex có thể bắt được. Nhưng nếu họ viết, ‘Tôi dường như không thể truy cập vào dashboard sau bản cập nhật, hãy giúp tôi’, bộ lọc thường thất bại. Chỉ cần bỏ lỡ một từ khóa, một ticket ưu tiên cao sẽ biến mất vào ‘hố đen’.

Chúng tôi cần một hệ thống có thể đọc hiểu như con người nhưng xử lý với tốc độ máy móc. Cụ thể, chúng tôi phải giải quyết ba thách thức cốt lõi:

Nhận diện ý định: Phân biệt chính xác giữa một cơ hội bán hàng trị giá 5.000 USD và một yêu cầu tính năng cơ bản.
Sơ đồ ưu tiên: Xác định những khách hàng đang bực bội ‘có nguy cơ rời bỏ’ trước khi họ thực sự rời đi.
Độ trễ phản hồi: Chuyển từ cửa sổ phản hồi 6 giờ xuống dưới 15 phút.

Đánh giá bộ công cụ

Tôi đã cân nhắc ba phương án trong phiên làm việc đêm muộn đó:

Các nền tảng No-Code (Zapier/Make): Tuyệt vời cho các tác vụ đơn giản, nhưng chi phí sẽ tăng vọt khi bạn đạt mốc hơn 10.000 tác vụ mỗi tháng. Chúng cũng gặp khó khăn với việc quản lý trạng thái phức tạp.
Python tùy chỉnh + Regex: Đây là hiện trạng của chúng tôi. Nó bị lỗi mỗi khi khách hàng sử dụng một từ đồng nghĩa mà chúng tôi chưa lường trước được.
AI Stack (LangChain + Gmail API): Đây là người chiến thắng rõ ràng. LangChain cho phép ‘đầu ra có cấu trúc’ (structured output). Thay vì một bản tóm tắt lộn xộn, chúng tôi nhận được một đối tượng JSON sạch sẽ đại diện cho ‘DNA’ của email mà backend có thể xử lý ngay lập tức.

Chiến lược: Phân loại thông minh dựa trên LangChain

Trong môi trường thực tế (production), việc chuyển từ code tĩnh sang các tác nhân (agents) ‘thông minh’ là sự khác biệt giữa một công cụ hoạt động trong phòng thí nghiệm và một công cụ có thể sống sót ngoài thế giới thực. Chúng tôi đã xây dựng một pipeline lấy thư chưa đọc, phân loại bằng Mô hình Ngôn ngữ Lớn (LLM) và sử dụng Gmail API để tạo bản nháp. Điều này giúp duy trì sự kiểm soát của con người trong khi loại bỏ ‘hội chứng trang giấy trắng’ cho các nhân viên hỗ trợ.

Giai đoạn 1: Kết nối Gmail API

Bắt đầu bằng cách kích hoạt Gmail API trong Google Cloud Console. Bạn sẽ cần một OAuth 2.0 Client ID và một file credentials.json. Chúng ta sẽ sử dụng các thư viện Google Auth tiêu chuẩn để quản lý kết nối.

pip install langchain langchain-openai google-api-python-client google-auth-httplib2 google-auth-oauthlib

Tôi đã triển khai logic làm mới token để đảm bảo script không bị dừng giữa chừng trong các phiên chạy dài:

import os.path
from google.auth.transport.requests import Request
from google.oauth2.credentials import Credentials
from google_auth_oauthlib.flow import InstalledAppFlow
from googleapiclient.discovery import build

SCOPES = ['https://www.googleapis.com/auth/gmail.modify']

def get_gmail_service():
    creds = None
    if os.path.exists('token.json'):
        creds = Credentials.from_authorized_user_file('token.json', SCOPES)
    if not creds or not creds.valid:
        if creds and creds.expired and creds.refresh_token:
            creds.refresh(Request())
        else:
            flow = InstalledAppFlow.from_client_secrets_file('credentials.json', SCOPES)
            creds = flow.run_local_server(port=0)
        with open('token.json', 'w') as token:
            token.write(creds.to_json())
    return build('gmail', 'v1', credentials=creds)

Giai đoạn 2: Mô hình hóa sự thông minh với Pydantic

Văn bản thô từ LLM rất khó phân tách. Để làm cho đầu ra của AI có thể dự đoán được, tôi đã sử dụng Pydantic. Điều này buộc mô hình phải điền vào một biểu mẫu có cấu trúc thay vì đưa ra một phản hồi mang tính trò chuyện.

from pydantic import BaseModel, Field
from typing import List

class EmailAnalysis(BaseModel):
    intent: str = Field(description="Phân loại thành: Billing (Thanh toán), Technical (Kỹ thuật), Sales (Bán hàng), hoặc Spam (Rác)")
    priority: int = Field(description="Điểm từ 1 (Thấp) đến 5 (Khẩn cấp)")
    summary: str = Field(description="Tóm tắt một câu về vấn đề cốt lõi")
    suggested_reply: str = Field(description="Một bản nháp phản hồi chuyên nghiệp")

Giai đoạn 3: Điều phối với LangChain

Tôi đã chọn GPT-4o cho pipeline này. Mặc dù các mô hình nhỏ hơn thì rẻ hơn, khả năng suy luận của GPT-4o trong việc phân loại đáng tin cậy hơn đáng kể khi xử lý các email lộn xộn, không chính thống. Chúng tôi sử dụng phương thức with_structured_output để đảm bảo định dạng dữ liệu.

from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate

llm = ChatOpenAI(model="gpt-4o", temperature=0)
structured_llm = llm.with_structured_output(EmailAnalysis)

analysis_prompt = ChatPromptTemplate.from_messages([
    ("system", "Bạn là một chuyên viên hỗ trợ kỹ thuật cao cấp. Hãy phân tích email và đưa ra kết quả phân tích có cấu trúc."),
    ("user", "Tiêu đề: {subject}\nTừ: {sender}\nNội dung: {body}")
])

chain = analysis_prompt | structured_llm

Giai đoạn 4: Soạn thảo không rủi ro

Tự động gửi email do AI tạo ra là một thảm họa truyền thông tiềm ẩn. Thay vào đó, chúng tôi tạo một bản nháp. Điều này giúp đội ngũ hỗ trợ có một khởi đầu thuận lợi trong khi vẫn duy trì sự giám sát của con người.

import base64
from email.message import EmailMessage

def create_draft(service, to_email, subject, body, thread_id):
    message = EmailMessage()
    message.set_content(body)
    message['To'] = to_email
    message['Subject'] = f"Re: {subject}"
    
    # Gmail API yêu cầu mã hóa base64url
    encoded_message = base64.urlsafe_b64encode(message.as_bytes()).decode()
    
    create_message = {
        'message': {
            'threadId': thread_id,
            'raw': encoded_message
        }
    }
    service.users().drafts().create(userId="me", body=create_message).execute()

Kết quả thực tế

Tác động là tức thì. Đến 4 giờ sáng hôm đó, hệ thống đã điền chính xác vào thư mục ‘Khẩn cấp’ của chúng tôi. Trưởng nhóm hỗ trợ thức dậy với 50 bản nháp đã được viết sẵn sàng để kiểm duyệt. Chúng tôi đã cắt giảm thời gian phản hồi ban đầu từ 6 giờ xuống trung bình chỉ còn 12 phút. Quan trọng hơn, chúng tôi không còn bỏ lỡ các cơ hội bán hàng giá trị cao bị chôn vùi trong mớ hỗn độn.

Tinh chỉnh cho môi trường thực tế

Một bài học xương máu: hãy làm sạch dữ liệu đầu vào. Người dùng thường dán các khối chữ ký dài 20 dòng hoặc toàn bộ lịch sử luồng tin nhắn trước đó. Những thứ này làm ngốn ngân sách token của bạn và làm LLM bối rối. Tôi khuyên bạn nên sử dụng một tiện ích để loại bỏ tất cả ngoại trừ tin nhắn gần đây nhất trong một luồng. Nó giúp tiết kiệm chi phí và giữ cho việc phân tích tập trung hơn khi triển khai trong môi trường thực tế.

Bằng cách coi LLM như một bộ xử lý dữ liệu có cấu trúc, bạn biến một hộp thư hỗn loạn thành một pipeline tốc độ cao. Nếu bạn vẫn đang phân loại thư bằng tay, đã đến lúc chuyển giao công việc nặng nhọc về trí tuệ này cho LangChain và tập trung vào việc giải quyết các vấn đề thực tế.