Sebastien Rousseau

Khám phá trí tuệ nhân tạo tạo sinh

Từ GPT đến diffusion: AI tạo sinh đang định hình lại ngành nào

3 phút đọc

AI tạo sinh.class="img-fluid clearfix"

TL;DR. AI tạo sinh — các mô hình tạo ra văn bản, hình ảnh, mã và âm thanh — đã chuyển từ phòng thí nghiệm nghiên cứu sang các ứng dụng doanh nghiệp trong vòng 18 tháng. Bài viết này khảo sát các kiến trúc, mô hình và trường hợp sử dụng chính.

Điểm chính

  • Cách tiếp cận. Các mô hình transformer cho văn bản (GPT, Claude, Gemini), diffusion cho hình ảnh (Stable Diffusion, DALL-E), VAE cho âm thanh.
  • Tác động. Tự động hoá các tác vụ tri thức từng tốn nhiều giờ chỉ trong vài giây.
  • Trường hợp sử dụng. Hỗ trợ khách hàng, sáng tạo nội dung, tăng cường lập trình viên, tổng hợp dữ liệu.
  • Rủi ro. Hallucinations, thiên kiến, quyền riêng tư dữ liệu, sở hữu trí tuệ.

Bối cảnh #

Bước nhảy vọt 2022-2023 #

Sự ra mắt của ChatGPT vào tháng 11 năm 2022 đã đánh dấu một bước ngoặt văn hoá. Trong vòng 18 tháng, AI tạo sinh đã chuyển từ tò mò nghiên cứu sang các ứng dụng doanh nghiệp được sử dụng hàng ngày bởi hàng trăm triệu người.

Các kiến trúc #

Văn bản: Transformer và LLM #

Mô hình transformer, được giới thiệu trong bài báo "Attention Is All You Need" năm 2017, là nền tảng của hầu hết các mô hình ngôn ngữ lớn hiện đại. GPT-4, Claude, Gemini và Llama đều dựa trên biến thể của kiến trúc này.

Hình ảnh: Diffusion #

Các mô hình diffusion học cách đảo ngược một quá trình tạo nhiễu dần dần. Bắt đầu từ nhiễu thuần tuý, chúng từng bước "khử nhiễu" để tạo ra hình ảnh. Stable Diffusion, DALL-E 3 và Midjourney sử dụng các biến thể này.

Âm thanh: VAE và Diffusion #

Các mô hình autoencoder biến phân (VAE) và diffusion cũng tạo ra âm thanh, từ giọng nói (ElevenLabs, OpenVoice) đến âm nhạc (MusicLM, Suno).

Trường hợp sử dụng doanh nghiệp #

Rủi ro #

Cân nhắc khi triển khai #

Triển vọng #

2024 và xa hơn #

Đa phương thức (multimodal) — các mô hình xử lý đồng thời văn bản, hình ảnh, âm thanh, video — sẽ là làn sóng tiếp theo. Các mô hình nhỏ hơn chạy trên thiết bị, mã hoá đồng cấu cho suy luận riêng tư và các tác tử (agents) hành động trong môi trường thực sẽ định hình giai đoạn tiếp theo.

Kết luận #

AI tạo sinh không phải là công nghệ trưởng thành — nó là công nghệ đang trưởng thành nhanh. Các tổ chức không thử nghiệm nó hôm nay sẽ thấy mình tụt hậu xa trong 24 tháng. Câu hỏi không phải là liệu có nên áp dụng, mà là làm thế nào để áp dụng có trách nhiệm.

Cập nhật lần cuối .