Sebastien Rousseau

Thúc đẩy AI với LLM đa phương thức: bài học từ MM1

Phân tích bài báo MM1 của Apple về các mô hình ngôn ngữ lớn đa phương thức

3 phút đọc

MM1 LLM đa phương thức.class="img-fluid clearfix"

TL;DR. Bài báo MM1 của Apple cung cấp một phân tích chi tiết về việc xây dựng các mô hình ngôn ngữ lớn đa phương thức (MLLM). Các bài học chính: trộn lẫn các loại dữ liệu là quan trọng, các bộ mã hoá hình ảnh nhỏ hoạt động tốt và các khả năng mới nổi xuất hiện ở quy mô.

Điểm chính

  • Cách tiếp cận. Trộn lẫn các caption hình ảnh-văn bản, văn bản xen kẽ và văn bản thuần tuý cho huấn luyện trước.
  • Bối cảnh. Apple xuất bản bài báo này như một phần của chiến lược AI trên thiết bị.
  • Kết quả. MM1 30B cạnh tranh với các mô hình lớn hơn nhiều trên các điểm chuẩn đa phương thức.
  • Bài học. Hỗn hợp dữ liệu quan trọng hơn kiến trúc cụ thể.

Bối cảnh #

Apple và AI #

Apple được biết đến với việc giữ kín các nỗ lực AI. Việc xuất bản MM1 vào tháng 3 năm 2024 báo hiệu một sự thay đổi: Apple muốn thiết lập sự hiện diện trong cộng đồng nghiên cứu AI, có khả năng để hỗ trợ các tính năng AI sắp tới của iOS 18.

Kiến trúc #

Các thành phần #

MM1 tuân theo kiến trúc chuẩn của một MLLM hiện đại:

Bài học chính #

1. Hỗn hợp dữ liệu là quan trọng #

Apple thử nghiệm các tỉ lệ khác nhau của các loại dữ liệu:

Kết quả: tất cả ba đều cần thiết. Văn bản xen kẽ đặc biệt quan trọng cho khả năng học few-shot.

2. Bộ mã hoá hình ảnh nhỏ hoạt động tốt #

Trái với mong đợi, sử dụng bộ mã hoá hình ảnh lớn hơn không cải thiện hiệu suất đáng kể. Các bộ mã hoá nhỏ và hiệu quả là đủ.

3. Quy mô tạo ra các khả năng #

Ở quy mô 30B tham số, MM1 cho thấy khả năng nổi bật trong các tác vụ ít ví dụ — học các nhiệm vụ mới từ chỉ vài ví dụ trong prompt.

So sánh #

MM1 so với các mô hình khác #

Ý nghĩa với Apple #

AI trên thiết bị #

Bài báo gợi ý rằng Apple đang chuẩn bị các tính năng AI cho iOS 18 và sau đó:

Trường hợp sử dụng #

Doanh nghiệp #

Triển vọng #

Tương lai MLLM #

Đa phương thức (hình ảnh + âm thanh + video + văn bản) sẽ là tiêu chuẩn vào năm 2025. MM1 cung cấp một sách hướng dẫn cho việc xây dựng các mô hình như vậy.

Kết luận #

MM1 không phải là mô hình mạnh nhất, nhưng bài báo đi kèm là một trong những bản tóm tắt rõ ràng nhất về cách xây dựng các MLLM hiện đại. Đối với các nhà nghiên cứu và kỹ sư xây dựng các hệ thống đa phương thức, đây là tài liệu đọc bắt buộc.

Cập nhật lần cuối .