Sebastien Rousseau

Khám phá Gemini: cuộc cách mạng AI của Google được giải thích

Đa phương thức, cửa sổ ngữ cảnh dài và sự cạnh tranh với GPT-4

3 phút đọc

Logo Gemini.class="img-fluid clearfix"

TL;DR. Gemini là một họ mô hình AI đa phương thức của Google, được thiết kế để cạnh tranh trực tiếp với GPT-4. Điểm khác biệt chính: được huấn luyện đa phương thức từ đầu (không phải các mô hình được ghép lại sau đó), cửa sổ ngữ cảnh dài (1M+ token trong Gemini 1.5).

Điểm chính

  • Cách tiếp cận. Đa phương thức ngay từ huấn luyện trước thay vì được thêm vào sau.
  • Đổi mới. Cửa sổ ngữ cảnh dài (1M+ token) cho phép phân tích sách hoặc cơ sở mã hoàn chỉnh.
  • Tác động. Cuộc đua AI hai mã (Google vs OpenAI) tăng tốc đổi mới cho tất cả người dùng.
  • Trường hợp sử dụng. Phân tích tài liệu dài, hiểu video, lập trình.

Bối cảnh #

Sự cạnh tranh #

Trong suốt năm 2023, OpenAI dẫn đầu với GPT-4. Google trả lời với Gemini vào tháng 12 năm 2023 và một bản cập nhật mạnh mẽ (Gemini 1.5) vào tháng 2 năm 2024. Cuộc cạnh tranh giờ đây là thật sự.

Đa phương thức từ đầu #

Sự khác biệt kiến trúc #

Hầu hết các LLM ban đầu được huấn luyện trên văn bản, sau đó được cập nhật để xử lý hình ảnh và âm thanh. Gemini được huấn luyện đa phương thức từ đầu, có nghĩa là mô hình có thể lập luận về các phương thức hiệu quả hơn.

Ví dụ: cho một video, Gemini có thể trả lời các câu hỏi về cả nội dung trực quan và âm thanh đồng thời.

Cửa sổ ngữ cảnh dài #

Gemini 1.5: 1M token #

Gemini 1.5 Pro hỗ trợ cửa sổ ngữ cảnh 1 triệu token (mở rộng đến 10 triệu trong các thử nghiệm). Để so sánh:

1 triệu token tương đương với:

Trường hợp sử dụng #

Phân tích tài liệu dài #

Hiểu video #

Lập trình #

Hạn chế #

Cân nhắc #

Tác động với ngân hàng #

Trường hợp sử dụng cụ thể #

Triển vọng #

Cuộc đua hai mã #

Cuộc cạnh tranh giữa Google và OpenAI mang lại lợi ích cho mọi người: đổi mới nhanh hơn, giá cả phải chăng hơn và các tính năng mới. Mục tiêu năm 2024-2025: AI có khả năng lập luận theo nhiều bước và hành động trong thế giới thực.

Kết luận #

Gemini không chỉ là một mô hình khác — đó là một tuyên bố rằng Google không bị bỏ lại phía sau trong cuộc đua AI. Đối với các tổ chức đánh giá các nền tảng AI, lợi thế đa phương thức và cửa sổ ngữ cảnh dài của Gemini đáng được xem xét nghiêm túc.

Cập nhật lần cuối .