.class="img-fluid clearfix"
TL;DR. Gemini là một họ mô hình AI đa phương thức của Google, được thiết kế để cạnh tranh trực tiếp với GPT-4. Điểm khác biệt chính: được huấn luyện đa phương thức từ đầu (không phải các mô hình được ghép lại sau đó), cửa sổ ngữ cảnh dài (1M+ token trong Gemini 1.5).
Điểm chính
- Cách tiếp cận. Đa phương thức ngay từ huấn luyện trước thay vì được thêm vào sau.
- Đổi mới. Cửa sổ ngữ cảnh dài (1M+ token) cho phép phân tích sách hoặc cơ sở mã hoàn chỉnh.
- Tác động. Cuộc đua AI hai mã (Google vs OpenAI) tăng tốc đổi mới cho tất cả người dùng.
- Trường hợp sử dụng. Phân tích tài liệu dài, hiểu video, lập trình.
Bối cảnh #
Sự cạnh tranh #
Trong suốt năm 2023, OpenAI dẫn đầu với GPT-4. Google trả lời với Gemini vào tháng 12 năm 2023 và một bản cập nhật mạnh mẽ (Gemini 1.5) vào tháng 2 năm 2024. Cuộc cạnh tranh giờ đây là thật sự.
Đa phương thức từ đầu #
Sự khác biệt kiến trúc #
Hầu hết các LLM ban đầu được huấn luyện trên văn bản, sau đó được cập nhật để xử lý hình ảnh và âm thanh. Gemini được huấn luyện đa phương thức từ đầu, có nghĩa là mô hình có thể lập luận về các phương thức hiệu quả hơn.
Ví dụ: cho một video, Gemini có thể trả lời các câu hỏi về cả nội dung trực quan và âm thanh đồng thời.
Cửa sổ ngữ cảnh dài #
Gemini 1.5: 1M token #
Gemini 1.5 Pro hỗ trợ cửa sổ ngữ cảnh 1 triệu token (mở rộng đến 10 triệu trong các thử nghiệm). Để so sánh:
- GPT-4 Turbo: 128K token.
- Claude 2.1: 200K token.
1 triệu token tương đương với:
- 1 cuốn tiểu thuyết dày 750.000 từ.
- 1 video một giờ.
- Toàn bộ cơ sở mã của một dự án vừa.
Trường hợp sử dụng #
Phân tích tài liệu dài #
- Đọc một báo cáo tài chính 200 trang và trả lời các câu hỏi cụ thể.
- So sánh nhiều hợp đồng cùng một lúc.
- Tổng hợp thông tin từ nhiều tài liệu pháp lý.
Hiểu video #
- Phân tích các bản ghi cuộc họp dài.
- Tóm tắt nội dung video dài cho học tập.
- Trích xuất các mốc thời gian từ video giám sát.
Lập trình #
- Phân tích toàn bộ cơ sở mã trong một prompt duy nhất.
- Tìm các lỗi xuyên các tệp.
- Tái cấu trúc các thành phần lớn.
Hạn chế #
Cân nhắc #
- Tốc độ. Cửa sổ ngữ cảnh dài đồng nghĩa với suy luận chậm hơn cho cùng số token đầu ra.
- Chi phí. Số token đầu vào lớn tăng chi phí API.
- Chú ý. Mô hình có thể bỏ sót thông tin chôn sâu trong cửa sổ ngữ cảnh dài ("lost in the middle").
Tác động với ngân hàng #
Trường hợp sử dụng cụ thể #
- Phân tích hợp đồng. Đọc toàn bộ thoả thuận khung và trích xuất các điều khoản.
- Báo cáo tuân thủ. Tổng hợp các quy định và quy chế nội bộ.
- Hỗ trợ khách hàng. Phân tích toàn bộ lịch sử khách hàng trong một prompt.
Triển vọng #
Cuộc đua hai mã #
Cuộc cạnh tranh giữa Google và OpenAI mang lại lợi ích cho mọi người: đổi mới nhanh hơn, giá cả phải chăng hơn và các tính năng mới. Mục tiêu năm 2024-2025: AI có khả năng lập luận theo nhiều bước và hành động trong thế giới thực.
Kết luận #
Gemini không chỉ là một mô hình khác — đó là một tuyên bố rằng Google không bị bỏ lại phía sau trong cuộc đua AI. Đối với các tổ chức đánh giá các nền tảng AI, lợi thế đa phương thức và cửa sổ ngữ cảnh dài của Gemini đáng được xem xét nghiêm túc.
Cập nhật lần cuối .