Toàn Cảnh Các Mô Hình AI Mới Từ Tháng 5 Đến Tháng 6 Năm 2026

 

Toàn Cảnh Các Mô Hình Trí Tuệ Nhân Tạo Mới Và Sự Dịch Chuyển Kiến Trúc Từ Tháng 5 Đến Tháng 6 Năm 2026

Thị trường trí tuệ nhân tạo toàn cầu trong giai đoạn từ đầu tháng 5 đến đầu tháng 6 năm 2026 đã chứng kiến một bước ngoặt mang tính lịch sử.1 Sau một tháng 4 bùng nổ với sự xuất hiện của các siêu mô hình nền tảng như GPT-5.5, Claude Opus 4.7 và DeepSeek V4 Pro, giai đoạn này đánh dấu sự chuyển dịch sâu sắc từ cuộc đua tăng số lượng tham số thuần túy sang tối ưu hóa hiệu quả vận hành, nâng cao mật độ trí tuệ trên mỗi tham số hoạt động, và đặc biệt là sự trỗi dậy của kiến trúc hướng tác nhân tự chủ dài hạn (long-horizon autonomous agents).1 Các nhà phát triển lớn và các công ty khởi nghiệp đột phá không chỉ tập trung vào khả năng tạo văn bản hay trò chuyện thông thường, mà hướng đến khả năng hành động tự chủ dài hạn, tự sửa lỗi và tương tác trực tiếp với các môi trường kỹ thuật số phức tạp thông qua các giao thức kết nối tiêu chuẩn.2

Báo cáo này phân tích chi tiết danh sách các mô hình mới ra mắt nổi bật nhất trong dòng thời gian này, bao gồm các khía cạnh về ngày phát hành, thông số kỹ thuật, giá thuê, kiến trúc đột phá, hiệu năng thực tế và ý nghĩa cụ thể của từng chỉ số đánh giá tiêu chuẩn.

Phân tích chi tiết các mô hình đột phá trong làn sóng công nghệ mới

Dòng công nghệ Mythos-Class và Claude Fable 5 của Anthropic

Được phát hành chính thức vào ngày 9 tháng 6 năm 2026, Claude Fable 5 đánh dấu bước chuyển mình quan trọng khi Anthropic lần đầu tiên đưa công nghệ thuộc lớp Mythos siêu cấp tiếp cận thị trường đại chúng.5 Trước thời điểm này, các mô hình Mythos chỉ được cung cấp một cách hạn chế cho các tổ chức được phê duyệt thông qua dự án bảo mật Project Glasswing nhằm ngăn chặn các rủi ro liên quan đến an ninh mạng tấn công.5 Để thương mại hóa dòng mô hình này một cách an toàn, Anthropic đã áp dụng kiến trúc an toàn kép độc đáo: Fable 5 sở hữu toàn bộ năng lực tư duy của Mythos 5 nhưng được giám sát bởi hệ thống phân loại bảo mật thời gian thực.5 Khi phát hiện người dùng gửi các truy vấn nhạy cảm liên quan đến phát triển vũ khí hóa sinh, an ninh mạng tấn công hay các hành vi độc hại khác, Fable 5 sẽ tự động chặn phản hồi và chuyển giao phiên làm việc cho Claude Opus 4.8 để đưa ra câu trả lời thay thế.5 Cơ chế này hoạt động cực kỳ targeted, chỉ kích hoạt trong dưới 5% tổng số phiên làm việc thực tế.5 Ngược lại, đối với các chuyên gia an ninh mạng cần nâng cao năng lực phòng thủ, phiên bản không bị giới hạn Claude Mythos 5 vẫn được phân phối riêng cho các đối tác chính phủ và cơ sở hạ tầng trọng yếu được phê duyệt.7

Về mặt chi phí vận hành, dòng mô hình này nằm ở phân khúc siêu cao cấp với giá thuê API là $10.00 cho mỗi triệu (1M) token đầu vào và $50.00 cho mỗi triệu token đầu ra.6 Doanh nghiệp có thể áp dụng tính toán chi phí theo công thức sau:

6

Bất chấp mức giá cao gấp đôi so với Claude Opus 4.8, hiệu năng thực tế của Fable 5 mang lại tỷ suất sinh lời vượt trội nhờ khả năng tự kiểm định đầu ra, giúp giảm thiểu số lượt chạy lỗi.6 Điển hình, đối tác thử nghiệm Stripe đã sử dụng Fable 5 để thực hiện thành công việc di chuyển mã nguồn (migration) trên toàn bộ kho lưu trữ 50 triệu dòng mã Ruby chỉ trong vòng một ngày, tác vụ vốn thường tiêu tốn của một đội ngũ kỹ sư lành nghề hơn hai tháng làm việc thủ công.6 Tuy nhiên, một lưu ý pháp lý quan trọng là việc sử dụng dòng mô hình Mythos-class yêu cầu chính sách lưu trữ dữ liệu bắt buộc trong 30 ngày từ phía Anthropic nhằm mục đích giám sát an toàn, bất kể thỏa thuận không lưu trữ dữ liệu (zero-data-retention) trước đó của doanh nghiệp.5

Qwen 3.7 Max của Alibaba Cloud

Ra mắt vào ngày 19 tháng 5 năm 2026 dưới tiêu đề "Qwen3.7: The Agent Frontier", Qwen 3.7 Max là mô hình thương mại đóng (proprietary) cao cấp nhất của Alibaba được thiết kế chuyên biệt cho kỷ nguyên tác nhân tự chủ.4 Khác với các phiên bản mã nguồn mở trước đó, Qwen 3.7 Max là một mô hình đóng chỉ cung cấp qua API hoặc cổng Yotta AI Gateway, hỗ trợ đồng thời cả đặc tả API của OpenAI và Anthropic để dễ dàng tích hợp vào hệ thống hiện tại của doanh nghiệp.4

Mô hình sở hữu cửa sổ ngữ cảnh lên tới 1 triệu token và khả năng xuất ra tối đa 65,536 token trong một lượt duy nhất.4 Kiến trúc nội bộ được tối ưu hóa cho các vòng lặp tác nhân dài hạn, cho phép duy trì hiệu năng ổn định qua hàng ngàn lượt gọi công cụ (tool calls) liên tục.4 Giá thuê mô hình thông qua cổng Yotta AI Gateway cực kỳ cạnh tranh so với các đối thủ phương Tây, cụ thể là $1.25 cho mỗi triệu token đầu vào và $3.75 cho mỗi triệu token đầu ra.4 Mô hình cũng hỗ trợ cơ chế lưu bộ đệm nhắc (prompt caching) chuyên sâu với chi phí tạo cache là $1.5625/M token và đọc cache chỉ từ $0.125 đến $0.25/M token, giúp giảm đáng kể chi phí cho các tác vụ lặp đi lặp lại trên tài liệu lớn.4

Minh chứng cho năng lực hoạt động bền bỉ, Qwen 3.7 Max đã hoàn thành xuất sắc phiên tối ưu hóa nhân hệ điều hành tự chủ kéo dài liên tục 35 giờ trên chip xử lý PPU T-Head ZW-M890 thông qua 1,158 lượt gọi công cụ, mang lại mức tăng tốc hiệu năng gấp 10 lần so với cấu hình tham chiếu.4 Ngoài ra, trong một phiên huấn luyện Học máy liên tục kéo dài 86 giờ, mô hình đã tự động phát hiện và chặn đứng 1,618 trường hợp gian lận phần thưởng (reward-hacking) và đề xuất 13 quy tắc heuristic mới cho vòng lặp huấn luyện của chính nó.4

Claude Opus 4.8 của Anthropic

Được nâng cấp vào ngày 28 tháng 5 năm 2026, Claude Opus 4.8 là bản cập nhật quan trọng tối ưu hóa độ tin cậy và khả năng cộng tác thông minh của phân khúc Opus.11 Mô hình giới thiệu hai cơ chế tương tác mới là "Effort Control" (Kiểm soát nỗ lực) và "Dynamic Workflows" (Luồng công việc động) trong công cụ Claude Code.11 Cơ chế Effort Control cho phép người dùng chủ động điều chỉnh mức độ suy luận sâu của mô hình: ở mức cao nhất, mô hình sẽ dành nhiều tài nguyên tính toán hơn để tự kiểm định câu trả lời, giúp hạn chế tối đa hiện tượng ảo tưởng (hallucination) trong các tác vụ nhạy cảm.11 Cơ chế Dynamic Workflows cho phép Opus 4.8 tự động viết các tập lệnh điều phối, khởi chạy đồng thời hàng trăm tác nhân phụ (sub-agents) để thực hiện các cuộc kiểm toán mã nguồn hoặc nâng cấp hệ thống trên quy mô hàng trăm ngàn dòng mã từ lúc bắt đầu cho đến khi tích hợp hoàn chỉnh.11

Giá thuê của Opus 4.8 được giữ nguyên so với phiên bản Opus 4.7 tiền nhiệm, cụ thể là $5.00/M token đầu vào và $25.00/M token đầu ra.11 Đối với chế độ chạy nhanh (Fast Mode - cho tốc độ xử lý nhanh gấp 2.5 lần), mức giá là $10.00/$50.00 cho mỗi triệu token.11 Đáng chú ý, chi phí xử lý hình ảnh và tài liệu phi cấu trúc thông qua suy luận đa phương thức đã được Anthropic tối ưu giảm tới 61% so với các phiên bản cũ.11

Gemini 3.5 Flash của Google

Được công bố tại sự kiện Google I/O vào ngày 19 tháng 5 năm 2026, Gemini 3.5 Flash đã đảo ngược quy trình phát hành truyền thống của Google bằng việc ra mắt phiên bản tối ưu tốc độ trước phiên bản Pro.12 Mô hình được thiết kế như một động cơ xử lý trung tâm cho nền tảng tác nhân để bàn Antigravity 2.0 và công cụ Managed Agents API của Google.12 Với cửa sổ ngữ cảnh 1.05 triệu token và tốc độ xuất token nhanh gấp 4 lần so với các đối thủ cùng phân khúc, mô hình cho phép khởi chạy các môi trường thực thi Linux ảo từ xa một cách tức thì thông qua các cuộc gọi API đơn giản.12

Mức giá thuê của Gemini 3.5 Flash cực kỳ cạnh tranh ở phân khúc mô hình biên hiệu năng cao là $1.50 cho mỗi triệu token đầu vào và $9.00 cho mỗi triệu token đầu ra.12 Chi phí đọc dữ liệu lưu trong bộ đệm (prompt cache) chỉ ở mức $0.15/M token, kết hợp với chi phí lưu trữ cache là $1.00/M token cho mỗi giờ, giúp doanh nghiệp tiết kiệm tối đa ngân sách khi chạy các chatbot chăm sóc khách hàng liên tục.12

Gemma 4 12B của Google DeepMind

Ra mắt ngày 3 tháng 6 năm 2026 dưới giấy phép Apache 2.0, Gemma 4 12B là một cột mốc lớn trong việc đưa trí tuệ nhân tạo đa phương thức cục bộ lên các thiết bị cá nhân của nhà phát triển.13 Các mô hình đa phương thức truyền thống thường phải sử dụng các bộ mã hóa hình ảnh và âm thanh tách biệt để xử lý dữ liệu đầu vào trước khi đưa vào mạng ngôn ngữ chính, gây trễ và tốn dung lượng bộ nhớ.13 Gemma 4 12B loại bỏ hoàn toàn các bộ mã hóa cồng kềnh này bằng một kiến trúc hợp nhất không bộ mã hóa (Encoder-Free).13 Dữ liệu hình ảnh thô được chia thành các pixel patch và chiếu thẳng vào không gian ẩn của mạng Transformer chính thông qua một phép nhân ma trận đơn giản kết hợp mã hóa vị trí.13 Tương tự, tín hiệu âm thanh thô tần số 16 kHz được cắt thành các khung 40ms và chiếu tuyến tính trực tiếp vào mô hình.13 Cơ chế này cho phép toàn bộ vòng lặp đa phương thức chia sẻ chung một trọng số duy nhất, giúp việc tinh chỉnh (fine-tuning) qua LoRA trở nên dễ dàng và hiệu quả hơn.13

Mô hình hoàn toàn miễn phí dưới dạng trọng số mở (open-weight) và được tối ưu hóa hoàn hảo để chạy cục bộ trên các máy tính xách tay cá nhân chỉ yêu cầu tối thiểu 16GB VRAM hoặc bộ nhớ thống nhất (Unified Memory) của chip Apple Silicon.13 Mặc dù chỉ có quy mô 12 tỷ tham số, Gemma 4 12B đạt hiệu năng suy luận và thực thi tác vụ tương đương với dòng mô hình MoE 26 tỷ tham số lớn hơn của Google, nhờ vào việc tích hợp sẵn các bộ dự đoán đa token (Multi-Token Prediction - MTP) giúp giảm thiểu tối đa độ trễ phản hồi cục bộ.13

SubQ 1M-Preview của Subquadratic

Được phát triển bởi công ty khởi nghiệp Subquadratic và ra mắt vào ngày 5 tháng 5 năm 2026, mô hình này đại diện cho nỗ lực thương mại hóa đầu tiên của kiến trúc phi Transformer.1 Kiến trúc Transformer truyền thống gặp giới hạn vật lý lớn khi chiều dài ngữ cảnh tăng lên do độ phức tạp tính toán của cơ chế tự chú ý (Self-Attention) tăng theo hàm bậc hai .1 SubQ 1M-Preview phá vỡ giới hạn này bằng việc áp dụng cơ chế chú ý thưa bậc dưới hai (sparse subquadratic attention) xuyên suốt từ đầu đến cuối mô hình.1 Kiến trúc này cho phép mô hình đạt tốc độ xử lý cơ chế chú ý nhanh gấp 52 lần ở các quy mô ngữ cảnh siêu lớn, đồng thời giảm chi phí vận hành xuống chỉ còn khoảng (20%) so với các mô hình biên Transformer truyền thống trên cùng một khối lượng công việc ngữ cảnh dài.1 Mô hình sở hữu cửa sổ ngữ cảnh mặc định lên tới 12 triệu token, hỗ trợ tối đa việc phân tích toàn bộ kho lưu trữ mã nguồn hoặc hàng ngàn tài liệu nghiên cứu học thuật cùng lúc.1

Composer 2.5 của Cursor

Được phát hành dưới dạng tích hợp độc quyền trong môi trường lập trình Cursor IDE vào ngày 18 tháng 5 năm 2026.12 Phiên bản tiêu chuẩn (Standard) của Composer 2.5 được vận hành dựa trên mô hình lai Mixture-of-Experts Kimi K2.5 của Moonshot, sở hữu tổng cộng 1.04 nghìn tỷ tham số với 32 tỷ tham số hoạt động cho mỗi token.12 Mô hình được huấn luyện dựa trên số lượng tác vụ tổng hợp lớn gấp 25 lần so với phiên bản Composer 2 trước đó.12

Về mặt chi phí, phiên bản Standard có mức giá cực kỳ tối ưu là $0.50/M token đầu vào và $2.50/M token đầu ra, tương đương chi phí thực tế trung bình chỉ khoảng $0.10 cho mỗi tác vụ lập trình tự chủ hoàn chỉnh.12 Phiên bản Fast mang lại tốc độ xử lý nhanh gấp đôi nhưng chi phí tăng lên mức $3.00/$15.00 cho mỗi triệu token.12

Các mô hình đáng chú ý khác trong tháng 5 năm 2026

Bên cạnh các siêu mô hình biên, thị trường đầu tháng 5 còn ghi nhận các mô hình hiệu năng cao được tinh chỉnh cho các mục đích chuyên biệt:

  • GPT-5.5 Instant (OpenAI): Ra mắt ngày 5 tháng 5 năm 2026, đây là phiên bản tối ưu hóa tốc độ và độ trễ thấp của dòng GPT-5.5, được OpenAI âm thầm cấu hình làm mặc định mới cho cả người dùng miễn phí và trả phí trên ChatGPT dưới định danh API chat-latest.1 Mô hình tập trung vào việc giảm thiểu hiện tượng ảo tưởng trong các tác vụ tương tác thời gian thực thay vì chạy đua điểm số suy luận phức tạp.1

  • ZAYA1-8B (Zyphra): Ra mắt ngày 6 tháng 6 năm 2026 dưới giấy phép Apache 2.0, đây là mô hình MoE cực kỳ nhỏ gọn với 8 tỷ tham số tổng nhưng chỉ kích hoạt khoảng 760 triệu tham số cho mỗi token.1 Điểm độc đáo là mô hình được huấn luyện hoàn toàn từ đầu trên phần cứng AMD Instinct, chứng minh tính khả thi của việc xây dựng các mô hình suy luận sâu trên các stack phần cứng thay thế Nvidia.1 Mô hình hoàn toàn miễn phí tự lưu trữ hoặc sử dụng qua endpoint serverless của Zyphra Cloud.1

  • Grok 4.3 (xAI): Phát hành bản rộng rãi và API vào ngày 6 tháng 6 năm 2026, kế thừa gia đình Grok 4.20 với những cải tiến tuần tự về mặt suy luận toán học.1 Giá thuê API được xAI thiết lập ở mức $1.25/$2.50 cho mỗi triệu token, hoặc thông qua gói đăng ký SuperGrok Heavy với giá ưu đãi $99/tháng trong 6 tháng đầu.1

  • Grok Build CLI (grok-build-0.1): Ra mắt bản beta ngày 14 tháng 5 năm 2026, là công cụ dòng lệnh chuyên dụng hỗ trợ chạy tối đa 8 tác nhân lập trình đồng thời trong cửa sổ ngữ cảnh 256K, định giá ở mức $1.00/$2.00 cho mỗi triệu token đầu vào/đầu ra.12

  • Gemini 3.1 Flash Lite (Google): Ra mắt ngày 8 tháng 5 năm 2026, là phiên bản siêu nhẹ nằm dưới phân khúc Flash tiêu chuẩn, được thiết kế làm đối trọng trực tiếp với GPT-5.5 Instant trong việc tối ưu hóa chi phí cho mỗi lượt gọi gọi API ở quy mô công nghiệp.1

Bảng so sánh thông số kỹ thuật và chi phí thuê mô hình (Tháng 5 - Tháng 6/2026)

Để giúp các doanh nghiệp dễ dàng đưa ra quyết định lựa chọn mô hình phù hợp với ngân sách và yêu cầu kỹ thuật, dưới đây là bảng tổng hợp chi tiết các mô hình thương mại đóng và mô hình mã nguồn mở mới ra mắt:


Tên Mô Mô Hình

Nhà Phát Triển

Ngày Ra Mắt

Loại Hình

Giá Thuê Đầu Vào (Mỗi 1M Token)

Giá Thuê Đầu Ra (Mỗi 1M Token)

Cửa Sổ Ngữ Cảnh

Điểm Hiệu Năng Key

Claude Fable 5 6

Anthropic 6

09/06/2026 6

Đóng (API) 6

$10.00 6

$50.00 6

1 Triệu 6

SWE-Bench Pro: 80.3% 6


GDP.pdf: 29.8% 6

Qwen 3.7 Max 4

Alibaba Cloud 4

19/05/2026 4

Đóng (API) 4

$1.25 4

$3.75 4

1 Triệu 4

GPQA Diamond: 92.4% 4


SWE-Pro: 60.6% 4

Claude Opus 4.8 11

Anthropic 11

28/05/2026 11

Đóng (API) 11

$5.00 11

$25.00 11

1 Triệu 11

Online-Mind2Web: 84.0% 11


Giảm 61% phí đa phương thức 11

Gemini 3.5 Flash 12

Google 14

19/05/2026 14

Đóng (API) 14

$1.50 12

$9.00 12

1.05 Triệu 12

Terminal-Bench 2.1: 76.2% 12

Gemma 4 12B 13

Google DeepMind 13

03/06/2026 13

Trọng số mở 13

Miễn phí 13

Miễn phí 13

256K 13

Đạt hiệu năng tiệm cận dòng MoE 26B cục bộ 13

SubQ 1M-Preview 1

Subquadratic 1

05/05/2026 1

Đóng (API) 1

~1/5 Frontier 1

~1/5 Frontier 1

12 Triệu 1

Tốc độ cơ chế chú ý nhanh gấp 52 lần 1

Composer 2.5 Std 12

Cursor / Moonshot 12

18/05/2026 12

Đóng (IDE) 12

$0.50 12

$2.50 12

1 Triệu 12

CursorBench v3.1: 63.2% 12

Grok 4.3 (high) 1

xAI 1

06/05/2026 1

Đóng (API) 1

$1.25 12

$2.50 12

128K 3

Tốc độ: 160 tokens/giây 1


Intelligence Index: 53.2 1

ZAYA1-8B 1

Zyphra 1

06/05/2026 1

Trọng số mở 1

Miễn phí 1

Miễn phí 1

12M (SubQ) 1

Kích hoạt siêu nhẹ 760M tham số 1

Giải thích ý nghĩa của các hệ thống Benchmark tiêu chuẩn thế hệ mới

Trong bối cảnh năng lực của các mô hình AI đã vượt qua các bài kiểm tra trắc nghiệm kiến thức thông thường, cộng đồng nghiên cứu toàn cầu đã chuyển dịch sang các hệ thống đánh giá động, tập trung vào tư duy khoa học sâu, lập trình hệ thống thực tế và khả năng tương tác của tác nhân trong môi trường thực.3 Việc hiểu rõ ý nghĩa của các chỉ số này là chìa khóa để doanh nghiệp đánh giá đúng thực lực của mô hình trước khi đưa vào sản xuất.2

Hệ thống các Benchmark đo lường năng lực lập trình và kỹ nghệ hệ thống

  • SWE-Bench Pro / SWE-Verified / SWE-Bench Multilingual: Đây là các bài kiểm tra tiêu chuẩn vàng đo lường khả năng của tác nhân AI trong việc tự động phát hiện và sửa lỗi (bug) trên các kho lưu trữ mã nguồn Github thực tế ở cấp độ sản xuất.6 Khác với các bài kiểm tra lập trình lý thuyết, SWE-Bench yêu cầu mô hình phải đọc hiểu hàng ngàn dòng mã, cài đặt môi trường, chạy thử nghiệm và viết các bản vá lỗi hoàn chỉnh.6 Điểm số cao trên SWE-Bench Pro (như mức 80.3% của Claude Fable 5) chứng minh mô hình có khả năng hoạt động như một kỹ sư phần mềm thực thụ thay vì chỉ viết các đoạn mã ngắn rời rạc.6

  • Terminal-Bench 2.1 / Terminal-Bench Hard: Bộ công cụ đánh giá năng lực tương tác trực tiếp của mô hình bên trong môi trường dòng lệnh Linux thực tế.6 Mô hình phải tự thực hiện các lệnh cài đặt hệ thống, cấu hình máy chủ, gỡ lỗi mạng và điều hướng thư mục.6 Đây là chỉ số load-bearing chứng minh độ tin cậy của mô hình khi được giao quyền quản trị hệ thống tự động.12

  • NL2Repo (Natural Language to Repository): Đo lường khả năng chuyển đổi các yêu cầu bằng ngôn ngữ tự nhiên thành một cấu trúc thư mục và kho lưu trữ mã nguồn hoàn chỉnh, yêu cầu tư duy thiết kế kiến trúc phần mềm hệ thống phức tạp thay vì chỉ viết mã cho một hàm đơn lẻ.4

Hệ thống các Benchmark đo lường tư duy khoa học và suy luận cực hạn

  • GPQA Diamond (Graduate-Level Google-Proof Q&A): Bộ câu hỏi trắc nghiệm chuyên sâu trong các ngành Vật lý, Hóa học và Sinh học được thiết kế bởi các chuyên gia trình độ sau đại học.1 Các câu hỏi này được tối ưu để đảm bảo không thể tìm kiếm trực tiếp đáp án trên Google.1 Điểm số GPQA Diamond (như mức 92.4% của Qwen 3.7 Max) là thước đo chính xác nhất cho năng lực suy luận logic sâu và hiểu biết chuyên ngành hẹp của mô hình.4

  • Humanity's Last Exam (HLE): Bộ câu hỏi cực hạn được thiết kế để thách thức ranh giới cao nhất của trí tuệ nhân tạo, kiểm tra xem mô hình đã tiệm cận hoặc vượt qua năng lực của các chuyên gia con người hàng đầu trong các ngành khoa học cốt lõi hay chưa.1 Chỉ số này giúp xác định khoảng cách của mô hình đối với ngưỡng Trí tuệ nhân tạo siêu nhân loại (ASI).6

  • AIME 2026 (American Invitational Mathematics Examination): Kỳ thi toán học uy tín quốc gia được sử dụng để kiểm tra tư duy toán học thuần túy của mô hình, đòi hỏi khả năng lập luận logic đa bước không thể giải quyết bằng các công thức thuộc lòng.3

Hệ thống các Benchmark đo lường khả năng hành động của tác nhân (Agentic)

  • Online-Mind2Web / OSWorld-Verified: Đánh giá năng lực của tác nhân AI trong việc điều khiển trình duyệt web hoặc hệ điều hành để hoàn thành các nhiệm vụ thực tế của con người (như đặt vé máy bay, tìm kiếm thông tin tài chính, tương tác với phần mềm văn phòng).6 Điểm số cao (như mức 84% trên Online-Mind2Web của Claude Opus 4.8) cho thấy tính khả thi cực cao khi triển khai các tác nhân tự động hóa quy trình nghiệp vụ (RPA) thế hệ mới.11

  • AutomationBench / Tool-Decathlon: Đo lường khả năng của mô hình trong việc tự chọn, gọi và kết hợp nhiều công cụ bên ngoài (APIs) khác nhau để giải quyết một chuỗi yêu cầu phức tạp của người dùng.6

  • MCP-Atlas: Hệ thống đánh giá năng lực của tác nhân AI trong việc tích hợp và giao tiếp thông qua giao thức Model Context Protocol (MCP) – tiêu chuẩn công nghiệp thế hệ mới giúp kết nối an toàn các mô hình ngôn ngữ lớn với kho dữ liệu doanh nghiệp và các công cụ phát triển phần mềm.4

Hệ thống các Benchmark đo lường thị giác máy tính và đa phương thức

  • GDP.pdf vision: Bài kiểm tra năng lực thị giác máy tính chuyên sâu, yêu cầu mô hình phải tự nhìn và suy luận trực tiếp trên các trang tài liệu PDF phi cấu trúc (chứa biểu đồ, sơ đồ mạch điện, bảng biểu) mà không được phép sử dụng bất kỳ công cụ trích xuất văn bản (OCR) nào hỗ trợ.6 Đây là chỉ số cốt lõi đánh giá khả năng xử lý tài liệu kỹ thuật thực tế của doanh nghiệp.6

Bảng tổng hợp ý nghĩa các chỉ số Benchmark chính


Tên Benchmark

Lĩnh Vực Đo Lường

Phương Pháp Đánh Giá

Ý Nghĩa Thực Tế Đối Với Doanh Nghiệp

SWE-Bench Pro 6

Kỹ nghệ phần mềm tự động 6

Giải quyết lỗi trực tiếp trên kho mã nguồn GitHub thực tế 6

Đánh giá khả năng thay thế hoặc hỗ trợ kỹ sư phần mềm vận hành hệ thống.6

GPQA Diamond 1

Tư duy khoa học chuyên sâu 1

Câu hỏi cấp độ sau đại học không thể tra cứu Google 1

Đảm bảo mô hình có năng lực suy luận sâu, không bị phụ thuộc vào dữ liệu học thuộc lòng.1

Online-Mind2Web 11

Tác nhân điều khiển web 11

Tương tác trực tiếp trên giao diện trang web thực tế 11

Đo lường mức độ khả thi khi triển khai các tác nhân tự động hóa quy trình văn phòng.11

Terminal-Bench 2.1 6

Điều khiển hệ thống Linux 6

Thực thi các tác vụ dòng lệnh CLI phức tạp 6

Đánh giá độ tin cậy khi giao phó quyền quản trị mạng và máy chủ cho AI.12

Humanity's Last Exam 6

Trí tuệ cực hạn đa ngành 6

Bộ câu hỏi thách thức giới hạn tư duy cao nhất của con người 3

Đo lường ranh giới của mô hình đối với ngưỡng trí tuệ siêu nhân loại (ASI).6

GDP.pdf vision 7

Thị giác tài liệu kỹ thuật 7

Đọc hiểu sơ đồ, biểu đồ trực tiếp trên PDF không dùng OCR 7

Đánh giá năng lực tự động xử lý hóa đơn, báo cáo tài chính và tài liệu kỹ thuật phức tạp.17

MCP-Atlas 4

Khả năng gọi công cụ 4

Tích hợp và gọi API qua giao thức Model Context Protocol 12

Đo lường khả năng kết nối an toàn của AI với cơ sở dữ liệu nội bộ của doanh nghiệp.18

Phân tích xu hướng phát triển và hệ quả chiến lược đối với ngành công nghệ

Sự dịch chuyển từ Transformer truyền thống sang các kiến trúc phi tuyến tính hiệu năng cao

Sự xuất hiện đồng thời của SubQ 1M-Preview (kiến trúc bậc dưới hai) và Gemma 4 12B (kiến trúc đa phương thức hợp nhất không bộ mã hóa) trong giai đoạn này gửi đi một tín hiệu rõ ràng: kỷ nguyên độc tôn của kiến trúc Transformer tiêu chuẩn đang đi đến hồi kết.1 Cơ chế tự chú ý của Transformer với độ phức tạp tính toán tăng theo hàm bậc hai đang tạo ra một rào cản vật lý và kinh tế quá lớn khi xử lý ngữ cảnh siêu dài.1 Việc tối ưu hóa thuật toán chú ý xuống bậc dưới hai (subquadratic) hoặc loại bỏ hoàn toàn các bộ mã hóa (encoder) trung gian giúp giảm đáng kể chi phí điện toán, mở rộng cửa sổ ngữ cảnh lên hàng chục triệu token trong khi vẫn duy trì tốc độ xử lý tức thì.1 Điều này cho phép các doanh nghiệp vận hành các hệ thống AI phân tích toàn bộ mã nguồn hoặc hàng ngàn trang tài liệu nội bộ với chi phí phần cứng chỉ bằng một phần năm so với trước đây.1

Mô hình phân tách Người tạo - Người duyệt và Vòng lặp tác nhân tự chủ dài hạn

Xu hướng phát triển công nghệ lập trình tác nhân (Loop Engineering) trong giai đoạn cuối tháng 5 và đầu tháng 6 năm 2026 đã định hình lại cách thức con người tương tác với AI.6 Thay vì ngồi viết từng câu lệnh (prompt engineering) để nhận về một câu trả lời tĩnh, các nhà phát triển hiện nay đang thiết kế các hệ thống tự động khởi chạy các vòng lặp tác nhân tự chủ.6 Điểm mấu chốt trong thiết kế này là mô hình phân tách "Người tạo - Người duyệt" (Maker-Checker Split).6 Một tác nhân phụ (maker) sẽ chịu trách nhiệm viết mã nguồn hoặc thực hiện tác vụ, trong khi một tác nhân phản biện (checker) chạy trên một luồng cô lập sẽ liên tục chạy thử nghiệm, kiểm tra bảo mật và phủ quyết các kết quả lỗi cho đến khi đạt chất lượng hoàn hảo trước khi trình lên người dùng.6 Sự xuất hiện của các tính năng như "Dynamic Workflows" trên Claude Opus 4.8 hay khả năng hoạt động liên tục 35 giờ của Qwen 3.7 Max chứng minh rằng AI đã đủ độ tin cậy để vận hành các dự án kỹ thuật quy mô lớn một cách độc lập.4

Chiến lược định tuyến thông minh để tối ưu hóa tỷ suất đầu tư

Với sự phân cấp rõ rệt về mặt giá cả và năng lực của các mô hình mới ra mắt, việc áp dụng một mô hình duy nhất cho mọi tác vụ trong doanh nghiệp là một sai lầm nghiêm trọng về mặt tài chính.6 Các chuyên gia phân tích khuyến nghị doanh nghiệp cần xây dựng một cổng định tuyến thông minh (LLM Gateway) để phân bổ khối lượng công việc một cách khoa học 4:

  1. Định tuyến đến Claude Fable 5 (Mức giá siêu cao cấp $10/$50): Chỉ áp dụng cho các tác vụ mang tính sống còn, yêu cầu khả năng tự trị và kiểm định tuyệt đối như di chuyển cấu trúc hệ thống lớn, viết mã nguồn ứng dụng phức tạp từ đầu hoặc phân tích chuyên sâu các tài liệu pháp lý chuyên ngành.6

  2. Định tuyến đến Claude Opus 4.8 hoặc Qwen 3.7 Max (Mức giá trung bình $5/$25 hoặc $1.25/$3.75): Sử dụng làm mặc định cho các luồng công việc tự động hóa văn phòng phức tạp, phân tích dữ liệu tài chính dài hạn và chạy các tác nhân kiểm tra bảo mật hệ thống.4

  3. Định tuyến đến Gemini 3.5 Flash hoặc Gemma 4 12B cục bộ (Mức giá rẻ hoặc miễn phí tự lưu trữ): Áp dụng cho các tác vụ lặp đi lặp lại có tần suất cuộc gọi API cực cao như tóm tắt văn bản nhanh, phân loại email, trò chuyện tương tác thời gian thực hoặc xử lý cục bộ trên thiết bị của nhân viên để bảo mật tuyệt đối dữ liệu nội bộ.6

Sự kết hợp hài hòa giữa các tiến bộ vượt bậc về mặt thuật toán phi tuyến tính cùng với tư duy thiết kế tác nhân tự trị dài hạn đang mở ra một chương mới cho cuộc cách mạng trí tuệ nhân tạo, nơi hiệu quả kinh tế và năng lực thực thi thực tế của hệ thống được đặt lên vị trí tối cao.1

Nguồn trích dẫn

  1. New AI Models May 2026: The Frontier Took a Breath, Architecture ..., truy cập vào tháng 6 10, 2026, https://whatllm.org/blog/new-ai-models-may-2026

  2. New AI Model Releases News | May, 2026 (STARTUP EDITION) - Mean CEO's BLOG, truy cập vào tháng 6 10, 2026, https://blog.mean.ceo/new-ai-model-releases-news-may-2026/

  3. Top LLM Models in 2026: The Best AI Models for Reasoning, Coding & Multimodal Tasks, truy cập vào tháng 6 10, 2026, https://aimlapi.com/blog/top-llm-models-in-2026-the-best-ai-models-for-reasoning-coding-multimodal-tasks

  4. Qwen 3.7-Max: Pricing, Features, and How to Access (2026) | Yotta ..., truy cập vào tháng 6 10, 2026, https://www.yottalabs.ai/post/qwen-3-7-max-release-date-features-open-source-status-and-how-to-access-2026

  5. Anthropic releases a version of AI model that has scared governments and banks across the world; says ‘To release the model …’, truy cập vào tháng 6 10, 2026, https://timesofindia.indiatimes.com/technology/tech-news/anthropic-releases-a-version-of-ai-model-that-has-scared-governments-and-banks-across-the-world-says-to-release-the-model-/articleshow/131625325.cms

  6. Claude Fable 5 vs GPT-5.5 vs Gemini 3.1 Pro | Lushbinary, truy cập vào tháng 6 10, 2026, https://lushbinary.com/blog/claude-fable-5-vs-gpt-5-5-vs-gemini-3-1-pro-comparison/

  7. Claude Fable 5 & Claude Mythos 5 Full Benchmark Breakdown, truy cập vào tháng 6 10, 2026, https://www.vellum.ai/blog/claude-fable-5-and-mythos-5-benchmarks-explained

  8. Anthropic's Claude Fable 5 is here: The Mythos-class AI model anyone can now use and what makes it different, truy cập vào tháng 6 10, 2026, https://timesofindia.indiatimes.com/technology/tech-news/anthropics-claude-fable-5-is-here-the-mythos-class-ai-model-anyone-can-now-use-and-what-makes-it-different/articleshow/131619982.cms

  9. Qwen3.7-Plus: Multimodal Agent Intelligence, truy cập vào tháng 6 10, 2026, https://qwen.ai/research

  10. Qwen 3.7 vs Qwen 3.6: What Actually Exists and What to Use in Production | Yotta Labs, truy cập vào tháng 6 10, 2026, https://www.yottalabs.ai/post/qwen-3-7-vs-qwen-3-6-what-actually-exists-and-what-to-use-in-production

  11. Introducing Claude Opus 4.8 \ Anthropic, truy cập vào tháng 6 10, 2026, https://www.anthropic.com/news/claude-opus-4-8

  12. AI Model Releases May 2026: Complete Launch Tracker, truy cập vào tháng 6 10, 2026, https://www.digitalapplied.com/blog/ai-model-releases-may-2026-complete-tracker

  13. Introducing Gemma 4 12B - Google Blog, truy cập vào tháng 6 10, 2026, https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/

  14. Gemini 3.5: frontier intelligence with action - Google Blog, truy cập vào tháng 6 10, 2026, https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/

  15. GLM-5.1 Model Overview: Features, Capabilities & Use Cases - DeepInfra, truy cập vào tháng 6 10, 2026, https://deepinfra.com/blog/glm-5-1-model-overview

  16. glm-5.1 Model by Z-ai - Nvidia NIM, truy cập vào tháng 6 10, 2026, https://build.nvidia.com/z-ai/glm-5.1/modelcard

  17. LLM Comparison 2026: Top Models for Enterprise Use - Ideas2IT Technologies, truy cập vào tháng 6 10, 2026, https://www.ideas2it.com/blogs/llm-comparison

  18. What Is the Next Big Thing in AI as of March 2026?, truy cập vào tháng 6 10, 2026, https://medium.com/@Micheal-Lanham/what-is-the-next-big-thing-in-ai-as-of-march-2026-07acda2458dc

Nhận xét

Bài đăng phổ biến từ blog này

Kết Nối MongoDB Với VSCode: Hướng Dẫn Tận Tình Cho Người Mới Bắt Đầu - 1

Tinh chỉnh Batch Size trong Deep Learning

Statistics 02: Correlation, Covariance & Correlation Coefficient