o3 đứng đầu các AI mới về khả năng trả lời câu hỏi khoa học
Ngày đăng: 28/07/2025 10:38
Hôm nay: 0
Hôm qua: 0
Trong tuần: 0
Tất cả: 0
Ngày đăng: 28/07/2025 10:38
Mô hình trí tuệ nhân tạo o3 do OpenAI phát triển vừa được xếp hạng là công cụ AI tốt nhất trong việc trả lời các câu hỏi thuộc nhiều lĩnh vực khoa học.
![]() |
Hình minh họa. Nguồn: Bloomberg via Getty |
Nền tảng đánh giá mở SciArena - do Viện Trí tuệ Nhân tạo Allen (Ai2) ở Seattle, Mỹ, phát triển - vừa xếp hạng 23 mô hình ngôn ngữ lớn (LLM) dựa trên câu trả lời của chúng đối với các câu hỏi khoa học.
Chất lượng của các câu trả lời được 102 nhà nghiên cứu bình chọn.
Kết quả, o3 của OpenAI - công ty đã tạo ra ChatGPT - được đánh giá là tốt nhất về khả năng trả lời các câu hỏi trong lĩnh vực khoa học tự nhiên, chăm sóc sức khỏe, kỹ thuật, khoa học xã hội và nhân văn, sau hơn 13.000 lượt bình chọn.
DeepSeek-R1 do công ty DeepSeek ở Hàng Châu, Trung Quốc, phát triển, xếp thứ hai về khoa học tự nhiên và thứ tư về kỹ thuật.Gemini-2.5-Pro của Google đứng thứ ba về khoa học tự nhiên, thứ năm về kỹ thuật và chăm sóc sức khỏe.
Theo Arman Cohan - nhà khoa học tại Ai2, người dùng ưa thích o3 có thể do mô hình này cung cấp nhiều chi tiết về tài liệu tham khảo mà nó trích dẫn và đưa ra những câu trả lời có chiều sâu kỹ thuật cũng như chính xác trong cách trình bày. Tuy nhiên, ông lưu ý rằng rất khó lý giải chính xác vì sao các mô hình khác nhau về hiệu suất, bởi hầu hết chúng là sản phẩm độc quyền. Sự khác biệt về dữ liệu huấn luyện và mục tiêu tối ưu hóa của mô hình cũng có thể là một phần nguyên nhân, ông nói.
Để xếp hạng 23 mô hình LLM, SciArena yêu cầu các nhà nghiên cứu gửi các câu hỏi khoa học. Họ nhận về câu trả lời từ hai mô hình ngẫu nhiên. Các mô hình này đưa ra căn cứ cho câu trả lời dựa trên các tài liệu tham khảo được trích xuất từ Semantic Scholar, một công cụ tra cứu tài liệu khoa học cũng do Ai2 tạo ra. Sau đó người dùng bình chọn mô hình nào đưa ra câu trả lời tốt hơn, ngang nhau, hay cả hai đều chưa đạt yêu cầu.
Hiện nay, nền tảng SciArena cho phép mọi người dùng đặt câu hỏi nghiên cứu miễn phí. Mỗi câu hỏi đều nhận được câu trả lời từ hai mô hình AI và người dùng có thể bình chọn chất lượng của các câu trả lời. Tuy nhiên, chỉ có bình chọn của những người dùng đã đồng ý với các điều khoản của nền tảng mới được bảng xếp hạng tính đến.
Khoahocphattrien