Kiểm Tra Hiểu Biết Về Multimodal AI Đa Phương Thức
Kiểm tra kiến thức Multimodal AI đa phương thức 2025-2026: từ định nghĩa, mô hình GPT-4o/Gemini đến ứng dụng thực tế. 25 câu trắc nghiệm từ cơ bản đến nâng cao, dành cho ai muốn chinh phục AI nâng cao.
25 câu hỏi Nâng cao Đạt từ 70%
Câu 1. Multimodal AI là gì?
Câu 2. Mô hình nào dưới đây được coi là một trong những Multimodal AI nổi bật nhất được ra mắt vào năm 2024?
Câu 3. Trong Multimodal AI, khái niệm "cross-modal understanding" (hiểu liên phương thức) có nghĩa là gì?
Câu 4. Google Gemini Ultra khác với các mô hình ngôn ngữ lớn (LLM) thuần văn bản ở điểm nào chính yếu?
Câu 5. Trong ứng dụng thực tế, Multimodal AI có thể hỗ trợ người khiếm thị như thế nào?
Câu 6. "Vision-Language Model" (VLM) là gì và ví dụ nào sau đây là VLM?
Câu 7. Trong kiến trúc Multimodal AI, "encoder" đóng vai trò gì đối với dữ liệu hình ảnh?
Câu 8. GPT-4o có khả năng "real-time voice conversation" (hội thoại giọng nói thời gian thực). Điều gì làm cho tính năng này khác biệt so với các trợ lý giọng nói truyền thống như Siri hay Google Assistant thế hệ cũ?
Câu 9. Kỹ thuật "image captioning" trong Multimodal AI tạo ra kết quả gì?
Câu 10. Trong năm 2025, Anthropic Claude 3.5 hỗ trợ khả năng multimodal nào sau đây?
Câu 11. "Hallucination" (ảo giác) trong Multimodal AI xảy ra nghiêm trọng hơn như thế nào so với LLM thuần văn bản?
Câu 12. Công nghệ "text-to-image" như Stable Diffusion hay DALL-E 3 sử dụng kiến trúc nào để tạo hình ảnh?
Câu 13. Trong bối cảnh Multimodal AI, "grounding" có nghĩa là gì?
Câu 14. Một công ty y tế muốn dùng Multimodal AI để phân tích ảnh X-quang và đưa ra chẩn đoán sơ bộ. Rủi ro pháp lý và đạo đức nào cần được quan tâm NHẤT?
Câu 15. OpenAI Sora (2024) là mô hình AI tạo sinh thuộc loại nào?
Câu 16. Khi sử dụng Multimodal AI trong giáo dục, tình huống nào sau đây thể hiện ứng dụng hiệu quả nhất?
Câu 17. "Contrastive Learning" được dùng trong huấn luyện mô hình CLIP như thế nào?
Câu 18. Trong xu hướng 2025-2026, "Any-to-Any" multimodal AI có nghĩa là gì?
Câu 19. Deepfake video là một ứng dụng của Multimodal AI. Phương pháp nào hiệu quả nhất để phát hiện deepfake hiện nay?
Câu 20. Một nhà báo dùng Multimodal AI để tạo ảnh minh họa cho bài viết và đăng lên báo mà không ghi chú. Vấn đề đạo đức và pháp lý nào phát sinh?
Câu 21. Trong Multimodal AI, "Visual Question Answering" (VQA) là gì?
Câu 22. Mô hình Meta LLaMA 3.2 Vision (2024) cho phép người dùng tự triển khai (self-host). Ưu điểm chính so với dùng API của các mô hình đóng như GPT-4o là gì?
Câu 23. Kỹ thuật "Retrieval-Augmented Generation" (RAG) kết hợp với Multimodal AI tạo ra khả năng gì mới?
Câu 24. Trong năm 2025, xu hướng "on-device multimodal AI" (AI đa phương thức chạy trên thiết bị) phát triển mạnh. Thách thức kỹ thuật lớn nhất là gì?
Câu 25. Theo quy định của EU AI Act (có hiệu lực 2024-2025), hệ thống Multimodal AI tạo nội dung tổng hợp (synthetic content) như ảnh, video, âm thanh phải tuân thủ yêu cầu nào?