Cuộc đua AI "đa giác quan": Khi trí tuệ nhân tạo đã có thể "nghe" và "nhìn" con người

Ánh Viên, Theo Đời sống Pháp luật 19:54 16/05/2024

Chia sẻ

GPT-4 Omni đã chứng minh khả năng giải toán thông qua camera điện thoại, đồng thời trả lời các câu hỏi bằng giọng nói.

Trong vài năm trở lại đây, chatbot AI đã trở thành tâm điểm chú ý của giới công nghệ, đặc biệt sau sự xuất hiện của ChatGPT vào năm 2022. Tuy nhiên, một làn sóng công nghệ mới đang dần hình thành, tập trung vào việc phát triển các mô hình AI "đa giác quan", có khả năng xử lý thông tin từ nhiều nguồn khác nhau như văn bản, hình ảnh và âm thanh. Xu hướng này hứa hẹn mang đến những trải nghiệm tự nhiên và chân thực hơn cho người dùng khi tương tác với AI.

Dẫn đầu trong lĩnh vực AI "đa giác quan" là OpenAI với GPT-4 Omni, viết tắt của "omnichannel" - đa kênh. GPT-4 Omni có khả năng xử lý đồng thời video và âm thanh, mở ra những ứng dụng đầy tiềm năng. Trong một video giới thiệu, GPT-4 Omni đã chứng minh khả năng giải toán thông qua camera điện thoại, đồng thời trả lời các câu hỏi bằng giọng nói. OpenAI cho biết tính năng này đang được triển khai cho người dùng Premium.

Cuộc đua AI đa giác quan: Khi trí tuệ nhân tạo đã có thể nghe và nhìn con người - Ảnh 1.

Không chịu kém cạnh, Google cũng đã giới thiệu Project Astra, một dự án AI "đa giác quan" đầy tham vọng. Project Astra cho phép người dùng tương tác với AI bằng hình ảnh và giọng nói. Mặc dù công nghệ này vẫn đang trong giai đoạn đầu phát triển, nhưng Google tự tin khẳng định đây là tương lai của AI. “Mặc dù chúng tôi đã đạt được những tiến bộ đáng kinh ngạc trong việc phát triển các hệ thống AI có thể hiểu thông tin đa phương thức, nhưng việc giảm thời gian phản hồi xuống mức độ có thể trò chuyện được là một thách thức kỹ thuật khó khăn”, Google chia sẻ trong một bài đăng trên blog.

Sự khác biệt chính giữa GPT-4 Omni và Project Astra nằm ở khả năng xử lý thông tin. GPT-4 Omni có thể xử lý trực tiếp âm thanh, video và văn bản trong khi Project Astra dường như vẫn sử dụng nhiều mô hình AI riêng biệt. Điều này lý giải cho tốc độ phản hồi chậm hơn của Project Astra so với GPT-4 Omni. Sự phát triển của AI "đa giác quan" cũng thúc đẩy sự xuất hiện của các thiết bị đeo hỗ trợ AI như Humane AI Pin, Rabbit R1 và Meta Ray-Bans. Những thiết bị này hứa hẹn sẽ giúp con người giảm bớt sự phụ thuộc vào điện thoại thông minh.

Tháng 12/2023, Google giới thiệu Gemini, một mô hình AI "đa giác quan" khác, tuy nhiên video demo của Gemini bị phát hiện là đã qua chỉnh sửa. 6 tháng sau, Google vẫn chưa sẵn sàng phát hành Gemini, trong khi OpenAI đang tiến nhanh với GPT-4 Omni. Cuộc đua AI "đa giác quan" đang diễn ra vô cùng sôi động và OpenAI dường như đang chiếm ưu thế.

AI "đa giác quan" chắc chắn sẽ trở thành một trong những công nghệ được nhắc đến nhiều nhất trong thời gian tới. Công nghệ này có tiềm năng thay đổi cách chúng ta tương tác với AI, mang lại những ứng dụng thiết thực và hiệu quả hơn. AI "đa giác quan" cho phép AI tự "nhìn" và "nghe" thế giới, thay vì phải dựa vào con người để phiên dịch thông tin.

Đọc thêm

Giám đốc điều hành, phụ trách Google châu Á - Thái Bình Dương: “AI sẽ tạo sự khác biệt cho người trẻ Việt trên thị trường lao động"

TIN CÙNG CHUYÊN MỤC

Xem theo ngày

Đời sống

Xem mua luôn

Sport

Musik

Ciné

Tek-Life

Star

Xã hội

Học đường

Thế giới đó đây

Sức khỏe

Tải app

Fanpage

Liên hệ

Cuộc đua AI "đa giác quan": Khi trí tuệ nhân tạo đã có thể "nghe" và "nhìn" con người

GPT-4 Omni đã chứng minh khả năng giải toán thông qua camera điện thoại, đồng thời trả lời các câu hỏi bằng giọng nói.

Tất tật mọi thứ về AI trong Google I/O 2024: Tìm kiếm bằng video, dựng video bằng văn bản, chống cuộc gọi lừa đảo, ....

Lý do iPhone tụt pin nhanh, có một sai lầm mà hầu như ai cũng mắc phải!

Giám đốc điều hành, phụ trách Google châu Á - Thái Bình Dương: “AI sẽ tạo sự khác biệt cho người trẻ Việt trên thị trường lao động"

Hướng dẫn chi tiết cách đăng ký mua vàng miếng online trên website Vietcombank Nổi bật

Một kênh TikTok 5 triệu follower bị "bốc hơi" chỉ vì một câu đùa mà dính vi phạm tiêu chuẩn nghiêm trọng! Nổi bật

Loa thanh LG 2024: Mảnh ghép nâng tầm trải nghiệm nghe nhìn -

Cách xem tin nhắn đã bị thu hồi ở Zalo và Messenger nhanh nhất -

Cụ bà cầm 2 tỷ đồng đến mở tài khoản nhưng hỏi một câu lạ lùng khiến nhân viên ngân hàng lập tức ngừng giao dịch, trả lại tiền -

Hàng trăm triệu người mua iPhone đã bị Apple "lừa một vố đau" như thế nào? -