SHARP - Mô hình AI mã nguồn mở của Apple có khả năng biến một bức ảnh 2D duy nhất thành một cảnh 3D ngay lập tức

Hunter AI

Private
Apple vừa âm thầm giới thiệu SHARP, một mô hình AI mã nguồn mở có khả năng biến một bức ảnh 2D duy nhất thành một cảnh 3D chân thực trong thời gian chưa đến một giây. Được phát triển bởi Apple Research, hệ thống này mở ra viễn cảnh nơi độ sâu, tỷ lệ và tính không gian có thể được suy ra chỉ từ một hình ảnh - một bước tiến có thể định hình lại cách các công cụ thực tế tăng cường (AR), thiết kế và sáng tạo vận hành trong tương lai.

SHARP.png

Tên đầy đủ của SHARP là Sharp Monocular View Synthesis. Không giống các phương pháp tái tạo 3D truyền thống vốn cần hàng chục bức ảnh chụp từ nhiều góc độ khác nhau, SHARP chỉ làm việc với một ảnh duy nhất, thông qua một lần xử lý của mạng nơ-ron feedforward. Mô hình dự đoán độ sâu và cấu trúc hình học dựa trên những mẫu đã học từ các tập dữ liệu khổng lồ, sau đó tạo ra hàng triệu điểm Gaussian 3D để ghép thành một cảnh hoàn chỉnh và chân thực.

Tốc độ là một trong những điểm ấn tượng nhất của SHARP. Theo Apple, mô hình có thể tạo ra kết quả trong chưa đầy một giây trên GPU tiêu chuẩn - nhanh vượt trội so với các kỹ thuật hiện có như Gaussian splatting, vốn đòi hỏi nhiều thời gian và dữ liệu đầu vào hơn. Dù vậy, SHARP vẫn giữ được tỷ lệ và độ sâu đúng với thế giới thực, cho phép di chuyển camera chính xác trong không gian 3D được tạo ra, thay vì chỉ là những chuyển động ước lệ hay méo mó. Các thử nghiệm cũng cho thấy chất lượng hình ảnh được cải thiện rõ rệt, với các chỉ số sai lệch cảm nhận như LPIPS tăng khoảng 25–34% và DISTS tăng 21–43%.

SHARP (1).png

SHARP đạt được tốc độ vượt trội này bằng cách đánh đổi khả năng “khám phá rộng” của cảnh để lấy sự ổn định và nhanh chóng. Đây là một lựa chọn có chủ đích. Mô hình hoạt động tốt nhất khi hiển thị các góc nhìn gần với bức ảnh gốc và không cố gắng “bịa ra” những phần của cảnh vốn không xuất hiện trong ảnh ban đầu. Dù điều này hạn chế mức độ di chuyển trong môi trường 3D, nó giúp kết quả luôn nhất quán và tránh các lỗi hình ảnh thường gặp khi AI phải tưởng tượng hình học chưa từng thấy.

Sự cân bằng này gắn liền với cách SHARP được huấn luyện. Apple sử dụng khoảng 8 triệu hình ảnh tổng hợp nội bộ kết hợp với 2,65 triệu ảnh có bản quyền, giúp mô hình học được độ sâu và tỷ lệ trên nhiều bối cảnh khác nhau, rồi áp dụng kiến thức đó vào các ảnh đơn lẻ mới.

Nền tảng kỹ thuật này mở ra hàng loạt ứng dụng thực tế. Trong AR, SHARP có thể cho phép tái tạo cảnh gần như tức thì; trong kiến trúc và thiết kế, các nhóm có thể nhanh chóng hình dung không gian chỉ từ một ảnh tham chiếu. Tuy nhiên, vẫn tồn tại những yếu tố cần cân nhắc: hiệu năng phụ thuộc nhiều vào GPU, khiến kết quả có thể khác nhau giữa các thiết bị người dùng, và các nhà phát triển sẽ cần điều chỉnh quy trình làm việc để tận dụng tối đa công nghệ này. Do không tái tạo được những phần không nhìn thấy, SHARP phù hợp hơn với các trường hợp ưu tiên tính chân thực và hiệu quả, thay vì khám phá không gian không giới hạn.


Apple đã công bố SHARP trên GitHub, mời gọi cộng đồng nhà phát triển và giới nghiên cứu thử nghiệm và mở rộng mô hình. Những bản demo đầu tiên đã xuất hiện trực tuyến, từ prototype AR/VR cho đến các công cụ render sáng tạo. Việc SHARP có được tích hợp vào các thiết bị Apple trong tương lai hay không vẫn còn là câu hỏi bỏ ngỏ. Nhưng ở thời điểm hiện tại, nó đã cho thấy rõ tốc độ mà những hình ảnh phẳng có thể “có chiều sâu”, và việc biến một bức ảnh đơn thành một thế giới 3D khả dụng có thể trở nên dễ dàng đến mức nào.
 
Back
Top