تیم Machine Learning اپل با همکاری پژوهشگرانی از دانشگاه نانجینگ و دانشگاه علوم و فناوری هونگکنگ از مدل هوش مصنوعی سهبعدی جدیدی به نام Matrix3D رونمایی کردند.
Matrix3D که از آن با عنوان «مدل فوتوگرامتری بزرگ» یاد میشود، میتواند تنها با استفاده از چند تصویر دوبعدی، اجسام و صحنههای سهبعدی را بازسازی کند؛ اما تفاوت مهمی با روشهای مرسوم دارد که آن را به پیشرفتی قابل توجه تبدیل کرده است.
فوتوگرامتری فناوریای است که با استفاده از عکس، اندازهگیریهایی برای ساخت مدلهای سهبعدی یا نقشهها انجام میدهد. در فرایندهای فعلی، معمولاً از مدلهای مختلفی برای مراحل جداگانه مانند برآورد موقعیت دوربین و پیشبینی عمق استفاده میشود که میتواند باعث پیچیدگی و خطا شود.
Matrix3D فرایند مذکور را یکپارچه کرده است. این مدل تصاویر، پارامترهای دوربین (مثل زاویه و فاصلهی کانونی) و دادههای عمق را دریافت و در قالب معماری واحد پردازش میکند؛ رویکردی که نهتنها روند ساخت مدل را سادهتر میکند، بلکه دقت خروجی را بهبود میبخشد.
پژوهشگران از «استراتژی یادگیری نقابدار» استفاده کردهاند؛ روشی مشابه آنچه در نخستین مدلهای مبتنیبر Transformer —که بعدها پایهگذار مدلهایی مانند ChatGPT شدند— بهکار گرفته شده بود.
در استراتژی یادشده، بخشی از دادههای ورودی بهصورت تصادفی در طول آموزش پنهان میشود و مدل باید نحوهی پرکردن فضاهای خالی را یاد بگیرد. این تکنیک باعث میشود Matrix3D حتی با دادههای کوچکتر یا ناقص هم بتواند به شکل مؤثری آموزش ببیند.
مقالهی مرتبط
نتایج بهدستآمده چشمگیر هستند. Matrix3D میتواند تنها با سه تصویر ورودی، بازسازیهایی دقیق از اجسام یا حتی محیطهای کامل ارائه دهد؛ قابلیتی که میتواند کاربردهای جالبی در حوزهی هدستهای واقعیت ترکیبی مانند ویژن پرو داشته باشد.
پژوهشگران کد منبع Matrix3D را در GitHub منتشر کردهاند، مقالهی مربوط به آن را در arXiv قرار دادهاند و وبسایتی برای مشاهدهی نمونه و تعامل با برخی بازسازیهای سهبعدی راهاندازی کردهاند.
source