Петък, 18 Юли 2025
           
Бизнес

INSAIT представи първият в света модел за разбиране на фотореалистични 3D сцени

   


INSAIT към Софийския университет „Св. Климент Охридски“ представи GaussianVLM – първия в света генеративен модел, който съчетава компютърно зрение и естествен език за разбиране на фотореалистично 3D съдържание.

Само седмица след публикуването си научната статия, описваща модела, се нарежда сред десетте най-четени в света според класацията Scholar Inbox, свидетелство за значимия интерес от страна на международната академична общност.

GaussianVLM дава възможност на роботизирани системи да анализират реални триизмерни сцени въз основа на обикновено видео, заснето с потребителска камера, без необходимост от специализиран хардуер. Моделът може да отговаря на въпроси като „Какво има на масата?“ или „Има ли достатъчно места за всички гости?“, демонстрирайки разбиране на цялостната пространствена и семантична структура на средата.

GaussianVLM е първият модел, който поддържа въпроси без предварително зададени езикови ограничения и който може ефективно да обработва мащабни 3D сцени. Значителна иновация е компресирането на визуалната информация – от над 40 000 елемента до едва 132 токена, което позволява бърза и ефективна обработка от големи езикови модели.

Уеб страница на проекта: https://insait-institute.github.io/gaussianvlm.github.io/

Научна публикация: https://arxiv.org/abs/2507.00886