Несмотря на значительный прогресс, достигнутый в последнее время, системы машинного зрения значительно отстают от своих биологических аналогов. Это касается не только скорости обработки информации, но и надежности. Дело в том, что головной мозг способен распознавать объекты вне зависимости от того, какую его часть видно в данный момент. А иногда и вовсе основываться на контексте общего плана. Именно такому способу зрения и научили ИИ эксперты из США.
За разработку отвечают ученые из Калифорнийского университета в Лос-Анджелесе и Стэнфордского университета и их система может видеть окружающий мир благодаря тому же методу, который используем мы с вами. Как сообщает редакция издания Proceedings of the National Academy of Sciences, система может идентифицировать объекты, основываясь только на некоторых их частях, что раньше было не доступно ни одному ИИ.
Сам процесс обучения новому способу состоит из трех последовательных этапов. После того, как систему просят найти какой-то объект, она разбивает изображение на более мелкие части. На рисунке выше показано, как система идентифицирует объект на основе как раз таких вот мелких частей. Затем каждая часть в отдельности анализируется и идентифицируются ее связи с другими объектами общей картины. После этого ИИ вновь «смотрит» на картину целиком и выявляет, какие части картины имеют отношение к исходному объекту, а какие нет. Ну а дальше ИИ начал тренироваться на многочисленных фото и видео, взятых из сети.
«Интернет предоставил нам две вещи, которые помогают нашей системе компьютерного зрения обучаться также, как и люди. Это, во-первых, наличие большого количества изображений и видеороликов, где присутствуют объекты одного типа. А во-вторых, в сети много фото и видео, где одни и те же объекты показаны с разных ракурсов, на разном расстоянии от точки обзора и в разных условиях.» — заявил ведущий автор исследования Ввани Ройховдхури.
На финальном этапе ученые протестировали систему на более, чем 9000 изображениях людей и различных объектов и во всех случаях она распознавала требуемое как минимум не хуже, чем ИИ с огромным опытом работы, но обученный «старым» методом.