Сири не распознает ваш акцент? Появился новый проект-краудсорсинг, в который люди присылают образцы своего голоса, чтобы решить эту и другие проблемы, связанные с распознаванием речи.
Голосовые ассистенты по типу Сири или Алексы “тренируются” на огромных базах данных с записями речи. Но если в этих базах нет достаточно количества записей с каким-то акцентом или диалектом, голосовой ассистент не будет распознавать язык людей, которые так говорят.
Так что Mozilla — компания, создавшая браузер Firefox — начала краудсорсинговую инициативу, которая поможет создавать системы распознавания голоса, избежав подобных проблем. С помощью проекта Project Common Voice, запущенного в прошлом месяце, Mozilla планирует собрать 10,000 часов разговорного английского людей с разнообразными акцентами.
“Исторически сложилось так, что большую часть подобных систем строили на записях речи белых мужчин среднего класса; получается, языковые паттерны в этих системах тоже свойственны в большей мере им”, — говорит Рейчел Тэтман из Университета Вашингтона. Пока компании Google and Amazon улучшают баланс в собственных базах данных — особенно когда дело доходит до пола, системам распознавания речи еще есть куда стремится — им сложно понимать американцев, говорящих с определенным акцентом”.
Эти программы работает лучше с акцентами, которые традиционно считались более престижными, говорит Тэтман. А недостаточно представленные в этих наборах данных акценты зачастую ассоциируются с маргинализованными социальными группами. Поэтому речь афроамериканцев, например, системы распознают реже.
Та же тенденция работает и при распознании женских голосов . Наоми Сарфа из Университета Эдинбурга, СК, использует систему распознавания речи, чтобы писать код, — так как самостоятельно это делать не может. Ей нужно специально изменять тон своей речи, чтобы система понимала ее правильно, — так как голоса, звучащие “по-женски” программа воспринимает плохо. “Мне бы хотелось, чтобы область распознавания речи демократизировали”, — говорит она.
Так как ошибка лежит в самом алгоритме, просто её исправить не удастся.
На данный момент наборы данных для систем распознавания речи — собственность пары компаний, говорит Кэлли Дэвис, глава проекта Mozilla. Когда люди говорят с Алексой или с Google Voice всё записывается и вносится в стремительно расширяющиеся базы голосовых данных, принадлежащих Amazon или Google. Это укрепляет монополию больших компаний на высококачественное распознавание речи; в такой ситуации их конкурентам попросту сложно разработать и запустить что-то свое.
Алан Блэк из Университета Карнеги Мэллон в Пенсильвании говорит, что большие компании на самом деле хотят увериться в том, что их программы подходят большому количеству людей, говорящих с акцентами или на каком-то диалекте. Однако если люди с акцентом понимают, что программы не улавливают их речь, они часто прекращают ими пользоваться — а, в таком случае, компании не получают нужных данных и не понимают, как настроить Сири и Алексу так, чтобы понимать эти языковые особенности.
Как только Mozzila соберет достаточно сэмплов, проект выпустит их и позволить всем — даже Google и Amazon — ими пользоваться, чтобы тренировать системы распознавания речи с помощью машинного обучения. “На самом деле, главные люди — в университетах”, — говорит Блэк; но у них обычно нет доступа к большим наборам данных для тренировки ИИ.
Чтобы “отдать” проекту свой голос люди посещают сайт Common Voice, прочитывают на микрофон подобранное системой предложение и оформляют свой демографический профиль. Посетители также могут послушать голоса других людей. Все это в конечном итоге должно помочь создать программу, распознающую речь с акцентом и диалектами. Сейчас Mozzila принимает только английские записи — но инициативы на других языках тоже готовятся.