Система машинного обучения решает проблемы распознавания речи и объектов

Ученые из Массачусетского технологического института разработали систему, которая учится идентифицировать объекты внутри изображения на основе устного описания изображения. Учитывая изображение и звуковое сопровождение, модель будет выделять в реальном времени соответствующие области описываемого объекта.

Система машинного обучения
В отличие от современных технологий распознавания речи , модель не требует ручных транскрипций и аннотаций примеров, которым она обучается. Вместо этого она изучает слова непосредственно из записанных речевых звуков и объектов в необработанных изображениях и связывает их друг с другом.

В настоящее время модель может распознать только несколько сотен разных слов и типов объектов. Но исследователи надеются, что в один прекрасный день их комбинированная технология распознавания речевых объектов может сэкономить бесчисленное количество часов ручного труда и открыть новые двери для распознавания речи и изображения.

Например, системы распознавания речи, такие как Siri и Google Voice, требуют транскрипции многих тысяч часов речевых записей. Используя эти данные, системы учатся сопоставлять речевые сигналы с определенными словами. Такой подход становится особенно проблематичным, когда, например, новые термины входят в наш лексикон, и системы необходимо переучивать.

«Мы хотели сделать распознавание речи более естественным способом, используя дополнительные сигналы и информацию, которые люди могут использовать, на что алгоритмы машинного обучения обычно не имеют доступа. Мы получили идею обучения модели подобно тому, как ходит ребенок по всему миру и рассказывает о том, что видит », — говорит Дэвид Харват, научный сотрудник лаборатории компьютерных наук и искусственного интеллекта (CSAIL) и группы языков Spoken Language Systems. Харват был соавтором документа, описывающего модель, которая была представлена ​​на недавней Европейской конференции по компьютерному видению.



В статье исследователи демонстрируют свою модель программы на изображении молодой девушки с светлыми волосами и голубыми глазами в синем платье и белым маяком с красной крышей на заднем плане. Программа распознавания научилась ассоциировать, какие пиксели в изображении соответствуют словам «девушка», «светлые волосы», «голубые глаза», «синее платье», «белый светлый дом» и «красная крыша». Когда было передано звуковое описание, программа затем выделила каждый из этих объектов на изображении, как они были описаны.

Одним из перспективных приложений является изучение переводов между разными языками , без необходимости использования двуязычного аннотатора. Из приблизительно 7 000 языков, говорящих по всему миру, только 100 или около того имеют достаточно данных транскрипции для распознавания речи. Однако рассмотрим ситуацию, когда два говорящих на разных языках описывают один и тот же образ. Если модель изучает речевые сигналы с языка А, соответствующие объектам изображения, и изучает сигналы на языке В, которые соответствуют тем же самым объектам, он может предположить, что эти два сигнала — и соответствующие слова — являются переводами друг друга.

Источник

 

.



Читайте также:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *