Разработчики «ВКонтакте» создали несколько алгоритмов, которые автоматические разбивают длинное сообщение на несколько коротких блоков, одновременно расшифровывают их, а потом собирают воедино в текстовом формате. На расшифровку таких сообщений длиной до двух минут у системы уходит не больше секунды.
«Наше решение состоит из нескольких нейросетей, выдерживает высокую нагрузку, понимает русскоязычный сленг и показывает хорошие результаты даже при сложных условиях записи, например посторонних шумах или скомканной речи. Мы продолжим развивать технологию, увеличивать скорость ее работы и улучшать качество распознавания», — сообщил Сергей Ларионенко, старший разработчик команды Core Infrastructure «ВКонтакте».
Нейросеть за секунду может расшифровать аудиосообщение до двух минут, то есть 99% всех аудио, которые отправляют пользователи. Разработчики отмечают, что теперь голосовые сообщения будут учитываться и при поиске. Если в аудио есть фраза или слово, которое вы искали, то сообщение отобразится в результате поиска.
Технология распознавания аудио была запущена в соцсети еще в июне. За это время аудитория, которая пользуется голосовыми сообщениями, выросла на 10% — сейчас она составляет 33 млн человек в месяц. В среднем каждый пользователь сервиса читает до восьми расшифровок в день. Во «ВКонтакте» утверждают, что голосовые сообщения остаются самым популярным типом вложений в переписках соцсети, обгоняя фотографии и файлы. Кроме того, команда приложения сообщила о том, что теперь пользователи могут записывать аудиосообщения продолжительностью до одного часа.
Нововведение пока работает только в официальном мобильном приложении «ВКонтакте». В дальнейших планах компании — сделать функцию распознавания доступной для пользователей компьютеров, а также сделать возможной расшифровку длинных сообщений.