akchabar logo with typographysearch
    Main photo
    Источник фото: Forbes.ru

    Опубликовано

    23.07.2019, 03:17

    «Тинькофф» запустил в продажу технологию синтеза речи

    Группа «Тинькофф» начала продавать корпоративным клиентам собственную речевую технологию Tinkoff VoiceKit, с помощью которой можно преобразовывать голос в текст и синтезировать голос из текста. Об этом vc.ru рассказал представитель компании.

    [news 16298]

    «Тинькофф» разрабатывает технологию распознавания речи с 2016 года, а технологию синтеза речи с 2018-го (на основе таких моделей, как WaveNet, Tacotron-2 и Deep Voice). Для обучения банк использует терабайты данных и десятки часов человеческой речи, объяснил представитель группы.

    У нас была блестящая команда разработчиков, 80 видеокарт, более 15 тысяч часов аудио из свободных источников, десятки тысяч часов звонков собственного колл-центра, суперкомпьютер «Колмогоров» и диктор, готовый пять месяцев записываться для синтеза речи. Мы работали три года, разметили за это время более 4.5 тысячи часов аудио и натренировали глубокие нейросетевые модели.

    [news 15848]

    Заявку на подключение технологии клиенты могут оставить на сайте Tinkoff VoiceKit. Для образовательных учреждений и студентов «Тинькофф» обещает предоставлять технологию бесплатно. Для остальных тариф составляет 40-45 копеек за распознавание минуты двухканального аудио, в планах также ввести посекундную тарификацию. Стоимость синтеза речи банк пока не определил. Для сравнения тариф на распознавание речи с помощью технологии SpeechKit от «Яндекса» составляет 60 копеек за минуту двухканального аудио.

    «Тинькофф» использовал речевые технологии для создания голосового помощника «Олега», а также для анализа качества обработки обращений клиентов в колл-центр и борьбы с мошенничеством.

    По версии компании, Tinkoff VoiceKit можно использовать для:

    • создания голосовых помощников;
    • создания программных роботов для автоматизации работы колл-центра;
    • записи аудиокниг и озвучка видеороликов;
    • создания приложений для людей с ограниченными возможностями;
    • перевода звуковых записей публичных выступлений в текстовый формат.