SignLab: сурдопереводчик на базе ИИ

SignLab распознает жестовый язык и переводит его в текст или речь. Пожалуйста, обратите внимание: это не готовое приложение, его нельзя скачать в открытом доступе или получить по запросу. Мы предлагаем только разработку.

2d-graphic-wallpaper-with-colorful-grainy-gradients_23-2151001513.png

ИндустрияИТ

Тип бизнесаВнутренний проект

РегионРоссия

ИндустрияИТ

Тип бизнесаВнутренний проект

РегионРоссия

Клиент

SignLab – онлайн-сурдопереводчик, в его основе – искусственный интеллект. Это внутренний проект. В нашем Data Science-отделе давно устоялась практика: чтобы развивать и совершенствовать направление, постоянно берем в разработку что-нибудь интересное и неординарное. В 2022 году мы решили создать SignLab – проверить, будет ли работать такая концепция, и если да, то насколько хорошо.

Мы много знали об искусственном интеллекте, когда приступали к работе, но совсем ничего не знали о языке жестов.

Столкнулись с похожей бизнес-задачей?Давайте ее обсудим

Нажимая кнопку, вы перейдете на сервис «Фасти»

Столкнулись с похожей бизнес-задачей?Давайте ее обсудим

Нажимая кнопку, вы перейдете на сервис «Фасти»

Вызовы

Неслышащие, слабослышащие, глухие и немые люди – иностранцы. Разные и интересные. Жестовый язык, который они используют, – полноценная лингвистическая система. Только построена она на образах и картинках, а не на грамматической структуре и синтаксических связях, как другие языки.

У языка жестов особая структура. Нет окончаний, падежей, предлогов. Нет точек и запятых. Есть только образ. Даже время обозначается словами «было» или «будет» в конце предложения. Эти иностранцы не говорят привычное нам: «Я встретился». Они скажут: «Встреча было».

Жест трехмерен и вариантов одного и того же движения может быть множество – в этом крылась трудность.

portrait-woman-teaching-sign-language (1).jpg

1. Обучение ИИ

Где искать наборы данных для обучения модели? На платформах для поиска датасетов есть библиотеки видеоданных, но под нашу задачу они не подходили, так как были нацелены в основном на обнаружение и классификацию объектов.

Очистить датасет от ненужного содержимого и упорядочить самостоятельно? Слишком долго и есть большая вероятность ошибки.

2. Важные тонкости

Жестовые языки в разных странах совершенно разные: носитель жестового английского не поймет амслена – американского языка жестов. Есть диалекты – они отличаются по регионам в пределах одной страны. Есть индивидуальные особенности: кто-то «не договаривает» жест, кто-то «съедает» начало.

А еще важны мимика, ритм рук, скорость подачи и артикуляция. А еще есть пальцевая азбука – дактиль – когда слово показывается «по буквам» (для аббревиатур или научных терминов, например). Как это учесть?

Процесс разработки

Чтобы ИИ смог правильно переводить жестовый язык, он должен научиться анализировать смысл «сказанного».

Как получать информацию о пространственном положении тела и рук? Как правильно ее интерпретировать? Как научиться определять окончание одного слова и начало нового? Как расширять словарный запас абстрактными понятиями?

1/4

Модели распознавания

Проект разработан на Python с применением open source-инструментов.

2/4

MediaPipe

Технология MediaPipe от Google мы использовали как модель для распознавания.

3/4

Обучение ИИ

Для обучения ИИ мы сами записывали и размечали видео, сами создали словарь состояний жестов.

4/4

Windowing method

Разработали алгоритм скользящего окна, который по набору предыдущих слов предугадывает следующее.

Вот так работает SignLab:

Шаг 1

MediaPipe Holistic получает первичное изображение. Ищет людей на этом изображении и строит модель скелета по точкам в трехмерном пространстве.

Шаг 3

Один вектор характеризует положение частей скелета и рук на одном кадре видео. Модель собирает наборы таких векторов, после чего может распознавать слова.

Шаг 2

Затем модель преобразует первичную информацию. Результатом становится вектор, который содержит максимальное количество полезной информации в сжатом объеме.

Шаг 4

Технологии text-to-speech и speech-to-text осуществляют перевод жестового языка в текст и голос, добавляя окончания и расставляя знаки препинания.

Результат

Потенциал SignLab огромен: алгоритм можно внедрить в сервис видеоконференций, в решения для МФЦ, банков, вокзалов, аэропортов, больниц. Можно пойти еще дальше: работа, образование и даже развлечения – любая сфера повседневной жизни, где глухим и слабослышащим людям нужно преодолеть языковой барьер.

Поскольку SignLab принадлежит нам, с помощью наших разработчиков решение можно доработать и интегрировать в любые бизнес-процессы:

мобильная версия для упрощения решения рутинных задач;
обучение жестовому языку в форме интерактивного урока с контролем правильности выполнения жестов;
генерация жестов из текста и речи для их показа на 3D-модели.

Вопросы

Задайте нам любой вопрос о проекте SignLab, и мы поможем доработать его под нужды вашего бизнеса: ask@zuzex.com.

Проект SignLab – это не готовое решение, не программа из коробки. Ее нельзя скачать и установить в открытом доступе.

Это пока что первая версия продукта для проверки концепции. Но да, она работает!

Если вы придете к нам с запросом на разработку, мы создадим отдельное веб- или мобильное приложение на базе SignLab.

— команда Zuzex.

Что происходит дальше:

Мы получаем запрос, обрабатываем его в течение 24 часов и связываемся по указанным вами e‑mail или телефону для уточнения деталей.
Подключаем аналитиков и разработчиков. Совместно они составляют проектное предложение с указанием объемов работ, сроков, стоимости и размера команды.
Договариваемся с вами о следующей встрече, чтобы согласовать предложение.
Когда все детали улажены, мы подписываем договор и сразу же приступаем к работе.