Рассказываем о пяти новых сервисах, работающих на нейромоделях, которые умеют расшифровывать аудио, описывать видео, готовить краткие пересказы лекций, записывать тексты выразительными голосами и даже сочинять музыку. Все они обладают высоким уровнем невизуальной доступности.
Текстовые пересказы видео
Video Summarizer — это новое, удобное и функциональное приложение для создания текстового пересказа видео с помощью нейросети ChatGPT. Оно помогает пользователям быстро и просто получать конспекты видеоуроков, лекций, интервью, вебинаров и других видеоматериалов.
Приложение анализирует звуковую дорожку видео, преобразует речь в текст и формирует текстовый пересказ, исходя из указанных параметров пользователя. В результате пользователи получают краткий и понятный текст, который отображает основные идеи и детали видео, что позволяет значительно сократить время на его просмотр.
Благодаря интеграции с ChatGPT пользователи могут настроить параметры пересказа, например, длительность и уровень детализации, а также задавать уточняющие вопросы, чтобы получить именно ту информацию, которая им нужна. Эти функции делают Video Summarizer удобным инструментом для всех, кто работает с большим объемом видеоконтента и хочет быстро извлекать из него полезную информацию. Приложение можно скачать через App Store и Google Play, что позволяет использовать его на смартфонах и планшетах.
Рассмотрим пару вариантов использования данного приложения. Например, незрячий массажист может загрузить длинное обучающее видео в Video Summarizer и быстро получить текстовый пересказ с основными моментами, где описаны техники и анатомические комментарии. Если требуется больше деталей, он может задать уточняющий вопрос, к примеру: «Какие мышцы лучше всего прорабатывать при шейном остеохондрозе?» или «Как правильно выполнять точечный массаж?» Это помогает быстро извлекать нужные сведения, не отвлекаясь на длинный просмотр и сосредотачиваясь на практике.
Педагоги могут использовать Video Summarizer для создания кратких конспектов видеоуроков, образовательных вебинаров и лекций.
Допустим, учитель истории хочет изучить лекцию по теме Средневековья. С помощью приложения он получает пересказ, который охватывает основные исторические события, фигуры и даты. Педагог может задавать уточняющие вопросы для детального раскрытия отдельных событий, например: «Какие причины привели к Крестовым походам?» или «Какие социальные изменения произошли после Крестовых походов?» Это помогает педагогу быстро подготовиться к уроку, выделить важные моменты и эффективно адаптировать материал для своей аудитории.
Использование Video Summarizer в каждом из этих случаев упрощает доступ к информации и позволяет пользователям более эффективно обрабатывать видеоконтент. Для того чтобы увидеть на практике, как работает приложение, можно прослушать подкаст «Камераты», где подробно демонстрируются основные функции и рассказывается о нюансах его доступности.
Описание видео с помощью нейросетей
Если Video Summarizer делает краткий пересказ видео, то приложение PiccyBot выступает в роли тифлокомментатора и описывает сцены, происходящие на экране.
PiccyBot — это мобильное приложение, использующее искусственный интеллект и технологии компьютерного зрения для анализа изображений и составления текстовых описаний визуального контента. Оно способно распознать и подробно описать объекты, лица, сцены и даже эмоции на изображениях и создает доступное описание, которое можно прослушать или прочитать. Для описания используется девять нейросетей на выбор.
Вы наверняка уже пользуетесь аналогами таких сервисов — Be my eyes или ботами в Telegram. В отличие от них, PiccyBot умеет разбивать видео на кадры, описывать их с помощью нейросети и за счет этого выдавать довольно точное описание видеоконтента. Конечно, эта технология еще только начинает развиваться, но уже сегодня можно попробовать скачать приложение для iOS или Android и описать один из своих любимых клипов.
Как это работает на практике можно увидеть и услышать в подкасте Маргариты Мельниковой, специалиста отдела контроля качества фонограмм издательства «Эксмо», транскрибатора и основателя социальных проектов «Опиши мне», «Журналы вслух», «Жемчужная библиотечка» и других. Послушать можно здесь.
Расшифровка аудио
Среди незрячих людей достаточно тех, кто работает транскрибаторами в разных сферах. Сегодня нейросети предлагают автоматические сервисы, позволяющие расшифровывать тексты аудиолекций, выступлений и пленумов за считанные секунды. Это сильно облегчает работу транскрибатора, но полностью не заменяет его. Все равно нужно корректировать текст и исправлять ошибки.
Один из таких сервисов — Speech2Text, который расшифрует MP3, OGG, WMA и любые другие форматы аудио в текст онлайн со скоростью час аудио за 10 минут. Можно также выполнить транскрибацию по ссылке из популярных видеоисточников: Youtube, VK-видео и других. По желанию сервис разделит текст на спикеров и проставит таймкоды.
Тифлокомментарий: интерфейс мультимедийного приложения разделен на две части по горизонтали. Вверху — поле выгрузки аудио и видео файлов с синей кнопкой «Распознать», ниже — область с файлами, преобразованными в текстовый формат.
Кстати, он распознает не только русский язык, но и английский, французский, немецкий, испанский и еще более 20 других языков. Для эпизодического использования и тестирования достаточно бесплатной версии, которую можно опробовать без регистрации. Для постоянного использования стоит подключить платную версию. Все подробности можно узнать на сайте разработчика.
Преобразование текста в речь нейроголосами
Еще один интересный инструмент, работающий на базе нейромоделей, — это Eleven Labs Reader. Приложение умеет читать и озвучивать текстовые документы и веб-страницы разными нейроголосами.
Тифлокомментарий: интерфейс мультимедийного приложения. В центре экрана выделен голубой квадрат со значком воспроизведения. Под ним расположены два тега на английском языке, описывающие содержимое файла: «Успокаивающее» и «Аудиокнига».
Главная особенность приложения — в использовании передовой нейросетевой модели для создания голоса. В отличие от многих других озвучивающих инструментов, которые применяют заранее записанные или шаблонные голоса, Eleven Labs создает речь в режиме реального времени, что делает озвучивание максимально живым и естественным. Кроме того, этот инструмент способен настраивать интонации, эмоции и стиль. Это позволяет не только сделать текст более «живым», но и лучше передавать эмоциональный контекст, что особенно важно при озвучивании художественной литературы, статей и других текстов. А поддержка разных языков позволяет значительно расширить возможности.
В подкасте Маргариты Мельниковой вы можете более подробно познакомиться с этим приложением, ознакомиться с интерфейсом, функционалом и возможными примерами использования. Запись подкаста доступна здесь, скачать приложение можно для Android и iOS.
Сочиняем песни и музыку с помощью нейросетей
Еще одна уникальная возможность нейросетей — создание текстов песен и музыки под ваши потребности. Одна из платформ, предоставляющая эти возможности, называется Suno.
Она предлагает продвинутые инструменты, с помощью которых пользователи могут создавать музыку в различных жанрах и стилистиках, а также добавлять уникальные вокальные эффекты. На данный момент пока нет подкаста для незрячих пользователей ПК, но из личного опыта могу сказать, что данный сервис доступен для программ экранного доступа, не требует VPN и имеет понятный интерфейс.
Для начинающих пользователей достаточно использовать бесплатную версию, она позволит сочинять по несколько композиций в день. Чтобы попробовать, нужно зарегистрироваться сайте.
Надо отметить, что сайт работает на английском языке, но все запросы можно прописывать на русском и тексты самой песни тоже будут на русском. Для тех, кто испытывает сложности с англоязычными интерфейсами, можно использовать встроенный переводчик Google Chrome. А послушать, что может создать такая нейросеть, вы можете на этом youtube-канале.
Чтобы создать песню, достаточно следовать простым шагам: