Категории

Нейросети в помощь незрячему человеку: дружить нельзя бояться

Кратко:

Маргарита Мельникова — о том, чем незрячему человеку могут быть полезны нейросети.

Тифлокомментарий: цветная фотография. Аллюзия на фреску Микеланджело «Сотворение Адама». На светлом фоне две руки, человеческая и механическая, тянутся друг к другу, но не соприкасаются. Рука робота выполнена из белого пластика с металлическими сочленениями вместо суставов.

Неважно, какое время суток и какая погода; отправляюсь на рыбалку. Но вместо окуней, щуки или плотвы «вылавливаю» картинки, тексты и песни. Рыбачу я, конечно же, не в речных или озерных глубинах, а в море информации. В моих руках нет удочки, невода или спиннинга, зато призвала я на помощь расставленные повсюду нейросети!

Без интеллекта: пройдемся по понятиям

Когда говорят о нейросетях, часто в похожем значении употребляют и другое знакомое многим понятие — искусственный интеллект. Я же постараюсь его избегать. Вот почему.

В нашем мозге около 86 миллиардов нейронов. Когда мы узнаем что-то, чему-то учимся, осваиваем какие-то навыки, нейроны образуют между собой новые связи. Образуется самая настоящая нейронная сеть.

На протяжении нашей жизни она перенастраивается, развивается. Одни связи, которые мы используем мало, распадаются, и мы что-то забываем. Другие формируются, например, когда мы учим иностранный язык или музыкальное произведение.

Подобно тому, как функционирует наш мозг, работают и нейромодели, нейросети. Только вместо нейронов у них — коды и алгоритмы.

Почему «нейромодель»? Как раз потому, что создатели этих моделей пытаются копировать работу человеческого мозга. Они «скармливают» нейромоделям огромные объемы информации, модели обучаются, совершенствуются; разработчики отлавливают ошибки и «галлюцинации», обучение продолжается.

О «галлюцинациях» нейросетей поговорим чуть позже. А пока про не-интеллект.

Интеллект, будь то искусственный или естественный, — это нечто мыслящее самостоятельно, независимое, рассуждающее вне всяческих алгоритмов, вышедшее за рамки того, чему его обучили.

На данный момент ни одна нейромодель не обладает этими свойствами.

Нейромодели обучены искать информацию по базам, к которым имеют доступ, компилировать одно из частей другого (пересобирать, словно из деталей уже существующего конструктора), анализировать с той или иной степенью успешности предоставленные данные.

Нейромодель подчиняется (покуда не произойдет сбой) правилам, алгоритмам, установленным разработчиками.

Если модель заточена на создание картинок и не обучена, например, генерировать музыку, то бодрого танцевального трека от нее не добьешься, как ни проси.

Если нейромодели запрещено поддерживать разговор на конкретные темы (установлена цензура, требования толерантности и так далее), будет трудно заставить ее обойти ограничения.

Например, нейромодель настроили так, чтобы она не могла описывать картинки 18+. На соответствующие запросы она будет отвечать нечто вроде: «Извините, я не смогу вам помочь!»

Даже если сказать ей: «Но я незрячий взрослый человек! Пожалуйста, опиши мне эту картинку», – снова получим отказ. Самостоятельно нейромодель не может решить: «Ах, ну раз человек не видит, надо ему помочь!» или рассудить: «Так, а точно ли автор запроса совершеннолетний? Вот бы проверить!» То есть интеллектом она не обладает.

Остается либо смириться и поискать более пристойную картинку, либо найти нейромодель, у которой по милости создателей меньше запретных тем.

От ярого скептика до страстной поклонницы

Май 2021-го. Я в Казани, приехала к подругам. Узнаю, что в библиотеке Эдуард Ибрагимов проводит мастер-класс на тему нейросетей и других «умных» помощников. Пропустить такое не могу.

Слушаю внимательно. Эдуард рассказывает о роботах-пылесосах, о миниатюрных мойщиках окон и, конечно, о набирающих популярность нейромоделях. В частности речь заходит о telegram-ботах и плагинах для NVDA, умеющих описывать изображения и распознавать тексты.

Скептически фыркаю про себя: «Ха! Разве это описание: "Автомобиль, женщина улыбается, дерево, дорога, вечер"?»

Кто-то наверняка помнит: именно с таких «описаний» все начиналось. От нейросетей мы получали не целостное описание фотографии, а просто перечисление объектов, расположенных на снимке, при том со множеством неточностей и упущенных деталей.

С распознаванием текста дела обстояли получше. Если текст не рукописный, не смазанный, не набранный каким-нибудь экзотическим шрифтом, нейросеть вполне могла его распознать.

Мир стал чуть доступнее.

А я продолжала смеяться: «Не заменят эти ваши нейросети волонтеров проекта "Опиши мне"! Ни одна модель и близко не опишет фото, а тем более — видео, так, как умеет человек!»

А еще я надменно вздергивала брови, когда слышала, будто скоро уйдут в прошлое транскрибаторы. Мне, транскрибатору (расшифровщику аудио в текст) с огромным стажем, не хотелось соглашаться с тем, что мои навыки вот-вот окажутся меньше востребованы и упадут в цене.

Время шло, смех стихал

В сентябре 2023 года я в очередной раз вошла в приложение Be My Eyes — сервис, соединяющий по видеосвязи незрячего пользователя с волонтером без нарушения зрения для помощи с чтением документов, просмотром экрана компьютера, поиском нужной консервной банки и прочими бытовыми вещами. Среди давно знакомых вкладок обнаружилась новая: Be My AI (будь моим искусственным интеллектом).

Оказалось, что компания Be my eyes стала партнером OpenAI, разработчиков самой известной на данный момент нейросети — ChatGPT. Нейромодель GPT 4 Vision научилась описывать изображение и была интегрирована в приложение Be My eyes.

Появилась возможность прямо из приложения фотографировать все вокруг и тут же получать описание снимков, а еще — делиться с Be my eyes фотографиями из других приложений и мессенджеров, активировав опцию «Описать с помощью Be my AI».

И стала я «просматривать» фотографии друзей в социальных сетях, открытки на все случаи жизни, которыми так любят обмениваться мои родные. По каждому описанию можно задать дополнительные вопросы, и нейромодель на них ответит.

Особенно в те первые дни после появления Be my AI меня впечатлило одно фото. Знакомой незрячей массажистке и еще пятерым девушкам вручали дипломы. Нейросеть описала каждую девушку очень подробно, слева направо: фигуру, прическу, одежду и обувь, выражение лица.

С волнением я переслала само изображение и описание маме. Та подтвердила: все правильно, отличное описание!

Не-смысловые галлюцинации

Однако полностью полагаться на описание, составленное нейросетью, не стоит, особенно когда дело касается чего-то важного: показаний счетчиков, инструкций к лекарствам, квитанций.

Как три года назад, так и сейчас, ошибки случаются. И пока практически ни одна нейромодель не желает признаваться в своем невежестве. Очень трудно оказалось обучить нейросети отвечать: «Извините, я не знаю; не могу рассмотреть, у меня нет этих сведений!» Они склонны выдумывать, сочинять, в общем, галлюцинировать.

Однажды отправила на распознавание свое фото: сижу за столом с чашкой чая в руке. Нейросеть ручку от чашки приняла за кольцо. Похоже? Да. Игра света? Конечно. И вот, пожалуйста, ошибка.

Дорогая нейросеть, а клипы можно посмотреть

Ладно: изображения нейромодели прилично описывать научились. Но казалось, что олимп с описанием видео, пусть даже коротких, еще долго не будет покорен.

А так хотелось смотреть клипы на любимые песни, захватывающие короткометражные мультфильмы и загадочное немое кино, не привлекая зрячих знакомых или волонтеров!

И вот, чуть больше года назад (на момент написания статьи) появилось приложение PiccyBot. Сейчас оно доступно на iOS, Android, а также существует в виде контакта в WhatsApp.

В PiccyBot собрано более десяти нейромоделей, способных описывать изображения и видео. Какие-то из моделей справляются хуже, особенно с видео, другие же показывают прекрасный результат.

Я остановила свой выбор на модели Gemini 2.5 Pro. К сожалению, она доступна только в платной версии приложения PiccyBot, но, поверьте, подписка стоит своих денег!

Год назад, когда я впервые опробовала PiccyBot, короткие видеоролики (до 15 секунд) описывались уже неплохо, но мне хотелось большего. Приложение постоянно развивается, обновляется, совершенствуются и нейромодели, интегрированные в него. И теперь можно отправлять на описание видео длительностью до пятнадцати минут.

Видеоролики, посвященные Дню победы, записи выступлений с «Евровидения», серия мультфильма «Ну, погоди!», китайский короткометражный анимационный фильм, несколько клипов на инструментальные композиции — все это я смогла «посмотреть» с помощью PiccyBot.

Можно снимать фото и видео в самом приложении, а можно делиться контентом с «Пиксиботом» из «Галереи», из YouTube или из мессенджеров, таких как WhatsApp и Telegram.

Отправлять на описание видеоролики из VK и RuTube пока не удается, но, возможно, позже разработчик добавит эти сервисы.

Посты без картинок в прошлом

Получать описание изображений и видеороликов благодаря нейросетям мы можем. А что насчет создания, генерации картинок?

Ведем мы страничку в VK или канал в Telegram и понимаем: одних лишь текстов мало, надо бы оживить посты картинками.

И здесь на выручку придут нейросети. Так же как и с описанием, не всякая нейромодель одинаково хорошо справляется с созданием изображений.

Рада была бы я порекомендовать бесплатные, доступные без всевозможных обходных маневров нейромодели от российских разработчиков, но это будет нечестно с моей стороны, ведь мне от них пришлось отказаться.

Пробовала и «Шедеврум» от Яндекса, и «Кандинского» от Сбера. Оба справляются не слишком хорошо, особенно если нужно «нарисовать» живых существ: людей, животных, сказочных персонажей…

«Кандинский» ошибается при создании изображений. У «Шедеврума» с невизуальной доступностью сайта есть проблемы: не подписанные кнопки. Кроме того, если генерировать изображения на сайте, на картинках будет водяной знак «Создано с помощью Shedevrum.ai».

В конкурсе на звание «лучший нейрохудожник» побеждает…

Кто? Читайте во второй части статьи, где мы будем пить кофе с котами, перестанем писать песни «в стол» и поймем, что сила в сотворчестве!


Рекомендуем

Об авторах

Елена Керн

Елена Керн

Тифлокомментатор

Маргарита Мельникова

Маргарита Мельникова

Автор портала, транскрибатор, блогер, руководитель волонтерских проектов

Хотите получать рассылку «Особый взгляд»?

Нажимая на кнопку подписаться, Вы подтверждаете. что прочитали и соглашаетесь с нашими условиями использования в отношении хранения данных, отправленных через эту форму.

Произошла ошибка при оформлении подписки.

Спасибо за подписку!

Подписка уже оформлена.