В Мичиганском университете совместно с Adobe Research создали прототип графического редактора, управляемого голосом и жестами. Прототип, названный PixelTone, пока умеет делать лишь самые простые операции и жесты. Он понимает простые команды и ориентируется в описательных терминах вроде "верх", "низ", "ярче", "темнее". Кроме того, он может запоминать названия объектов и имена людей на фотографиях, что позволяет использовать команды вроде "Сделай Васю чуть контрастнее".
Такой комбинированный интерфейс может быть полезен на планшетах и телефонах, где просто нет места для многочисленных палитр и меню, и нет клавиатуры, чтобы воспользоваться горячими клавишами. Прототип будет представлен на конференции Computer-Human Interaction которая пройдёт в Париже с 27 апреля по 2 мая.
Этот документ, подготовленный по всем правилам серьёзной научной публикации, пожалуй интереснее самого прототипа. При создании интерфейса учёные проанализировали сложившуюся в среде профессиональных фотографов и ретушеров систему общепринятых сокращений и аннотаций к фотографиям, а затем с помощью Amazon Mechanical Turk собирали статистику слов и выражений, которые используют непрофессиональные пользователи, чтобы описать желаемые изменения в фотографии.
Исследования юзабилити, проведённые после создания прототипа, показали, что голосовой интерфейс позволяет выполнять базовые операции по редактированию фотографий ничуть не хуже традиционного. Совместное использование голоса и прикосновений позволяет достаточно точно и уверенно интерпретировать нечёткие формулировки естественного языка вроде "здесь", "отсюда и выше". Как и в случае с клавиатурными сокращениям, требуется некоторое время, чтобы изучить и запомнить фразы, которые понимает программа, для чего могут понадобиться графические подсказки. Освоившись, пользователь может управлять редактором почти исключительно голосом и непосредственной манипуляцией на тачскрине.