Голосове управління смартфлном

Для голосового управління функціями «розумного» телефону існує чимало різних рішень, однак не всі вони реалізовані досить якісно. Ми відібрали ті з них, які дійсно працюють.

Управління голосом при роботі з сучасними смартфонами і комунікаторами, оснащеними досить продуктивними CPU, - що склалося напрям в створенні зручних для користувача інтерфейсів. В тій чи іншій мірі воно можливо на всіх основних мобільних платформах. В iOS воно з'явилося у версії 3.0 (повноцінно працює починаючи з 4.0), в Google Android - у варіанті 1.6 (повноцінно - з 2.2). Щодо вдало ця функція реалізована в Windows Mobile і S60. Ми підібрали кілька рішень, здатних замінити штатні модулі управління голосом, а також ПО для розширення функціональності.

Основні характеристики систем розпізнавання мови

Мовне управління протягом двох-трьох останніх років розглядається як одна з найбільш перспективних технологій, застосовуваних при створенні призначених для користувача інтерфейсів. Про це заявляють керівники Microsoft, помітний інтерес проявляють і представники компаній Google і Apple.

Дійсно, управління мобільним засобом зв'язку за допомогою натискань на кнопки вже здається архаїзмом. Сенсорні екрани і голос позиціонуються як природні способи взаємодії людини і «розумного» пристрою. Важливою характеристикою подібних систем є правильність розпізнавання команд. Якщо з сенсорним управлінням все більш-менш зрозуміло (сучасні смартфони підтримують навіть управління за допомогою складних Multitouch-жестів), то з голосовими командами справи йдуть не так однозначно.

По-перше, система може не завжди коректно реагувати на те, як саме вимовляються команди. Під подібне управління доведеться підлаштовуватися, що не завжди зручно: весь час стежити за тембром голосу і інтонаціями досить утомливо. При цьому команди необхідно виділяти з загального шумового фону, що вимагає обчислювальних ресурсів.

По-друге, така система не включається автоматично - для її активації, як правило, потрібно натиснути кнопку на пристрої або аксесуар (наприклад, бездротової гарнітурі). Програмне же включення не завжди зручно. На комунікаторах з Windows Mobile з програмним стеком від Вroadcomm активація системи голосового управління Microsoft Voice Commander з Bluetooth-гарнітури може функціонувати нестійкий або не працювати взагалі.

По-третє, голосове управління поки не може коригувати неточності і помилки користувача. Наприклад, якщо ви намагаєтеся запустити програвання композиції групи, в назві якої присутній артикль «the», без його згадки, то в більшості випадків пристрій не зрозуміє подібну команду. Складнощі виникають і при наборі номерів тезок і однофамільців із записної книжки - для коректної роботи потрібно заповнювати поле «прізвисько» і призначати додаткову команду запуску.

По-четверте, для постійного використання голосового набору (наприклад, при написанні SMS) процесор мобільного пристрою запускає досить ресурсомісткі модулі системи розпізнавання. Що не кращим чином позначається на продуктивності і часу автономної роботи комунікатора. Втім, зараз ця проблема поступово вирішується.

Vlingo - це крос-платформенний голосовий модуль управління для роботи зі стороннім ПЗ

Speereo Voice Launcher пропонує багатий набір функцій для голосового управління і розуміє навіть не дуже чітку вимову

Управління штатними функціями системи і голосовий пошук.

У всіх популярних мобільних ОС, в тій чи іншій мірі, реалізована можливість голосового розпізнавання команд для запуску типових додатків. Наприклад, набору номера із записника, відкриття поштового клієнта або запуску відтворення плейлиста. Крім того, ці модулі можуть озвучувати системні процеси, повідомляючи про те, що телефон розряджається або переключився на беззвучний режим сповіщень. Більш складні команди (скажімо, «відкрити поштовий клієнт, написати лист пану Іванову і після його відправки позначити всі повідомлення в папці" Вхідні "як прочитані») жодна з програм виконати не в змозі. Втім, поступово вони розвиваються. Так, якщо запитати у смартфона iPhone на базі iOS4, який зараз година, буде озвучено системний час. Крім того,ця ж голосова програма даної операційної системи розуміє негативні репліки користувача: «немає», «не те», «невірно» і т. п. В інших мобільних системах замість них доводиться вдаватися до сенсорного управління.

На класичних WM-апаратах для голосового управління застосовуються два пакети - Cyberon Voice Commander і Microsoft Voice Command. Однак використовувати їх одночасно не вийде - доведеться вибрати один.

Перший вимагає деякого тренування для розпізнавання команд, хоча їх список не дуже великий. Програма вміє викликати контакти, записи «Календаря», запускати всі стандартні і деякі сторонні додатки і програвання музики, а також зачитувати вхідні повідомлення. Другий пакет додатково до цього управляє гучністю, режимом роботи бездротових з'єднань, а також озвучує системні події. Також у Microsoft недавно з'явився цікавий продукт TellMe для розширеного голосового управління. Він здатний запускати пошукової клієнт Bing з надиктував запитом інформації, розповідати про курсах акцій, результати спортивних ігор, погоді, кінофільмах і дорожню обстановку. Але для всього цього апарат повинен бути підключений до Інтернету і знаходитися в полі видимості GPS - супутників. Саме ці кошти використовуються для обчислення розташування.До того ж даний сервіс не доступний російською мовою.

В iOS і Android вище версії 2.2 FroYo вбудовані системи голосового набору приблизно однакові, за тим винятком, що в продукті від Google є можливість прокладати маршрути по картах до місцезнаходження офісу заданої компанії або певної точки. У Symbian OS 5th Edition голосове управління відповідає тільки за виконання штатних функцій системи, а для голосового пошуку буде потрібно установка окремого ПО - наприклад, Google Mobile Арр.

Мовне управління додатковими функціями і запуск сторонніх програм

Безумовно, голосові засоби повинні не просто частково полегшити повсякденну роботу з комунікатором, а повністю взяти на себе виконання повсякденних дій. Причому не тільки зі стандартними програмами, але і додатково встановленими користувачем. Для цих цілей можна скористатися окремими продуктами - наприклад, Speereo Voice Launcher. Дана програма сумісна з Symbian OS (в тому числі S60), Windows Mobile, а в перспективі і з Android OS. Вона являє собою компактну оболонку, що дозволяє призначити запуск будь-яких додатків і файлів і перехід на будь-які веб-сторінки в браузері.

Препарат не дуже сильно залежить від особливостей голосу власника пристрою: движок розпізнавання вміє визначати команди, вимовлені з акцентом або незначними дефектами дикції. Передбачена інтеграція із стандартними програмами (записником, органайзером, клієнтом швидких повідомлень), а ось перенесення закладок з «Вибраного» немає. Визначення команд для запуску здійснюється через настройки додатків. Користувач пише по-російськи латиницею або на одному з підтримуваних мов (англійська, німецька, французька та т. Д.) Назва команди, після чого вона заноситься в базу. Цікаво, що Speereo вловлює команди навіть в галасливій обстановці.

Для Google Android версій нижче 2.2 існує три додатки, які вигідно відрізняються з'явилася в Android OS FroYo службу запуску програм Voice Actions. По-перше, це програми Edwin і Vlingo, що працюють тільки з англійською мовою.

Перша являє собою розширений клієнт для розпізнавання голосових команд, що забезпечує не тільки пошук в Google, але і знаходження математичних формул в Wtolfram Alpha, відправку повідомлень в Twitter і т. Д.

Другий клієнт (працює на платформах iOS, WM, S60 і RIM BlackBerry) володіє такими ж функціями, що і TellMe від Microsoft. А також можливостями відправки статусів в соціальні мережі, пошуку маршрутів і контактної інформації про компанії в окрузі. Нарешті, для Android-комунікаторів існує програма TopVoiceControl. Крім звичних набору номерів з адресної книги і розпізнавання вимовлених цифр вона може керувати бездротовими інтерфейсами і відкривати календар.

Список справ

Голосові органайзери поки залишаються екзотикою, але перші додатки такого роду вже з'являються і отримують певну популярність. Так, згадуваний розробник Speereo Software пропонує програму Speereo Voice Organizer, призначену для створення записів в «Календарі» і «завдання», електронних листів. Правда, в цьому випадку голос не перетвориться в текст. Повідомлення відправляється вкладеним аудіофайлом та оповіщення про поточні завдання. В iOS є поштовий клієнт QuickVoice2Text Email, що розпізнає надиктовані повідомлення і переводить їх в текстовий формат.

Для Google Android випущено голосове додаток Taskos Те Do List для додавання завдань в список справ і програма для відправки SMS, листів і повідомлень в Twitter під назвою VoiceLink.

Taskos Те Do List Складайте список справ, надіктовивая їх на пристрій під управлінням Android OS

Історична довідка

Перші технології розпізнавання мови з'явилися в 1952 році і дозволяли автоматично визначати вимовлені цифри. До початку 1990-х на ринку з'явилися рішення, які могли обробляти окремі слова і словосполучення, а також нескладні речення. Вони були поширені в США і використовувалися медиками та військовими. Популяризація систем голосового управління серед звичайних споживачів почалася тільки на рубежі XX і XXI століть - з появою смартфонів.