Дигиталният помощник – история и бъдеще на гласовата технология

Дан Суинхоу, IDG, САЩ

Първите компютри използваха перфокарти за въвеждане на информация, a пишещите машини напомнят, че клавиатури е имало от самото създаване на компютрите. Оригиналната мишка пък е изобретена през 1964, сочи историческа справка. 

Как стоят нещата обаче с гласовата технология? Днес компаниите се надпреварват да промотират гласовите си дигитални помощници. Но дали гласовото разпознаване е нов метод за въвеждане на данни?

 

Историята на гласовата технология

През 50-те и 60-те години се появяват различни измислени компютри с изкуствен интелект в научнофантастични романи, филми и телевизия. Колкото и да е невероятно обаче, историята на гласовата технология също започва в началото на 50-те. Пионерната система AUDREY на Bell Labs може да разпознава числа, изговорени от един предварително указан глас, който говори бавно и отчетливо. По описание AUDREY се разполага в двуметров шкаф, скъпа е, консумира голямо количество електричество и има множество проблеми по поддръжката, свързани със сложните вакуумни тръби.

Макар днес IBM да се занимава с доста по-различни неща, компанията остава е пионер в областта на гласовите технологии. На Световния панаир в Сиатъл през 1962 г. Shoebox на IBM показва способност да разбира 16 думи, 10 от които са числата от 0 до 9, което й позволява да решава прости аритметични задачи. Девет години по-късно системата на IBM за автоматична идентификация на обажданията даде възможност на инженерите да говорят и да получават гласови отговори от компютър по телефона.

Университетът Carnegie Mellon като част от проект на Агенцията за иновативни изследвания в областта на отбраната (DARPA) разработва през 70-те години системата за гласово разпознаване HARPY, която може да разбира над 1000 думи. Следващият подобен техен проект Sphinx претърпява различни промени от началото си през 1986 г. и продължава да съществува и днес.

След HARPY възходът на скритите модели на Марков (модел на вероятностите, използван в машинното обучение) в прилагането им в гласовото разпознаване увеличи машинния речник от сто на хиляди думи. Компютрите започнаха да развиват езикови умения, сравними с тези на малко дете.

През 80-те IBM създаде гласово активирана пишеща машина, наречена Tangora, която разполага с речник от 20 000 думи, но трябва да се настрои според индивидуален говорител. По-късно, през 1992 г., компанията пусна серията Speech Server, а Системата за лична диктовка (Personal Dictation System) се появява през 1993.

Идеята на куклата Джули на Worlds of Wonder, излязла на пазара през 1987 г., е да разбира какво й казват децата. Apple пуска концептуално видео за Knowledge Navigator, услуга, много подобна на Siri, но която компанията не успява да довърши по онова време. Пародийно видео, разпростането неотдавна в социалните медии, показва какъв би бил реалният вариант на истински помощник през 80-те години.

През 1990 г. Dragon – сега част от Nuance – пуска Dragon Dictate, първата комерсиална услуга за диктовка. В средата на 90-те се появява Voice Activated Link (VAL) на BellSouth, прототип на гласовите помощници, които имаме днес. Той дава възможност на клиентите теоретически да намират информация, като казват на „електронния служител“ какво търсят. Сред опциите са гид на ресторантите и обяви за коли.

През първите години на ХХI век се наблюдава застой в технологията с минимални подобрения – през самата 2000 Motorola рекламира киберасистента Mya, но продуктът така и не стига до пазара.

Към 2010 обаче вече има бум в гласовите технологии благодарение на увеличаването на процесорната мощ и скорост, най-вече заради облачните решения. Google пуска своя гласова търсачка за iPhone през 2008 г., а за Android – две години по-късно. Google Now стартира през 2012, но днес е преминала в Google Assistant.

2011 бележи пуска на Siri и първия от дигиталните гласови помощници, масово навлезли в употреба днес. Microsoft пуска Cortana през 2014, Samsung има своя S-Voice още през 2012, но вече от година се е съсредоточила върху Bixby. През 2015 Baidu добавя такава функционалност към своята DuerOS, а през 2017 Yandex пуска Alisa, Orange отговаря с Djingo, а Naver - с Clover.

Днес дигиталните помощници могат да се видят в хладилници, осветление, телевизори, термостати, справят се с непрекъснатата реч – въпреки че често губят смисъла – и се стремят да разширяват репертоара си от езици и акценти.

Глас на работното място

Гласовите помощници завладяват домовете със страшна сила. Juniper Research предвижда, че над 50% от домакинствата в САЩ ще разполагат с поне един до 2022. Но какво значи тази инвазия на гласовите технологии на работното място?

Като цяло изглежда тя да е много далече. Изследване на Creative Strategies от 2016 показва, че едва 1% от хората използват гласови помощници на работа, а според проучване на доставчика на потребителски интерфейс за разговори Mindmeld (вече собственост на Cisco) този процент е едва 3. Според много експерти обаче това ще се промени. 

„След като виртуалните помощници съчетават изкуствения интелект с гласовото разпознаване, те могат да правят само за секунди неща, които са отнемали минути, като просто разпознават гласа ви, извършват задачата и ви съобщават, когато са готови“, казва Джо Мануел, вицепрезидент по клиентско преживяване и производителност на работното място в Dimension Data. „Бизнесът ще осъзнае ползата от спестяването на време – от автоматизацията на досадните задачи, традиционно извършвани от хора, или от много по-бързото им изпълнение. Очаквам тази тенденция да набере още скорост през идната година.“

Ново проучване на 1000 офис служители във Великобритания, извършено от брокера на co-working пространство Workthere, показва, че 23% от служителите вярват, че гласово активираната технология ще бъде най-полезната в подобряването на работата им през следващите 5 години. В Изследването за дигиталното работно място на Dimension Data се твърди, че 62% от компаниите очакват да внедрят виртуалните помощници през следващите две години.

„Ако разгледаме причините, заради които потребителите обичат гласовите помощници, същите ще са приложими и на работното място“, казва Кийс Джейкъбс, директор дигитални предложения в Capgemini. „Речта е естествена, затова на служителите няма да им се налага да разучават нова технология и интеграцията на гласовия помощник в работното им ежедневие ще бъде лесна.“

„Гласовите помощници, задвижвани от изкуствен интелект, бързо ще навлязат на работното място, особено в области, където на работниците им е трудно да „печатат или да ползват тъчскрийн“, като болниците например, по хигиенни причини. Служители, работещи в търговията на дребно и в сферата на потребителските стоки, също ще имат полза от гласовите помощници. Очакваме да имат голямо влияние при всичко, свързано с купуване, стоки и търговски дейности.“

Не всички обаче са съгласни, че гласовата технология е готова за това. Паскал Кауфман, основател на изследователския стратъп Starmind, коментира, че на нея все още й липсват основни характеристики, за да е полезна за бизнеса. „Помощници като Alexa могат да бъдат захранени с умения и модели, но не могат да се научат сами как да станат по-добри, да разбират повече или да се адаптират към ситуации. На този етап гласовото разпознаване не е достатъчно развито, за да се превърне в смислен инструмент за реалния бизнес, освен ако не сте бял мъж, който живее в САЩ, нямате странен акцент и не ползвате думи, които не са вкарани в системата. Едва когато алгоритмите успеят да развият такава самообучителна функция, ще са готови истински да разбират гласовете и да достигнат потенциала на работното място, на който всички знаем, че са способени.“

Независимо дали са готови за бизнеса или не, много компании се стремят да внедрят гласовата технология в своята дейност или чрез интеграция с продукти като Alexa, или чрез собствени разработки.

Cisco вече предлага гласов помощник на име Spark, който е проектиран да помага при срещи и конференции чрез способността си да намира и резервира налични стаи, да предлага нужните документи предварително, да включва споделянето на екран, да записва дискусии и да си води бележки на срещата. Ricoh пък вече предлага бяла дъска с интегрирана гласова технология, която си води записки и споделя файлове по команда.

Има също няколко услуги – наприме, френският стартъп Snips или проектът с отворен код Jasper – които ви позволяват да създавате ваши собствени гласови функционалности извън екосистемата на Google/Amazon/Microsoft. Now Assistant на Adenin Technologies се свързва с фирмени данни и дава възможност на компаниите да свързват вътрешни източници на данни и да създават отговори на въпроси на HR, продажби или работни процеси. Сред клиентите им са Cisco и фирмата за обществен транспорт Transdev.

През ноември самият Amazon обяви Alexa for Business, която обещава да извършва всичко от информирането на ИТ за счупен принтер до данни от повърхността като последни продажби или наличности. Microsoft и Amazon се надяват да преодолеят проблемите с оперативната съвместимост и да интегрират Cortana и Alexa, като дадат на първата по-широк набор от умения, а на втората – по-голям достъп до продукти като Office 365.

„Проучване на Станфордския университет показва, че софтуерът за гласово разпознаване е три пъти по-бърз от печатането, което неоспоримо говори за спестяване на време и увеличаване на производителността в компаниите“, казва Нилс Ленке, старши директор фирмени проучвания в Nuance Communications. „Следващата стъпка за индустрията е да се им се дадат специфични за отрасла „научни титли“. Това означава да са обучени в специфичната им област, например търговия на дребно или финансови услуги.“

Гласът в ИТ

А какво става при ИТ дейностите? Проучване на Spiceworks от 2016 сред ИТ професионалисти показва, че 19% от фирмите използват интелигентни помощници/чатботове на устройства, собственост на компанията, докато други 30% планират да го направят през следващите три години. (Докладът на същата агенция за състоянието на ИТ от 2017 обаче сочи съответно 9% и 5% изпълнение).

Изследване на Workthere показва, че 25% от ИТ отделите смятат, че гласово активираните технологии ще имат най-голям принос в подобряването на работата им през следващите 5 години. Нараства броят на гласови умения на трети страни в Alexa за ИТ специфични задачи като мрежова диагностика, търсене на IP адреси и програмистки въпроси.

Компаниите също разработват свои собствени функционалности за вътрешна употреба. Capital One например е създала своя частна вътрешна Alexa for Business, която позволява на екипите на компанията бързо да проверяват състоянието на системите или да изискат специфични ъпдейти при критични събития.

„Към средата на 2018 трябва да очакваме всички големи отрасли да внедрят гласово базирани интерфейси“, казва Алоа Райтбауер, вицепрезидент и главен технически стратег в Dynatrace. “Гласът е толкова интуитивен. Той е логичната следваща стъпка в технологичната еволюция. Компаниите могат значително да увеличат производителността си, без да следват определени работни процеси, да разучават софтуер, да участват в демо демонстрации или обучения. Могат просто да започнат да говорят.“

„Когато гласовата технология стане успешна и хората свикнат с преживяването, тя ще се превърне в новия стандарт и ще бъде изключително трудно да се върнем към нещо друго.“ 

Компании като Tintri и Dynatrace започват да експериментират с гласови потребителски интерфейси за ИТ нужди. Този на Tintri например може автоматично да включва виртуални машини, а помощникът на Dynatrace Davis предоставя гласова информация за проблеми с производителността на приложенията.

„Гласовата технология ще се превърне в новия команден ред навсякъде в ИТ“, казва Даниел Джоунс-Уилямс, директор управление на продуктовия маркетинг в Juniper Networks. „Командният ред е античен начин за комуникация с машините, който е в основата на всеки бизнес по света. Затова ставатe свидетели на възхода на скриптовите езици и разработването на среди като SaltStack, които автоматизират тези антични, скучни задачи. Засега тази автоматизация е достъпна само за избраните, но гласовите помощници ще я направят достъпна за масите. Следващата стъпка по пътя на гласовата технология за ИТ е просто да се обработи естественият ни език, за да се получи желаният резултат.“

Дойде ли краят на графичните интерфейси

Въпреки че са налице сериозни етапи на развитие на гласовата технология през последните 50-60 години, реалното й навлизане в ежедневието бе близо до 0 от доста време. Днес обаче е налице сериозен ръст благодарение на качеството на технологията заедно с развитието на облачните решения и много други форми, под които гласовите помощници могат да се внедряват. Но е ли това краят на графичния потребителски интерфейс (Graphical User Interface или GUI) и възходът на гласовия потребителски интерфейс (Voice User Interface или VUI)?

„Не смятам, че VUI скоро ще измести GUI“, казва Санджей Малхотра, главен ИТ директор в компанията за мобилни приложения Clearbridge Mobile. „Важно е да се има предвид как VUI ще добавят стойност в компанията. Ако вътрешният екип трябва непрекъснато да се бори със сложен или претоварен GUI, интегрирането на гласово търсене може да бъде ценно решение, но в зависимост от ситуацията визуалният контекст е абсолютно необходим.“

Източник:
http://cio.bg/9514_digitalniyat_pomoshtnik__istoriya_i_badeshte_na_glasovata_tehnologiya