Chatbotok és okos segédek: így használd a mobilos asszisztenseket
Internet, mesterséges intelligencia, beszédszintetizátor és hangfelismerés: ezek a technológiák kellettek ahhoz, hogy az egyszerű internetes keresésektől eljussunk a mai digitális asszisztensekig. De mit tudnak ma ezek a segédek és hogyan használhatjuk őket a leghatékonyabban?
Kezdetek: a keresőtől a Siri-ig
Az internet hajnalán megjelentek az első webes keresők is, amelyek célja először annyi volt, hogy a megfelelő kifejezések beírására felkutassák nekünk azokat a weboldalakat, amelyek leginkább megfelelnek az érdeklődésünknek. Mivel ezek egész egyszerűen az oldalak szövegének, esetleg metaadatainak indexelését használták, a keresések is akkor voltak igazán hatékonyak, ha kifejezetten lebutítva írtuk be a kifejezéseket. "Női ruhaüzlet Budapest nyitvatartás vasárnap" - ez a technológia sajátosságai miatt sokáig jóval közelebbi eredményeket hozott, mintha normál beszédhez hasonlóan, teljes mondatban fogalmaztunk volna.
A változást az hozta el, hogy a sokfunkciós mobileszközök megjelenésével igény nyílt arra, hogy már ne csak internetes tartalmakban való kutakodásra használjunk egy keresőt, hanem a készüléken található sokféle appot is vezérelhessük valamilyen központi felületről. Ráadásul egyre jobb hatásfokkal működött az is, hogy az eszközök a beszélt hangokat utánozzák - ezt először előre felvett szavak kombinálásával érték el, amelyet még ma is használnak elvétve például a navigációs alkalmazásokban vagy a pályaudvarok virtuális bemondóinál.
Az igazán nagy áttörést azonban az hozta el, hogy ma már mesterségesen is előállítható olyan beszéd, amely szinte tökéletesen hasonlít a valódi emberi hangra, hangsúlyozásra és dinamikára. Emellett az eszközeink egyre okosabban értették meg a nekik célzott hangos kérdéseket és utasításokat is. Így aztán a fejlesztők a mai nyelvi modellek elődeit használva elkezdték a valódi beszédet, a kérdés-felelet folyamatát beemelni a segédek működésébe.
Mit parancsolsz, kis gazdám?
Az egyik legelső, sokak által használható, beszéd alapú segéd az Apple által kiadott Siri, amelynek első verzióját 2011-ben mutatták be az iOS 5 operációs rendszer részeként. Később megérkeztek a versenytársak is, az Amazon Alexa nevű segédje 2013-ban, a Google Asszisztens 2016-ban, a Samsung Bixby 2017-ben, a Huawei Celia pedig 2020-ban indult, de ezek mellett több kisebb szereplő is dolgozik hasonló megoldásokon.
De hogyan is működik egy ilyen asszisztens? Az alábbi listákban nagyon leegyszerűsítve néhány példát hozunk arra, milyen folyamatok zajlanak le az utasítások kiadása után.
- Az asszisztens megkapja a hangutasítást, például azt a kérdést, hogy "milyen idő várható ma?"
- A rendszer értelmezi, tehát "hangról gépre" fordítja az utasítást
- A segéd megkeresi azt az alkalmazást vagy funkciót, amely ehhez kapcsolható, a példa esetében az időjárás appot, valamint esélyesen azt is megnézi, mi az adott dátum és pontos idő, valamint behatárolja a helyzetünket
- Az adott információk alapján az appból kinyeri az információt
- Ezt az információt a beszéd-motor segítségével hang alapúra alakítja, és a hangszórón keresztül elmondja a választ
A fejlesztések során az asszisztensek egyre komplexebb feladatok elvégzésére is képesek lettek, például ilyenekre:
- Az asszisztenst arra kérjük, úgy ébresszen fel minket másnap, hogy beérjünk az első megbeszélésünkre
- Ekkor a rendszer egyszerre több app információit is segítségül hívja: megnézi a naptárban a másnapi első bejegyzés időpontját és helyét, majd az időpont közeledtével hozzáveszi az aktuális közlekedési információkat és a lehetséges odajutási módokat, és ehhez mérten dinamikusan állítja be az ébresztő időpontját
- Az adott asszisztenstől függően az ébresztő mellé bemondja, mikor lesz a megbeszélés és milyen útvonalat, közlekedési módszereket javasol
Ehhez hasonlóan egyre több app és funkció összehangolására van lehetőség az egyes segédek újabb és újabb verzióiban. Az egyszerű információ-keresés mellett már összetett feladatokat is elvégeztethetünk, időzíthetünk.
Mi szükséges egy digitális asszisztens használatához?
Alapvetően kell egy kompatibilis eszköz. Ez lehet egy olyan mobiltelefon, amelyen előre telepítve megtalálható egy ilyen segéd: az androidos mobilokon alapértelmezett a Google Asszisztens, az iPhone-okon a Siri, a Huawei egyes telefonjain a Celia, a Samsungokon pedig a Bixby, de lehetőség van egyes asszisztenseket más rendszerekre is telepíteni app formájában.
Persze ezek használata nem korlátozódik kizárólag mobilokra: egyre több okosórán és egyéb kiegészítőn is megjelennek, de vannak olyan céleszközök is, mint például a Google Nest: ezek apró okoshangszórók, amelyek az otthoni hálózatra Wi-Fi segítségével csatlakoznak és figyelik a felhasználók kéréseit.
Emellett szükség lehet valamilyen adatkapcsolatra, tehát wifire vagy mobilnetre. Ugyan az adatvédelmi törekvéseknek megfelelően már egyre több mindent tudnak az eszközön belül megoldani, a fenti példák esetében is láthatóan sokszor szükségük van az internetről származó adatokra a feladatok pontos teljesítéséhez.
Fontos tudni, hogy a magyar nyelv sajátos kialakítása miatt még egyetlen asszisztens sem beszél magyarul. A fejlesztők folyamatosan adják hozzá az újabb nyelvi csomagokat, de egyelőre főleg a nagyobb világnyelveken érhetők el. Előny viszont az, hogy már nem úgy kell szólnunk az asszisztenshez, mintha egy robothoz vagy egy óvodáshoz beszélnénk: fogalmazásban, hangsúlyozásban egyaránt használhatjuk azt a hangvételt, amivel egy másik embert is megszólítanánk. Az eszközök figyelik a saját indítóparancsukat - ez az asszisztenstől függően a "Hey Siri", a "Hey Google" és így tovább -, majd pedig meghallgatják a kérdést vagy utasítást. Ha további részletek szükségesek ennek végrehajtásához, visszakérdeznek, ilyenkor már a "hey" nélkül, folytatólagosan beszélhetünk hozzájuk.
A funkciók tárháza is folyamatosan bővül: kezdetekben a pontos idő bemondására, a zenelejátszás indítására vagy egy ismerősünk feltárcsázására korlátozódó tudás ma már sok mindenre kiterjed. Amit tudnak, a segédek hangban is közölnek, de ha olyan a kérés, elindítják a szükséges appot vagy a böngészőben jelenítik meg a kívánt tartalmakat.
A virtuális asszisztensek jövője
A fenti példák mellett egyre több versenyzője lesz ennek az üzletágnak is. Az úgynevezett nyelvi modellek megjelenésével olyan friss szereplők is beléptek, mint a ChatGPT, amely mostanra szintén kilépett a csak böngészőből elérhető kategóriából és app formában is használható. Itt a cél némelyest más, mint az egyértelműen mobilra fejlesztett segédeknél, a ChatGPT és társai nem használják a készülék appjait, viszont talán még azoknál is folyékonyabban, fejlettebben társalognak, valódi párbeszéd formájában. Irathatunk velük automatikus választ egy e-mailre vagy esszét egy kiválasztott témáról, megkérdezhetjük a "véleményét" valamilyen aktuális hírről, de kis rákészülés után még akár programozásban, zene- és szövegírásban is segítségül hívhatjuk.
A közeljövőben a szakértők szerint összefonódik majd a mobil asszisztensek és a nyelvi modellek világa, ezáltal tényleg eljuthatunk odáig, hogy egy szinte minden szempontból emberszerűen kommunikáló és értő partnert kapunk, amely az eszközeinkbe rejtőzve segít megválaszolni a kérdéseinket, megoldani bonyolultabb problémákat. És talán idővel magyarul is megtanul.
Szerző:
Bátky Zoltán
informatikai és távközlési szakújságíró, szerkesztő