Image default
Google

Asystent Google – żywy język wyzwaniem dla maszyny

Pisząc swój poprzedni, entuzjastyczny tekst na temat Asystenta Google – przypomniałem sobie, jak to wszystko się u mnie w tym temacie zaczynało. I zdecydowanie za moją najbardziej zaangażowaną interakcję z tym rozwiązaniem odpowiadał inteligentny zegarek.

Były to czasy, kiedy nikt o żadnym Asystencie nie śnił. Całą uwagę koncentrował za to Google Now.
Kiedy czytam o naszym obecnym bohaterze na oficjalnej stronie Google przygotowanej pod polskiego użytkownika, kiedy przeglądam komendy, które należy mu wydawać oraz kiedy konfrontuję to ze wspomnianym Google Now – widzę, że (nieco paradoksalnie) za wiele się nie zmieniło w podstawowych założeniach tego, jak to działa w Asystencie. Oczywiście Google Now był nastawiony na wypowiadanie suchych zapytań. Nie miał ambicji uczenia się, nie opowiadał dowcipów, nie potrafił podpowiadać skojarzonych kontekstowo informacji.

Pamiętam, że to Nexus 5 od LG na dobre rozpoczął moją przygodę z Google Now, ale dopiero kupienie pierwszego smartwatcha Samsunga Gear Live (TUTAJ prehistoryczna recenzja) zapoczątkowało u mnie wielką miłość do werbalnego obsługiwania swoich sprzętów.

Było to jakieś 4-5 lat temu. Usługa głosowa od giganta technologicznego z Mountain View była wtedy dostępna gł. jako strumień wiadomości i newsów, a w obsłudze werbalnej wyłącznie w języku angielskim i tak też z tego korzystałem. Generalnie była to orka na ugorze. Bo np. mogłem wywołać opcję wysłania SMS-a, ale komunikatu nie dawało się podyktować po polsku. Google Now nie potrafił też odnaleźć się w szerszym kontekście związanym z Polską, więc wyszukiwanie informacji na tematy związane z naszym krajem było bardzo karkołomne. Ale dawało to namiastkę tego, co miało nadejść.

Z czasem Google Now zaczęło wspierać nasz język. Wciąż jednak opierało się na sztywnych komendach i prostych odpowiedziach. Asystent Google obiecuje coś innego – konwersację. Oznacza to, że nie tylko będzie potrafił udzielać odpowiedzi, ale też nawiąże z nami nić relacji. A, że komunikowanie się głosem jest dla nas najbardziej pierwotne i naturalne, toteż istnieje duża szansa, że właśnie w ten sposób będziemy porozumiewać się z maszynami w nadchodzącej przyszłości. Tak przynajmniej chcieliby twórcy asystentek głosowych, takich jak Amazon Alexa, Microsoft Cortana, Apple Siri, czy w końcu Google Assistant.

Gdzieś czytałem komentarz, że Asystent Google w obecnej odsłonie to niewielki krok. Zupełnie nie mogę się z tym zgodzić.

Po pierwsze dlatego, że widzę, jaki progres nastąpił względem Google Now. Po drugie dlatego, że nawet gdyby nie brać tego pod uwagę, to jednak pokaż mi drugą tak zaawansowaną usługę, która na naszym rynku mogłaby się sprawdzać tak szeroko i tak zarazem elastycznie. Zresztą sądzę, że problem tkwi w czym innym – a mianowicie w naturalnym przejściu do porządku dziennego, że ze sprzętem (maszyną) można rozmawiać. Że może ona oferować coś więcej niż tylko komunikat na linii komenda odpowiedź, ale prowokować do podtrzymywania dialogu. Pomagać w organizacji czasu, zadań, wyzwań, które przed nami.

A to ośmielenie się, jest dzisiaj – tak sądzę – największym wyzwaniem dla asystentek głosowych w ogóle.

Dla mnie to na ten moment prawie żaden problem, bo zacząłem kilka lat temu i wtedy to naprawdę wzbudzałem zainteresowanie. Napisałem jednak „prawie”, bo pomimo swej otwartości i dość grubej skóry muszę przyznać, że jest wiele sytuacji, w których się od komunikowania głosowego ze smartfonem czy smartwatchem powstrzymuję. Dla przykładu – rzadko dyktuję SMS-y w tramwaju, czy autobusie komunikacji miejskiej, kiedy jest wokół mnie zbyt ciasno…

Tak naprawdę, to w ogóle nie dyktuję dłuższych maili, bo wymaga to mozolnej korekty, gdyż Asystent nie potrafi stawiać kropek, przecinków, średników, myślników, znaków zapytania etc. A w zatłoczonej przestrzeni, kiedy wypowiadam komendę „OK Google…”, wszyscy naokoło już na mnie patrzą z zaciekawieniem. No i słuchają. A ja nie chcę, by ci ludzie wiedzieli co chcę zakomunikować Żonie, czy z kim planuję wieczorne spotkanie oraz w jakim miejscu.

Pewnym problemem jest też fakt, że Asystent reaguje na dowolnie wypowiedzianą frazę „OK Google”. Teoretycznie model głosu zapisywany jest na telefonie, ale wielokrotnie zdarzyło mi się, że na moje „OK Google” reagował smartfon Żony. Więcej nawet – czasami Asystent (a wcześniej Google Now) aktywuje się po wypowiedzeniu samego słowa „OK”. Myślę, że Google musiałby też dobrze przemyśleć strategię upowszechniania Asystenta, tak by nie sprowadzić go wyłącznie do roli opowiadacza sucharskich kawałów, czy sprawdzacza ile kalorii ma awokado.

Po tych wszystkich latach zauważyłem też, że z Asystenta Google korzysta się najlepiej na smartwatchu. Przynajmniej mi.

Po telefon sięgam wówczas praktycznie w znikomych sytuacjach, które wymagają ode mnie bardziej zaangażowanej interakcji. A to sprawia, że bateria w smartfonie działa o wiele lepiej i dłużej. Mogę też dzięki temu zminimalizować ilość akcji, którym poświęcamy czas. Osobiście uwielbiam wpisywać przez Asystenta przypomnienia do kalendarza, które nie do końca potrafię ulokować w czasie do realizacji.

I tu znowu przykład: muszę odebrać paczkę z punktu, gdzie zostawił ją kurier, ale nie wiem, o której będzie to godzinie, bo jestem na drugim końcu miasta i mam jeszcze kilkanaście innych rzeczy do zrobienia. Wówczas mówię „OK Google, przypomnij mi żebym odebrał paczkę, kiedy będę w domu” (ten punkt znajduje się blisko miejsca mojego zamieszkania). Oczywiście, jeśli wiem, którędy będę wracał, mogę podać konkretną ulicę. Przypomnienie pojawi się dokładnie wtedy, kiedy będzie przeze mnie pożądane. No, ale trzeba wpierw pozwolić Google na śledzenie naszej aktywności na podstawie lokalizacji.

Druga rzecz, która z pewnością wpłynie na udaną lub nieudaną adaptację Asystenta to to – jak bardzo w życiu codziennym korzystamy z pewnych rozwiązań w tradycyjny sposób.

Jeśli ktoś organizuje sobie dzień bez kalendarza, bo nie ma codziennie iluś spotkań i nie potrzebuje wszystkiego notować, to po opcje związane z nim nie będzie sięgać. Jeśli ktoś nie prowadzi interaktywnej i współdzielonej listy zakupów, to i tutaj Asystent w niczym mu nie pomoże. To samo tyczy się notatek w Keep, czy innej apce do tego celu przeznaczonej. Jak się ma bardziej wysublimowany gust, to repertuar filmów granych w multipleksach też nie będzie zaspokajał naszych potrzeb związanych z wyszukaniem fajnego seansu, a te zdarzają się w licznych kameralnych kinach studyjnych.

Trzecia rzecz, która może przesądzić o sukcesie Asystenta Google to udana współpraca z urządzeniami peryferyjnymi. W tym kontekście rzucają mi się kolejne dwie powtarzające wady.

Pierwsza to brak zasięgu jakiejkolwiek sieci komórkowej lub WiFi, co skutkuje tym, że Asystent po prostu nie chce działać. Tutaj obocznie można jeszcze dodać – słaba jakość połączenia, bo wówczas nie jest w stanie szybko przetworzyć zapytania, wysłać na serwer i odebrać odpowiedzi, którą wypowie lub wyświetli na ekranie telefonu/zegarka/tabletu etc. I tak – jak już się przyzwyczaicie do tej usługi, to wypad nad polskie morze lub w góry do jakiejś małej wsi szybko uzmysłowi Wam, jak wiele czasu oszczędzamy na pisaniu. To są całe minuty, które spokojnie w ciągu dnia mogą przeistoczyć się w dziesiątki minut, jeśli nie dobrą godzinę, dwie.

Drugi minus, który ja zauważyłem, związany jest z połączenia pary – telefon i smartwatch. Niestety, ale te nie zawsze utrzymują ze sobą stabilne połączenie. Co więcej – i zegarek i smartfon potrafią pokazywać, że sprzęt jest ze sobą idealnie sparowany, a przychodzące notyfikacje tylko nas w tym utwierdzają. Niestety – wielokrotnie coś na tej linii nie działa, jak należy i kiedy chce się podyktować jakąś komendę przez zegarek, to pojawia się komunikat o niedostępności w danym momencie usługi.

I nie ma znaczenia ani producent telefonu ani zegarka. Jako, że testuję sporo tego sprzętu – wyraźnie widzę, że albo to wina softu po jednej ze stron albo jakości samego połączenia bluetooth, które z jakichś przyczyn nie do końca radzi sobie z wywołaniem Asystenta w zegarku i przerzucaniem zapytania do telefonu. Niemniej częste występowanie takich niedogodnień na pewno nie będzie sprzyjało powodzeniu w używaniu Asystenta.

Sądzę, że Asystent, jest z jednej strony wyzwaniem dla Google.

Raz, że gigant musi wymyślić, jak zacząć go monetyzować. Dwa – przekonać ludzi, że warto w to pójść. Trochę przypomina mi to sytuację ze sklepem z aplikacjami. Konkurencyjne platformy mobilne nie są w stanie zagrozić Apple i Google, bo nie posiadają swoich tak bogato wyposażonych wspomnianych sklepów z apkami. W tym kontekście na Asystenta można spojrzeć, jak na swoisty rodzaj sklepu. Jeśli nie będzie z nim współpracowało wielu dostawców różnych usług, po prostu będzie bezużyteczny na dłuższą metę lub po prostu jego funkcjonalność będzie cały czas na niskim poziomie adaptacji.

Grunt jednak, że w Polsce tworzy już swój grunt. Pierwsi jego partnerzy, to u nas sieć Play oraz serwis wyszukujący tanie loty eSky. Im więcej partnerów, tym szerszy nacisk na edukowanie i zachęcanie ludzi do takiej a nie innej formy komunikacji. Z czasem to na pewno chwyci, ale solidnie trzeba podlać glebę odpowiednimi, intuicyjnymi, naturalnymi komendami.

No, a z drugiej strony – dla Asystenta wyzwaniem jest sam… język.

Jak wiemy, jest on tworem niezwykle żywym i tak szybko ewoluującym, że nie nadążają za nim słowniki. To dość kluczowe – bo to organizm. Na pewno, jeśli masz dziecko w wieku szkolnym łapiesz się na tym, że nie chwytasz jego slangu. Asystent musi takich rzeczy uczyć się równo z tymi, którzy te językowe zmiany projektują. Podobnie partnerzy Google będą musieli ciągle poprawiać swoje zapytania, komendy i odpowiedzi – aby pasowały one do tych, którzy chcą za ich pomocą używać Asystenta oraz otrzymywali zrozumiałe dla siebie informacje. A te nie mogą być sztuczne, chropowate, nieaktualne językowo – bo to będzie pierwsza najgroźniejsza przeszkoda dla Asystenta – bariera komunikacyjna.

Sam jestem ciekaw tego rozwoju. Sądzę, że pierwsze sensowne wnioski będzie można wysnuć za dwa lata. Kiedy Asystent Google okrzepnie w języku polskim, a maszyna zmierzy się z niełatwą – aczkolwiek bardzo żywą – polszczyzną. Ja też przyłożę się do tego, aby programiści mieli co robić.

 

****
Zdjęcie tytułowe

12 komentarzy

Marx2 Styczeń 22, 2019 at 10:57 am

ze smartwatchem po prostu to nie działa, bo ostatnie poprawki Wear OS powoduje, że komunikacja z telefonem jest bardzo często nieaktywna, a bez niej asystent nie działa. Nie mam niestety najnowszej aktualizacji do Pie (notabene trochę jestem zawiedziony że na portalu nic się nie pojawiło na ten temat).
Tu ujawnia się druga wada – brak offline’owego rozpoznawania polskiego głosu.

Trzecia wada to Android Auto. Aplikacja co prawda nie jest dostępna w Polsce oficjalnie, ale samochód to póki co jedyne miejsce, gdzie obsługa głosowa ma większy sens. Zainstalowałem najnowsze apk, ale niestety udało mi się jedynie wyznaczyć trasę. Nie potrafię np wznowić odsłuchania podcastu przez program obsługiwany przez AA. Trapi mnie tez to samo co na telefonie, czyli czasem mam polski głos damski, czasem męski.
Trzymam jednak kciuki. Mam nadzieję że duża liczba osób które używają asystenta spowoduje szybkie wyeliminowanie błędów.

Jerzy Jabłoński Styczeń 22, 2019 at 11:02 am

Ja też z asystenta korzystam tylko w samochodzie, tyle, że ja po pierwszej próbie z językiem polskim szybko wróciłem do angielskiego. Działa bez większych zastrzeżeń, chociaż AA idealny nie jest.

Michał Brożyński Styczeń 22, 2019 at 8:42 pm

O – to napisz jeszcze do czego używasz w Android Auto głosu, w sensie jakich komend i w jakich sytuacjach? Dla mnie to novum i dość interesująca pod kątem poznania funkcja. Chętnie poznam Twój punkt widzenia.

Jerzy Jabłoński Styczeń 25, 2019 at 7:28 am

Do wszystkiego :) Tak na serio to głosowe sterowanie AA w samochodzie jest prawdziwym zbawieniem uwalniającym od koszmaru obsługi ekranu dotykowego. Co prawda ja na szczęście klimą steruje przyciskami fizycznymi (huraa), ale nie wszyscy mają takie szczęście. Coraz więcej samochodów ma wszystko przeniesione do panelu dotykowego – koszmar.

Do czego ja wykorzystuję AA – głównie do sterowania nawigacją, multimediami i do pisania/dyktowania SMSów bo to najwygodniejsza forma informowania “zaraz dojadę” i t.d. Czasami do wyboru numeru pod który chcę zadzwonić.

Sterowanie nawigacją działa świetnie odkąd podpiąłem asystenta, stare Google Now kompletnie sobie nie radziło. Asystent działa ok. Nie idealnie, ale dobrze. Jest w stanie bez problemu wybrać trasę, można sterować albo wg adresu, albo wg zapisanych punktów (lub książki adresowej jeżeli ktoś ma tam przypisany adres). Bez większych problemów ogarnia komendy w rodzaju “najbliższa stacja Shell”, albo “gdzie jest Makdonald” jeżeli jestem na trasie. Czego nie ogarnia, to wybór opcji z odpowiedzi. Podaje listę z przypisanymi literami: a, b, c… i ni dudu nie udało się go nakłonić, żeby sam wybrał trasę do B na przykład. Trzeba puknąć w ekran. Może się da, ale nie chce mi się szukać sposobu prawidłowego gadania – jak asystent to ma rozumieć czego od niego chcę gdy mówię normalnym, codziennym języki. Jeżeli ma się włączoną już nawigację z wybraną trasą to tylko modyfikuje trasę tak, żeby prowadziła przez ten punkt i dalej do miejsca docelowego.

Multimedia są ograniczone do wspieranych dostawców: Googe Music, Spotify, odtwarzacz smartfona, chyba coś jeszcze, ale ja korzystam z GM więc nie sprawdzałem. Google Music jest ustawione jako domyślne. Trzeba przestawić w konfiguracji AA albo mówić skąd ma brać muzykę.

Poprawnie reaguje na komendy dotyczące wyszukiwania muzyki jeżeli szuka się tytułów polsko lub angielskojęzycznych. Różnica jest taka że asystenci angielski i polski wyszukują innej muzyki pod tym samym hasłem. Po “play Perfect” na angielskim asystencie odpali się jakaś popowa kapela ze stanów, po “zagraj Perfect” odpali się album Perfectu. Po angielsku musi być “play Polish band Perfect” – wtedy jest ok. Problemy pojawiają się gdy chce się wyszukać jakiejś piosenki wykonawców np. japońskich i próba dyktowania tytułu piosenki albo nazwy wykonawcy. O ile “zagraj Yuri Hori’ jeszcze przejdzie, to “zagraj Sakura No Hanabiratachi” czy “play marry christmas in japanese” skutkuje odtworzeniem jakiegoś dziwnego utworu nie wiadomo skąd albo “nie mogę ci jeszcze pomóc”. W takich chwilach od razu czuć, że ma się do czynienia z automatem działającym na predefiniowanych schematach, a nie na “prawdziwej AI” :)

Fajnie obsługuje się SMSy – odczytywanie i dyktowanie jak pisałem, nie odwracają uwagi od drogi. Za to kiepsko działa integracja ze Skajpem i nie wiem dlaczego bo MS zarzeka się że powinno wszystko być ok. Na dodatek to jedyny komunikator z jakiego jeszcze korzystam i czasami jak wcześniej wychodzę z pracy to by się przydał żeby mieć rękę na pulsie.

Plus wozów z dedykowaną obsługą AA: w kierownicy jest przycisk do aktywacji asystenta więc nie trzeba wołać “Ok Google”, wystarczy wcisnąć przycisk, poczekać na bipnięcie potwierdzające że słucha i można nawijać.

W sumie poza multimediami, komunikatorami i nawigacją więcej w AA nie ma, chociaż w sklepie Play pod “AA essentials” jest sporo aplikacji :)

Peter Zetski Styczeń 22, 2019 at 8:42 pm

a ja nie potrafię się przekonać do głosowej komunikacji ze sprzętem. Nawet gdy jestem sam w domu. Może w aucie… ale jakoś nie. I mimo wszystko dla mnie to za wolno działa.

Michał Brożyński Styczeń 22, 2019 at 8:50 pm

Krzysztof ma ten sam problem. Też czuje opór. Cieszę się, że o tym piszesz, bo być może to większy problem. W sensie – na szerszą skalę. Ciekaw jestem, czy to kwestia pokoleniowa i za 10 lat nikt z młodych nie będzie miał problemu z gawędzeniem ze sprzętem, czy po prostu casus tematu, a więc tego, co chcemy akurat podyktować? Bo jednak na głos wszystkiego powiedzieć się nie da w taki sposób, by inni nie słuchali. No, a nie wszystko – jak pisałem wyżej – nadaje się do komunikowania całemu światu wokół nas.

Peter Zetski Styczeń 25, 2019 at 7:28 am

Może podchodzę zbyt optymistycznie do siebie samego, ale nie sądzę żeby to była kwestia pokoleniowa, bo pomimo wieku, jestem bardzo otwarty na nowości, niczego nie odrzucam z założenia, wszystkiemu się przyjrzę, spróbuję, i w zależności czy mi pasuje czy nie to albo akceptuję albo nie. Nie jestem fanatykiem czy wyznawcą jakiejkolwiek marki. Coś co mi pasuje dziś, nie musi pasować jutro i się rozstanę z produktami danej firmy czy usługami. Prędzej może to być kwestia mojego introwertyzmu.

Michał Brożyński Styczeń 25, 2019 at 7:30 am

Ach nie, nie miałem na myśli Twojego wieku i nigdy się nad nim nie zastanawiałem ;). Po Twoich wypowiedziach na tym blogu widzę, że masz tą otwartość w sobie i to jest jak najbardziej w porządku. Bo generuje zdrowy przepływ i rozsądne podejście do oferowanych rozwiązań. Pisząc o zmianie pokoleniowej miałem na myśli to, że jeśli coś w jakiś sposób nas ogranicza przy głosowym korzystaniu z nowinek technologicznych, to prawdopodobnie nie będzie tych, którzy idą za nami. Bo dorastają w rzeczywistości, w której firmy tech forsują taki, a nie inny sposób komunikowania się ze sprzętem. Stąd będzie im łatwiej w to wejść. My niejako przecieramy szlak. Oni na tej drodze niejako są/będą już od urodzenia. :).

Marx2 Styczeń 22, 2019 at 8:59 pm

niestety jedna z głównych funkcji to pisanie na Whatsapp do znajomych po polsku – u mnie asystet w wersji angielskiej odpada. No chyba że on jest taki sprytny że potrafi ze mną gadac po angilsku ale wiadomośc wysłać polską – nie próbowałem, ale nigdy nie słyszałem aby coś takiego było mozliwe.

Jerzy Jabłoński Styczeń 25, 2019 at 7:28 am

Powinien ogarniać whatsappa. Jak miałem tylko angielskojęzycznego asystenta to nie miał problemów z wysyłaniem SMSów po polsku: send message “zaraz będę, zbieraj dupę” to Adam – wysyłał poprawnie :D

Michał Brożyński Styczeń 22, 2019 at 8:42 pm

Witaj – dzięki za wyczerpujący komentarz. Jeśli dobrze rozumiem, to opisujesz ten sam problem, który i ja opisuję, chociaż masz uwagę do tego, że nic o tym nie napisałem. A napisałem. Przeklejam cały akapit – powyższy tekst jest dość długi, więc mogło Ci umknąć:

“Drugi minus, który ja zauważyłem, związany jest z połączenia pary – telefon i smartwatch. Niestety, ale te nie zawsze utrzymują ze sobą stabilne połączenie. Co więcej – i zegarek i smartfon potrafią pokazywać, że sprzęt jest ze sobą idealnie sparowany, a przychodzące notyfikacje tylko nas w tym utwierdzają. Niestety – wielokrotnie coś na tej linii nie działa, jak należy i kiedy chce się podyktować jakąś komendę przez zegarek, to pojawia się komunikat o niedostępności w danym momencie usługi.”

Tak, też zauważyłem, że nie ma języka polskiego offline i to jest spory minus, ale wyłapałem to dopiero wczoraj w nocy, bo po publikacji jeszcze trochę siedziałem nad Asystentem.

Co do Android Auto – tutaj nie będę umiał się w 100proc. odnieść do tematu, bo po prostu nie jestem zmotoryzowany, ale rzeczywiście usługa powinna działać kompleksowo, czyli AA też obejmować i to bez żadnych kombinacji. W kwestii głosu mi osobiście bardzo pasował kobiecy i na pewno będę chciał do niego wrócić, bo można to zrobić.

Fajnie, że poświęciłeś czas na swój komentarz. Dużo celnych uwag. Dzięki za Twój głos!

Marx2 Styczeń 22, 2019 at 8:59 pm

ja po prostu potwierdziłem problemy z Wear :)
Co do AA – nie musisz miec samochodu. Ściągasz apk na telefon i możesz testować.

Komentowanie zamknięte