Czy Asystent Google nas podsłuchuje? Jak maszyny rozpoznają nasz głos?

Czy Asystent Google naprawdę nas podsłuchuje? Jak maszyny są w stanie rozpoznawać nasz głos? Czy łatwo je oszukać? Tłumaczymy co musicie wiedzieć o asystentach głosowych.

Asystenci głosowi to powszechna już technologia, z której bez problemów korzystamy na co dzień. Mało kto zastanawia się jednak nad tym, jak to w ogóle możliwe, że maszyna rozpoznaje nasz głos. Jak się okazuje, przed projektantami stoi jeszcze mnóstwo wyzwań i nie wszystko działa tak jak powinno!

Jak działa interfejs głosowy?

Od ponad dekady, wirtualni asystenci stali się nieodłącznym elementem naszej rzeczywistości. Dokładnie w 2010 pojawiła się przecież Siri, a niedługo później zadebiutowała Alexa, Cortana i Asystent Google. Zasada działania wszystkich tych technologii jest zaskakująco podobna.

Przede wszystkim, musimy pamiętać, że każdy dźwięk można zapisać bardzo prosto w nieco innych formatach. Jakby nie patrzeć, jest to przecież tylko i wyłącznie fala – możemy stworzyć z niej obraz, wykres czy nawet chmurę punktów. Jak zapewne już doskonale się domyślacie, są to formaty, które możemy bardzo łatwo przesłać, przekształcić, porównać czy tak naprawdę jakkolwiek badać.

Krokiem pierwszym dla asystenta głosowego jest zatem pobranie naszego dźwięku i przekształcenie go na format, umożliwiający bardzo szybką i wydajną analizę. Niestety, pamięć naszych telefonów zwyczajnie na nią nie pozwala. Dokładnie dlatego, dźwięk jest przesyłany na serwery i przetwarzany w chmurze. Odpowiada za to między algorytm KWS, czyli Key Word Spotting. Ale o nim za chwilę, przejdźmy do jeszcze jednej palącej kwestii.

Czy Asystent Google nas podsłuchuje?

Bardzo niepokojącą cechą wszystkich asystentów głosowych jest to, że reagują doskonale na słowa klucze takie jak Hey Siri czy Ok Google. Oznacza to przecież, że nasz telefon non stop nasłuchuje czy przypadkiem ich nie wypowiadamy! Czy przy okazji słucha i przetwarza też inne rzeczy? Czy jeśli powiemy 10 razy Gruzja to reklamy Google będą dotyczyć wakacji w tym słonecznym kraju?

W tym przypadku możemy was uspokoić – absolutnie nie! Owszem, Siri, Alexa i Asystent Google cały czas nas podsłuchują. Nie rozumieją jednak naszych słów. Wspominaliśmy już o tym, że pamięć naszych telefonów, głośników czy tabletów nie pozwala na analizę mowy. Nic w tej kwestii się nie zmieniło.

W trybie czuwania interfejsy głosowe działają na minimalnych obrotach. Co prawda non stop słuchają tego co mówimy, ale są w stanie określić tylko jedną rzecz. Czy powiedzieliśmy słowo klucz czy nie. Asystent Google słucha więc tego co mówimy, ale sprawdza jedynie, czy powiedzieliśmy Ok Google, cała reszta zupełnie go nie interesuje. Dopiero po aktywacji, czyli wypowiedzeniu właściwych słów rozpoczynają one przesyłanie głosu do chmury, aby sprawdzić co konkretnie powiedzieliśmy. To właśnie jest algorytm KWS.

Co to jest Key Word Spotting?

Key word spotting (KWS) to algorytm analizy języka naturalnego, która polega na wykrywaniu lub rozpoznawaniu określonych słów kluczowych w strumieniu mowy lub tekście. Głównym celem jest identyfikacja określonych słów lub fraz w większym kontekście lub strumieniu danych. Dzięki temu, komputer może reagować bardzo szybko na nasze polecenia głosowe. Dokładnie dzięki temu, Asystent Google nie będzie nas ciągle podsłuchiwał.

Rozpoznawanie mowy czy może głosu?

Wiemy już co sprawia, że nasz telefon reaguje na określone słowa. Przędźmy więc do znacznie ciekawszego punktu, czyli do wyzwań, które stoją przed projektantami interfejsów. Z pewnością wiecie doskonale, że mówiąc OK Google możemy uruchomić asystenta w domu znajomych. Wszystko dlatego, że wykrywa on mowę, ale nie głos.

Rozpoznawanie mowy ma jeden, bardzo prosty cel – zrozumieć co mówi człowiek. Algorytm całkowicie ignoruje więc czynniki takie jak ton głosu, barwa czy głośność. Rozpoznawanie głosu to znacznie bardziej skomplikowana rzecz. Jej celem jest określenie nie tego co zostało powiedziane, ale tego kto to powiedział. Oczywiście, w idealnym świecie asystent głosowy powinien robić dwie takie rzeczy naraz. Niestety, jest to niezwykle obciążające – producenci muszą postawić więc na zabawne sztuczki.

Zastanawialiście się kiedyś, dlaczego mówiąc Ok Google aktywujecie asystenta głosowego swojego znajomego, ale krzycząc te słowa na ulicy nie sprawicie, że wszystkie telefony w okolicy zaczną was słuchać? Odpowiedź jest prosta – zostało to tak bardzo nadużywane, że twórcy interfejsów głosowych byli zmuszeni do wprowadzenia zmian.

Jak oszukać Alexę?

Najsłynniejszym przykładem była reklama telewizyjna sieci fast-foodów Burger King z 2017 roku, która trwała 15 sekund. W tej reklamie aktor użył frazy "OK, Google", prosząc o opisanie burgera. Następstwem tego było to, że przez kolejną minutę urządzenia wyposażone w asystenta Google odczytywały skład tego burgera. Co ciekawe, plan dość szybko spalił na panewce, bo internauci wypozycjonowali w Google odpowiedź twierdzącą, że zawiera on mięso ze szczura, ale to już temat na inną historię.

Rozpoznawanie głosu wciąż wymaga olbrzymich nakładów i ciężko wyobrazić sobie, aby każdy telefon czy głośnik z asystentem wysyłał takie żądania w chmurę. Dodatkowo, ludzki głos nie zawsze jest identyczny – zmienia się przy chorobie czy nawet zmęczeniu. Zamiast tego, pojawiły się dość proste triki. Alexa od Amazonu sprawdza, czy identyczne słowa (gdzie przez identyczne mamy na myśli również tembr i barwę głosu) nie zostały wypowiedziane w kilku miejscach jednocześnie. W takim przypadku wie doskonale, że jest to część audycji radiowej czy telewizyjnej i dodaje taką sygnaturę głosową na czarną listę.

Bardzo ciekawy sposób stosują też projektanci samochodów. W ich przypadku chodzi oczywiście o to, aby komputer reagował tylko i wyłącznie na słowa kierowcy, ignorując pasażerów. Uczciwie trzeba przyznać, że mieli oni znacznie łatwiejsze zadanie – nie musieli bawić się w żadne algorytmy. Mikrofony umiejscowione są z każdej strony samochodu, działają więc jak ludzkie ucho i są w stanie określić pozycję źródła dźwięku. Zwyczajnie reagują tylko na te, pochodzące prosto od kierowcy!

Co dalej z rozpoznawaniem głosu i mowy?

Jak sami widzicie, stosowane obecnie przez producentów rozwiązania to raczej sztuczki maskujące problem niż rzeczywiste jego obejście. Jak rysuje się zatem przyszłość? Cóż, jak to zwykle w technologii bywa – tego nie wie nikt, a ktoś kto twierdzi, że wie zwyczajnie kłamie.

Naturalnie jednak, rozwój sztucznej inteligencji wydaje się czymś, co doprowadzi asystentów głosowych do perfekcji. Jak na razie problem jest jednak bardzo prosty – to wszystko kosztuje olbrzymie pieniądze. Tymczasem, rzeczywistość pokazuje, że rozwój asystentów głosowych nie jest wcale tak dochodowy jak pierwotnie na to liczono. Alexa przyniosła Amazonowi olbrzymie straty i nic nie zapowiada żadnych zmian.