in English

Inteligentne głośniki

Dzięki powstaniu Internetu rzeczy (IoT) firmy z branży cyfrowej, takie jak Amazon, Google czy Apple, używają tradycyjnych analogowych głośników jako platformy zupełnie nowej koncepcji — inteligentnych głośników. Podczas gdy wyjście audio ma i zawsze będzie miało kluczowe znaczenie dla inteligentnych głośników, realizuje również wiele innych funkcji. Jako węzły IoT podłączone do sieci mogą one odbierać informacje, działać na ich podstawie i tworzyć wyjścia sterujące, jak również sterować stożkiem głośnikowym. Ich możliwości pochodzą z zawartego w nich pakietu AI, a najbardziej znanymi składnikami AI są Amazon Alexa, Google Assistant, Microsoft Cortana i Apple Siri.

Te pakiety AI działają nie tylko na inteligentnych głośnikach, ale również na wielu innych urządzeniach produkowanych przez dostawcę oprogramowania AI lub podmioty zewnętrzne. W styczniu na targach CES około 1000 firm ogłosiło integrację asystentki Alexa z licznymi urządzeniami. Obejmują one smartfony, komputery, a nawet inne urządzenia automatyki domowej, ale w miarę możliwości skoncentrujemy się na ofercie inteligentnych głośników i ich możliwościach. Będziemy jednak również odkrywać inne, bardzo różne zastosowania inteligentnych głośników, na przykład coraz częstsze stosowanie ich w wieloobszarowych systemach rozgłoszeniowych na lotniskach, dworcach kolejowych i w innych miejscach publicznych — w tym na przystankach autobusowych i w pojazdach transportu publicznego.

Osobisty asystent sterowany głosem

W październiku 2017 roku serwis What Hi-Fi? opublikował artykuł o inteligentnych głośnikach zatytułowany „Smart speakers – everything you need to know” (Inteligentne głośniki — wszystko, co musisz wiedzieć). Tekst zawiera ciekawe omówienie technologii i trendów rynkowych.

Co potrafi inteligentny głośnik?

Inteligentny głośnik zawiera wyżej wymieniony pakiet AI, który działa na danym urządzeniu. Jako taki może reagować na następujące polecenia głosowe:

Połącz się bezprzewodowo przez moduł Bluetooth
Odtwarzaj utwory lub playlistę
Nastaw zegar
Steruj systemem audio-wideo (AV)
Steruj oświetleniem i ogrzewaniem
Podaj informacje o pogodzie lub raport drogowy
Zarezerwuj usługę Uber
Utwórz listę zadań do wykonania
Opowiedz dowcip

Konkretne możliwości zależą od tego, jakie rozwiązanie AI jest zainstalowane, a także od innych inteligentnych urządzeń w domu.

Inteligentne głośniki współpracują również z aplikacjami takimi jak Spotify, Tunein Radio, Philips Hue (oświetlenie), Nest, Hive, Samsung Smart Things, IFTTT (If This Then That), Kayak, Domino’s Pizza itd.

Ilustracja 1: inteligentny głośnik Amazon Echo (za serwisem Wikipedia)

Funkcja multi-room

Możliwość odtwarzania różnych ścieżek dźwiękowych w wielu pomieszczeniach kiedyś wymagała skomplikowanych systemów sterowania i niewygodnego okablowania. W artykule „What is multi-room Hi-Fi?” (System hi-fi multi-room: co to takiego?) opisano, w jaki sposób inteligentne głośniki eliminują te koszty i złożoność dzięki prostym, sterowanym głosem bezprzewodowym systemom, które są przystępne cenowo.

Głośniki te mogą komunikować się ze sobą nawzajem i można nimi sterować przez aplikację w telefonie, na tablecie albo w komputerze lub bezpośrednio głosem. Można odtwarzać tę samą ścieżkę unisono albo różne utwory muzyczne w poszczególnych pomieszczeniach. Oto niektóre inne możliwości:

Strumieniowe odtwarzanie muzyki z aplikacji Apple Music, Spotify lub Tidal
Odbieranie muzyki z sieciowego urządzenia magazynującego (NAS)
Strumieniowe odtwarzanie z telefonu

Bardziej zaawansowane systemy mogą obsługiwać technologie AirPlay, Bluetooth czy Chromecast.

Systemy są sygnowane markami nastawionymi na technologie hi-fi, takimi jak Sonos, Pure, Raumfeld, Yamaha, Bose, Sony, LG, Panasonic czy Samsung. W ostatnim czasie pojawiły się / pojawiają się oferty firm Apple i Google. Systemy multi-room działają albo poprzez tworzenie własnej sieci oczkowej, albo poprzez wykorzystanie istniejącego w budynku systemu Wi-Fi. Na przykład głośniki Sonos, LG i Tibo tworzą własną sieć oczkową. To sprawia, że systemy te są bardziej wytrzymałe, ponieważ nie są zależne od domowej sieci Wi-Fi podczas strumieniowego odtwarzania muzyki. Natomiast inteligentne głośniki korzystające z systemów Wi-Fi nie tylko są zależne od siły sygnału i stabilności połączenia, ale także wpływają na przepustowość sieci.

Istnieje również mnóstwo możliwości integracji systemów multi-room. Większość głośników multi-room może również funkcjonować jako głośniki autonomiczne, a systemy mogą obejmować kolumny głośnikowe, soundbary, wzmacniacze i streamery. Wzmacniacze i streamery pozwalają na połączenie z istniejącym systemem hi-fi, na przykład za pomocą systemów Sonos Connect lub Bluesound Node. Firmy Denon i Yamaha również oferują urządzenia do integracji elektroniki AV, wyposażając wzmacniacze kina domowego w funkcje multi-room.

Pakiety AI i platformy głośnikowe

Na wstępie przyjrzeliśmy się funkcjom inteligentnych głośników i możliwościom ich działania, zwłaszcza w instalacjach multi-room. Ale jakie rodzaje produktów są dostępne, jeśli chodzi o kombinacje AI i głośników? Poniżej przedstawiamy kilka przykładów. Zwracamy uwagę, że dwa pierwsze pochodzą od producentów sprzętu hi-fi, którzy dodali technologie AI, a dwa pozostałe są bardziej skoncentrowane na funkcjonalności AI:

Harman Kardon INVOKE — wykorzystuje asystenta Microsoft Cortana

Wysokiej jakości dźwięk z wieloma głośnikami średnio-niskotonowymi i wysokotonowymi
Funkcje asystenta aktywowanego głosem
Wkrótce możliwość zarządzania pocztą elektroniczną
Zgodność z wieloma urządzeniami, w tym komputerami z systemem Windows 10 i telefonami
Aktywowana głosem aplikacja Skype
Sterowanie inteligentnymi urządzeniami domowymi, takimi jak oświetlenie i ogrzewanie

Sonos One

Wbudowana asystentka Amazon Alexa
Obsługa pracy w trybie multi-room („Alexa, graj Bowie w salonie” lub „Alexa, graj Bowie wszędzie”)
Możliwość połączenia dwóch głośników w parę stereofoniczną
Wysokiej jakości 6-mikrofonowa, redukująca szumy matryca, która zapewnia niezawodną komunikację z asystentką Alexa nawet przy głośnej muzyce
Obsługa aplikacji Amazon Prime Music i Spotify

Google Home Mini

Obsługa łączności Wi-Fi i Bluetooth
Dźwięk 360 i przetwornik 40 mm
Mikrofon rozpoznający głos w dalekim polu
Współpraca z systemami Android i iOS
Obsługa aplikacji Spotify, Google Play Music, Tunein i BBC
Obsługa urządzeń automatyki domowej Nest, Philips Hue Wemo, tp-link, SmartThings, IFTTT, Hive, Lightwave, Wiz, Netatmo i Tado
Obsługa kanałów rozrywkowych YouTube, Netflix i Google Photos
Obsługa serwisów BBC News, FT, Sky News, Sky Sports, The Telegraph, The Guardian, The Economist, Monocle, The Sun, TC, CNN, NPR One, The Huffington Post i Euronews
Wybrane urządzenia strumieniujące: Google Chromecast, Google Chromecast Audio oraz Philips, Sony, Xiaomi, Nvidia, Bang & Olufsen, Polk i Raumfeld

Alexa Echo 2 z asystentem Alexa

Druga generacja, tańsza niż Echo
Łączność strumieniowa Wi-Fi i Bluetooth
Liniowe wyjście audio do łączenia ze starszymi urządzeniami
Technologia mikrofonów dalekiego pola drugiej generacji — lepsze przetwarzanie słowa wybudzającego i skuteczniejsze tłumienie szumów
Procedury asystentki Alexa: programowanie i sterowanie wieloma urządzeniami za pomocą jednego polecenia. (Polecenie „Dzień dobry, Alexa” może sygnalizować włączenie inteligentnych świateł, otwarcie żaluzji i zagotowanie wody w czajniku).
Zgodne marki: Philips Hue, TP Link i Wemo
Konfiguracja poprzez aplikację Alexa
Możliwość nawiązywania połączeń lub wymieniania wiadomości z innymi użytkownikami urządzeń z asystentką Alexa

Perspektywa programistów

Nowe głośniki inteligentne mogą być wprowadzane na rynek przez programistów pracujących z aplikacjami Google Assistant, Amazon Alexa i innymi pakietami AI. Na przykład firmy Google i Amazon udostępniają programistom wskazówki dotyczące korzystania ze swoich produktów:

wskazówki dla programistów dotyczące usługi Google Assistant

Programiści mogą rozpocząć pracę z usługą Google Assistant bardzo łatwo i bez znajomości kodowania. Proste aplikacje, takie jak gry logiczne czy quizy osobowości, można wbudować, wypełniając arkusz kalkulacyjny. Następnie można dodać gotowe osobowości, aby zdefiniować głos, barwę, muzykę, efekty dźwiękowe i naturalną atmosferę rozmowy dla użytkowników aplikacji.

Są również dostępne bardziej rozbudowane ścieżki programowania. Głównym sposobem interakcji użytkowników z usługą Google Assistant jest prowadzenie z nią naturalnie brzmiących rozmów na wybrane tematy. Zaawansowane aplikacje można wbudowywać w celu wykorzystania interfejsu użytkownika zwanego „konwersacyjnym interfejsem użytkownika”. Rozmowy można zaprojektować dla różnych warstw, takich jak głośniki aktywowane głosem czy rozmowy wideo w telefonach z systemem Android.

Aplikacje zwiększają funkcjonalność usługi Google Assistant, pozwalając na tworzenie działań umożliwiających użytkownikom wykonywanie czynności za pomocą produktów i usług. Najprostszą opcją programowania jest użycie szablonu, ale istnieją też inne możliwości:

można wykorzystać narzędzie Dialogflow do projektowania i budowania własnych rozwiązań konwersacyjnych. Zawiera ono mechanizm rozumienia języka naturalnego (Natural Language Understanding, NLU), który odwzorowuje naturalny ludzki język.

Zestaw SDK akcji jest przeznaczony do obsługi prostych działań z uwzględnieniem bardzo krótkich rozmów z ograniczoną zmiennością danych wejściowych od użytkownika. Takie akcje często nie wymagają solidnego rozumienia języka i zazwyczaj prowadzą do jednego przypadku szybkiego użycia.

Wskazówki dla programistów dotyczące asystentki Alexa

Alexa to chmurowa usługa głosowa firmy Amazon dostępna na dziesiątkach milionów urządzeń firmy Amazon i innych producentów urządzeń. Dzięki asystentce Alexa można uzyskać naturalne wrażenia głosowe, zapewniając klientom bardziej intuicyjny sposób interakcji z technologiami używanymi na co dzień. Zestaw narzędzi, interfejsy API, rozwiązania referencyjne i dokumenty firmy Amazon ułatwiają każdemu tworzenie rozwiązań z użyciem usługi Alexa.

Programiści mogą dodawać do asystentki Alexa funkcje lub umiejętności za pomocą zestawu umiejętności Alexa (Alexa Skills Kit, ASK), zestawu samoobsługowych interfejsów API, narzędzi, dokumentów i próbek kodu, aby tworzyć naturalne rozwiązania preferujące technologie głosowe. Asystentkę Alexa można również integrować bezpośrednio z produktami innych firm dzięki usłudze Alexa Voice Service (AVS), dodając funkcję zestawu głośnomówiącego do każdego podłączonego urządzenia.

Dodatkowo do asystentki Alexa można podłączyć inteligentne kamery, oświetlenie, systemy rozrywkowe i inne urządzenia, które mają być obsługiwane głosem. Możliwe jest również budowanie gadżetów Alexa oraz tworzenie interaktywnych umiejętności, które współpracują z gadżetami Alexa, takich jak przyciski Echo.

Inteligentne głośniki do systemów rozgłoszeniowych

Pasażerowie korzystający z węzłów przesiadkowych, takich jak dworce kolejowe czy lotniska, lub punktów drogowych o szerokim zasięgu, takich jak przystanki autobusowe, stale potrzebują informacji w czasie rzeczywistym na temat rozkładów jazdy i stanu środków transportu. Dostarczanie tych informacji jest złożonym zadaniem, ponieważ każdy mały obszar potrzebuje własnego źródła informacji, a te informacje mogą się szybko zmieniać.

Wyzwaniu temu można skutecznie sprostać dzięki nowoczesnym systemom głośnikowym, w których głośniki lokalne mogą być indywidualnie obsługiwane i zaopatrywane w odpowiednie informacje z centralnego kontrolera.

Systemy konwersji tekstu na mowę

Na przystankach autobusowych i peronach kolejowych wraz z wyświetlaczami cyfrowymi LED można instalować systemy konwersji tekstu na mowę. Systemy te mogą generować dźwięk z danych tekstowych dostarczanych do wyświetlaczy — z korzyścią dla pasażerów niewidomych lub niedowidzących. Zaawansowane systemy mogą obejmować lokalne transmisje radiowe (LPFM) informujące o godzinach odjazdów i przyjazdów, aby wspomóc pasażerów wjeżdżających na parkingi.

Systemy komunikatów głosowych

Systemy komunikatów głosowych (VAS) przekazują automatyczne komunikaty głosowe o następnych przystankach, jak również wskazówki dotyczące bezpieczeństwa, w dużych punktach przesiadkowych i punktach orientacyjnych. Pasażerowie są również informowani o aktualnej lokalizacji. Systemy VAS są skoordynowane z sygnalizacją pokładową LED w pociągach lub autobusach.

TextSpeak to amerykański projektant i producent systemów konwersji tekstu na mowę. Asortyment jego produktów obejmuje serię modułów do wbudowania, które przekształcają tekst ASCII na naturalny, wyraźny głos z nieograniczonym słownictwem. Te dołączane urządzenia działają z wykorzystaniem szerokiej gamy źródeł danych wejściowych, takich jak informacje, sygnały cyfrowe, znaki cyfrowe czy neonowe i przewijane wyświetlacze LED, generując mowę w czasie rzeczywistym. Dane wyjściowe mogą być przekazywane do systemów masowego powiadamiania i informacji pasażerskiej przy użyciu firmowych systemów wzmacniakowych earBridge do zastosowań mobilnych i stacjonarnych.

Produkty te mogą być wykorzystywane w celu modernizacji starszych rozwiązań w sferze systemów wyświetlania informacji pasażerskich (Passenger Information Display Systems, PIDS). Przykłady miejsc, w których zastosowano rozwiązania firmy TextSpeak, to m.in. paryski system przesiadkowy i metro w Nowym Jorku.

Systemy automatycznego powiadamiania o lotach (Automatic Flight Announcement Systems, AFAS)

Wyobraź sobie, że właśnie docierasz na ruchliwe lotnisko. Teraz pomyśl o różnych komunikatach informacyjnych, które potencjalnie będą Ci potrzebne do dokończenia przesiadki bez niepotrzebnego stresu i błądzenia.

Oczywiście każdy system informacyjny musi być dostosowany zarówno do potrzeb pasażerów przylatujących, jak i odlatujących. Niezbędne rodzaje komunikatów to m.in.:

Odprawa bezpieczeństwa
Wezwania do wejścia na pokład / komunikaty o zamknięciu bramek
Informacje o bramkach
Komunikaty o przylotach samolotów
Opóźnienia przenośników bagażowych
Odwołanie przylotu lub odlotu
Inne (niestandardowe) komunikaty

Automatyczne wysyłanie tego typu komunikatów, z niezliczoną liczbą wersji spełniających szczególne wymagania każdej bramki przylotowej i odlotowej, hali bagażowej i każdego innego miejsca, może być realizowane przez nowoczesny system automatycznego powiadamiania o lotach, czyli AFAS.

Jeden z takich systemów AFAS, o nazwie Blazon Pro AFAS, jest oferowany przez firmę Teckinfo. System ten, działający w środowisku Windows, jest modułowy i skalowalny. Może on przekazywać automatyczne komunikaty odnoszące się do wymienionych powyżej zdarzeń rozkładowych i pozarozkładowych i może to robić w jednym z trzech trybów: automatycznym, półautomatycznym lub ręcznym.

W trybie automatycznym system przyjmuje dane wejściowe z systemów ATC, FIDS/ATS lub PIDS i generuje komunikaty przy użyciu uprzednio skonfigurowanych szablonów komunikatów. W trybie półautomatycznym operator otrzymuje informacje z systemu ATC, FIDS/ATS lub PIDS, w razie potrzeby zmienia kolejkę komunikatów, a następnie wysyła je w celu ogłoszenia. W trybie ręcznym operator szereguje komunikaty z terminala AAS, a następnie rozgłasza komunikat.

System może zapisywać, przypominać, generować, montować i odtwarzać nagrane wcześniej frazy, pełne komunikaty i ogłoszenia ogólne, a także synchronizować ich treść z prezentacjami wideo.

(Uwaga: ATC = Air Traffic Control (kontrola ruchu lotniczego), FIDS = Flight Information Display System (system wyświetlania informacji o lotach), ATS = Airport Transit System (lotniskowy system przesiadkowy), PIDS = Passenger Information Display System (system wyświetlania informacji pasażerskich), AAS = Automatic Announcement System (system automatycznego powiadamiania)).

Ilustracja 2: pasażerowie na lotniskach potrzebują szczegółowych, nieustannie aktualizowanych informacji (za serwisem Flickr).

Technologie systemów rozgłoszeniowych dla programistów

Technologia Audio-over-IP, znana również jako AoIP lub Networked Audio (dźwięk sieciowy), to najnowsza technologia dystrybucji sygnału audio pozwalająca na przesyłanie głosu i muzyki na duże odległości z możliwością pełnej kontroli za pomocą standardowego kabla ethernetowego do zastosowań w systemach muzyki tła i rozgłoszeniowych. Takie systemy oparte na protokole IP pozwalają na dostarczanie określonych treści wyłącznie do wybranych stacji. W odróżnieniu od konwencjonalnych systemów PA, które wymagają poprowadzenia kabla koncentrycznego do każdego głośnika, mikrofony i głośniki są tu traktowane jako elementy sieci i są udostępniane według adresów IP za pośrednictwem istniejących sieci LAN/WAN.

2N to firma, która wykorzystuje tę technologię w swoim systemie Audio-over-IP o nazwie NetSpeaker. System ten, sterowany za pomocą bezpłatnego, komputerowego narzędzia Central Management Software, umożliwia użytkownikom strumieniowe przesyłanie muzyki, nagranych komunikatów głosowych, dźwięków, sygnałów dźwiękowych, melodyjek i nagrań promocyjnych lub komunikatów przywoławczych na żywo do dowolnej strefy lokalnej, obiektu zdalnego lub wielu stref/obiektów za pośrednictwem standardowego połączenia WWW, LAN albo WAN.

Kilka projektów z zakresu rozpoznawania głosu

Jeśli chcesz poeksperymentować z technologią rozpoznawania głosu i interakcji, na stronie internetowej Farnell znajdziesz projekty, które Ci w tym pomogą.

Jednym z takich projektów jest Matrix Creator. Zawiera on szczegółowe instrukcje dotyczące konfigurowania usługi Alexa Voice Service (AVS) na platformie Raspberry Pi z użyciem narzędzia Matrix Creator. Pokazuje, jak uzyskać dostęp i przetestować AVS przy użyciu naszej przykładowej aplikacji Java (działającej na platformie Raspberry Pi), serwera Node.js oraz zewnętrznego mechanizmu słowa wybudzającego przy użyciu matrycy mikrofonowej MATRIX. Za pomocą serwera Node.js można uzyskać kod autoryzacji Login with Amazon (LWA) — wystarczy odwiedzić stronę internetową, korzystając z przeglądarki internetowej Raspberry Pi.

Kolejny zestaw projektowy — AIY Projects firmy Google — trafił w maju tego roku do oficjalnego magazynu dotyczącego platformy Raspberry Pi, „MagPi”. Ten zestaw sprzętowy, który umożliwia dodawanie interakcji głosowych do projektów Raspberry Pi, składa się z płytki akcesoriów Google Voice Hardware Accessory on Top (HAT), płytki mikrofonów stereofonicznych Voice HAT, dużego przycisku arkadowego, przewodów i kartonowej obudowy do montażu całości.

Wystarczy dodać moduł Raspberry Pi 3. Następnie, po skonfigurowaniu oprogramowania, będzie można korzystać z zestawu SDK Google Assistant oraz interfejsu API Google Cloud Speech.

Informacje na temat konfiguracji dla tego projektu zawiera strona internetowa Farnell.

Ilustracja 3: elementy zestawu projektowego AIY

Podsumowanie

Do 2018 roku 30 proc. naszych interakcji z technologią będzie odbywać się w drodze „rozmów” z inteligentnymi urządzeniami. Inteligentne urządzenia głośnikowe, takie jak Alexa i Google Assistant, są oczywistymi przykładami tej technologii i coraz bardziej znanymi elementami naszego domowego środowiska. Dalsze usprawnienia w dziedzinie rozpoznawania głosu i pogłębiona wiedza o technologii AI, która za tym wszystkim stoi, pozwolą twórcom systemów znacznie zwiększyć zakres zastosowań, zwłaszcza w miarę jak narzędzia programistyczne będą stawać się coraz powszechniej dostępne.

Widzieliśmy również korzyści wynikające z prostego przekształcenia głośników w urządzenia widoczne w sieci, którymi można sterować indywidualnie, a także implikacje dla budowy bardziej elastycznych, wydajnych i ekonomicznych systemów rozgłoszeniowych.