Voicebot w częściach, czyli jak wygląda „wnętrze” wirtualnego asystenta

W tym wpisie rozkładamy voicebota na czynniki pierwsze. Pokazujemy jakie silniki, programy „powołują go do życia”.

Masz coraz częściej do czynienia z wirtualnymi asystentami? Planujesz uruchomić bota w swojej organizacji, a może po prostu chcesz się dowiedzieć, jak jest skonstruowany? Tak czy tak, przychodzimy z pomocą i zapraszamy do lektury.

Z tego tekstu dowiesz się:

Z jakich narzędzi i silników składa się bot?
Co to jest AIML?
Jak działa system rozpoznawania mowy?
Jaki system odpowiada za rozpoznawanie intencji rozmówcy?
Dlaczego syntezator mowy to „wizytówka” wirtualnego asystenta?

Chcesz wiedzieć więcej o możliwościach SprintBot? Napisz!

Z jakich narzędzi i silników składa się bot?

Choć ostatecznie zarządzasz botem za pomocą jednej aplikacji, to żeby poprawnie funkcjonował, musi działać na raz kilka procesów i silników. Podobnie, jak w przypadku każdego systemu komputerowego, mechanizmu, czy urządzenia. Za poszczególne czynności odpowiada inny silnik lub oprogramowanie. W przypadku asystentów głosowych do podstawowych części składowych zaliczają się:

silnik konwersacyjny AIML,
narzędzie do rozpoznawania mowy (ASR),
system rozpoznawania intencji rozmówcy (NLP/NLU),
syntezator mowy (TTS)

Oczywiście oprócz tych elementów, voicebot korzysta jeszcze z innych aplikacji i narzędzi, jak system do web-chatu (jak wyjaśnialiśmy we wcześniejszym wpisie, voicebot może być też chatbotem), CRM (Customer Relationship Management) oraz narzędzia ułatwiające przesyłanie danych.

Co to jest AIML?

Silnik AIML, czyli Artificial Inteligence Markup Language, to baza wiedzy asystenta głosowego, z której czerpie informacje na temat tego, jak powinien się zachować. To dzięki niemu przetwarzane są wgrane wcześniej przez Ciebie scenariusze i skrypty dialogowe. Tu przechowywane są też informacje o modelach językowych, z jakich może bot korzystać. Upraszczając, można powiedzieć, że jest to jego „pamięć”, z której czerpie wszystkie informacje potrzebne mu do funkcjonowania.

Jak działa system rozpoznawania mowy?

Żeby jednak skutecznie skorzystać, z posiadanej (a raczej wgranej) wiedzy, bot musi najpierw zrozumieć, co do niego mówisz. Do tego korzysta z systemu ASR, czyli silnika rozpoznawania mowy (ang. Automatic Speech Recognition). Element ten odpowiada za przetworzenie tego, co mówisz do wirtualnego asystenta na zrozumiały dla niego tekst, który potem poddaje analizie, żeby udzielić Ci odpowiedzi. Jest to zatem niezwykle ważna cześć bota, mająca duży wpływ na jego skuteczność.

Jaki system odpowiada za rozpoznawanie intencji rozmówcy?

Poprawne odnotowanie, co mówisz to jednak tylko część sukcesu. Teraz bot musi ocenić jeszcze Twoją intencję, czyli dokładnie sprawdzić, co oznacza to, co usłyszał. Do tego służy oprogramowanie do przetwarzania języka naturalnego (NLP, ang. Natural Language Processing) i rozumienia języka naturalnego (NLU, ang. Natural Language Understanding). Mówiąc w skrócie, jest to baza modeli językowych, struktur i zasad gramatycznych, dzięki której będzie mógł wybrać najlepszą dla Ciebie odpowiedź, czyli podejmie decyzję, co dalej zrobić. Może się też okazać, że najkorzystniejszym rozwiązaniem, będzie zaproponowanie Ci połączenia z żywym konsultantem.

Jakość analizy za pomocą silników NLP i NLU decyduje o tym, czy voicebot dobrze odpowie.

Dlaczego syntezator mowy to „wizytówka” wirtualnego asystenta

Na koniec, jak już bot sobie dokładnie wszystko „przemyśli”, musi Ci odpowiedzieć. W tym momencie włącza się syntezator mowy, czyli silnik TTS (ang. Text To Speech). Jest zatem odpowiedzialny za to, co usłyszymy i w jakiej formie. Jest więc wizytówką, frontem, który przykuwa uwagę. Jego jakość i odpowiednia konfiguracja ma równie duży wpływ na Twoje zadowolenie z pracy wirtualnego asystenta, jak dwa wcześniej omówione silniki.

O tym, na co warto zwracać uwagę, konfigurując głos bota, wspominamy w tym wpisie. Dowiesz się z niego, czy można voicebotowi nadać unikalną osobowość.

Chcesz dowiedzieć się więcej? Zapraszamy do kontaktu!