Czy wiesz, w jaki sposób boty głosowe rozumieją, co do nich mówimy? Jeśli nie do końca – to zapraszamy do lektury tego wpisu blogowego.

W poprzednich wpisach omówiliśmy, jak działa AIML czy syntezator mowy. W tym skupiamy się na ASR, ang. Automatic Speech Recognition, czyli silniku rozpoznawania mowy.

W tekście pokazujemy:

Chcesz wiedzieć więcej o możliwościach SprintBot? Napisz!

Co dokładnie kryje się pod skrótem ASR?

Zamiana mowy na tekst, czyli „język komputerów” nie jest nowym zjawiskiem. Polecenia głosowe, choć bardzo proste, można było wydawać maszynom już w latach 70-tych. Jednak dopiero w XXI w., wraz z pojawieniem się urządzeń mobilnych, wzrosła potrzeba „gadania” z komputerami.

Klasyczne systemy rozpoznawania mowy pracują na podstawie tzw. gramatyk, czyli predefiniowanych przez użytkownika zbiorach słów, haseł kluczowych, których szukają w naszej wypowiedzi. Nowoczesne, po pierwsze posiadają już własne bazy słów, nie musisz ich tworzyć samodzielnie. Po drugie, rejestrują całą Twoją wypowiedź, czyli rozpoznają mowę ciągłą, więc nie trzeba tworzyć gramatyk. Stąd nazwa Automatic Speech Recognition, czyli automatyczne rozpoznawanie MOWY, a nie SŁÓW.

Dlaczego ASR można porównać z ludzkim mózgiem?

Większość współczesnych narzędzi do rozpoznawania mowy ciągłej korzysta z tzw. wielowarstwowych sieci neuronowych o adaptowalnych architekturach, czyli strukturze przypominającej nasz mózg. Co to oznacza w praktyce?

Sieć neuronowa sztucznej inteligencji to ogólna nazwa nadawana strukturom matematycznym i modelom programowym (poszczególne elementy to tzw. sztuczne neurony), odpowiadającym za przetwarzanie sygnałów, które otrzymuje maszyna.

Teraz skupmy się na słowie „wielowarstwowe”. Oznacza to, że punkty, sztuczne neurony, umieszczone są w różnych warstwach, a proces obliczeniowy przebiega przez nie po kolei, dzięki czemu obliczenia są doprecyzowywane na kolejnych etapach. Liczbę i strukturę warstw możesz edytować.

Adaptowalność silnika oznacza zaś, że w zależności od potrzeb dodaje lub odejmuje on automatycznie poszczególne punkty w procesie przetwarzania. Wszystko zależy od jakości i ilości danych, które otrzyma, czyli od tego, co i w jaki sposób powiesz.

Neuronowy charakter ASR pozwala uzyskać efekt niezależnie od ilości i jakości danych.

Dwie płaszczyzny działania ASR

Wchodząc dalej w szczegóły działania zamiany mowy na tekst, który rozumie maszyna – skuteczny ASR bazuje też na różnych modelach akustycznych i językowych, pozwalających mu lepiej analizować co „usłyszy”. Oto co analizują te modele:

  • akustyczne – to profile warunków, w jakich odbywa się rozmowa, czyli np. tryb „na zewnątrz”, „w dużej sali”, „małe pomieszczenie” itp. W ramach każdego z nich brane są pod uwagę dodatkowe czynniki mogące zakłócać rozpoznanie poszczególnych dźwięków, czyli np. szumy w tle, pogłos, gorsze rozprzestrzenianie dźwięków itd.
  • językowe – zestawy reguł związanych z językiem, którym posługują się rozmówcy bota. Zapisane w nich są nie tylko reguły gramatyczne, ale też informacje potrzebne do rozpoznawania słownictwa fachowego, gwary, żargonu branżowego itp.

Jak mierzyć efektywność rozpoznawania mowy?

Teraz przejdźmy do kwestii mierzenia skuteczności silnika ASR. Podstawowym wyznacznikiem jest tzw. WER, czyli Word Error Rate. Jest to specjalistyczna miara, określająca poziom błędu w rozpoznawaniu słów wypowiedzianych do asystenta głosowego. Pokazuje on, ile słów nie zostało rozpoznanych. Co ciekawe, czasem cały proces rozpoznania mowy może zakończyć się sukcesem, nawet jak któreś słowo nie zostanie poprawnie zidentyfikowane, np. bot błędnie wykryje jego końcówkę. W przypadku SprintBot współczynnik WER wynosi do 5% w zależności od zastosowania, ale najczęściej nie przekracza on 1%.

WAŻNE! ASR odpowiada za rozpoznanie mowy, a nie jej zrozumienie

Z jakiego rozwiązania korzysta SprintBot?

SprintBot korzysta z najwyższej jakości silnika rozpoznawania mowy, który został stworzony z myślą o języku polskim. Zazwyczaj bazujemy na narzędziu opracowanym przez polską firmę Techmo. Jest on sam w sobie bardzo skuteczny, ale żeby zapewnić Ci jak najlepszą jakość i zwiększyć Twoje zadowolenie z decyzji o uruchomieniu bota głosowego w firmie, dodajemy do niego swoje „trzy grosze”, czyli autorski kod i rozwiązania techniczne. Dzięki temu nasz bot jest bardzo skuteczny, o czym świadczy niski poziom WER, o czym wspomnieliśmy wyżej.

Chcesz dowiedzieć się więcej? Zapraszamy do kontaktu!