Syntezator mowy – prawie każdy o nim słyszał, mało kto potrafi powiedzieć, jak działa. Zatem już wyjaśniamy!

Jesteś w dobrym miejscu. Nieważne, czy planujesz uruchomić voicebota w swojej organizacji, czy po prostu chcesz się dowiedzieć, jak działa syntezator – z tego tekstu dowiesz się, na czym on polega.

W tym wpisie pokazujemy: 

Chcesz wiedzieć więcej o możliwościach SprintBot? Napisz!

Jeden voicebot, wiele nazw

„Nazywam się Bot. Voice Bot” – tak mógłby się przestawić syntezator mowy, gdyby… miał jedną nazwę. Ma ich jednak wiele – np. „wirtualny asystent”. To jednak wciąż określenia tego samego interfejsu głosowego do komunikowania się z użytkownikiem. To szerokie pojęcie obejmuje aplikacje dla asystentów głosowych, jak i botów telefonicznych, służących do automatycznej obsługi połączeń przychodzących i wychodzących.

Zadanie voicebota jest w gruncie rzeczy proste – sprowadza się do automatyzacji obsługi procesów biznesowych w firmie. Dlatego musi płynnie mówić.

Z czego składa się voicebot? 

Przypominamy, voicebot składa się z kilku „warstw”. Do najważniejszych należy interfejs głosowy, (np. ASR – Automatic Speech Recognition), składający się z silnika rozpoznającego ludzki głos i TTS (ang. Text To Speech) – syntezatora mowy, zamieniającego tekst ponownie na głos. I właśnie jego dotyczy ten tekst. Więcej o strukturze bota przeczytasz tu.

Syntezator mowy – co to takiego?

To w skrócie proces zamiany tekstu na dźwięk, czyli mowę. Bardziej szczegółowo, to tzw. transkrypcja, czyli proces generowania dźwięku na podstawie tekstu skopiowanego do schowka systemowego. Syntezator voicebota nie może więc funkcjonować „w próżni”. Musi skądś pobierać, kopiować, dane (tekst), które powinien przetworzyć. Dlatego zawsze współpracuje z innymi silnikami, m.in. odpowiedzialnymi za rozpoznawanie mowy czy intencji rozmówcy.

Nowoczesny syntezator mowy – jakie ma możliwości?

Współczesne syntezatory to nie te znane wielu osobom sprzed kilku lat. „Głos”, którym się posługują, jest naturalny i nie tak „mechaniczny”, jak wcześniej. Co więcej, stosowane obecnie na rynku rozwiązania, pozwalają nawet naśladować głos konkretnej osoby. Wgrywając odpowiednio skonstruowane nagranie lektorskie, możesz potem dowolnie kształtować przyszłe wypowiedzi wirtualnego asystenta bądź asystentki.

Voicebot może mówić dowolnym głosem, nawet Twoim!

Jak wygląda konwersacja z botem w czasie rzeczywistym?

Posłużmy się przykładem silnika, z którego korzysta SprintBot. Zapewnia on naturalną barwę głosu, wiernie imitującą prawdziwą mowę. Dzięki zdolności do interpretowania tekstu i dostosowywania sposobu mówienia do treści, system syntezy mowy pozwala modyfikować:

  • szybkość i głośność mówienia,
  • wysokość głosu,
  • wstawianie pauz,
  • a nawet ekspresję wypowiedzi.

Ten wydajny syntezator umożliwia obsługę wielu kanałów jednocześnie z zachowaniem bardzo niskich czasów odpowiedzi, na poziomie nawet pół sekundy. Zapewnia to pełną naturalność konwersacji.

Dodatkowo nasz bot potrafi akcentować wyrazy kończące zdanie, pytania oraz zdania wykrzyknikowe. Dzięki temu intonacja jest poprawna i naturalna, a tekst czytany płynnie, z odpowiednio dozowanymi pauzami. Algorytmy pozwalają wypowiadać tekst z odzwierciedleniem wielu cech ludzkiego głosu oraz z naturalną ekspresją. Syntetyzator zapewnia dodatkowo pełną kontrolę przebiegu dialogu z klientem, włączając w to m.in. możliwość definiowania alternatywnych profili osobowościowych (np. styl „luzacki”) czy randomizacji odpowiedzi (każda wypowiedź bota może mieć wiele wariantów do losowego wyboru).

Z jakiego rozwiązania korzysta SprintBot?

SprintBot oparty jest o wielokrotnie nagradzany silnik konwersacyjny. Pozwala na samodzielne rozwijanie go przez klienta. SprintBot zapewnia również kompletne środowisko do edycji skryptów konwersacyjnych. Najlepsze rezultaty osiągamy przy współpracy z produktami polskiej firmy Techmo, liderem rynku dla tego typu rozwiązań dla języka polskiego. Do niedawna systemy rozpoznawania mowy działały w oparciu o tzw. gramatyki, czyli definiowane z góry zbiory słów. Produkt Techmo działa w obrębie słownika składającego się z ponad 700 tysięcy słów, rozpoznając mowę ciągłą i zapisując ją jako tekst, bez konieczności tworzenia gramatyk.

Chcesz dowiedzieć się więcej? Zapraszamy do kontaktu!