Kratka zgodovina ASR: Samodejno prepoznavanje govora

To je prva objava v nizu o samodejnem prepoznavanju govora, temeljni tehnologiji, ki omogoča Descript. Raziskovali bomo trenutno stanje v industriji, kamor gre - in v tem obroku, kjer je bil.

Descript je ponosen, da je del nove generacije kreativne programske opreme, ki jo omogočajo nedavni napredki pri samodejnem prepoznavanju govora (ASR). Čas je vznemirljiv: tehnologija je pred kratkim prestopila prag, v katerem je vidno, da trguje z dolgoletnimi obljubami za izjemno uporabnost in je le še boljši.

Ta trenutek že dolgo prihaja. Tehnologija za prepoznavanje govora se razvija že več kot pol stoletja, skozi več obdobij in razočaranj. Kaj se je torej spremenilo, da je ASR izvedljiv v komercialnih aplikacijah? In kaj točno bi lahko ti sistemi dosegli, že dolgo preden je kdo od nas slišal za Siri?

Zgodba o prepoznavanju govora govori toliko o uporabi različnih pristopov kot o razvoju surove tehnologije, čeprav sta oba neločljivo povezana. V desetletjih so raziskovalci razmišljali o nešteto načinov za seciranje jezika: po zvokih, strukturi - in s statistiko.

Zgodnji dnevi

Ljudsko zanimanje za prepoznavanje in sintetiziranje govora sega vsaj sto let (vsaj!) - toda šele sredi 20. stoletja so naši predhodniki zgradili nekaj prepoznavnega kot ASR.

1961 - IBM Shoebox

Med najzgodnejšimi projekti je bil prepoznavalnik številk, imenovan Audrey, ki so ga ustvarili raziskovalci v Bell Laboratories leta 1952. Audrey je lahko prepoznala izgovorjene številčne številke z iskanjem zvočnih prstnih odtisov, imenovanih formants¹ - destilirane esence zvokov.

V šestdesetih letih je IBM razvil Shoebox - sistem, ki je lahko prepoznal števke in aritmetične ukaze, kot sta „plus“ in „skupno“. Še bolje, Shoebox lahko matematično težavo prenese na dodajalni stroj, ki bi izračunal in natisnil odgovor².

Medtem so raziskovalci na Japonskem zgradili strojno opremo, ki bi lahko prepoznala sestavne dele govora, kot so samoglasniki; drugi sistemi bi lahko ocenili strukturo govora in ugotovili, kje se lahko beseda konča. In ekipa na University College v Angliji je lahko prepoznala 4 samoglasnike in 9 soglasnike z analizo fonemov, diskretnih zvokov jezika¹.

Medtem ko je polje delalo korake naprej, ni bilo nujno jasno, kam gre pot. In potem: katastrofa.

Oktober 1969 - Časopis Akustičnega društva Amerike

Piercing zamrznitev

Prelomnica je nastala v obliki pisma, ki ga je leta 1969 napisal John R. Pierce.

Pierce se je že davno uveljavil kot inženir mednarodnega slovesa; med drugimi dosežki je skoval besedo tranzistor (danes vseprisotno v inženiringu) in pomagal zagnati Echo I, prvi v svetu komunikacijski satelit. Do leta 1969 je bil direktor podjetja Bell Labs, ki je veliko vložil v razvoj prepoznavanja govora.

V odprtem pismu³, objavljenem v reviji The Journal of Acoustical Society of America, je Pierce predstavil svoje pomisleke. Navajajoč "bujno" okolje financiranja po drugi svetovni vojni in Sputniku in njegovo pomanjkanje odgovornosti, je Pierce opomnil polje zaradi pomanjkanja znanstvene strogosti, saj je zatrdil, da se dogaja preveč divjih eksperimentov:

"Vsi verjamemo, da je možna znanost govora kljub pomanjkanju na področju ljudi, ki se obnašajo kot znanstveniki, in o rezultatih, ki so videti kot znanost." - J. R. Pierce, 1969

Denar delodajalca je Pierce položil tja, kamor so bila usta: zagovarjal je Bell-ove programe ASR, ki jih ne bi ponovno uvedli, dokler ni odstopil leta 1971.

Napredek se nadaljuje

K sreči je bilo drugje več optimizma. V začetku sedemdesetih let prejšnjega stoletja je ameriška obrambna agencija ARPA ameriškega ministrstva za obrambo (agencija zdaj znana kot DARPA) financirala petletni program z naslovom Razumevanje govora. To je povzročilo nastanek več novih sistemov ASR, med katerimi je bil najuspešnejši Harpy University of Carnegie Mellon, ki je do leta 1976 lahko prepoznal nekaj več kot 1000 besed.

Medtem so prizadevanja IBM in AT & T's Bell Laboratories tehnologijo potisnila k možnim komercialnim aplikacijam. IBM je določil prednostno prepisovanje govora v okviru pisarniške korespondence, Bell pa se je ukvarjal s scenariji „vodenja in nadzora“: predhodniki govornega klicanja in samodejnimi telefonskimi drevesi, ki jih poznamo danes¹.

Kljub temu napredku je bil ASR do konca sedemdesetih let še vedno daleč od tega, da bi bil sposoben za vse, razen za zelo specifične primere uporabe.

Tudi mene boli glava.

Osemdeseta: Markovi in ​​še več

Ključna prelomnica je prišla s popularizacijo skritih modelov Markov (HMMs) sredi osemdesetih let. Ta pristop je pomenil pomemben premik "od preprostih metod prepoznavanja vzorcev, ki temeljijo na predlogih in merilu spektralne razdalje, do statistične metode za obdelavo govora" ⁴ - ki je natančno prevedla korak naprej.

Velik del izboljšav sistemov za prepoznavanje govora od poznih šestdesetih let prejšnjega stoletja je posledica moči tega statističnega pristopa, skupaj z napredkom računalniške tehnologije, potrebne za uvajanje HMMs.⁵

HMM-ji so industrijo prevzeli viharji - vendar čez noč niso bili uspešni. Jim Baker jih je prvič uporabil za prepoznavanje govora v zgodnjih 70. letih na CMU, same modele pa je v 60. letih opisal Leonard E. Baum. Šele leta 1980, ko je Jack Ferguson na Inštitutu za obrambne analize predaval svetleča predavanja, se je tehnika začela širiti širše⁴.

Uspeh HMM-ov je potrdil delo Fredericka Jelineka v IBM-ovem raziskovalnem centru Watson, ki se je od zgodnjih sedemdesetih let zavzemal za uporabo statističnih modelov za tolmačenje govora, namesto da bi skušal računalnike posnemati, kako ljudje prebavljajo jezik: s pomenom, skladnja in slovnica (takrat pogost pristop). Kot je Jelinek pozneje izjavil: "Letala ne mahajo s krili." ⁹

Ti pristopi, ki temeljijo na podatkih, so tudi olajšali napredek, ki je imel toliko skupnega sodelovanja z industrijo in odgovornosti kot posameznih trenutkov eureka. Z naraščajočo priljubljenostjo statističnih modelov se je polje ASR začelo združevati okrog skupek testov, ki bi zagotovili standardizirano referenčno vrednost za primerjavo. To je spodbudilo tudi izdajanje skupnih podatkovnih nizov: velike množice podatkov, ki bi jih raziskovalci lahko uporabili za usposabljanje in testiranje svojih modelov.

Z drugimi besedami: končno je obstajal (nepopoln) način za merjenje in primerjavo uspeha.

November 1990, Infoworld

Razpoložljivost potrošnikov - 90. leta

Na boljše in slabše je v 90. letih potrošnike uvedlo v samodejno prepoznavanje govora v obliki, kakršno poznamo danes. Dragon Dictate je bil predstavljen leta 1990 za vrtoglavih 9.000 dolarjev, pri čemer je bil napisan 80.000 besed in lastnosti, kot je obdelava naravnega jezika (glej zgornji članek Infoworld).

Ta orodja so bila zamudna (članek trdi drugače, vendar je Dragon postal znan po tem, da je uporabnike pozval, naj programsko opremo za narekovanje »usposobijo« na svoj glas). In uporabniki so zahtevali, da govorijo prešerno: Zmaj je na začetku lahko prepoznal le 30-40 besed na minuto; ljudje običajno govorijo približno štirikrat hitreje od tega.

Vendar je Dragon uspel dovolj dobro, da se je razvil v podjetje s sto zaposlenimi in kupci, ki se nanašajo na zdravstvo, pravo in drugo. Leta 1997 je podjetje predstavilo Dragon NaturallySpeaking, ki je lahko zajemal besede v bolj tekočem tempu - in s 150 dolarji, precej nižjo ceno price.

Kljub temu je morda prišlo do toliko godrnjanja kot cviljenja veselja: kolikor je danes okrog ASR potrošniška skeptičnost, bi morali del zaslug pretirano navdušiti za trženje teh zgodnjih izdelkov. Toda brez prizadevanj pionirjev industrije in Jamesa Janet Baker (ki sta leta 1982 ustanovila Dragon Systems) bo produktizacija ASR morda trajala precej dlje.

November 1993, revija IEEE Communications

Kjer je prepoznavanje govora - The Sequel

25 let po objavi prispevka J. R. Piercea je IEEE objavila nadaljevanje z naslovom Prepoznavanje govora: naslednjih 25 let «, katerega avtor sta dva starejša sodelavca Bell Laboratories (iste institucije, kjer je Pierce delal).

Slednji članek raziskuje stanje v industriji okoli leta 1993, ko je bil časopis objavljen - in služi kot neke vrste izpodbijanje pesimizma izvirnika. Med svojimi odvzemi:

  • Ključno vprašanje Piercejevega pisma je bila njegova domneva, da bodo računalniki morali razumeti, kaj pomenijo, da bi prepoznavanje govora postalo uporabno. Glede na takratno tehnologijo je bilo to povsem neizvedljivo.
  • V nekem smislu je imel Pierce prav: do leta 1993 so računalniki manj razumeli jezik - v letu 2018 pa so še vedno zelo slabi v razpoznavanju pomena.
  • Napaka Piercea je v tem, da ni mogel predvideti neštetih načinov prepoznavanja govora, tudi če računalnik ne ve, kaj besede dejansko pomenijo.

Nadaljevanje Whitherja se konča z napovedjo in napoveduje, kam naj bi ASR odšel v letih po letu 1993. Odsek je speljan v predrzne žive meje ("Prepričljivo predvidevamo, da se bo vsaj ena od teh osmih napovedi izkazala za napačne"), vendar intrigantno je vse enako. Med njihovimi osmimi napovedmi:

  • "Do leta 2000 bo več ljudi dobilo informacije na daljavo prek glasovnih dialogov kot z vnašanjem ukazov na računalniških tipkovnicah za dostop do oddaljenih baz podatkov."
  • »Ljudje se bodo naučili spreminjati svoje govorne navade z uporabo naprav za prepoznavanje govora, tako kot so spremenili svoje govorno vedenje in puščali sporočila na odzivnih napravah. Čeprav se bodo naučili uporabljati to tehnologijo, se bodo ljudje vedno pritoževali nad prepoznavanjem govora. "

Temni konj

V naslednjem delu v tej seriji bomo raziskovali novejša dogajanja in trenutno stanje samodejnega prepoznavanja govora. Opozorilo o spojlerju: nevronske mreže so igrale glavno vlogo.

Toda nevronske mreže so pravzaprav stare toliko kot večina opisanih pristopov - uvedeni so bili v petdesetih letih prejšnjega stoletja¹! Šele ko so računske moči moderne dobe (skupaj z veliko večjimi naboji podatkov) spremenile pokrajino.

Ampak smo že pred sabo. Spremljajte našo naslednjo objavo o samodejnem prepoznavanju govora, tako da sledite Descriptu na mediju, Twitterju ali Facebooku.

Časovna premica prek Juang & Rabiner¹

Opomba: Zgodovina ASR je napolnjena z več prispevki in novostmi, kot jih lahko podrobneje predstavimo v tem delu; opisali smo nekaj pomembnih mejnikov in v nadaljevanju vključili povezave do nadaljnjega branja. Če smo zamudili kaj vitalnega, nas obvestite!

Nadaljnje branje

Tukaj so viri, ki so bili v pomoč pri pisanju tega dela, od katerih so nekateri podrobneje opisani:

  1. Samodejno prepoznavanje govora - kratka zgodovina tehnološkega razvoja. B.H. Juang & Lawrence R. Rabiner. Če vas zanima obsežnejša zgodovina ASR, je to odličen vir.
  2. Shoebox - IBM Zgodovinski eksponati

3. Kam prepoznavanje govora? - J. R. Pierce

4. Iz prve roke: skriti Markov model - Lawrence R. Rabiner

5. Kjer je prepoznavanje govora: naslednjih 25 let - D.B. Roe & J.G. Wilpon

6. Časovna premica govora in prepoznavanja glasu - Wikipedija

7. Prepoznavanje govora - Wikipedija

8. Članek o sreči o zmaju, ki je naravno govoril, 1998 - Shaifali Puri

9. Frederick Jelinek, ki je dal ključ do človeškega govora, umre pri 77 letih - Steve Lohr

10. Petdeset let napredka pri prepoznavanju govora in govorcev - Sadaoki Furui

Hvala Arlu Faria in Adamu Janinu iz Remeetinga, ki sta zagotovila dragocen zgodovinski kontekst.