Lyhyt historia ASR: Automaattinen puheentunnistus

Tämä on ensimmäinen viesti sarjasta Automaattinen puheentunnistus, perustavanlaatuinen tekniikka, joka tekee Descriptin mahdolliseksi. Tutkimme alan nykyistä tilaa, mihin se on menossa - ja tässä erässä, missä se on ollut.

Descript on ylpeä siitä, että hän on osa uuden sukupolven luovia ohjelmistoja, jotka mahdollistavat viimeaikaiset automaattisen puheentunnistuksen (ASR) edistykset. Se on jännittävä aika: tekniikka on äskettäin ylittänyt kynnyksen, joka näkee sen myyvän pitkäaikaisen lupauksensa huomattavasta hyödyllisyydestä, ja se vain paranee.

Tämä hetki on kulunut kauan. Puheentunnistuksen takana olevaa tekniikkaa on kehitetty yli puoli vuosisataa, ja se on käynyt läpi useita voimakkaita lupauksia - ja pettymyksiä. Joten mikä muuttui, jotta ASR olisi elinkelpoinen kaupallisissa sovelluksissa? Ja mitä nämä järjestelmät tarkalleen ottaen pystyivät suorittamaan, kauan ennen kuin kukaan meistä oli kuullut Siristä?

Puhetunnistuksen tarina koskee yhtä paljon erilaisten lähestymistapojen soveltamista kuin raa'an tekniikan kehittämistä, vaikka nämä kaksi ovat erottamattomasti yhteydessä toisiinsa. Vuosikymmenien ajan tutkijat suunnittelivat lukemattomia tapoja leikata kieli: äänien, rakenteen ja tilastojen avulla.

Varhaiset päivät

Ihmisten kiinnostus puheiden tunnistamiseen ja syntetisointiin sai alkunsa sadoista vuosista (ainakin!) - mutta vasta 1900-luvun puolivälissä esivanhempamme rakensivat jotain tunnistettavissa olevan ASR.

1961 - IBM Shoebox

Varhaisimmista hankkeista löytyi Bell Laboratories -yrityksen tutkijoiden vuonna 1952 perustama ”digitaalinen tunnistin”, nimeltään Audrey. Audrey pystyi tunnistamaan puhutut numeeriset numerot etsimällä äänen sormenjälkiä, joita kutsuttiin formanteiksi¹ - äänien tislattuihin olemuksiin.

1960-luvulla IBM kehitti Shoebox - järjestelmän, joka tunnisti numerot ja aritmeettiset komennot, kuten “plus” ja “total”. Parempaa vielä, Shoebox voisi välittää matematiikkaongelman lisäyskoneelle, joka laskee ja tulostaa vastauksen².

Samaan aikaan Japanin tutkijat rakensivat laitteistoa, joka pystyi tunnistamaan puheen osat, kuten vokaalit; muut järjestelmät voisivat arvioida puheen rakennetta selvittääkseen, mihin sana voi loppua. Ja Englannin yliopistollisen korkeakoulun ryhmä pystyi tunnistamaan 4 vokaalia ja 9 konsonania analysoimalla foneemeja, kielen erillisiä ääniä¹.

Mutta vaikka kenttä oli asteittainen askel eteenpäin, ei ollut välttämättä selvää mihin polku suuntasi. Ja sitten: katastrofi.

Lokakuu 1969 - The American Acoustical Society -lehti

Lävistyspakaste

Käännekohta tuli John R. Piercen vuonna 1969 kirjoittamassa kirjeessä.

Pierce oli jo kauan sitten vakiinnuttanut asemansa kansainvälisesti tunnetun insinöörinä; Muiden saavutusten joukossa hän loi sanan transistori (tekniikan nykypäivän yleinen) ja auttoi käynnistämään Echo I: n, ensimmäisen viestintäsatelliitin. Vuonna 1969 hän oli Bell Labsin toimitusjohtaja, joka oli investoinut huomattavasti puheentunnistuksen kehittämiseen.

Pierce esitti huolensa avoimessa kirjeessä, joka julkaistiin The Journal of Acoustical Society of America -lehdessä. Viitaten "rehevään" rahoitusympäristöön toisen maailmansodan ja Sputnikin jälkimainingeissa ja niiden vastuuvelvollisuuden puutteesta Pierce kehotti kenttää tieteellisen puutteellisuuden puutteesta ja väitti, että villit kokeilut olivat käynnissä liikaa:

"Me kaikki uskomme, että puhetiede on mahdollista, huolimatta tutkijoiden käyttäytymiseen liittyvien ihmisten ja tieteen näköisten tulosten puutteesta." - J.R. Pierce, 1969

Pierce asetti työnantajansa rahat sinne, missä hän oli: hän puolusti Bellin ASR-ohjelmia, joita ei palautettaisi ennen kuin hän erosi vuonna 1971.

Edistyminen jatkuu

Onneksi muualla oli enemmän optimismia. 1970-luvun alkupuolella Yhdysvaltain puolustusministeriön ARPA (virasto, joka tunnetaan nykyään nimellä DARPA) rahoitti viisivuotista ohjelmaa nimeltä Speech Understanding Research. Tämä johti useiden uusien ASR-järjestelmien luomiseen, joista menestyvin oli Carnegie Mellon University's Harpy, joka pystyi tunnistamaan hieman yli 1000 sanaa vuoteen 1976 mennessä.

Samanaikaisesti IBM: n ja AT & T: n Bell Laboratories -yritykset ponnistelivat tekniikkaa kohti mahdollisia kaupallisia sovelluksia. IBM asetti etusijalle puheen transkription toimistoviestinnän yhteydessä, ja Bell käsitteli "komento ja hallinta" -skenaarioita: puhevalinnan edeltäjiä ja automatisoituja puhelinpuita, joita tunnemme tänään¹.

Tästä edistyksestä huolimatta ASR oli 1970-luvun loppuun mennessä vielä kaukana siitä, että se oli elinkelpoinen kaikkea muuta kuin erittäin erityisiä käyttötapauksia varten.

Tämä sattuu myös pääni.

'80-luku: Markovs ja muut

Keskeinen käännekohta tuli piilotettujen Markov-mallien (HMM) popularisointiin 1980-luvun puolivälissä. Tämä lähestymistapa merkitsi merkittävää siirtymistä ”yksinkertaisista malli tunnistusmenetelmistä, jotka perustuvat malleihin ja spektraalisen etäisyyden mittaukseen, tilastolliseen menetelmään puheprosessoimiseksi” ⁴ -, joka kääntyi eteenpäin tarkkuuteen.

Suuri osa puheentunnistusjärjestelmien parannuksesta 1960-luvun lopun jälkeen johtuu tämän tilastollisen lähestymistavan voimasta yhdistettynä tietotekniikan edistymiseen, joka tarvitaan HMM: ien toteuttamiseen.

HMM: t valloittivat teollisuuden myrskyllä ​​- mutta ne eivät olleet menestys yön yli. Jim Baker sovelsi niitä ensin puheentunnistukseen 1970-luvun alkupuolella CMU: ssa, ja Leonard E. Baum kuvasi itse mallit 60-luvulla. Vasta 1980, kun Jack Ferguson piti valaisevia luentoja puolustusanalyysien instituutissa, tekniikka alkoi levitä laajemmin⁴.

HMM: n menestys vahvisti Frederick Jelinekin työskentelyn IBM: n Watson Research Centerissä, joka oli 1970-luvun alusta lähtien puolustanut tilastollisten mallien käyttöä puheen tulkitsemiseksi sen sijaan, että yrittäisi saada tietokoneita matkimaan tapaa, jolla ihmiset sulattavat kieltä: merkityksen kautta, syntaksi ja kielioppi (yleinen lähestymistapa tuolloin). Kuten Jelinek myöhemmin totesi: ”Lentokoneet eivät läpäise siipiään.” ⁹

Nämä tietopohjaiset lähestymistavat helpottivat myös kehitystä, jolla oli yhtä paljon tekemistä teollisuuden yhteistyön ja vastuullisuuden kanssa kuin yksittäisiä eureka-hetkiä. Tilastollisten mallien kasvavan suosion myötä ASR-kenttä alkoi ryhtyä testisarjan ympärille, joka tarjoaisi standardoidun vertailuarvon vertailuun. Tätä rohkaisi edelleen jaettujen tietojoukkojen julkaisu: suuret tietoryhmät, joita tutkijat voivat käyttää malliensa kouluttamiseen ja testaamiseen.

Toisin sanoen: viimeinkin oli (epätäydellinen) tapa mitata ja vertailla menestystä.

Marraskuu 1990, Infoworld

Kuluttajien saatavuus - 90-luku

Parempana ja pahempana on, että 90-luvulla kuluttajat saivat automaattisen puheentunnistuksen nykyisessä muodossa. Dragon Dictate julkaisi vuonna 1990 hämmästyttävän 9 000 dollaria, ja antoi 80 000 sanan sanakirjan ja ominaisuuksia, kuten luonnollisen kielen käsittely (katso Infoworld-artikkeli yllä).

Nämä työkalut olivat aikaa vieviä (artikkelissa väitetään toisin, mutta Dragonille tiedettiin kehottamalla käyttäjiä “kouluttamaan” saneluohjelmisto omaan äänensä). Ja se edellytti, että käyttäjät puhuvat tyylikkäästi: Dragon pystyi aluksi tunnistamaan vain 30–40 sanaa minuutissa; ihmiset puhuvat yleensä noin neljä kertaa nopeammin.

Mutta se toimi riittävän hyvin, jotta Dragon kasvoi yritykseksi, jolla on satoja työntekijöitä ja asiakkaita, jotka kattavat terveydenhuollon, lain ja muut. Vuoteen 1997 mennessä yhtiö esitteli Dragon NaturallySpeaking -sovelluksen, joka pystyi kaappaamaan sanoja sujuvammin - ja 150 dollarilla paljon halvemmalla.

Siitä huolimatta, siellä on saattanut olla niin monta surinaa kuin ilahduttavaa: siinä määrin, että ASR: n ympärillä on kuluttajien skeptisyyttä, osa luottovaroista tulisi suunnata näiden aikaisten tuotteiden liian innostuneelle markkinoinnille. Mutta ilman teollisuuden pioneerien James ja Janet Bakerin (jotka perustivat Dragon Systems vuonna 1982) ponnisteluja, ASR: n tuottaminen on saattanut viedä paljon kauemmin.

Marraskuu 1993, IEEE Communications Magazine

Mistä puheentunnistus - jatko

25 vuotta sen jälkeen, kun J.R. Piercen paperi julkaistiin, IEEE julkaisi jatkotoimenpiteen, jonka otsikko on Whhere Speech Recognition: the Next 25 Years⁵, jonka ovat kirjoittaneet kaksi Bell Laboratoriesin (sama laitos, jossa Pierce työskenteli) vanhempi työntekijä.

Jälkimmäisessä artikkelissa tarkastellaan teollisuuden tilaa noin vuonna 1993, kun paperi julkaistiin - ja se toimii eräänlaisena kumouksena alkuperäisen pessimismiin. Niiden joukossa:

  • Piercen kirjeen avainkysymys oli hänen olettamus, että tietokoneiden olisi ymmärrettävä, mitä sanat tarkoittavat, jotta puheentunnistuksesta tulisi hyötyä. Ajan tekniikka huomioon ottaen tämä oli täysin mahdotonta.
  • Pierce oli tietyssä mielessä oikeassa: vuoteen 1993 mennessä tietokoneilla oli heikko ymmärrys kielestä - ja vuonna 2018 heillä on edelleen pahasti tunnistaa merkitys.
  • Piercen virhe johtui siitä, että hän ei pystynyt ennakoimaan lukemattomia tapoja, joilla puheentunnistus voi olla hyödyllinen, vaikka tietokone ei tiedä, mitä sanat tosiasiallisesti tarkoittavat.

Whhere-jatko päättyy ennusteella, jossa ennustetaan, mihin ASR suuntautuu vuoden 1993 jälkeisinä vuosina. Jakso on sovitettu pirteillä suojauksilla ("Ennustamme varmasti, että ainakin yksi näistä kahdeksasta ennusteesta osoittautuu väärin") - mutta se on kiehtovaa samanlaista. Niiden kahdeksan ennusteen joukossa:

  • "Vuoteen 2000 mennessä useammat ihmiset saavat etätietoja ääniikkunoiden kautta kuin kirjoittamalla komentoja tietokoneen näppäimistöille etätietokantojen käyttämiseksi."
  • ”Ihmiset oppivat muokkaamaan puhetapojaan käyttämään puheentunnistuslaitteita, aivan kuten he ovat muuttaneet puhekäyttäytymistään jättääkseen viestit puhelinvastaajiin. Vaikka ihmiset oppivat käyttämään tätä tekniikkaa, ihmiset valittavat aina puheentunnistimista. "

Pimeä hevonen

Tämän sarjan tulevassa erässä tutkimme viimeaikaista kehitystä ja automaattisen puheentunnistuksen nykytilaa. Spoilerihälytys: hermostoverkot ovat olleet pääosassa.

Mutta hermoverkot ovat oikeastaan ​​yhtä vanhoja kuin suurin osa tässä kuvatuista lähestymistavoista - ne otettiin käyttöön 1950-luvulla¹! Vasta nykyajan laskentateho (yhdessä huomattavasti suurempien tietojoukkojen kanssa) muutti maisemaa.

Mutta olemme menossa eteenpäin itsestämme. Pysy kuulolla seuraavaa automaattisen puheentunnistuksen viestiä seuraamalla kuvaa Mediumissa, Twitterissä tai Facebookissa.

Aikajana Juang & Rabiner¹: n kautta

Huomaa: ASR: n historia on täynnä enemmän tekijöitä ja innovaatioita, kuin pystymme yksityiskohtaisesti tässä teoksessa; olemme käsittäneet joitain tärkeimpiä välitavoitteita ja sisällyttäneet alla linkkejä lisälukemiseen. Jos olemme jättäneet jotain elintärkeää, kerro meille!

Lisälukema

Tässä on resursseja, joista oli apua tämän kappaleen kirjoittamisessa, joista osa menee paljon yksityiskohtaisemmin:

  1. Automaattinen puheentunnistus - lyhyt historia teknologian kehityksestä. B.H. Juang & Lawrence R. Rabiner. Jos olet kiinnostunut laajemmasta ASR-historiasta, tämä on hieno resurssi.
  2. Kenkärasia - IBM: n historianäyttelyt

3. Missä puheentunnistus? - J. R. Pierce

4. Ensi käden: Piilotettu Markov-malli - Lawrence R. Rabiner

5. Missä tahansa puheentunnistus: Seuraavat 25 vuotta - D.B. Roe & J.G. Wilpon

6. Puheen ja äänentunnistuksen aikajana - Wikipedia

7. Puheentunnistus - Wikipedia

8. Fortune-artikkeli Dragon Naturally Speakingista, 1998 - Shaifali Puri

9. Frederick Jelinek, joka antoi koneille avaimen ihmisen puheeseen, kuoli 77-vuotiaana - Steve Lohr

10. Viidenkymmenen vuoden edistyminen puheessa ja puhujien tunnustamisessa - Sadaoki Furui

Kiitos Remeetingin Arlo Farialle ja Adam Janinille, jotka tarjosivat arvokasta historiallista taustaa.