[ HiveFive @ 02.09.2004. 16:28 ] @
Ni samo pitanje ne znam odakle da pocnem :)

Ovako, mnogo mi je dosadno pa mi je palo na pamet da radim na autentikaciji pomocu glasa. Ali zapeo sam na samom pocetku. Kako da uporedjujem dva .wav fajla. Da li neko ima neki dobar link ili bilo kakav pointer na neku dokumentaciju? Bilo kakva informacija bila bi mi od koristi, samo ako moze bez Speech API-ja posto bih voleo da to izbegnem.
[ leka @ 02.09.2004. 16:35 ] @
Za pocetak idi na wotsit.org i nadji wav specifikaciju pa odradi kod koji cita/pise wav fajlove i iz njih izvlaci raznorazne podatke. Nakon toga mozes da napises kod koji cita redom chunk-ove, izvlaci semplove, uporedjuje ih i slicno ... Interesantna ideja, samo trazi jako puno raznoraznih znanja, i puuuno vremena!
[ Ivan Dimkovic @ 02.09.2004. 16:38 ] @
Paz 'vamo... to sto zelis je citava oblast industrije i zove se digital signal processing...

Prvo bi ti preporucio da procitas neku knjigu koja je uvod u Audio DSP:

http://www.amazon.com/exec/obi...4-4786369?v=glance&s=books
http://www.amazon.com/exec/obi...?%5Fencoding=UTF8&v=glance

DSP teorija ce ti pomoci da shvatis sta je zapravo PCM WAV fajl (nekomprmovani wav fajl) i koje su osobine digitalnog audio signala i kako se on predstavlja u raznim domenima (vremenski i frekventni) i neophodne matematicke transformacije za manipulaciju sa signalom u vremenskom i frekventnom domenu.

Onda, mozes da predjes na identifikaciju glasa - ali tek kad ovladas sa osnovnim "alatima" (Vremensko/Frekventne transformacije: DFT/FFT, DCT, MDCT, digitalni filteri (FIR/IIR), konvolucije, autokorelacija, medjukorelacija, linearno prediktivno kodiranje (LPC) [autokorelacija + levinson durbin algoritam], skalarna i vektorska kvantizacija, SNR, itd..) jer je prepoznavanje glasa "framework" koji koristi ove osnovne alate da bi se iz signala izvukle odredjene osobine koje su nam bitne za analizu.

Recimo ovo:

http://www.amazon.com/exec/obi...?%5Fencoding=UTF8&v=glance

ili ovo:

http://www.amazon.com/exec/obi...?%5Fencoding=UTF8&v=glance


Takodje, pogledaj i open-source speech recognition projekte:

http://cmusphinx.sourceforge.net/html/cmusphinx.php

Ali bez razumevanja teorije tesko da ces moci da se snadjes u kodu koji moze biti vrlo kompleksan ljudima koji nisu strucni.

Puno srece :)
[ HiveFive @ 02.09.2004. 17:03 ] @
Nisam ocekivao ovako brze odgovore, ja sam proveo evo vec skoro nedelju dana pokusavajuci nesto da nadjem na netu. Ali sve se uglavnom svodilo na prodaju gotovih proizvoda.
Puno vam hvala
[ milanche @ 03.09.2004. 02:31 ] @
Ivan ti je dao odlicne putokaze - to je to sto te ceka ako zagrizes problem.

Porediti WAV file-ove je lako izvodljivo, ali je daleko od dovoljnog da bi obavilo
primarni zadatak (tj. prepoznavanje govora). Ovladati svime nabrojanim (DFT/FFT,
digitalni filtri, korelacije, power spectrum estimation, izdvajanja formant-a i slicnih stvari)
zahteva puno vremena i talenta.

Ne znam koliko si self-driven i koliko imas vremena, ali racunaj na nekoliko godina
pripremnog rada. Mozda je najbolji start da uzmes negde kurs iz DSP-a. Ima puno
odlicnih knjiga, medjutim sve su ih pisali suvi geniji (Papoulis, Prolakis/Manolakis,
Oppenheimer/Shaffer), tako da je mozda najzgodnije za pocetak da te neko provede
kroz odabrana poglavlja. Posle, ako si talentovan i ako te oblast zanima mozes i sam
dosta toga da uradis.

Ima jos jedan detalj - masa knjiga razmatra cisto DSP programiranje pri cemu se
usvaja da je signal predstavljen floating point promenljivama. Za komercijalne svrhe,
(tj. za implementacije na konkretnim procesorima u realnom vremenu) treba znati
nesto sto nisam puno sretao po knjigama - rad sa signalima predstavljenim u integer
promenljivama. Nije tesko shvatiti sustinu (daleko lakse nego shvatiti DSP algoritme),
ali postoji gomila numerickih trikova koji zahtevaju paznju, a nisu nigde dati eksplicitno.