Logo el.androidermagazine.com
Logo el.androidermagazine.com

Η Google ενημερώνει την τεχνολογία πίσω από τη φωνητική αναζήτηση για να γίνει πιο γρήγορη και πιο ακριβής

Anonim

Η Google έχει κατασκευάσει μια νέα τεχνολογία για να ενεργοποιήσει τη φωνητική της αναζήτηση, την οποία η εταιρεία λέει ότι θα κάνει ακόμα πιο γρήγορα και ακριβέστερα. Η νέα τεχνολογία χρησιμοποιεί τεχνικές κατάρτισης Connectionist Temporal Classification (CTC) και τεχνικές διακριτικής εκπαίδευσης ακολουθίας. Το 2012, η ​​Google άλλαξε από το Gaussian Mixture Model (GMM) σε Deep Neural Networks (DNNs), τα οποία επέτρεψαν στην εταιρεία να εκτιμήσει καλύτερα ποιο ήχο ένας χρήστης παρήγαγε εκείνη την εποχή και παρέδωσε αυξημένη ακρίβεια αναγνώρισης ομιλίας.

Τα βελτιωμένα ακουστικά μοντέλα μας βασίζονται σε επαναλαμβανόμενα νευρωνικά δίκτυα (RNN). Τα RNN έχουν βρόχους ανατροφοδότησης στην τοπολογία τους, επιτρέποντάς τους να μοντελοποιήσουν τις χρονικές εξαρτήσεις: όταν ο χρήστης μιλάει / u / στο προηγούμενο παράδειγμα, η συσκευή αρθρώσεώς τους προέρχεται από ένα / j / ήχο και από ένα / m / ήχο πριν. Προσπαθήστε να το λέτε δυνατά - "μουσείο" - ρέει πολύ φυσικά σε μια αναπνοή, και οι RNNs μπορούν να συλλάβουν αυτό. Ο τύπος RNN που χρησιμοποιείται εδώ είναι ένα RNN μακράς βραχυπρόθεσμης μνήμης (LSTM) το οποίο, μέσω των κυψελών μνήμης και ενός εξελιγμένου μηχανισμού πύλης, απομνημονεύει τις πληροφορίες καλύτερα από άλλους RNNs. Η υιοθέτηση αυτών των μοντέλων έχει ήδη βελτιώσει σημαντικά την ποιότητα του αναγνωριστικού μας.

Η αλλαγή στην τεχνολογία έχει γίνει από την Google και τώρα χρησιμοποιείται για την ενεργοποίηση φωνητικών αναζητήσεων στην εφαρμογή Google τόσο στο iOS όσο και στο Android, καθώς και στην υπαγόρευση σε συσκευές Android.

Πηγή: Blog έρευνας της Google