OpenAI hört Sie flüstern | Hackaday

Wenn Sie eine hochwertige Spracherkennung ausprobieren möchten, ohne etwas zu kaufen, viel Glück. Sicher, Sie können die Spracherkennung auf Ihrem Telefon ausleihen oder einige virtuelle Assistenten auf einem Raspberry Pi zwingen, die Verarbeitung für Sie zu übernehmen, aber diese sind nicht gut für wichtige Arbeiten, die Sie nicht an einen geschlossenen Code binden möchten. Lösung OpenAI wurde eingeführt Flüstern, von dem sie behaupten, dass es sich um ein neuronales Open-Source-Netzwerk handelt, das “sich der Robustheit und Genauigkeit der englischen Spracherkennung auf menschlicher Ebene annähert”. Es scheint zumindest auch in anderen Sprachen zu funktionieren.

Wenn Sie die Demos ausprobieren, werden Sie sehen, dass schnelles Sprechen oder mit einem schönen Akzent die Ergebnisse nicht zu beeinflussen scheint. Die Veröffentlichung erwähnt, dass es mit 680.000 Stunden überwachter Daten trainiert wurde. Wenn Sie so viel mit einer KI sprechen müssten, würden Sie 77 Jahre ohne Schlaf brauchen!

Intern wird die Sprache in 30-Sekunden-Häppchen aufgeteilt, die ein Spektrogramm speisen. Encoder verarbeiten das Spektrogramm und Decoder verdauen die Ergebnisse unter Verwendung einiger Vorhersagen und anderer Heuristiken. Etwa ein Drittel der Daten stammt aus nicht englischsprachigen Quellen und wurde dann übersetzt. Sie können die lesen Papier darüber, wie verallgemeinertes Training einige speziell trainierte Modelle bei Standard-Benchmarks unterbietet, aber sie glauben, dass Whisper mit zufälliger Sprache über spezifische Benchmarks hinaus besser abschneidet.

Die Modellgröße in der „kleinen“ Variante liegt noch bei 39 Megabyte, die „große“ Variante bei über anderthalb Gigabyte. Das wird also wahrscheinlich in absehbarer Zeit nicht auf Ihrem Arduino funktionieren. Wenn Sie jedoch codieren möchten, ist alles eingeschaltet GitHub.

Da sind andere Lösungen, aber nicht so robust. Wenn Sie den Assistenten-basierten Weg gehen möchten, hier sind Sie etwas Inspiration.

Leave a Comment