← Alle Beiträge
← Zurück zum Blog
Blog
Das eigentliche Problem ist Audio
Mehrere Sprecher, ein laufender Fernseher, Hall und Echo: Bevor Verstehen überhaupt anfängt, muss das Signal stimmen.
Verstehen fängt vor dem Verstehen an
Man stellt sich Sprachverstehen als ein Sprachmodell vor, dem man Text gibt. In der echten Wohnung ist die viel härtere Frage: Welcher Text?
Im Wohnzimmer reden zwei Personen gleichzeitig, der Fernseher läuft, die Wände werfen Hall zurück, und der eigene Lautsprecher produziert Echo. Bevor Ear semantisch bewerten kann, ob es gemeint ist, muss Echo überhaupt erst ein sauberes Signal liefern.
Lessons Learned
- Beamforming und Echo-Cancellation sind kein Detail, sondern die Grundlage.
- Ein Modul, das auf schlechtem Audio "gut genug" funktioniert, fällt im echten Raum sofort durch.
- Die Hardware-Schicht (Node, Echo, Link, Cast) ist deshalb kein Anhängsel, sondern Teil des Nervensystems.
Deshalb ist die Reihenfolge in unserer Pipeline kein Zufall: Erst der Körper, dann der Verstand.
← Zurück zum Blog