AI - Audio
AI - Audio
Der Bereich der Artificial Intelligence (AI) ist für uns besonders spannend, weil er sich rasant entwickelt und die Nachfrage in den verschiedensten Bereichen stark ansteigt. Wir haben die Möglichkeit, selbst innovativ zu arbeiten und Lösungen anzubieten, die es so bislang noch nicht gegeben hat. Im Bereich Audio arbeiten wir mit Wort-zu-Text-Lösungen, Transkription und Übersetzungen für ganz verschiedene Branchen. Die größten Herausforderungen liegen hier in der Sprache selbst, die organisch gewachsen und nicht immer logisch ist – hier muss die AI lernen, „menschlich“ zu denken.
Übersetzung
Personalisierte Audiobücher
Übersetzungs-App
Für ein Verkehrsunternehmen entwickeln wir eine App, die das Gesprochene in einer anderen Sprache als Audio an andere Nutzer ausgibt. Genutzt wird die App für interne Telefonate zwischen Mitarbeitern verschiedener Länder oder bei Kundengesprächen mit Sprachbarrieren. Die App übersetzt live Gespräche, etwa von Englisch zu Deutsch oder Deutsch zu Französisch. Manche Phrasen aus der Branche stehen nicht in Wörterbüchern, daher machen wir daraus predefined messages (PDMs), die die AI nach unseren Vorgaben übersetzt. Während der Entwicklung generiert die App aus allem Gesprochenen Audiodateien, die in ein Analysesystem geleitet und von Linguisten ausgewertet werden. Diese korrigieren die Texte und verbessern die AI, die auch Dialekte zu identifizieren lernt. Die App stellt die Ausgangssprache über Spracherkennung fest. Wir nutzen die Infrastruktur von Azure, damit die App jederzeit nutzbar ist. Zudem liefert Azure die passenden Sicherheitsrichtlinien und DSGVO-konforme Infrastruktur in Deutschland: Sprachaufzeichnungen sind persönliche Daten; man muss auf Anfrage einzelne Dateien löschen können.
Personalisierte Audiobücher
Auch für direkte Konsumenten-Produkte gibt es viele Anwendungsfälle für AI-Solutions im Audio-Bereich. Deshalb haben wir das Produkt NarrAItor - Personalized-Audiobooks gebaut. Nicht immer kann ein Eltern- oder Großelternteil da sein, um einem Kind eine Geschichte vorzulesen. Personalisierte Audiobücher machen es aber möglich, dass ganze Bücher in der Stimme einer bestimmten Person vorgetragen werden, ohne dass sie sich tatsächlich beim Vorlesen aufnimmt. Dafür benötigen wir lediglich eine Audiodatei von 30 bis 60 Sekunden Länge, damit die von uns generierte Stimme dem Original sehr ähnlich ist. Wir arbeiten kontinuierlich daran, die Qualität unserer Audiobooks durch das Training der Models zu optimieren und neue Models von ElevenLabs einzubinden. Auch das Produkt selbst ist durch einen schnellen Iterations- und Development-Zyklus getrieben. Dafür setzen wir auf ein Zusammenspiel aus einem Basis-AI Repository mit React, TypeScript und NextJs sowie einer automatisierten und skalierbaren Infrastruktur mit Github und Vercel. Personalisierte Audiobücher ausprobieren
Unsere Anschrift
KöpenickerAufgang 1
10179 Berlin