Neue Audio KI generiert neben Musik auch beliebige Soundeffekte: AudioLDM ermöglicht Sounddesign per Textprompt

Wie rasant die Entwicklung im Bereich KIs voranschreitet, zeigt sich u.a. gerade im Feld “Text-to-Music”, also von KIs, welche per Textbeschreibung beliebige Musik generieren: hatte Google gerade noch MusicLM vorgestellt, folgt nun wenige Tage später AudioLDM eines Forscherteams der University of Surrey und des Imperial College. Ein auch für Filmemacher sehr vielversprechendes Projekt, denn es synthetisiert nicht nur Musikstücke samt Instrumenten per Textprompt, sondern auch Geräusche (SFX aka Sound Effects). So kann AudioLDM auf Wunsch auch ganze Geräuschkulissen, ideal für die Sounduntermalung von Filmen, produzieren.

Die rasante Entwicklung im Bereich der künstlichen Intelligenz (KI) zeigt sich immer deutlicher, insbesondere im Bereich der “Text-to-Music”-Technologie. Kürzlich stellte Google das Projekt MusicLM vor, das mithilfe von Textbeschreibungen beliebige Musik generieren kann. Nur wenige Tage später präsentierte ein Forscherteam der University of Surrey und des Imperial College das Projekt AudioLDM. Dieses vielversprechende Projekt ermöglicht nicht nur die Synthese von Musikstücken und Instrumenten anhand von Textvorgaben, sondern auch die Erzeugung von Soundeffekten (SFX). Dadurch kann AudioLDM auf Wunsch vollständige Klanglandschaften erzeugen, die ideal für die akustische Untermalung von Filmen geeignet sind.

Open Source und Integration in Videoschnittprogramme

Das Team hinter AudioLDM plant, das Programm und das Modell als Open Source online zur Verfügung zu stellen. Dadurch können nicht nur Benutzer es kostenlos auf ihren eigenen Computern nutzen, sondern es auch verbessern und in andere Anwendungen integrieren. So könnte es beispielsweise als Plugin in Videoschnittprogrammen wie Adobe Premiere oder Blackmagics DaVinci Resolve zur Generierung von Soundkulissen verwendet werden. Die Möglichkeit der Verwendung von AudioLDM auf dem heimischen Rechner wird durch seine hohe Effizienz unterstützt, da es nur wenig Rechenleistung erfordert. Das Training des Modells kann sogar mit nur einer GPU, wie z.B. einer NVIDIA RTX 3090, durchgeführt werden.

Praktische Funktionen und Anwendungsmöglichkeiten

AudioLDM beherrscht auch praktische Funktionen, die bereits von Bild-KIs bekannt sind. Dazu gehören InPainting, bei dem ein Teil einer Audioaufnahme passend zum Rest durch einen anderen Sound ersetzt wird, Styletransfer, bei dem eine Melodie von einem anderen Instrument gespielt wird, und Super Resolution, bei dem die Auflösung und damit die Audioqualität einer Musik- oder Sprachaufnahme durch Upsampling verbessert wird.

Ein Beispiel für Styletransfer ist die Umwandlung einer Trompetenmelodie in Kinderstimmen.

Neben der Beschreibung der zu generierenden Klänge können auch andere Parameter eingegeben werden, die den Klang beeinflussen, wie z.B. die akustische Umgebung (Hall), die gewünschten Objekte, aus denen die Klänge erzeugt werden sollen (z.B. Holz oder Metall), sowie die zeitliche Reihenfolge der Klänge.

Komplexere Soundeffekte mit Hilfe von ChatGPT

Für die Erzeugung komplexerer Soundkulissen greift das Forscherteam auf die Hilfe der Text-KI ChatGPT zurück. ChatGPT kann detaillierte Beschreibungen liefern, zum Beispiel auf die Aufforderung “Beschreibe den Sound des Weltalls” mit einer ausführlichen Antwort wie “Radioemissionen von Sternen, Planeten, Galaxien und anderen Himmelskörpern, High Fidelity, sowie die Geräusche von Sonnenwinden und kosmischer Strahlung”. Diese Beschreibung kann dann als Eingabe für AudioLDM verwendet werden, um den entsprechenden Output zu generieren.

Insgesamt ermöglicht AudioLDM eine effiziente und kreative Generierung von Musikstücken und Soundeffekten anhand von Textvorgaben. Mit seiner Open-Source-Natur und der Integration in Videoschnittprogramme eröffnet es spannende Möglichkeiten für Filmemacher und Sounddesigner. Die praktischen Funktionen und die Zusammenarbeit mit ChatGPT bieten zusätzliche Flexibilität und eröffnen neue Wege für das Sounddesign in verschiedenen Medien. Die Zukunft des Sounddesigns könnte mit der Hilfe von AudioLDM eine ganz neue Klangdimension erreichen.

Eine Version mit GUI zum Testen steht auf The Huggingface zur Verfügung.