KI – kann ein Automat für uns hören?
Neuronen im menschlichen Gehirn verfügen über 10¹⁵ (eine „1“ mit 15 Nullen) Verbindungen. Künstliche neuronale Netzwerke für Maschinelles Lernen, dem „Deep Learning“, genügen lediglich zwei (eine "2" ohne Nullen) Schichten, um die bekannten Algorithmen einzusetzen. Künstliche neuronale Netze können also bei weitem nicht die Komplexität unseres Gehirns und somit der menschlichen Wahrnehmungsfähigkeit abbilden. Grundsätzlich stellt sich also die Frage: Was ist Künstliche Intelligenz (KI) und was genau dürfen wir von ihr erwarten?
Die auch heute noch anerkannte Definition von KI stammt aus dem Jahr 1983 von der Informatikerin Elaine Rich: „Künstliche Intelligenz ist die Forschung, wie man Computer dazu bringt, Dinge zu tun, in denen die Menschen im Moment noch besser sind.“ Also kann jede Automatisierung, die vorher händisch von Menschen durchgeführt wurde, als Künstliche Intelligenz betrachtet werden. Erste Vorgänger finden wir in den Vorläufern der industriellen Revolution des späten 18. Jahrhunderts, wie der Webmaschine oder beispielsweise dem „Schachtürken“. Dies war ein vorgeblicher Schachroboter, gegen den, wie es heißt, selbst Napoleon gespielt und verloren hatte.
Peggy Sylopp
ist Medienkünstlerin und Diplom Informatikerin mit Master of Public Policy. Sie engagiert sich für die Entwicklung von Benutzer-zentrierten Open Source Technologien. 2019 entwickelte sie mit Aislyn Rose das KI-Projekt „NoIze“, einen Software-Prototypen für personalisierte Geräuschunterdrückung. Noch bis Ende März 2020 leitet sie das von ihr aufgrund ihrer moderaten Höreinschränkung initiierte Citizen Science Projekt „Hear How You Like To Hear“ am Fraunhofer IDMT.
Inzwischen übernimmt Künstliche Intelligenz sehr wichtige Entscheidungen im Computer, beispielsweise für die Einstellung von BewerberInnen oder die Entlassung von Angestellten. Sie überwacht per Fitnesstracker unsere Gesundheit und bestimmt, welches Lied im Netz bleiben kann. Es ist erstaunlich, mit welcher Bereitwilligkeit wir Verantwortung an digitale Automaten abgeben, obwohl wir wissen, dass ein maschinelles Lernprogramm nur sehr spezielle Aufgaben übernehmen kann und bei jeder Aufgabe genau überprüft werden muss, wie zuverlässig und korrekt sie erfüllt wird. Doch ist uns das wirklich bewusst oder haben wir nicht noch immer völlig unrealistische Vorstellungen? Selbst MIT-Forscher wie Andrew Weinert und Team nahmen tief frustriert zur Kenntnis, dass ihre mit 620.000 Bildern und 96,5 Stunden Video trainierte KI ein Flutkatastrophen-Foto immer noch als Toilette identifiziert.
Auch die Klangerkennung in alltagsakustischen Umgebungen stellt die KI noch vor Herausforderungen. So teilen viele Menschen das Bedürfnis nach weniger Störgeräuschen im Alltag. Es ist naheliegend, eine KI zu entwickeln, die diese aus unserer Umgebung herausfiltert. Wie aber entscheiden wir eigentlich, was ein Störgeräusch ist? Und wie schaffen wir Menschen es, uns bei einem Stimmengewirr auf eine Stimme zu konzentrieren und andere Geräusche praktisch „auszublenden“? Auch in der Forschung sind diese kognitiven Prozesse noch nicht vollständig geklärt, so dass sie nicht vollständig in ein automatisches Regelwerk, sprich einen Algorithmus, umgesetzt werden können. Somit ist das natürliche Hören ein Beispiel für die in Jahrmillionen optimal entwickelte Komplexität unserer Sinne.
Da die individuelle Hörwahrnehmung nicht vollständig erklärt ist, kann sie auch nicht in einem technischen System simuliert werden. Aber wir können beispielsweise einer lernfähigen digitalen Maschine beibringen, dass sie Klang so wiedergibt, wie er uns gefällt und dabei die Interpretation des Klangs unseren hoch entwickelten kognitiven Fähigkeiten überlassen. Oder besser noch: Statt komplexe Systeme zur Unterdrückung von störenden Lärm zu bauen, lassen Sie uns darüber nachdenken, wie wir weniger Lärmverschmutzung verursachen.
Die hier veröffentlichten Inhalte und Meinungen der Autorinnen und Autoren entsprechen nicht notwendigerweise der Meinung des Wissenschaftsjahres 2019 – Künstliche Intelligenz.