KI, Avatare und Gebärdensprache: Interview mit Calvin Young!
Alternativlink zum Video: YouTube
Calvin Young, bekannt durch seinen Travelblog „Seek the World“, lebt in Deutschland und ist Mitgründer von gosign.ai. Das Unternehmen fokussiert sich auf die Entwicklung von KI-gestützter Gebärdensprache – Avataren. Gemeinsam mit seinen Co-Gründern hat er ein System entwickelt, um effizient Gebärden zu sammeln.
Ein innovatives Spiel motiviert Nutzer:innen, ihre Gebärden zu filmen, wodurch realistische und kostengünstige Trainingsdaten für KI-Avatare generiert werden. Innerhalb eines Jahres konnte gosign.ai 350.000 Gebärden sammeln.
Calvin betont, dass Avatare Dolmetscher:innen nicht ersetzen, sondern gehörlosen Menschen in Alltagssituationen mehr Zugang und Unabhängigkeit ermöglichen sollen.
Im Interview sprechen wir über die Zukunft der KI, die Herausforderungen gehörloser Unternehmer:innen und wie Technologie die Gebärdensprach-Community verändern kann!
Transkript des Interviews (Original in International Sign Language):
Beide: Hallo!
Amanda, Moderatorin: Danke, dass du dir Zeit nimmst. Kannst du dich bitte kurz vorstellen?
Calvin Young: Hallo, ich heiße Calvin. Mein Gebärdenname sieht so aus. Ich bin in Amerika geboren und lebe jetzt in Deutschland. Viele kennen mich von Seek the World. Jetzt bin ich zusätzlich noch bei gosign.ai aktiv. Bei gosign.ai konzentrieren wir uns auf Avatare und gebärdensprachliches Material.
Amanda: Du bist ein Mitgründer von gosign.ai. Um was geht es? Kannst du uns bitte erzählen, wie es funktioniert?
Calvin: Ja, natürlich. Ich habe gosign.ai nicht allein gegründet. Wir haben das Unternehmen zu dritt gegründet. Also das Gründerteam bestand aus mir, Ryan HC und Jeff Shaul. Die beiden Mitgründer sind auch aus Amerika. Wir drei haben alle an der RIT-Universität in New York studiert. Für gehörlose Studierende gibt es dort das NTID (National Technical Institut for the Deaf). Das ist ähnlich wie an der Gallaudet Universität in DC. Das ist ja weltbekannt. Das Gründerteam kennt sich also von dort.
Ich möchte kurz erzählen, wie das mit gosign.ai angefangen hat. Wir haben festgestellt, dass es schwierig ist, gebärdensprachliche Daten zu bekommen und diese auch zu finanzieren. Die Kosten werden pro einzelner Gebärde berechnet. Wir sammeln also Daten. Wie gebärdest du Daten?
Amanda: Ich gebärde Daten so.
Calvin: Ein Video von einer einzelnen Gebärde als Datenmaterial kostet 1 Dollar, also 90 Cent. Das ist schon teuer. Wenn man sich vorstellt, Datenmaterial aus der ganzen Welt zu sammeln, kommt man da rasch auf über eine Million Dollar. Die gesammelten Daten sind aber notwendig, um Avatare, Sign-to-Speech und weitere Lösungen zu entwickeln. Dazu muss einfach eine große Menge an Daten gesammelt werden.
Unser Unternehmen ist noch sehr jung, daher sind auch die finanziellen Mittel noch sehr gering. Außerdem gibt es, wie wir wissen, kaum Investorinnen in der Gehörlosen Welt. In der hörenden Welt gibt es einfach viel mehr Investor:innen. Genau diese Problematik haben wir dann besprochen. Dann kam uns die Idee, ein Spiel mit Gebärdensprache zu produzieren, das Spaß macht. Die Spielteilnehmer:innen gebärden in die Kamera. Das wird aufgenommen.
Sie bekommen dafür keine direkte Bezahlung. Sie spielen gegen andere Personen. Der erste Platz wird dann mit 100 Dollar und der zweite mit 50 Dollar belohnt. Das ist ein Ansporn, mitzuspielen und gewinnen zu wollen. Da sind dann viele bereit, mitzumachen und ihre Gebärden aufzeichnen zu lassen. Das war unser erster Schritt bei gosign.ai. Das Ziel dahinter ist, verschiedenstes gebärdensprachliches Material zu sammeln. So konnten wir die Kosten für die Daten stark reduzieren. Was denkst du? Davor waren wir bei 1 Dollar pro Gebärde.
Amanda: Schwierig. Aber sicher viel weniger. Wie lange gibt es das Unternehmen jetzt schon?
Calvin: Es gibt uns erst seit einem Jahr. Wir stehen also noch in Kinderschuhen.
Amanda: Vielleicht konntet ihr die Kosten halbieren?
Calvin: Nein, die Hälfte stimmt nicht.
Amanda: Wow, das hat sich ja extrem verringert.
Calvin: Wir haben im letzten Jahr 350.000 Gebärden gesammelt. Das ist schon wirklich viel! Wir haben aber nicht nur Daten gesammelt in diesem Jahr. Wir mussten uns auch mit Projektplanung, Veränderungen, Finanzierung und Investor:innen auseinandersetzen. Der Verkauf, also das Interesse an der Verwertung der Daten ist kein Problem. Aber für die Finanzierung der Daten mussten wir wirklich umdenken, um zu der Lösung zu kommen.
Die Daten werden dann weiterverwendet, um KI-Dolmetschungen in Form von Avataren zu entwickeln. Da gilt es ein bisschen zu schauen, wie man das vereinen kann. Wir kommen schwer an Daten, brauchen diese aber, um in der raschen Entwicklung von KI-Lösungen dranzubleiben. Fast alle Firmen, also etwa 90 % werden von hörenden Personen geführt. Wir sind ein gehörloses Team, also eine Deaf Company und unsere Sprache ist Gebärdensprache. Da sind einfach wir die Expert:innen und nicht die hörenden Personen. So ist das entstanden.
Also nochmal zusammengefasst: Unser Name ist GO Sign [Gebärdenname]. Wir konzentrieren uns auf das Sammeln von Gebärdensprachdaten und die Entwicklung von KI-Dolmetschungen daraus.
Amanda: Interessant, wie sich das vom Anfang bis jetzt entwickelt hat.
Calvin: Ja genau, es ist immer schön, wenn sich etwas verändert und entwickelt. Es läuft jetzt schon ein Jahr und es hat sich schon viel getan. Wirklich Hut ab an das Team! Es ist schön, wie wir wachsen und wir sind immer froh, wenn wir Neuigkeiten haben. Wir freuen uns auf das, was kommt.
Amanda: Ja, genau. Du hast erwähnt, dass ihr mehrere Sachen gleichzeitig entwickelt. Das eine war so etwas wie ein Chat. Dann hast du dieses Spiel mit Gebärdensprache erwähnt. Dann gibt es noch Avatare und Effekte, die so ähnlich wie mit Greenscreen-Effekten sind. Da gebärdet eine Person und wird dann bspw. in einen Zauberer verwandelt. Wie habt ihr das gemacht und was ist das Besondere daran?
Calvin: Also wir schauen zuerst das Schriftliche an. Wir wissen, dass gehörlose Menschen große Schwierigkeiten mit der Schriftsprache haben. Wir brauchen eine visuelle Sprache, die Gebärdensprache. Das ist unsere Erstsprache. Erst dann, als zweites, kommt die Schriftsprache. Das Problem ist, dass die Gebärdensprache visuell ist und die Schriftsprache linear. Das ist sehr verwirrend. Gehörlose Menschen möchten gern einen Text schicken per E-Mail, z.B. an einen Arzt oder bzgl. Büroangelegenheiten usw.
Das Schreiben ist aber eine große Barriere. Wir bieten Unterstützung beim Schreiben an. Viele machen das schon, wir machen das jetzt auch. Wir helfen gehörlosen Menschen. Unser Ziel ist, dass wir der Community mehr Möglichkeiten geben können. Das ist ein großer Vorteil für alle. Es ist eine große Hilfe, weil wir die Veränderung und die Verbesserung sehen können. Sehr viele gehörlose Menschen verwenden das und sie profitieren davon. Es sind wirklich viele.
Amanda: Wie funktioniert das? Gibt man einfach einen Satz ein und dann kann man selbst noch etwas daran verändern?
Calvin: Ja genau, du kannst einen Satz schreiben. Zum Beispiel: Hey, kannst du mir helfen, ein E-Mail zu schreiben? Oder ein anderes Beispiel: Hey, ich bin krank. Was soll ich jetzt machen? Das System hilft dir, einen Text zu schreiben. Es ist gut, weil sich die KI weiterentwickelt. Das Niveau der KI wird sich an das menschliche Gehirn annähern. KI lernt sehr viel von uns. Eine KI kann herausfinden, was gebraucht wird und sich individuell anpassen. Es kommt auch auf die Lebenssituation an. Und es gibt auch einen Chat für alle, die Hilfe brauchen. Das wird auch auf Instagram angeboten. Das ist sehr interessant. Ich denke, es ist auch wichtig für hörende Menschen. Sie sollen das sehen und verstehen, wie das funktioniert. Super ist auch, dass die KI Deutsche, Französische und andere Gebärdensprachen kann – nicht nur Englisch.
Jetzt geht es um das Spiel. Es ist ein Wettkampf. Wer am besten gebärdet, bekommt die Preise. Im Gegenzug bekommen wir das gebärdensprachliche Datenmaterial als Basis für die KI. So sammeln wir die Gebärden. Es wird klar darauf hingewiesen, dass wir die Gebärden dann kommerziell verwenden. Bislang lief die Datensammlung oftmals im Rahmen von non-profit Organisationen ab. Die Gallaudet Universität hat bspw. einen großen Korpus an Gebärden. Aber sie können sie nicht vermarkten, weil ein gemeinnütziger Zweck dahinter steht. Bei uns ist das anders, wir verwenden die Daten kommerziell.
Der dritte Punkt ist der Gebärdensrpach-Avatar, da gibt es ja mittlerweile viel Neues. Gerade bei Filmen oder Fotos kommt KI momentan oft zum Einsatz.
Amanda: Ja, das stimmt.
Calvin: Das gibt es gerade immer mehr. Wir diskutieren darüber und das nennt man “Generative Kunst”. Es bedeutet, dass man etwas in seiner Form verändert oder verwandelt. Ich habe das mit Gebärdensprache versucht und es hat geklappt! Vielleicht kann das in Zukunft ein Avatar vollkommen übernehmen. Vielleicht klappt das auch mit einem realen Gesicht und Mimik. Es ist normal, dass fast alle gehörlosen Menschen lieber visuell kommunizieren. Schreiben mögen sie nicht gerne.
Amanda: Ja, genau.
Calvin: Hörende Menschen sind auf Hören und Sprechen fokussiert. Gehörlose Menschen bevorzugen visuelle Kommunikation.
Amanda: Ja, visuell.
Calvin: Das Problem ist, dass man für die KI Dinge genau beschreiben muss, damit es dann auch gut umgesetzt wird. Gehörlose Menschen haben oft Schwierigkeiten mit dem Schreiben. Wir haben uns überlegt, wie man das anders machen kann, um dieses schriftsprachliche Beschreiben zu vermeiden. Wir wollten, dass man einfach mit ein paar Klicks auswählen kann, was man möchte. So kann man z.B. auswählen, ob man ein Wolf, eine Fee oder ein Clown, usw. sein möchte. Aber wie kann man das genau beschreiben? Das ist das Problem. Wir versuchen daran zu arbeiten, damit das alles möglich ist. Das Ziel ist, dass man sich da schnell durchklicken kann. Das sind insgesamt die drei Bereiche.
Amanda: Da gibt es ein breites Angebot, auch zum Thema Avatar. In der Gehörlosen-Community wird viel darüber diskutiert, ob Avatare gut oder schlecht sind. Was denkst du darüber?
Calvin: Es muss noch weiter diskutiert werden, inwiefern sie ein Ersatz für Dolmetschung sein können. Das ist auch nicht mein Ziel. Mein zwei Ziele sind mehr und schnelleren Zugang zu schaffen. Wenn man z.B. bei McDonalds ist und die Kommunikation klappt nicht. Auch mit schriftlicher Kommunikation stößt man auf Barrieren. Da wäre es super, wenn man mit dem Handy ein Video aufnehmen kann und das Handy spricht dann für die Person. Auch in familiären Situationen, wo man Zugang braucht, werden oft keine Dolmetscher:innen bezahlt oder bereitgestellt.
Wie soll dann kommuniziert werden? Mit dem Handy ist es möglich. In Europa und auch in den USA ist es oft so, dass man vieles aus der eigenen Tasche bezahlen muss. Die Regierung unterstützt uns da leider nicht. Wie soll das funktionieren? Deswegen wurde mit den Avataren gearbeitet, das finde ich sinnvoll. In manchen Situationen, z.B. beim Arzt, bei Gericht usw., ist es am besten, wenn Dolmetscher:innen dabei sind. Damit wirklich alles verstanden wird. Ich sehe, dass Avatare nicht die Arbeit der Dolmetscher:innen übernehmen können.
Es ist normal, dass viele über das Thema diskutieren. Die Dolmetscher:innen haben große Sorge, dann keine Arbeit mehr zu haben. Ich verstehe es voll. Aber sowohl Zeit als auch die generelle Situation haben sich geändert. Auch zum Beispiel Uber. U-B-E-R. So gebärde ich Uber.
Amanda: Ah, ich gebärde das so.
Calvin: Wir haben zum Beispiel Taxis. Zusätzlich gibt es Uber. Das ist ähnlich wie bei den Avataren und den Dolmetscher:innen. Du kannst selbst entscheiden, was du willst. Mein Ziel ist, dass man mehr und schnelleren Zugang durch die KI hat. Das ist mein Ziel.
Amanda: Das bedeutet, dein Ziel ist, dass ein Avatar schnell und in kurzer Zeit verfügbar ist.
Calvin: Ja genau. Ich weiß, dass ein Avatar auch in Zukunft keine Gefühle empfangen kann. KI wird auch nie unseren familiären Hintergrund, unsere Geschichte, unsere Art zu denken oder zu fühlen, empfinden können. Wir sind gehörlos und du bist in der Gehörlosen-Community aufgewachsen und wir können uns gut verstehen.
Im Vergleich dazu kann ein KI-Avatar von diesem Hintergrund nicht alles verstehen. Ich denke, dass ein KI-Avatar uns nicht übertreffen kann. Das ist meine Meinung. Ich unterstütze die Dolmetscher:innen immer und ich bin dankbar, dass sie uns ihre Stimme leihen. Dafür bin ich dankbar. Ich will ihnen nicht ihren Job rauben. Das ist auch gar nicht möglich, denke ich.
Amanda: Verstehe! Jetzt habe ich noch eine Frage zu Künstlicher Intelligenz. Auf Deutsch sagt man KI, Künstliche Intelligenz. Auf Englisch heißt es AI. Künstliche Intelligenz wurde viel erforscht und einige Leute kritisieren, dass da auch viel schieflaufen kann. Ist das bei gosign.ai schon mitbedacht?
Calvin: Ja, natürlich. Im Team haben wir eine Person namens Jeff. Er ist verantwortlich für Entwicklung der KI-App usw. Er ist auch bei “Deaf Safe AI” in Amerika dabei. Er hat schon Vorträge im politischen Bereich und in großen Firmen gehalten. Er ist viel herumgereist und wurde sogar eingeladen, bei Google zu präsentieren. Dort ist er mit wichtigen Vertreter:innen von Google gemeinsam auf der Bühne gestanden. Es gibt noch vieles mehr. Ich habe mich schon mit ihm darüber unterhalten.
Es ist normal, dass Schwierigkeiten auftreten und darauf müssen wir dann reagieren. Wenn es etwas gibt, das nicht regelkonform ist, müssen wir uns überlegen, wie wir es anpassen. Wie man ja von deep voice und deep fake kennt, wo Gesichter einfach ausgetauscht werden. Da gibt es immer wieder neue Bedingungen. Das ändert sich sehr schnell. Wir haben das Ziel hier entsprechende Änderungen vorzunehmen, um den Regulierungen zu entsprechen. So ist es auch in der App. Man stimmt den Vertragsbestimmungen zu. Dieses Einverständnis ist essenziell, damit wir gegen keine Regulierungen verstoßen. So ist nochmal klar geregelt, dass wir hier keinen Regelverstoß begehen.
Deshalb gibt es diese Vertragsbedingungen. Beim Bitcoin war es auch so. Das war am Anfang alles neu und man musste erst Regulierungen treffen. In Europa wurden eigene Gesetze erlassen und später auch überall anders. Mit dem Internet war es genauso. Da wurde gerade zu Beginn noch viel daran gefeilt. Facebook und Instagram kam in der Zeit zwischen 2000 und 2010 auf. Da gab es anfangs auch viele Anpassungen und neue Regeln. Genauso ist es bei uns. KI und gebärdensprachliche KI-Lösungen werden durch Regeln geschützt und so läuft das.
Amanda: Ja, das muss man dann befolgen.
Calvin: Ja genau, so ist es.
Amanda Du hast uns heute so viel erklärt, wow! Kommen wir nochmal zu gosign.ai. Habt ihr Pläne für weitere Projekte in nächster Zeit?
Calvin: Ja natürlich, wir arbeiten z.B. an der Weiterentwicklung von Effekten für das Gesicht und Bewegung. Natürlich geht es auch bei unserem Avatar wieder weiter. Wir wollen da aber keine klassischen 3D-Animationen.
Das machen viele andere Firmen ja schon. Wir versuchen es ein bisschen anders zu machen und zu schauen, wie wir da wirklich auch die Emotionen gut miteinbauen können. Wir haben noch keine Ideen für andere Projekte. Weil je weniger Projekte man hat, desto mehr kann man sich darauf fokussieren und Zeit und Arbeit aufwenden. Bei zu vielen Projekten wird es chaotisch. Deswegen konzentrieren wir uns auf ein Projekt. Wir haben auch eine Idee für ein neues Spiel.
Ich erzähle jetzt nichts davon, es soll eine Überraschung werden. Jetzt arbeiten wir an dem Projekt und entwickeln es weiter. Bei der Website wird noch etwas verändert und ein paar weitere Anpassungen stehen an. Es soll nicht nur vermarktet werden, sondern voll und ganz für die Gehörlosen-Community passen. Daran arbeiten wir derzeit.
Amanda: KI entwickelt sich immer weiter und ist nicht mehr wegzudenken. Das hätten wir uns früher nie gedacht. Jetzt bin ich gespannt, wie es weiter geht.
Calvin: Ja, ich bin auch gespannt. Die Entwicklung von KI geht so schnell. Bei der Weiterentwicklung müssen wir mit den anderen Firmen mithalten. Wenn die anderen Firmen weiter fortgeschritten sind bei der Entwicklung, dann kaufen die anderen dort ein. Deswegen müssen wir da mithalten. Wir, die Gründer, sind alle gehörlos und gebärden. Die anderen sind alle hörend. In Amerika gibt es VRS. Das ist ein Video-Dolmetsch-Service. Da gebärdet man in die Kamera und das wird dann gedolmetscht.
Amanda: In Österreich gibt es das Relay-Service.
Calvin: Ja genau. Wird das Unternehmen von einer hörenden oder gehörlosen Person geführt?
Amanda: Hier? Von einer gehörlosen Person.
Calvin: Ja, bravo! Das ist super. In Amerika nicht! Der Dienst heißt Sorenson. Sorenson ist sehr groß aufgestellt und sichert sich etwa 80 % des Marktes. Sie sind aber alle hörend, reich, privilegiert und gut vernetzt bzw. verbreitet.
CONVO ist das gehörlos geführte Äquivalent, das auch schon bekannter ist. Sie machen aber nur 2 oder 3 % des Markts aus.
Da waren vor einiger Zeit so. Ich weiß nicht genau, wie das jetzt ist. Kann ich aber nicht zu 100 % sagen, ob das stimmt. Wirtschaftlich ist es für die hörende Firma viel leichter als für das gehörlose Unternehmen. Der Profit dieser hörend geführten Firma ist aber zu 100% der Gehörlosencommunity zu verdanken! Das ist nicht das einzige Beispiel. Das ist oft so.
Deswegen ist es unser Ziel als Deaf Business, dass wir in den Bereichen Sign Language Data und Sign Avatar federführend sind. Wir sind ein gehörlos geführtes Unternehmen und das ist wichtig. Es gibt in dem Bereich schon Firmen von hörenden Personen. Wir versuchen einen anderen Weg zu gehen. Wir heben uns durch zwei Dinge ab.
Das ist erste ist der geringe Preis, den wir für Sign Language Data bezahlen. Das ist super. Die zweite Sache ist auch sehr spannend. Sign Language Data wird normalerweise unter konkreten Rahmenbedingungen (Licht- und Kameraverhältnisse) gesammelt. Die Kleidung soll dunkel sein und die Gebärden werden einzeln abgelesen. So wird das normalerweise aufgezeichnet. Aber in Realität trägt niemand ständig schwarz, die Lichtverhältnisse variieren die Umgebung verändert sich. Wie soll die KI solche veränderten Bedingungen dann erfassen können? Das ist mit diesen klassischen, sauber aufgezeichneten Daten nicht möglich.
Bei uns ist das anders. Wir geben die Möglichkeiten, einfach so zu gebärden, wie man gebärdet. Wir haben realistische Daten.
Amanda: Authentisches Material?
Calvin: Ja genau und diese Daten haben die anderen nicht. Wenn man dann die klassischen Aufnahmen mit unseren Daten kombiniert, kann der Avatar schnell lernen. So kann auch einhändiger oder undeutlich gebärdeter Input verarbeitet werden. Das unterscheidet uns von anderen Unternehmen. Eine dritte Sache fällt mir noch ein: Wir sammeln Daten zu 19 verschiedenen Sprachen. In Europa gibt es ja Sprachfamilien, wo sich einzelne Gebärdensprachen näher sind.
Amanda: Ja, stimmt. ÖGS und DGS beeinflussen sich.
Calvin: LSF hatte ja auch Einfluss auf ASL und BSL, etc. Da gibt es ja immer wieder Überschneidungen. Stell’ dir vor, man trainiert die KI mit verschiedenen Gebärdensprachen. So können Personen von ganz unterschiedlichen Orten besser verstanden werden.
Als ich die Welt bereist habe, lernte ich auch verschiedene Gebärdensprache kennen und verstehen. So sammelt man Erfahrung mit unterschiedlichen Gebärdensprachen. Genauso ist es auch bei der KI. Sie kann anhand dieser Daten unterschiedliche Gebärdensprachen verstehen. Dabei ist ganz egal wie verschieden der Input ist.
Das Verständnis ist bei KI ein großes Thema und das geht eben nur weil wir Daten zu 19 Gebärdensprachen sammeln. Ich denke, dass unsere KI in Zukunft ein besseres Gebärdensprachverständnis hat als die anderer Firmen.
Amanda: Verstehe! Sehr interessant. Denkst du, es hat etwas damit zu tun, dass ihr ein gehörloses Team seid?
Calvin: Ja, ich habe aber auch Glück, dass ich so bekannt bin. Ich bin um die Welt gereist und habe fast eine halbe Million Follower. Da kann ich sehr gut von dem Netzwerk profitieren, das ich mir aufgebaut habe. Ich habe viele internationale Kontakte, die ich nutzen kann. Da habe ich auch bereist viele Videoaufnahmen gemacht. Das war für mich sehr praktisch und auch als CTO wollte ich hier die Community berücksichtigen. Das ist mein Job und dadurch habe ich insgesamt 3.500 Gebärden innerhalb 1 Jahr gesammelt.
Amanda: Wow, das ist schon viel!
Calvin: Andere Firmen haben in 10 Jahren etwa 30.000 Gebärden gesammelt. Das ist schon weniger als bei uns. Also ein gehörloses Team ist wichtig, aber Vernetzung hilft auch viel. Ich habe das Gefühl, dass wir auf einem guten Weg sind. Aber das wird sich erst zeigen.
Amanda: Danke für die vielen spannenden Infos. Das ist sehr interessant. Momentan wird ja viel über KI diskutiert. Da werden sicher in Zukunft noch spannende Gespräche folgen.
Calvin: Ja ich weiß, dass es immer viel diskutiert wird. Das muss ja auch werden.
Amanda: Ja, es ist ein wichtiger Austausch! Vielen lieben Dank für das Gespräch!
Calvin: Danke für die Einladung und die Fragen. Vielleicht gründest du auch einmal etwas in dem Bereich. Dann kannst du mich gerne kontaktieren. Das würde mich freuen.
Amanda: Auf Wiedersehen!
Calvin: Tschüss!