Mensch vs. KI in der Transkription

Mensch vs. KI in der Transkription

Die künstliche Intelligenz hat bereits seit einigen Jahren Einzug in das Leben des Menschen gehalten. Bedingt durch die stetige Weiterentwicklung der künstlichen Intelligenz ist es bereits möglich, in vielen Bereichen den Menschen regelrecht zu ersetzen. Diese Entwicklung kann sicherlich mit zwiespältigen Gefühlen betrachtet werden, da der Einsatz der KI auch immer ein Stück weit den Verlust des Bedarfs an menschlicher Arbeitskraft entspricht. Bei aller Einsatzvielfalt der KI gibt es aber immer noch Bereiche, in denen der Mensch der KI überlegen ist. Wer eine Audiodatei in schriftlicher Form wiedergeben möchte, der wird nicht selten vor große Herausforderungen gestellt, bei denen die KI nur sehr eingeschränkt weiterhelfen kann.

Die Schwächen der KI

In erster Linie sollte niemals vergessen werden, dass eine KI immer auch von einem Menschen programmiert und entwickelt wurde. Dies bedeutet, dass auch die beste programmierte KI auf gar keinen Fall den Status der Perfektion erreicht hat. Überdies ist auch das Wissen um die Arbeitsweise der KI in diesem Zusammenhang sehr wichtig, da dieses Wissen die Ergebnisse der KI ein Stück weit erklärt. Jede KI beruht auf einem sogenannten Algorithmus, welcher die Verhaltensmuster der KI vorschreibt. Dieser Code ist sozusagen der Handlungsrahmen der KI. Jede noch so gute KI kann diesen Handlungsrahmen nicht eigenständig verlassen, sodass der Handlungsrahmen auch die Grenzen der KI definiert. Dies wird besonders deutlich im Bereich der Transkriptionen.

Die Grundproblematik bei der Transkription

Heutzutage ist es für Studenten sowie auch für Journalisten nicht mehr so einfach, eine erfolgreiche Arbeit abzuliefern. Die wissenschaftlichen Anforderungen an die Qualität der Arbeiten ist gestiegen und es wird überdies auch wesentlich genauer hingeschaut. Eine KI kann transkribieren, jedoch kann sie die Kernaussage bzw. Botschaft des Textes nicht erfassen. Der Grund hierfür ist logisch nachvollziehbar. Die KI arbeitet rein auf der Basis der technischen Fakten. Die Sprache jedoch ist etwas urmenschliches und dazu hat jede Sprache ihre gänzlich eigenen Regeln und Gewohnheiten. Ein Text hat neben der reinen Botschaft auch immer einen Sinn, der nicht selten auch auf Emotionen basiert und nicht selten ergibt ein Satz nur in Verbindung mit einem vorangegangenen Satz oder einem darauffolgenden Satz auch wirklich Sinn. Eine KI ist jedoch nicht in der Lage, diese schwer beschreibbaren Werte vollständig zu erfassen oder sie gar vollständig in Textform wiederzugeben. Auch die schriftliche Wiedergabe von Audioformaten mit mehreren Sprechern überfordert die KI aktuell noch.

Ein weiteres Problem im Zusammenhang mit der Transkription ist auch immer die individuelle Aussprache der Person, welche die Audioquelldatei aufgenommen hat. Allein in Deutschland gibt es mehrere Dialekte, die nicht selten schwer verständlich sind. Während ein geübter Mensch aus dem Norden mit ein wenig Aufwand noch in der Lage ist, diesen Dialekt zu verstehen, scheitert die KI in der Regel daran. Da jedoch das Verständnis der gesprochenen Botschaft für die korrekte schriftliche Wiedergabe essenziell wichtig ist, sollten Journalisten oder Studenten für ihre publizierten Werke bzw. Arbeiten eher auf ein erfahrenes Transkriptionsbüro setzen, als einer KI zu vertrauen. Jeder Mensch, der sich einmal mit einem Servicecomputer am Telefon auseinandersetzen musste, wird anschließend die KI mit anderen Augen sehen.

Warum sollte der Mensch für die Transkriptionen eingesetzt werden?

Bedingt durch den Umstand, dass eine KI innerhalb ihres Codes lediglich einprogrammierte Tätigkeit ausübt, wird ein Mensch der künstlichen Intelligenz stets voraus sein. Anhand des Beispiels eines standardisierten Interviews werden die Grenzen der KI besonders deutlich aufgezeigt, da ein Standard Interview auf der Grundlage ganz bestimmter klar definierter Regeln erstellt werden muss. Eine KI ist jedoch nicht in der Lage, diese klar definierten Regeln als solche zu erkennen oder sie einzuhalten, sodass professionelle Hilfe bei der Erstellung eines derartigen Interviews durch den menschlichen Profi auf jeden Fall erforderlich wird. Der Mensch ist, anders als die KI, beim Transkribieren in der Lage, den gesamten Zusammenhalt des zugrundeliegenden Sachverhalts zu erfassen und dementsprechend den Text in den richtigen Kontext zu setzen.

Fazit

Als Fazit muss aktuell daher festgehalten werden, dass derjenige, der eine hochwertige und grammatikalisch korrekte Transkription einer Audioquelldatei haben möchte, sich schon an ein professionelles Transkriptionsbüro wenden sollte. Im Bereich Transkribieren ist der Mensch der Technik nach wie vor voraus. Zum einen erfordert eine gute Transkription auch ein Stück weit das Verständnis, was der Urheber der Audioquelldatei meint oder meinen könnte und zum anderen muss auch immer der gesprochene Sachverhalt sinngemäß korrekt wiedergegeben werden können. Der effektive Einsatz einer KI stellt hohe Ansprüche an die Aussprache des Menschen, um eine wortwörtliche Transkription zu erreichen. Von einer qualitativ hochwertigen Transkription, die im Hinblick auf die Grammatik und den Satzbau sowie die Schreibqualität gewisse Mindestansprüche erfüllen muss, kann jedoch bei dem Einsatz einer KI niemals die Rede sein. Transkriptionen, die alleinig wortwörtlich durchgeführt werden, ergeben in der Regel nur bei einfachsten Sachverhalten auch wirklich einen Sinn. Gerade bei wissenschaftlichen Arbeiten jedoch kann in den seltensten Fällen von einfachsten Sachverhalten gesprochen werden, sodass die KI in diesem Bereich aktuell nur unbrauchbare Ergebnisse abliefert.

Titelbild von kung_tom | shutterstock

Das Telefoninterview – Fluch und Segen

Das Telefoninterview – Fluch und Segen

Sehr viele Interviews werden heute per Telefon geführt. Meist lohnt es nicht, für ein paar Minuten Gespräch eine große Entfernung zurückzulegen, um das Gespräch persönlich zu führen. Die Reise wäre um ein Vielfaches länger als das Gespräch selbst und die Kosten wären unverhältnismäßig hoch. Da ist es ein Segen, dass man heute überall zum Telefon greifen kann.

Auf die technischen Voraussetzungen kommt es an

Doch das Telefoninterview ist die hohe Schule der Interviewführung. Ich habe vor einiger Zeit ein Skype Interview transkribiert, da war zwischen beiden Gesprächspartnern der halbe Erdball dazwischen. Es war eine Qualität, als würden sich die beiden in einem stillen Raum gegenübersitzen. Leider ist mir das in den vielen Jahren meiner Tätigkeit nur äußerst selten passiert. Ohne die Beachtung der im anderen Blogartikel beschriebenen technischen Voraussetzungen, ist das Ergebnis meist schlecht und erzeugt bei der Transkription mehr als ein Stirnrunzeln und Kopfschütteln. Es bedeutet längere Bearbeitung und mehr unverständliche Worte oder Passagen. Und damit wieder mehr Nachbearbeitung durch den Kunden. Ein Telefoninterview muss besonders gut vorbereitet werden. Eventuell sogar mit einer Probeaufnahme, um die Qualität selbst zu testen. Und bitte bedenken Sie dabei, dass Sie den Wortlaut kennen, der Transkriptionist kennt ihn nicht.

Ausreden lassen und Störgeräusche vermeiden

Aber die Technik allein ist nicht entscheidend. Schwierig bei einem solchen Interview ist, dass man seinen Gesprächspartner nicht sehen kann, mal abgesehen von der Nutzung von Skype oder der Videotelefonie beim Handy. Somit ist man geneigt, durch Hörersignale wie „mhm“ und „ja“ seinem Gesprächspartner mitzuteilen, dass man noch da ist und zuhört. Den Partner ausreden zu lassen, fällt hier besonders schwer, ist aber auch besonders wichtig.

Der Gesprächspartner ist meist leiser als der Fragende, die Stimme ist nicht klar, klingt dumpf, es rauscht vielleicht permanent oder hat andere störende Hintergrundgeräusche. Vielleicht sind auch noch Störungen durch eine unstabile Telefonverbindung und damit eine schwankende Lautstärke dabei. Bei der Transkription heißt das, sich sehr viele Passagen mindestens zweimal, wenn nicht sogar noch öfter anhören zu müssen, um sie zu verstehen. Und wenn dann ein „mhm“ kommt, steht im Transkript meist an der Stelle ein unverständlich, da es mindestens ein Wort der Antwort überdeckt. Bei eingeworfenen Kommentaren werden die unverständlichen Passagen leider meist entsprechend länger.

Geräusche, die schon im Face to Face-Interview stören, potenzieren sich bei Telefoninterviews. Besonders zu nennen sind hier wieder Papierrascheln, den Kaffee umrühren, ein sprudelndes Getränk eingießen oder das Schreiben auf einer harten Unterlage. Das alles neben dem Mikrofon und man versteht eigentlich fast nichts mehr, beziehungsweise es stört erheblich. Es sind die alltäglichen Dinge, die eigentlich gar nicht auffallen, weil sie selbstverständlich sind. Aber für eine gute Transkription sollten sie unbedingt vermieden werden.

Titelbild von orlando rahman | shutterstock