Transkriptionszeit halbieren: Eine semi-automatische und kostenfreie Transkriptionsroutine für die qualitative Forschung

Das Transkribieren, also das Übertragen von Audiodaten in Textform, ist eine der zeitaufwändigsten Aufgaben im sozialwissenschaftlichen Forschungsprozess. Bei manueller Transkription benötigt man als geübter Tipper für ein einstündiges Interview etwa fünf Stunden. Geübte Schreiber tippen übrigens 50 bis 70 Wörter pro Minute, beim 2-Finger-Suchsystem halbiert sich diese Zahl auch schnell. Also wieso nicht die Spracherkennungssoftware von Amazon Alexa, Apple Siri, Google Assistant oder Samsung Bixby zur automatischen Transkription nutzen und so Zeit sparen?

Wir haben diverse Software, APIs und Konfigurationen getestet und eine Transkriptionsroutine zur semi-automatischen und vor allem kostenlosen Konvertierung von Sprache in Text entwickelt:

Audio richtig aufnehmen je nach Interviewform

Je besser das Interview aufgenommen ist, je deutlicher und klarer die Sprache zu verstehen ist, desto genauer funktionieren automatisierte Spracherkennungsprogramme. Falls eure Erhebung also noch nicht abgeschlossen sein sollte, führt ihr eure Interviews persönlich durch – Face-to-Face – und nehmt das Gespräch mit einem portablen Stereo-Audiorecorder auf.

Festnetz > Mobilnetz > Skype!

Aufnahme eines Telefoninterviews (Festnetz)

Sollte ein persönliches Interview nicht möglich sein, achtet auch beim Telefoninterview auf die bestmögliche Audioqualität.
Bei der Aufnahme eines Interviews über ein Festnetztelefon sollte ein Telefon-Aufnahmeadapter genutzt werden. Die Aufnahme kann dann beispielsweise über einen PC erfolgen.

Aufnahme eines Telefoninterviews (Mobilnetz)

Bei der Aufnahme eines Anrufes über ein Smartphone können „Call Recorder“ Apps genutzt werden.
Android App um Anrufe aufzuzeichnen:
iOS-App um Anrufe aufzunehmen:

Aufnahme eines Skype-Interviews

Ein Gespräch über Skype kann direkt mit den Bordmitteln von Skype aufgenommen werden: https://support.skype.com/de/faq/FA12395/wie-zeichne-ich-skype-anrufe-auf

Hinweis Die Aufnahmequalität des Smartphone-Mikrofons ist schlecht. Es empfiehlt sich die Nutzung eines professionellen Feldmikrofons, wie z.B. von der Firma Tascam.

Zusammenstellung von Spracherkennungs- und Transkriptionssoftware

Die wohl bekannteste kostenpflichtige Software zur Übersetzung von Sprache zu Text ist „Nuance“ der Firma Dragon. Diverse kostenpflichtige Services wie GoTranscript, TranscribeFiles, HappyScribe, AmberScript, Sonix bieten die Möglichkeit an, Audiodateien direkt online automatisch transkribieren zu lassen. Falls ihr kein Geld ausgeben möchtet, zeigen wir euch hier, wie ihr kostenlos Google Speech-to-Text nutzen könnt.

Falls ihr in der Lage seid, ein paar Zeilen Code zu schreiben, empfehlen wir aber die APIs der gängigen Sprachassistenten direkt zu nutzen:

Google Speech-to-Text: https://cloud.google.com/speech-to-text/?hl=de
Amazon Transcribe: https://docs.aws.amazon.com/transcribe/latest/dg/what-is-transcribe.html
IBM Speech to Text: https://cloud.ibm.com/docs/services/speech-to-text
Microsoft Azure Sprachdienste: https://azure.microsoft.com/de-de/services/cognitive-services/speech-services/
Scriptix: https://scriptix.io/

Kostenlose Transkriptionsroutine mit der Sprachdiktatfunktion von Google Docs und Windows Stereomix

Um die Transkriptionsroutine einzurichten, muss unter Windows „Stereomix“ aktiviert werden. Stereomix ist ein virtuelles Aufnahmegerät für euren Systemsound, sprich: Abgespieltes Audiomaterial wird nicht nur über die Laursprecher ausgegeben, sondern auch intern auf das Mikrofon gelegt.

Nach erfolgreicher Einrichtung sollte also beim Abspielen von Mediendateien am PC der Pegel des Lautsprechers wie auch der des Mikrofons ausschlagen.

Stereomix unter Windows 10 aktivieren

1. Gebt den Befehl mmsys.cpl in der Suchleiste von Windows ein und bestätigt mit Enter um die Sound-Systemsteuerung zu öffnen.

2. In der Sound-Systemsteuerung wechselt ihr auf den Reiter „Aufnahme“, klickt mit der rechten Mautaste in den Bereich unter den Aufnahmegeräten und wählt „Deaktivierte Geräte anzeigen" aus.

3. Das Aufnahmegerät „Stereomix“ sollte nun sichtbar sein und wird mit Rechtsklick -> „Aktivieren“ eingeschaltet.

4. Bei den Einstellungen von Stereomix wählt ihr unter dem Reiter Abhören bei „Wiedergabe von diesem Gerät“ euren Lautsprecher aus.

Hinweis Wenn Stereomix fehlt, muss entweder euer Audiotreiber installiert bzw. aktualisiert werden oder euer Rechner unterstützt diese Funktion nicht. Alternativ könnt ihr die Software Virtual Cable installieren und einrichten.

Alternative zu Windows Stereomix: Virtual Cable installieren und einrichten

1. Ladet euch Virtual Cable herunter, entpackt die Dateien und startet „VBCABLE_Setup.exe“ bzw. „VBCABLE_Setup_x64.exe“ als Administrator.

2. Wählt "Install Driver" aus, bestätigt das Pop-Up von Windows Sicherheit mit "Zulassen" und startet den PC nach Abschluss der Installation neu.

3. Gebt den Befehl mmsys.cpl in der Suchleiste von Windows ein und bestätigt mit Enter um die Sound-Systemsteuerung zu öffnen.

4. In der Sound-Systemsteuerung wird "Cable Input" ausgewählt, mit Rechtsklick -> „Aktivieren“ eingeschaltet und als Standardgerät definiert.

5. Unter dem Reiter "Aufnahme" aktiviert ihr "Cable Output". Bei den Einstellungen von "Cable Output" wählt ihr unter dem Reiter Abhören bei „Wiedergabe von diesem Gerät“ euren Lautsprecher aus.

Sprachdiktatfunktion in Google Docs nutzen

Nachdem nun Stereomix oder das Virtual Cable eingerichtet wurde, öffnet ihr mit dem Chrome-Browser ein neues Dokument in Google Docs. In der Werkzeugleiste wählt ihr unter Tools die “Spracheingabe”, woraufhin sich ein neues Fenster öffnet.

Sobald ihr nun eine Audiodatei auf eurem PC abspielt und das Mikrofonsymbol im Spracheingabefenster in Google Docs aktiviert, transkribiert Google eure Audiodatei. Wenn ihr die Wiedergabe pausiert, endet auch die Transkription. Die Erkennungsgenauigkeit steigt, wenn ihr die Wiedergabegeschwindigkeit leicht reduziert.

Tipp Am besten funktioniert die Routine, wenn ihr in eurem Mediaplayer globale Hotkeys für Wiedergabe/Pause sowie jeweils für einen kurzen Sprung vor und zurück definiert. So müsst ihr nicht zwischen den Fenstern wechseln.

Titelbild: Gvosdikov/Shutterstock, https://cloud.google.com/speech-to-text

Transkriptionszeit halbieren: Eine semi-automatische und kostenfreie Transkriptionsroutine für die qualitative Forschung

Audio richtig aufnehmen je nach Interviewform

Festnetz > Mobilnetz > Skype!

Zusammenstellung von Spracherkennungs- und Transkriptionssoftware

Kostenlose Transkriptionsroutine mit der Sprachdiktatfunktion von Google Docs und Windows Stereomix

Stereomix unter Windows 10 aktivieren

Alternative zu Windows Stereomix: Virtual Cable installieren und einrichten

Sprachdiktatfunktion in Google Docs nutzen

Kommentar hinzufügen Antworten abbrechen

Folge Uns

2023 - KomMa. Alle Rechte vorbehalten.

Audio richtig aufnehmen je nach Interviewform

Festnetz > Mobilnetz > Skype!

Zusammenstellung von Spracherkennungs- und Transkriptionssoftware

Kostenlose Transkriptionsroutine mit der Sprachdiktatfunktion von Google Docs und Windows Stereomix

Stereomix unter Windows 10 aktivieren

Alternative zu Windows Stereomix: Virtual Cable installieren und einrichten

Sprachdiktatfunktion in Google Docs nutzen

Empfohlene Beiträge

KomMa präsentiert aktuelle Forschung in Stuttgart

Doctoral Summer School in Finnland

Fake News und welche Rolle das Gedächtnis dabei spielt: Der Sleeper-Effekt

Projekttag zum Thema „Fake News“ am Campus Salzgitter – Schülerinnen und Schüler der Dr.-Klaus-Schmidt-Hauptschule beenden ihr Schulhalbjahr mit einem Besuch an der Ostfalia Hochschule.

Kommentar hinzufügen Antworten abbrechen

Folge Uns

2023 - KomMa. Alle Rechte vorbehalten.