Mein Tutorial zum Auslesen eingebrannter Untertitel aus Filmdateien

Jakopo

MyBoerse.bz Pro Member
Hallo zusammen,


ich möchte hiermit ein Tutorial veröffentlichen, in welchem ich beschreibe, wie ich eingebrannte (hardcoded) Untertitel aus Filmdateien (mkv’s) auslese um sie als Soft Subs verfügbar zu machen und weiterverarbeiten zu können.

Folgende zwei Programme werden benötigt:




VideoSubFinder. Durchsucht den Film nach Untertiteln und erzeugt in einem ersten Schritt die entsprechenden Bilddateien (jpeg‘s).




Abby FineReader. Konvertiert die Bilddateien zu Texten.


Ihr müsst euch also zunächst das kostenlose Programm VideoSubFinder runterladen und den Inhalt der RAR Datei auf eurer Festplatte entpacken. Im nachfolgenden Screenshot seht ihr bereits von mir farblich markiert die beiden Ordner, die bei unserer Arbeit von Belang sind. „TXTImages“ und „TXTResults“.


bild1rxk0l.jpg



In einem ersten Schritt klickt ihr die „VideoSubFinderWXW.exe“ Datei an und danach im folgenden Fenster auf „File“ und dann auf „Open Video (OpenCV)“

bild2seka6.jpg



In unserem Beispiel handelt es sich um den Film „Die größten Gauner weit und breit“ (1970), der im deutschen Amazon Store mit eingebrannten Untertiteln für die damals geschnittenen Szenen vorliegt.

Jetzt sucht ihr euch im Film eine Stelle aus, in der Untertitel zu sehen sind und grenzt den Bereich mit den Rastern entsprechend ein, damit das Programm nicht den ganzen Filmbereich nach Untertiteln absucht sondern nur den unteren Bereich.

bild36tjh8.jpg



Ich muss an dieser Stelle zugeben, dass es von großem Vorteil ist, wenn die Untertitel gut lesbar sind und idealerweise wie in diesem Beispiel auch noch farblich hervorgehoben wurden. Ich hatte die Vorgehensweise schon mit sehr alten TV Rips anderer Filme ausprobiert, wo die Untertitel relativ verwaschen und ausgefranst waren. Da hat das einfach nicht geklappt mit dem Erkennen und Auslesen. Aber in diesem Beispiel hat das super funktioniert. Nachdem ihr den Bereich also markiert habt, klickt ihr unten rechts auf „Run Search“. Je nachdem wie gut euer Prozessor ist, kann dieser Vorgang schon ein wenig dauern. Es dauert auch umso länger, je größer die Auflösung des Films und die Bitrate bzw. Größe der mkv Datei ist. Das Programm skaliert auf jeden Fall sehr gut mit den Prozessorkernen, sodass die Auslastung während des Vorgangs bei mir bei über 80% liegt.

Sobald der Vorgang abgeschlossen ist, wechselt ihr im unteren Fenster in den Reiter „OCR“. Dort klickt ihr auf „Create Cleared TXTImages“

bild4ydkwr.jpg



Auch dieser Vorgang kann relativ lange dauern. Das Programm erzeugt jetzt die Bilddateien und legt sie im Ordner „TXTImages“ ab, den ich bereits am Anfang erwähnt habe.

bild5o8kb5.jpg



Ist dieser Arbeitsschritt erledigt, müsst ihr AbbyFinereader starten. Achtung!!! Ihr dürft das Programm VideoSubFinder jetzt nicht schließen, sondern müsst es die ganze Zeit geöffnet lassen. Ihr öffnet also den FineReader und klickt in einem ersten Schritt auf „In andere Formate“ konvertieren“.

bild6aakkr.jpg



Danach navigiert ihr zu dem Ordner „TXTImages“ und markiert sämtliche Bilddateien und klickt danach auf „Öffnen“.

bild7uzjju.jpg



Jetzt müsst ihr bei Ausgabeformat „.txt“ auswählen sowie bei der OCR Sprache „Deutsch“. Danach klickt ihr auf „In TXT konvertieren“

bild8iljxf.jpg



Danach müsst ihr zum Ordner „TXTResults“ navigieren und unten rechts auf „Ordner auswählen“ klicken. Jetzt liest AbbyFineReader die Bilddateien zu Textdateien aus. Auch dieser Prozess kann einige Zeit in Anspruch nehmen, während die entsprechenden .txt Dateien im Ordner abgelegt werden. Den FineReader könnt ihr danach schließen, denn benötigt wird das Programm nicht mehr.

Jetzt geht ihr wieder zum VideoSubFinder und klickt unten auf „Create Sub From TXTResults“. Im anschließenden Fenster navigiert ihr zum Ordner wo eure Filmdatei liegt, klickt auf „Speichern“ und öffnet die Untertiteldatei anschließend mit dem Windows Text Editor.

bild9p5jod.jpg



Nicht erschrecken lassen von dem Ergebnis. Das Programm hat es quasi sehr ernst genommen und alles ausgelesen, was irgendwie nach Untertiteln riecht und beispielsweise auch die Anfangscredits mit eingeschlossen sowie Passagen im Film, wo eigentlich gar keine Untertitel zu sehen sind. Mit 481 Zeilen ist die Anzahl der Gesamtitems entsprechend hoch. Jetzt bleibt es euch also nicht erspart, die Datei zu durchforsten und zu säubern, d.h. sämtliche nicht benötigte Zeilen rauszulöschen sowie bei den Zeilen, die wir benötigen etwaige Rechtschreibfehler zu korrigieren. So präsentiert sich das Endergebnis mit nur noch 230 Zeilen:

bild10btja5.jpg



Diese .srt Datei kann man nun mit mkvmerge zur dazugehörigen Filmdatei muxen (in dem Fall die britische Blu-ray). Je nachdem wie sich die beiden Quelldateien (dt. TV Rip vs. ausländische Blu-ray etc.) unterscheiden (Stichwort Framerisse oder unterschiedlicher Delay), muss die .srt Datei nochmal angefasst und die einzelnen Zeilen in Subtitle Edit neu getimed werden. In diesem Beispiel war dies allerdings nicht nötig, da beide Quellen von Anfang bis Ende wie „Arsch auf Eimer“ gepasst haben.


Das war mein kleines Tutorial zum Auslesen eingebrannter Untertitel. Ich hoffe, ihr könnt damit was anfangen und für eigene Projekte anwenden.


Grüße, Jakopo​
 
Zurück
Oben Unten