Audio to Text / Stimme in Text umwandeln

**zongoku** · 17.03.05 09:20

Mir ist da eine Idee gekommen.
Ich hab das auch schon irgendwo gesehen, nur weiss nicht wo das war.

Also eine Software, die gesprochenen Text per Mikrophon oder aus einem Aufnahmegeraet, in Text umwandelt.

Wer hat schon Erfahrungen mit einem solchen System gemacht?
Waere auch eine Moeglichkeit fuer Taubstumme gesprochene Sprache direkt auf einem Geraet lesbar zu machen.

Japanische Stimme in Text umwandeln.

VoiceOfJapan (VoJ). kann das ja schon umgekehrt.
Der kann Text in AVI und MP3 umwandeln.
Also die berechtigte Frage, ob das auch in umgekehrter Form gehen kann?

Was wird benoetigt?
Ein Mikrophon,
Ein Erkennungsprogramm mit Konvertierung.

Welche Formate koennen umgewandelt werden?
Welche Schnittstellen gibt es zwischen den einzelnen Geraeten? Ich denke da an Diktiergeraete die ihre Datenflut per Mausklick in Text umwandeln.

Gibt es sowas schon, und wo kann man das austesten, bzw. kaufen?

GeNeTiX · 17.03.05 11:10

Ja, das heisst Spracherkennung... Gibt es schon seit mindestens 20 Jahren und funktioniert zum Diktieren leider immer noch nicht hinreichend zuverlaessig, wobei japanische Systeme wegen der silbenbasierten Aussprache (fast keine Variationen in der Aussprache der einzelnen Hiragana-Silben) und der "eingejapanischten" Fremdwoerter besser funktionieren, als deutsche Systeme.

Es ist uebrigens nicht so, dass nicht genug Zeit, Geld und Aufwand in diese Systeme gesteckt wuerde... Daran forschen sowohl Universitaeten als auch privatwirtschaftliche Unternehmen schon seit Jahren sehr intensiv. Die Aufgabe, ein Diktiersystem zu bauen, ist schlichtweg verdammt schwer.

Wenn Du das Ganze mal ausprobieren willst, such zum Beispiel nach "Via Voice" von IBM oder "Dragon Naturally Speaking", um die beiden bekanntesten Vertreter zu nennen.

Falls Du technische Details willst, frag ruhig... Spracherkennung ist zur Zeit mein Haupt-Interessensgebiet und abgesehen davon mache ich hier den ganzen Tag nichts anderes, als das... hoho

Tatsujin · 17.03.05 12:19

Zitat:wobei japanische Systeme wegen der silbenbasierten Aussprache (fast keine Variationen in der Aussprache der einzelnen Hiragana-Silben) und der "eingejapanischten" Fremdwoerter besser funktionieren, als deutsche Systeme.

Versteh ich jetzt nicht ganz. Kaum eine Sprache ist mehr Kontextabhängig wie Japanisch und beinhaltet dermassen gleichbetonte Wortstücke! Da muss es doch unheimlich schwer sein, diese genau zu unterscheiden um den genauen Inhalt eines Satzes per Spracherkennung zu interpretieren? Zumal das Gerät wohl kaum über den Kontext eines Satzes verfügt. Bei solchen standard Floskeln sehe ich kein Problem, aber bei einem frei von der Leber weg gesprochenen Text dann schon eher kratz

**zongoku** · 17.03.05 12:42

@GeNeTiX
Danke fuer die schnelle Antwort.
Ich werde mich mal um dieses kuemmern und auch austesten.

@Tatsujin
Es geht nicht um Floskeln, sondern praeziser gesagt um Phonodiktate auf Kassette. Das ist ja gesprochener Text, der mit einem Taschenrecorder Sprache aufnimmt.

Allgemein verwendet um schnelle Prozesse, Studien, Vorgaenge zu dokumentieren, die man ueberwacht. und die Reaktionen schneller verzeichnen kann als sie aufzuschreiben.

Um nun diesen Text nachher, auf dem Buero, in Word einzugeben, will ich dies per Knopfdruck machen koennen.
Um das laestige hin und herspulen zu vermeiden.

Nun wenn sich da noch einige Fehler aufhielten, ist das kein Problem, denn diese sind beim Ueberlesen schnellstens verbessert.

Tatsujin · 17.03.05 12:55

Zitat:@Tatsujin
Es geht nicht um Floskeln, sondern praeziser gesagt um Phonodiktate auf Kassette. Das ist ja gesprochener Text, der mit einem Taschenrecorder Sprache aufnimmt.

Ja eben. Die Problematik sehe ich ja gerade bei irgend einem frei gesprochenen Text. Wenig Variation in der Höhe und sehr viel gleich tönende Laute sind ohne Kontext schwieriger zu erkennen (imo)!

17.03.05 12:59

Bei Windows XP Tablet Edition funktioniert die Spracherkennung eigentlich ganz gut.
Nach ca. 20 Minuten Training fast 100% richtige Erkennung.
Die Windows Steuerung ueber Sprachbefehle kommt ohne Training aus und ist ueberraschend gut.
Allerdings kann ich mich nur auf Englisch beziehen.
Ob das Japanische XP TE Japanisch versteht weiss ich nicht.

GeNeTiX · 17.03.05 17:00

@AU: Sprachsteuerung ist einfach. Alles, wo nur isolierte, vorab bekannte Wörter und Säetze erkannt werden müssen, ist (relativ) einfach.

Schwierig wird es in dem Moment, wo Du freie Texte diktieren willst.

@Tatsujin: Der Punkt ist, daß die Transkription von Audio nach Romaji/Kana mehr oder minder eins zu eins ist... während im Deutschen "ge" wie in "Tage" oder wie in "Etage" oder wie in "Gegenwart" ausgesprochen kann, ist im Japanischen eben "ki" = "ki" und "wo" = "wo".... Zumindest im Wesentlichen. Die gleiche Silbe wird nie in eine ganz andere Phonemsequenz uebersetzt, wie das im Deutschen der Fall ist.
Ob diese Systeme auch die Übersetzung in Kanji leisten, weiß ich nicht. Vielleicht funktioniert das auch ähnlich wie beim IME, dass man da dann irgendwie eingreifen muß.

**zongoku** · 17.03.05 17:59

ich habe ein wenig rumgelesen.
Da gibt es Systeme die fuer Spezielle Bereiche zusaetzliche Datenbanken mitliefern. Und so teuer sind die Programme auch nicht.

Waer noch zu erfahren, ob das System die Woerter mit Leerzeichen trennt, und ob eine Rechtsschreibung da implementiert ist?

Shinja · 17.03.05 18:00

Es ist lange her, dass ich es ausprobiert habe, aber ich denke mich zu erinnern, dass man ein Sprachsystem erst sozusagen seiner Stimme anpassen muss. Ich hab keine Ahnung mehr was für ein Programm es war, aber mein Vater und ich haben es mal ausprobiert: er hat sein Programm auf seine Stimme eingestellt und dann gesprochen... anfangs grauenhaft. Nach mehrmaligen Versuchen wurde es dann langsam besser mit der Erkennung, wenn auch noch nicht korrekt. Dann hab ich es einfach mal auf seinem PC versucht... und das Programm hat es wieder komplett falsch umgewandelt... Also hängt es schon mal, denk ich, davon ab, wer spricht.
Wenn du, zongoku, jetzt Gespräche anderer aufzeichnest, weiß ich nicht, ob das was wird, weil es dann ja Stimmen sind, die dem Programm nicht gezeigt wurden.
Außerdem gibt es ein weiteres Problem: auf dem was du aufzeichnest sind, denk ich mal, auch andere Geräusche drauf. Auch die könnten vielleicht zu Fehlern führen.
Und zu guter Letzt sollte man nicht vergessen, dass in einem frei gesprochenen Text oftmals "ehh"s drin sind, oder vielleicht werden manche Silben wiederholt (passiert mir beim japanisch lesen ständig) Diese würden dann wohl auch vom Programm wiedergegeben.

Wie gesagt, das ist schon etwas länger her... Genetix wird wohl wissen, ob man dort mittlerweile genug Fortschritte gemacht hat, damit es funktioniert.

Denkbär · 17.03.05 19:17

Ach, wären doch nur die 'äähs', 'mms' und ähnliches das Problem. ^^
Ich schreibe sehr viel nach Phonodiktat und stelle mir das mit Spracherkennung ziemlich schwer vor. Es geht sicher noch, wenn jemand nicht viel diktiert und dann sehr auf seine Stimme aufpaßt; aber Vieldiktierer bekommen mit der Zeit so ihre Macken.

Da sind zum Beispiel:
- Die Leute, die beim Diktat gerne etwas essen (Da wünschte ich mir die Spracherkennung traurig

)
- Die Leute, die am liebsten im Auto diktieren, bei offenem Fenster und mit 240 kmh über die Autobahn rasend.
- Die Leute, für die Deutsch eine Fremdsprache ist, und die deshalb oft Sätze falsch konstruieren bzw. einen starken Akzent haben (Wirklich, das ist sehr anstrengend, wenn man gleichzeitig schreiben, verstehen, korrigieren soll.)
- Die Leute, für die Deutsch die Muttersprache ist, die es aber trotzdem nicht schaffen, Sätze richtig zu konstruieren.
- Die Leute, die während des Diktats laufend den bereits geschriebenen Text noch ändern ("Ach, fügen Sie doch bitte auf S. 3, irgendwo in der Mitte noch Folgendes ein..")

Und und und....

Das ist sicher im Japanischen nicht anders.

Ein großes Problem für die Spracherkennung ist sicher so etwas, und glaubt mir, bei Vieldiktierern ist das normal. Ich will auf keinen Fall behaupten, dass es nicht funktionieren kann. Im Gegenteil, ich bin sehr gespannt auf den Fortschritt. Für alle Spracherkennungsprogramme, die mir die diktierenden Esser vom Hals schaffen, wäre ich sehr dankbar. ^^

Möglicherweise verwandte Themen...
Thema:	Verfasser	Antworten:	Ansichten:	Letzter Beitrag
gescannte Datei in durchsuchbare PDF-Datei umwandeln	Bernhard	1	608	22.04.25 09:55 Letzter Beitrag: harerod
japanisch Speach to Text	Phil.	6	3.288	22.11.18 08:27 Letzter Beitrag: Phil.
Wie kann ich ⺂ in Schrift umwandeln?	Teskal	25	14.648	20.09.12 00:36 Letzter Beitrag: Horuslv6
OCR - Jap. gedruckten Text auf PC übertragen	Kibou	28	15.308	22.11.11 23:14 Letzter Beitrag: Sue
Japanischer Text unleserlich	yamaneko	4	10.850	25.03.11 12:27 Letzter Beitrag: a

Audio to Text / Stimme in Text umwandeln
Verfasser	Nachricht