Archiv verlassen und diese Seite im Standarddesign anzeigen : Hound (Cortana, Siri ect.)
Die Spracherkennung - Holy Shit :massa:
Was meint Ihr, fake?!
M1ONXea0mXg
Annator
2015-06-04, 14:50:05
Das hat schon was von Star Trek. :D
Chris Lux
2015-06-04, 14:57:30
What the... ?
Sunrise
2015-06-04, 15:27:41
Holy fucking shit, ich bin sprachlos.
Vorausgesetzt das ist echt und nicht getrickst. Die Antworten kommen irgendwie schon auffällig schnell zurück, als wäre der im internen WLAN direkt mit dem SoundHound-Server verbunden.
Ansonsten, fucking impressive. :eek:
Link:
http://www.soundhound.com/
FlashBFE
2015-06-06, 13:44:27
Die Antworten kommen irgendwie schon auffällig schnell zurück, als wäre der im internen WLAN direkt mit dem SoundHound-Server verbunden.
Das Video heißt ja schon "internal demo", also ist das wahrscheinlich nicht über's Internet oder mit tausenden Nutzern parallel. Aber unabhängig der Reaktionszeit sind Textverständnis inklusive logischer Verknüpfungen schon toll.
Tesseract
2015-06-06, 15:05:41
Vorausgesetzt das ist echt und nicht getrickst.
natürlich ist es "getrickst". er fragt vor allem nach daten, sich sich relativ leicht als entsprechendes query formulieren lassen, lässt dabei kaum bzw. keine interpretationsmöglichkeiten und fragt natürlich nur nach dingen, die in der datenbank vollständig sind. für menschen hört sich sowas natürlich deutlich beeindruckender an als ein simples "wieviele einwohner hat deutschland?" aber im grunde ist es aus technischer sicht fast das gleiche, man muss nur entsprechend das query erweitern.
um beurteilen zu können wie gut die erkennung tatsächlich ist müsste man randfälle betrachten: unvollständige datensätze, mehrdeutig formulierte fragen usw.
Sunrise
2015-06-06, 17:42:22
Bzgl. nicht eindeutiger Fragen bzw. Antworten wäre allerdings selbst ein Mensch auf starke kognitive Fähigkeiten angewiesen. Daran würde ich jetzt nicht festmachen, dass dort was getrickst ist. Mit getrickst meinte ich eher, ob man das Video irgendwie manipuliert hat und ob das den Tatsachen entspricht.
Natürlich werden sie die Sache vorher ausführlich getestet haben und dann wie du sagst auch eindeutige Querys formuliert haben um zu sehen, ob die Erkennung ordentlich funktioniert, bevor man so ein Video herausgibt.
Auf nicht-eindeutige Fragen müssten dann mehrere Gegenfragen kommen, was aber auch im Video (Miete der Wohnung) gezeigt wurde.
Ich denke wenn man schonmal soweit ist wie im Video, dann ist der Rest auch problemlos lösbar. Die Datenbank muss man nur groß genug mit allen Daten aufblasen und diese Daten effizient miteinander verknüpfen und durch diese "deep learning"-Geschichte, die immer mehr gepusht wird, sollte auch die Echtzeit-Leistung bei der Voraussetzung von kognitiven Zusammenhängen sehr gut sein. Ich bin aber auch vor allem von der (mal mit Ausnahme der Geschwindigkeit) flüssigen Wiedergabe der Wörter beeindruckt gewesen. Kein Stocken zwischen Silben, sondern alles wirklich wie ein echter Mensch, allerdings klingt es (wohl ein Problem der Sprachsynthese) immernoch unnatürlich. Wenn das nicht so wäre, dann hätte man vollkommen die Illusion eines sprechenden Partners.
Tesseract
2015-06-06, 18:11:46
Mit getrickst meinte ich eher, ob man das Video irgendwie manipuliert hat und ob das den Tatsachen entspricht.
es ist ziemlich sicher kein fake. er spricht fast 1:1 die SPARQL-queries in das gerät rein wie man sie dann an entsprechende server weiterleitet.
Auf nicht-eindeutige Fragen müssten dann mehrere Gegenfragen kommen, was aber auch im Video (Miete der Wohnung) gezeigt wurde.
und wie gut das genau funktioniert ist eben die offene frage. alles vor diesem segment ist aus technischer sicht eher unspektakulär und wie gut komplexere anfragen (mit rückfragen) funktionieren kann man anhand des einen beispiels absolut nicht abschätzen.
Weiss noch, wie ich im Studium stundenlang an Anaphern-Resolution herumlaboriert hatte (Auflösung von z.B. Pronomen oder Adverbien, die auf etwas zuvor gesagtes verweisen - schlimmster Fall waren Kataphern: da einfach eine Variable offenhalten, und füllen mit - dem erstbesten? Ein gewisses Fenster abwarten und das statistisch wahrscheinlichste nehmen? etc.) - bin gespannt, wie gut dieses Produkt (so es denn einmal echt und gut sein wird) das bewerkstelligt :)
Fusion_Power
2015-06-06, 20:18:14
Wie kann man so nuscheln und mit Akzent sprechen und die Software versteht es trotzdem? Ich kenne (deutsche) Spracherkennung die schon bei lupenreinem hochdeutsch versagt. Und so kompliziert ist deutsch ja auch wieder nicht. Englisch scheint aber trotzdem leichter zu verarbeiten zu sein, beeindruckend.
Avalox
2015-06-06, 21:11:22
Probiert es doch aus. Die Beta ist doch seit Tagen draussen.
Hound ist ja schon seit Jahren in der Entwicklung. Die bekannte Musikerkennung war ja nur ein frühes "Abfallprodukt". Die Verarbeitung reagiert sofort nach dem ersten erkannten Wort, deshalb kommen die Antworten sehr schnell im Dialog.
http://www.giga.de/unternehmen/soundhound-inc/news/hound-soundhound-stellt-maechtige-google-now-alternative-fuer-android-vor/
Sven77
2015-06-19, 10:19:07
Falls wer nen Beta-Key will PN. Keines meiner Geräte wird unterstützt :ugly:
vBulletin®, Copyright ©2000-2025, Jelsoft Enterprises Ltd.