Видео: Ñ (Ноябрь 2024)
Если бы вы следили за компьютерной революцией с момента создания микропроцессора, вы бы знали, что есть ряд ранних обещаний, которые еще не выполнены.
Одним из них является перевод на лету, где вы говорите что-то на английском языке, и это повторяется на другом языке, например, на испанском, почти в реальном времени. Хотя Microsoft все еще находится в процессе разработки, теперь она на шаг ближе к Skype Translator, первый этап которого был запущен на этой неделе.
Если это близко к работе и не шутка, это продукт десятилетия. Прямо сейчас Skype Translator поддерживает переводы с испанского на английский и с английского на испанский, но предполагается, что последуют другие языки.
Типичная проблема с такими вещами - невероятный уровень сложности. Я еще не видел приличного пакета перевода, который делает переводы текста в текст, которые работают хорошо. Речевой перевод имеет совершенно другой уровень сложности, особенно в режиме реального времени.
У Microsoft есть фильм, в котором двое детей говорят по-испански и по-английски, и это выглядит так, будто все работает хорошо. Но я видел подобную систему, продемонстрированную IBM почти 20 лет назад, которая никогда не выходила на свет. Версия IBM была разработана в 1990-х годах, когда возникла мания по распознаванию речи во главе с Lernout & Hauspie, компанией, которая разорялась, прежде чем разоряться из-за мошеннического скандала в 2001 году. Однако до этого она покупала все речевые технологии. Компании это могли, в том числе Dragon Systems, Berkeley Speech Technologies, Fonix, Dictaphone и другие. Microsoft владела 8-процентной долей в L & H и в конечном итоге использовала некоторые из технологий в качестве прощального банкротства.
Посмотрите на несчастные компьютерные переводы текста в текст, сделанные Google и другими. Текст не делает и не может избежать самых очевидных ошибок. Ничто из этого не приближается к сложности перевода речи, что влечет за собой интенсивную обработку сигналов.
Я коллекционирую вино и часто посещаю французские винодельческие сайты. Мой французский только в порядке, поэтому я часто включаю перевод, чтобы ускорить чтение сайта. Здесь мы находимся в 2014 году, и никто из переводчиков не может понять, что перевод «Шато Марго» - это «Шато Марго», а не «Замок Марго». Насколько сложно воздерживаться и не переводить часто употребляемое слово, используемое в собственном имени, например, шато, обычно относящееся к конкретной винодельне, в слово «замок»? Видимо, это невозможно. Они все делают это.
Насколько сложно вписать какое-то исключение в код, который говорит переводчику, что он находится на веб-сайте о вине Бордо? В то время как на этом сайте слово замок не означает замок. Часто переводчик попытается расшифровать и остальную часть названия замка, что приведет к нелепым результатам. Лучшее, что вы можете сделать с переводом текста, - это понять, что говорит сайт.
Спросите себя: если текст так сложно, как Microsoft будет управлять речью?
Это почти невозможно даже на одном языке. Возьми телефонную службу Google Voice. Он имеет функцию принятия речевых сообщений. Я никогда не получал голосовых сообщений, которые даже близко приближаются к тому, что на самом деле сказал человек. Ни разу.
Я признаю, что в тихой комнате, когда вы говорите четко и ясно, распознавание голоса хорошо. Я использую его для текстовых сообщений на моем телефоне Android. Но в реальном разговоре никто так не говорит. Я восхищаюсь Microsoft за это. Но это не будет работать так, как рекламируется.
Тем не менее, это по крайней мере что-то, чтобы играть с. Это может даже вызвать новое поколение исследований. Так что я не буду сильно жаловаться.
Все хотят этого. Давайте вернемся к работе над этим.