Оглавление:
- 1. Не забывайте, логистика
- 2. Следите за своими данными
- 3. Алгоритмы не волшебные пули
- 4. Используйте разнообразный набор инструментов
- 5. Эксперимент с гибридным обучением
- 6. Дешево не значит плохо
- 7. Не называйте это AI
Видео: Ñ (Ноябрь 2024)
В первой части нашего бизнес-руководства по машинному обучению (ML) рассказывалось о том, как зонтичная концепция ML гораздо более детализирована в бизнес-среде. Наиболее эффективные стратегии смотрят на ML в практическом смысле, используя как сложные методы глубокого обучения, так и менее интенсивные методы «дешевого обучения», чтобы оптимизировать корпоративные процессы и получить реальное представление о бизнес-аналитике (BI).
Целью развертывания ML в ваших бизнес-приложениях является повышение прибыли или усиление конкурентных преимуществ вашей компании. Но в более широкой схеме вашей организации использование большей части времени и ресурсов, которые вы вкладываете в этот процесс, выходит далеко за рамки алгоритмов. Лица, принимающие решения в области ИТ в вашем бизнесе, должны убедиться, что все факторы, влияющие на реализацию ML, - от данных и логистики до того, как вы взаимодействуете с пользователями - работают сообща, чтобы максимизировать эффективность.
Тед Даннинг, доктор философии, является главным архитектором приложений в MapR, компании-разработчике программного обеспечения, предлагающей различные средства распространения больших данных и инструменты управления данными. Даннинг также является соавтором двух книг о том, что он называет «Практическим машинным обучением», и разработал технологии ML для ряда компаний на протяжении многих лет, включая систему обнаружения мошенничества ID Analytics (приобретенную LifeLock) и программное обеспечение Musicmatch Jukebox, который позже стал Yahoo Music. В настоящее время он также является вице-президентом по инкубации в Apache Software Foundation.
Даннинг наблюдал за развитием пространства ML на протяжении десятилетий и многое узнал о том, что работает, а что нет в практической деловой среде. Ниже Даннинг излагает семь лучших практик, которым нужно следовать при разработке бизнес-решений, основанных на ML.
1. Не забывайте, логистика
Успешный ML - это не только выбор правильного инструмента или алгоритма. Даннинг сказал, что вам также необходимо выяснить, какой подход вам подходит, и спроектировать его для конкретной ситуации, к которой вы обращаетесь. Например, Даннинг говорил о ML в онлайн-маркетинговой кампании, в отличие от гораздо более сложных сценариев, таких как алгоритмы, управляющие автономным автомобилем. Затрачивая свои ресурсы на постепенное улучшение алгоритма, стоит проблем с автомобилем, но в маркетинговом сценарии вы увидите гораздо лучшую отдачу от оптимизации всей логистики вокруг него.
«Зачастую, для бизнеса, это логистика, а не обучение, которое дает вам ценность. Это та часть, на которую вы должны тратить свое время и ресурсы», - сказал Даннинг. «Настройка алгоритма даст вам небольшое улучшение. Но настройка этих данных, графического интерфейса пользователя, а также того, как вы слушаете своих пользователей и взаимодействуете с ними, могут легко дать вам 100-процентное улучшение. Потратить время на настройку алгоритма стоит много для бизнеса, как слушает ваших пользователей."
Чтобы проиллюстрировать это, Даннинг объяснил, как он однажды построил модель для выявления мошенничества в приложениях (открытие поддельных учетных записей с украденными личностями) в базе данных клиентов компании. Модель, которую он построил, дала отличные результаты, но Даннинг заметил, что она очень сильно влияет на пол заявителя.
Оказалось, что логистика была выключена. Как работал процесс подачи заявки, заявитель заполнял свой пол только после того, как он уже стал клиентом и прошел ряд этапов проверки для выявления мошенников. Таким образом, используя гендерное поле, модель ML обманула логистику всего процесса мошенничества. Это не имеет ничего общего с алгоритмом, и все, что связано с тем, как компания получала свои данные в первую очередь.
2. Следите за своими данными
Даннинг полон броских кусочков мудрости. Начав с слов «это логистика, а не обучение», он сказал, что другая половина этой идеи - «это данные, а не алгоритмы». Большая часть обеспечения того, что ваши алгоритмы ML обеспечивают ценную информацию, заключается в том, что вы предоставляете им правильные данные. Даннинг сказал, что если вы не получаете результат, для которого вы ищете, то чаще всего это происходит потому, что вы не используете правильные данные.
«Все люди привязаны к своему алгоритму и привязаны к его эго, но в настоящее время благодаря инструментам каждый и их мать могут и придумывают всевозможные новые алгоритмы», - сказал Даннинг. «Данные гораздо важнее и дадут вам гораздо больше сил, чем бесконечные настройки ваших алгоритмов. Если вы работаете над сложной проблемой, такой как распознавание речи или компьютерное зрение, это одно. Но это поле, управляемое данными. В большинстве сценариев вы получите гораздо больше пользы от корректировки данных, которые вы получаете, и от изменения вопроса ».
Это то, что Даннинг сделал в середине 2000-х годов, когда создавал механизм рекомендаций по видео в компании Veoh Networks. Команда работала над определением пар видео, сгенерированных пользователями, на которые люди нажимали больше, чем ожидалось, но алгоритм не работал. Они думали с точки зрения музыки, где пользователи знают своих любимых исполнителей и песни по имени. Таким образом, они изменили вопрос, настроив пользовательский интерфейс, не касаясь самого алгоритма.
«В видео, созданных пользователями, никто не знает художников, и у многих видео были действительно спамовые заголовки, чтобы получить больше просмотров. Циклическая настройка алгоритма никогда бы не дала нам хороших результатов», - сказал Даннинг. «То, что мы сделали, это изменили пользовательский интерфейс, чтобы излучать сигнал маяка каждые 10 секунд. Мы обнаружили, что если мы будем использовать маяк вместо щелчков для необработанных данных рекомендателя, мы получим потрясающие результаты. Подъем этого одного изменения составил несколько стопроцентное улучшение вовлеченности благодаря рекомендациям, без алгоритмических изменений ".
3. Алгоритмы не волшебные пули
Реализации ML процветают на постоянном методе проб и ошибок. Независимо от того, насколько хороши ваши алгоритмы, если ваша система взаимодействует с людьми, со временем ее нужно будет корректировать. Даннинг подчеркнул, что предприятия должны постоянно измерять общую эффективность своей реализации, а также определять изменения и переменные, которые делают ее лучше и хуже. Это может звучать как банальность, но Даннинг сказал, что, несмотря на то, как это очевидно, очень мало людей делают это или делают это хорошо.
«Многие люди хотят развернуть систему или предпринять какие-то действия, и они хотят, чтобы их алгоритм работал идеально всегда», - сказал Даннинг. «Ни один алгоритм не станет волшебной пулей. Никакой дизайн пользовательского интерфейса не будет вечным. Ни один метод сбора данных никогда не заменится. Все это может и будет происходить, и предприятиям необходимо бдительно измерять, оценивать и переоценивать, как их система работает."
4. Используйте разнообразный набор инструментов
Есть десятки доступных инструментов ML, многие из которых вы можете использовать бесплатно. У вас есть популярные библиотеки сред с открытым исходным кодом, такие как Caffe, H20, Shogun, TensorFlow и Torch, а также библиотеки ML в ряде проектов Apache Software Foundation (ASF), включая Mahout, Singa и Spark. Кроме того, существуют варианты на основе подписки, в том числе Amazon Machine Learning, BigML и Microsoft Azure Machine Learning Studio. У Microsoft также есть бесплатный Cognitive Toolkit.
Есть бесчисленное количество доступных ресурсов. Даннинг побеседовал со многими предприятиями, специалистами по данным и специалистами по ML и всегда спрашивал их, сколько различных структур и инструментов они используют. В среднем, по словам Даннинга, большинство сказали, что они используют минимум 5-7 инструментов, а зачастую и гораздо больше.
«Вы не можете приклеиться к одному инструменту. Вам придется использовать несколько, и поэтому вам лучше строить свою систему так, чтобы она была независимой», - сказал Даннинг. «Любой, кто пытается убедить вас, что этот инструмент - единственный, который вам когда-либо понадобится, продает вам товарный счет».
«На следующей неделе может произойти что-то, что расстроит тележку с яблоками, и темпы инноваций, которые мы наблюдаем, будут продолжаться, по крайней мере, еще пять-десять лет», - продолжил Даннинг. "Посмотрите на дешевый пример обучения, где, возможно, вы повторно используете существующий классификатор изображений для анализа изображений в каталоге. Это глубокое обучение с добавлением компьютерного зрения. Но есть инструменты, которые собрали все это. Вам нужно измерять, оценивать и колебаться между различными инструментами, и ваша инфраструктура должна приветствовать это ".
5. Эксперимент с гибридным обучением
Даннинг сказал, что вы также можете объединить дешевое и глубокое обучение в нечто гибридное. Например, если вы берете существующую модель компьютерного зрения и воссоздаете несколько верхних слоев, где принимается решение, вы можете использовать существующую среду для совершенно нового варианта использования. Даннинг указал на соревнование Kaggle, в котором участники делали именно это; они взяли набор данных и написали новый алгоритм сверху, чтобы помочь компьютеру отличить кошек от собак.
«Различение кошек и собак - очень тонкая вещь для алгоритма ML. Подумайте о логике: у кошек острые уши, но у немецких овчарок нет. У собак нет пятен, кроме далматинцев и т. Д. Это может быть довольно трудно распознать. сам по себе ", сказал Даннинг. «Парень, который выиграл, разработал систему, которая сделала это с точностью 99%. Но я был более впечатлен человеком, который занял третье место. Вместо того, чтобы строить с нуля, он взял существующую программу распознавания изображений из другой задачи, снял верхний слой, и поместил туда простой классификатор. Он привел несколько примеров, и вскоре он был на 98 процентов точным в различении кошек от собак. Весь процесс занял у парня три часа ".
6. Дешево не значит плохо
Несмотря на явную коннотацию, Даннинг сказал, что дешевое обучение не означает плохое обучение. Количество времени, которое вы тратите на реализацию ML, напрямую не зависит от его ценности для бизнеса. По его словам, более важным качеством является обеспечение того, чтобы процесс был повторяемым и надежным. Если бизнес способен достичь этого, не вкладывая чрезмерное количество ресурсов, то это тем лучше.
«Дешево не значит плохо. Если это работает, это работает. Если это дешево, и это работает, это здорово. Но усилия, которые вы вкладываете в его создание, не определяют ценность. Это заблуждение в отношении стоимости», - сказал Даннинг., «Что определяет ценность, так это то, как это улучшает бизнес. Если это улучшает прибыль или снижает затраты или улучшает вашу конкурентную ситуацию. Это эффект, а не усилие».
7. Не называйте это AI
Даннинг подчеркнул, что, говоря об этих методах, предприятия должны использовать точную терминологию: ML, компьютерное зрение или глубокое обучение. Все это, как правило, подпадает под общий термин «искусственный интеллект», но для Даннинга определение ИИ - просто «материал, который еще не работает».
«Лучшее определение, которое я когда-либо слышал об искусственном интеллекте, - это то, что мы еще не можем объяснить. То, что мы не выяснили», - сказал Даннинг. «Каждый раз, когда мы заставляем что-то работать, люди говорят:« О, это не ИИ, это просто программное обеспечение. Это просто движок правил. Это действительно просто логистическая регрессия ». Прежде чем мы что-то придумаем, мы называем это ИИ, а потом мы всегда называем это чем-то другим. Во многих отношениях ИИ лучше использовать в качестве слова для следующей границы, а в ИИ всегда будет следующая граница. куда мы идем, а не туда, куда мы уже достигли ".