Главная   Аналитика   Безопасность    Наука и технологии   Проекты    Soft   Hard   О том, о сём    Контакты

Представляем Red Hat OpenShift Data Science

30.04.2021

Большинство предприятий могли бы получить от дата-сайенс больше, чем сейчас, не будь они ограничены возможностями своих инструментов и рабочих процессов. Именно поэтому мы запускаем сервис Red Hat OpenShift Data Science: чтобы помочь нашим клиентам применить те знания в области науки о данных и машинного обучении (МО), которые Red Hat приобрела в ходе выполнения своих внутренних ИТ-проектов и работы с клиентами из самых разных отраслей.

Наука о данных и машинное обучение помогают организациям принимать бизнес-решения и генерировать доходы и знания в самых разных секторах экономики, от нефтегазовой отрасли до сферы финансовых услуг, включая всё, что находится в промежутке. Однако разработка и развертывание процессов машинного обучения часто оказываются непростой задачей. Этому препятствуют недостаток доступа к данным, неадекватность вычислительных ресурсов решаемым задачам, сложности управления взаимозависимыми библиотеками и версиями пакетов, а также ограничения безопасности. Red Hat OpenShift Data Science поможет решить эти проблемы.

Что такое Red Hat OpenShift Data Science?

Red Hat OpenShift Data Science – это надстройка для управляемых облачных сервисов семейства Red Hat OpenShift. Пока он доступен только на платформе Amazon Web Services (в составе сервисов Red Hat OpenShift Dedicated и Red Hat OpenShift Service on AWS) и представляет изолированную «песочницу», где дата-сайентисты могут разрабатывать, обучать и тестировать модели машинного обучения, а также интегрировать их с умными приложениями.

Red Hat OpenShift Data Science предоставляет готовую среду самообслуживания, в которой дата-сайентисты и инженеры машинного обучения могут вести повседневную работу, начиная от сбора и подготовки данных и заканчивая тестированием и обучением моделей машинного обучения. Red Hat OpenShift Data Science позволяет заказчику получить доступ к целому ряду технологий ИИ/МО, разработанных партнерами Red Hat и независимыми поставщиками ПО, и создавать на их основе собственную «песочницу» из новейших инструментов для работы с данными.

Как строится процесс машинного обучения

Прежде чем перейти к детальному рассмотрению Red Hat OpenShift Data Science, освежим в памяти основные этапы типового процесса решения бизнес-задач с использованием ИИ и МО.

Этот процесс обычно начинается со сбора и подготовки данных. Зачастую данные должны поступать из целого ряда источников, и изучение и понимание данных играет ключевую роль в успешной реализации проектов дата-сайенс.

После того, как данные собраны, очищены и обработаны, можно приступать ко второму этапу – обучению модели. На этом этапе параметры модели настраиваются на основе набора обучающих данных. В реальности на этом этапе дата-сайентисты обучают сразу несколько моделей и сравнивают их производительность с учетом различных компромиссов, таких как ограничения по времени или по размеру памяти.

После того, как модель прошла обучение, наступает следующий этап – продакшн. Традиционно считается, что здесь ответственность переходит от дата-сайентиста к разработчику, но мы в Red Hat видим, что сегодня дата-сайентисты все чаще сами отвечают за интеграцию своих моделей в приложения.

И наконец, дата-сайентистам требуется контролировать работу модели в продакшн-условиях, отслеживая прогнозирование и метрики производительности.

Как OpenShift Data Science встраивается в процесс машинного обучения

Предоставляя унифицированную «песочницу» с функциями самообслуживания, интегрированными инструментами, доступом к целому ряду открытого и проприетарного ПО в области дата-сайенс, Red Hat OpenShift Data Science позволяет специалистам по работе с данными полностью сфокусироваться на своих прямых обязанностях и быстро разрабатывать и обучать модели в более безопасной и поддерживаемой среде, не отвлекаясь на сопутствующие технические задачи.

Например, в OpenShift Data Science по умолчанию активирован сервис JupyterLab, позволяющий пользователям разрабатывать модели и внедрять аналитические методы в Jupyter Notebooks. Имея на выбор несколько проверенных notebook-образов, пользователи могут быстро загружать предоставляемые Red Hat контейнерные образы и разрабатывать модели с использованием новейших фреймворков, включая TensorFlow и PyTorch.

Возможность при необходимости подключаться к GPU ускоряет обучение и тестирование моделей, а также сокращает время, необходимое для разработки моделей и получения информации, что открывает путь к быстрому прототипированию и экспериментам со сценариями использования.

Ввод моделей в продакшн

Основываясь на Red Hat OpenShift, ведущей отраслевой Kubernetes-платформе корпоративного класса, Red Hat OpenShift Data Science позволяет участникам кросс-дисциплинарной команды работать на одной платформе, упрощая интеграцию при развертывании моделей. Входящий в состав Red Hat OpenShift инструментарий Source-to-Image (S2i) позволяет контейнерезировать модели МО-экспериментов и автоматически развертывать их в составе умных приложений.

Возможность использовать сторонние инструментам машинного обучения

Что касается сторонних коммерческих инструментов, то Red Hat OpenShift Data Science исповедует открытый подход: целый ряд таких продуктов ИИ/МО уже прошел сертификацию и появится на сайте Red Hat Marketplace позже в этом году. Эти инструменты можно объединять с Red Hat OpenShift Data Science, что позволяет заказчику формировать собственные уникальные решения, выбирая необходимые компоненты из расширенной экосистемы ИИ/МО. Интеграция с Red Hat OpenShift Streams for Apache Kafka позволяет дата-сайентистам тестировать и разрабатывать модели на основе потоковых данных.

Сейчас перечень партнерских решений включает в себя:

- Starburst Galaxy - Полностью управляемая платформа, позволяющая вам получить доступ к данным, расположенным к любой точке гибридного облака.

- Anaconda Commercial Edition - Обширный набор пакетов дата-сайенс для использования в проектах Jupyter.

- IBM Watson Studio - Используется для создания, запуска и управления крупномасштабными моделями ИИ с помощью Watson Machine Learning и Watson OpenScale.

- Seldon Deploy - Помогает упростить и ускорить процесс развертывания и управления моделями МО.

Red Hat OpenShift по праву считается ведущей Kubernetes-платформой корпоративного класса и уже давно стал фундаментом для построения распределенных систем. Реализуя на этой платформе функционал дата-сайенс, мы расширяем и улучшаем возможности кросс-командного взаимодействия, упрощаем процесс интеграции с другими компонентами приложений и помогаем бизнесу упростить и ускорить применение результатов машинного обучения.

С Red Hat OpenShift Data Science дата-сайентисты могут сосредоточиться на разработке моделей и изучении данных, не отвлекаясь на управление сопутствующей ИТ-инфраструктурой и «железом».

Пресс-служба Red Hat

Тема:Soft

© 2014. ИТ-Текст. Все права защищены.