比如如何提升GPU等硬件资源的利用率?如何节省硬件投入成本?如何支持算法工程师更方便的应用各类深度学习技术,从繁杂的环境运维等工作中解脱出来?这些可扩展性、局部计算效率问题、内存使用效率问题越来越突出,优化深度学习模型也成为越来越重要的事情。
为了解决复杂科研生产环境中的平台部署、运维问题,微软亚洲研究院推出了大规模人工智能集群管理平台Open Platform for AI(简称OpenPAI)。
据悉,OpenPAI支持多种深度学习、机器学习及大数据任务,可提供大规模GPU集群调度、集群监控、任务监控、分布式存储等功能,且用户界面友好,易于操作。
▲图:OpenPAI主界面
OpenPAI完全基于微服务架构,所有的OpenPAI服务和AI Job均在容器中运行,能够支持多种不同类型的AI任务,如CNTK、TensorFlow、PyTorch等不同的深度学习框架。此外,用户通过自定义Job容器即可支持新的深度学习框架和其他机器学习、大数据等AI任务,具有很强的扩展性。
在运维方面,OpenPAI提供了AI任务在线调试、错误报警、日志管理、性能检测等功能,显著降低了AI平台的日常运维难度。此外,OpenPAI还实现了与Visual Studio的集成。Visual Studio Tools for AI是微软Visual Studio 2017 IDE的扩展,用户在Visual Studio中就可以开发、调试和部署深度学习和AI解决方案。
NNI:智能化自动化的深度学习模型开发流程在5月份召开的2018微软人工智能大会上,微软针对中国市场推出一系列新技术和工具,包括由中国研发团队主导开发的Tools for AI人工智能开发套件。Tools for AI为开发者提供了一个全平台、全软件产品生命周期、支持各种深度学习框架的开发套件。而在此次研讨会上,微软亚洲研究院又推出了NNI工具包(Neural Network Intelligence)。
据微软亚洲研究院副研究员薛卉介绍,NNI工具包主要目的是为开发者提供智能化自动化的深度学习模型开发流程,包含数据分析、性能分析、自动搜索模型、参数调试等工具。技术方面,NNI具备全新定义搜索空间和语言,支持一键部署在不同的云服务、本地集群上,面向开发者提供更友好的接口。
薛卉称,NNI工具包不久后将以开源方式推出,以帮助用户开发出更好的模型。
周礼栋总结说,人工智能时代很多东西都是由数据驱动的,工具系统的设计将会发生很大的变化。微软希望以上的人工智能系统和工具,能够赋能研究人员、开发者和实践者,让AI更快更快更普及化。与此同时,微软也希望借助全栈性的开发者服务,帮助传统开发者快速转型成为AI开发者。