(资料图片)
速途网5月22日讯(报道:乔志斌)今日,潞晨科技宣布成功完成了一轮数亿元的A轮融资。据该公司透露,这是潞晨科技成立18个月以来的第三轮融资,募集到的资金将主要用于团队扩充和业务拓展。
潞晨科技成立于2021年,主要致力于建立分布式人工智能(AI)开发和部署平台,旨在帮助企业降低大规模模型的实施成本,并提高训练和推理效率。该公司的创始人尤洋表示,他之前在伯克利和新加坡国立大学从事分布式计算、机器学习和高性能计算等相关研究,并曾创造过ImageNet和BERT训练速度的世界纪录。在2021年左右,他更加坚信大模型的发展趋势,因此创立了潞晨科技,旨在降低大模型的实施门槛。
潞晨科技目前的产品包括开源高效深度学习系统Colossal-AI和企业版PaaS平台。该平台主要由异构内存管理系统、高效N维并行系统和低延迟推理系统组成,旨在实现最小化模型部署成本和最大化计算效率的目标。
在异构内存管理方面,尤洋指出,随着模型参数和层数的增加,计算量也相应增加。例如,GPT3的1750亿参数可能需要占用800G的内存。此外,在训练神经网络时,还需要存储梯度和优化器状态等数据。尤洋举例说:“即使在GPT3什么都没做的情况下,它的内存消耗也会达到3200G。”因此,在训练大模型的场景中,合理管理内存资源变得非常重要。当GPU内存无法容纳这些数据时,还需要将部分数据迁移到CPU或NVMe硬盘上。
尤洋表示,管理GPU、CPU和NVMe硬盘被称为异构管理。过去,异构管理主要采用静态方法,一开始就预估所需的参数、梯度、优化器等资源。然而,尤洋认为这种方法过于固定,无法根据实际训练过程进行调配,可能导致资源浪费。而潞晨采用的动态管理方式可以更加灵活地平衡资源。尤洋解释道:“我们希望数据都能放到GPU中。