相关推荐recommended
常见AI模型参数量-以及算力需求评估
作者:mmseoamin日期:2024-01-21

文章目录

    • token和byte有换算关系吗?
    • 大模型开源链接和大模型套件
    • 大模型对推理算力需求
    • 4-bit Model Requirements for LLaMA
    • 昇思和业界开源大模型关于算力、训练时长
    • 不同参数量下算力需求
    • 典型大模型下算力需求
    • 常见小模型参数量
    • 推理训练算力需求分析
      • 训练
      • 推理
      • 参考

        token和byte有换算关系吗?

        盘古一个token=0.75个单词,1token相当于1.5个汉字;

        以中文为例:token和byte的关系

        1GB=0.5G token=0.25B token;

        Token 设计原则理解:英文中有些单词会根据语义拆分,如overweight会被设计为2个token,over和weight;

        中文中有些汉语会根据语义被整合,如“等于”、“王者荣耀”;

        大模型开源链接和大模型套件

        大模型应用方向开源链接
        悟空画画文生图https://github.com/mindspore-lab/minddiffusion/tree/main/vision/wukong-huahua
        Taichu-GLIDE文生图https://github.com/mindspore-lab/minddiffusion/tree/main/vision/Taichu-GLIDE
        CodeGeex代码生成https://github.com/THUDM/CodeGeeX
        鹏城盘古文本生成预训练https://gitee.com/mindspore/models/tree/master/official/nlp/Pangu_alpha
        紫东太初图文音三模型https://gitee.com/mindspore/zidongtaichu
        LuojiaNet遥感框架https://github.com/WHULuoJiaTeam/luojianet
        空天灵眸多模态遥感(当前为10亿级别参数)https://gitee.com/mindspore/ringmo-framework
        大模型套件套件内容开源链接
        mindformerstransformer大模型套件https://gitee.com/mindspore/mindformers
        minddiffusiondiffusion模型套件https://github.com/mindspore-lab/minddiffusion
        MindPet微调套件https://github.com/mindspore-lab/mindpet

        大模型对推理算力需求

        4-bit Model Requirements for LLaMA

        ModelModel SizeMinimum Total VRAMCard examplesRAM/Swap to Load*
        LLaMA-7B3.5GB6GBRTX 1660, 2060, AMD 5700xt, RTX 3050, 306016 GB
        LLaMA-13B6.5GB10GBAMD 6900xt, RTX 2060 12GB, 3060 12GB, 3080, A200032 GB
        LLaMA-30B15.8GB20GBRTX 3080 20GB, A4500, A5000, 3090, 4090, 6000, Tesla V10064 GB
        LLaMA-65B31.2GB40GBA100 40GB, 2x3090, 2x4090, A40, RTX A6000, 8000, Titan Ada128 GB

        来源:https://gist.github.com/cedrickchee/255f121a991e75d271035d8a659ae44d

        昇思和业界开源大模型关于算力、训练时长

        参数数据训练算力时长
        鹏城盘古100B300B token512P Ascend91028天
        鹏城盘古200B300B token512P Ascend91041天
        紫东太初1B1.3亿图文对16P Ascend91010天
        紫东太初100B300万图文对128P Ascend91030天
        空天灵眸1B200w遥感图片(250G)20P Ascend9103天
        空天灵眸10B500w遥感图片(600G)20P Ascend91030天
        燃灯20B400B token(加载预训练权重)+200B token(新数据)64P Ascend91027天
        CodeGeeX13B850B token384P Ascend91060天
        盘古Sigma1T300B token128P Ascend910100天
        悟空画画1B5000万图文对64P Ascend91030天
        东方御风2B10W流场图16P Ascend9103天
        GPT3175B300B token2048卡 A10015天
        GPT3175B300B token1024卡 A10034天
        ChatGPT175B(预训练)+6B(强化)300B token估算2048卡 A10015.25天
        ASR千万178小时语音4卡 Ascend91015H
        wav2vec2.03亿3000小时语音32卡 Ascend910120H
        hubert3亿1w小时语音32卡 Ascend91010天

        不同参数量下算力需求

        模型参数量(亿)数据量并行卡数(如A100)时间(天)算力(P/天)
        110300 billion token1240312Tx12=3.7P;
        2100300 billion token12840312Tx128=40P;
        310001 trillion token204860312Tx2048=638P;
        4

        典型大模型下算力需求

        模型参数量(亿)数据量时间(天)算力(P/天)金额
        盘古2.6B600G3110
        盘古13B600G7110
        ChatGPT13300 billion token27.527.5一次模型训练成本超过1200万美元
        GPT-3 XL13300 billion token27.527.5
        GPT-31746300 billion token13640一次模型训练成本超过460万美元
        GPT-3.513640

        注:ChatGPT训练所用的模型是基于13亿参数的GPT-3.5模型微调而来

        常见AI模型参数量-以及算力需求评估,在这里插入图片描述,第1张

        来源:https://arxiv.org/abs/2005.14165

        常见AI模型参数量-以及算力需求评估,在这里插入图片描述,第2张

        来源:https://arxiv.org/abs/2104.12369

        常见AI模型参数量-以及算力需求评估,在这里插入图片描述,第3张

        常见AI模型参数量-以及算力需求评估,在这里插入图片描述,第4张

        常见小模型参数量

        来源: https://github.com/Lyken17/pytorch-OpCounter

        ModelParams(M)MACs(G)
        alexnet61.100.77
        vgg11132.867.74
        vgg11_bn132.877.77
        vgg13133.0511.44
        vgg13_bn133.0511.49
        vgg16138.3615.61
        vgg16_bn138.3715.66
        vgg19143.6719.77
        vgg19_bn143.6819.83
        resnet1811.691.82
        resnet3421.803.68
        resnet5025.564.14
        resnet10144.557.87
        resnet15260.1911.61
        wide_resnet101_2126.8922.84
        wide_resnet50_268.8811.46
        ModelParams(M)MACs(G)
        resnext50_32x4d25.034.29
        resnext101_32x8d88.7916.54
        densenet1217.982.90
        densenet16128.687.85
        densenet16914.153.44
        densenet20120.014.39
        squeezenet1_01.250.82
        squeezenet1_11.240.35
        mnasnet0_52.220.14
        mnasnet0_753.170.24
        mnasnet1_04.380.34
        mnasnet1_36.280.53
        mobilenet_v23.500.33
        shufflenet_v2_x0_51.370.05
        shufflenet_v2_x1_02.280.15
        shufflenet_v2_x1_53.500.31
        shufflenet_v2_x2_07.390.60
        inception_v327.165.75

        推理训练算力需求分析

        训练

        主要以机器视觉应用使能人工智能算力分析为课题,其中的视觉能力训练平台、图像增强模型、目标检测、图像分割、人员跟踪需求。

        对人工智能算力需求计算过程如下:

        参考业界流行的视频训练算法(表一、第四章),训练一个模型需要2560TFLOPS FP16算力(8卡/周,单卡算力为320 TFLOPS FP16),运算时间为7天左右,且通常需要训练大于8~10次才能找到一个满意的模型。

        考虑2天的调测,安装和模型更新时间,则一个模型的训练周一为10天。

        综上,至少需占用要2560*8=20480 TFLOPS FP16算力,才能在10天内找到一个满意的训练模型;

        按照目标检测,分割,跟踪等常规模型统计,预计一年有30+任务需要分别训练;总算力需求20PFLOPS FP16。

        表一:业界流行的视频训练算法
        序号算法分类算法需求模型参考数据量参考所需算力 (TFLOPS FP16)训练时间/周训练次数
        1视频异常检测CLAWS>200G视频数据20480110
        2视频异常检测C3D20480110
        3视频活动分析SlowFast20480110
        4视频活动分析AlphAction20480110
        5图像分类基础网络ResNet系列:resnet18, resnet34, resnet50, resnet101resnet50,ImageNet, ~150G图片256018
        6MobileNet系列:MobileNetV1, MobileNetV2, MobileNetV3mobilenetv2,256018
        7人脸识别算法图像分类Backbone,FaceNetFaceNet NN1,MS-Celeb-1M LFW, 1万+张图片 Adience, 2万+张图片 Color FERET, 1万+张图片256018
        8目标检测一阶段:SSD,yolo系列:yolov3, yolov4, yolov5YOLOv3-608,COCO 2017, >25F数据256018
        9二阶段:FasterRCNNfaster rcnn + resnet101,256018
        10分割算法yolact, yolact++(unet、unet++)maskrcnn+resnet50 fpn,256018
        11MaskRCNN256018
        12人员跟踪DensePeds100G图片256018
        13底层图像增强CycleGAN等>10G视频数据256018
        14维护预测算法>1G数据256018
        15洗煤优化算法>1G数据256018

        推理

        推理服务器算力资源:采用适合张量计算的创新人工智能芯片架构,提供高性能视频解析能力和人工智能算力,用于AI应用场景人工智能算法的推理,系统支持3000路视频流解析;

        基于昇腾芯片的AI推理卡,主要用于视频对象和行为分析,需要从视频流中提取对象和行为数据,每块AI推理卡的算力为88T(INT8)。

        不同的算法模型对计算能力的要求不同,对于视频分析场景,通过业界主流ISV在该AI推理卡的测试结果来看,在每路视频的分辨率为不低于1080P,帧率不低于25帧,同屏检测目标数不低于5个的情况下,每路视频需要5.5T(INT8)的算力进行解析。单张AI推理卡算力为88T(INT8),所以每张推理卡可支持16路视频的分析。

        如当前业务需要接入3000路视频的需求来计算,共需要的AI推理卡的数量为:3000/16≈188块。考虑到数据加工集群建模的并行效率(一般集群的并行效率为90%左右),留出适当的资源后需要的NPU卡的数量为:188/0.9≈209块。

        参考

        1、https://arxiv.org/abs/2005.14165

        2、CNN的参数量、计算量(FLOPs、MACs)与运行速度