主要难点是出了问题时(一定会出问题)怎么找到问题在哪。举一些实操会遇到的例子:
几千块上万块GPU一起训练,单笔训练成本千万元起,你有100个实验都想试试,怎么判断哪些最有可能成功?
这是一个从 https://www.zhihu.com/question/498271491/answer/3051092055 下的原始话题分离的讨论话题
主要难点是出了问题时(一定会出问题)怎么找到问题在哪。举一些实操会遇到的例子:
几千块上万块GPU一起训练,单笔训练成本千万元起,你有100个实验都想试试,怎么判断哪些最有可能成功?