把灵感变成电影级片段

描述场景、选择模型,生成带运动和声音的视频。