大模型创新不一定要依赖最先进硬件
中国初创公司深度求索(DeepSeek)发布廉价大模型,性能可比肩美国OpenAI最新模型,引起国际媒体关注。中国官媒发文称DeepSeek的成功证明,大模型创新不一定要依赖最先进的硬件,而是可以通过聪明的工程设计和高效的训练方法实现。中国官媒《经济日报》星期天(1月26日)发表以《大模型身廋路更宽》为题的文章提出上述观点,指这种技术突破不仅降低了AI大模型的硬件门槛和能源消耗,更重要的是为人工智能(AI)技术普惠化铺平了道路。因为更小的模型意味着更低的部署成本、更快的响应速度和更广泛的应用场景。在医疗、教育、制造等诸多领域,轻量级AI模型都将带来革命性的转变。
文章也称,模型并非越大越好,而是越精越妙。大模型“瘦身”促进了AI技术的创新和突破。为了在减少参数的同时保持甚至提升模型性能,研究人员不得不深入挖掘模型架构的优化空间,探索更高效的算法和训练方法。这一过程推动了人工智能基础理论的发展,也为相关技术的跨领域应用开创了新局面。
不过文章也指出,大模型“瘦身”没到终点站,仍面临诸多挑战。如何在保证模型性能的前提下实现最大程度的“瘦身”,是当前需要解决的关键问题。同时,“瘦身”后的模型如何在不同场景下保证适应性和稳定性,也需要进一步验证和优化。
中国对冲基金幻方量化旗下的子公司深度求索星期一(1月20日)发布推理模型DeepSeek-R1,在第三方多个项目的基准测试中均超越美国OpenAI开发的最新模型o1。让西方科技界赞叹的是,深度求索在受美国限制先进科技输华的背景下,依然开发出新颖模型。
据美国消费者新闻与商业频道(CNBC)报道,美国微软首席执行官纳德拉星期三(1月22日)在达沃斯世界经济论坛上说,深度求索的新模型令人印象深刻,不仅因为他们有效地构建一个开源模型,还因为它的推理计算效率极高。“我们应该非常严肃地看待中国人工智能的发展”。
内容来自网友分享,若违规或者侵犯您的权益,请联系我们
所有跟帖: ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )
楼主前期社区热帖:
>>>>查看更多楼主社区动态...