Baichuan2-192K:全球最大上下文窗口大模型亮相

   时间:2023-10-31 14:10 来源:中文科技资讯

【中文科技资讯】10月31日消息,2023年云栖大会上,百川智能创始人兼CEO王小川分享了该公司在大模型领域的独特见解与实际实践。最近,百川推出的全球最大上下文窗口大模型Baichuan2-192K引起了广泛媒体的关注。百川智能成立仅半年,已发布了7款重要的大模型,这一快速推进的背后,离不开云计算的强力支持。

百川智能的创始人,前搜狗CEO王小川,于2023年4月正式宣布创办了这家AI大模型公司。令人瞩目的是,仅仅半年时间,百川智能不仅跻身科技独角兽之列,还相继发布了7款基础大模型,其研发速度显著超越了行业水平,并且这些模型也开源供大家使用。更令人振奋的是,百川智能在今年8月底成为了首批通过国家《生成式人工智能服务管理暂行办法》备案的大模型公司,成为同一年成立的大模型公司中的独一无二。

王小川认为,大模型的潮流将远远超越以往的想象,技术正在爆炸性增长,人类已经踏入通用人工智能时代。他在2018年就提出过一个观点,即“当机器能够掌握语言,通用人工智能时代将到来”。他认为,语言是认知世界的关键,一旦大模型能够理解语言背后的规律,就意味着它们掌握了知识、思考、沟通和文化。在智能时代,大模型将如同互联网时代的芯片一样,为各个社会领域带来智能革命。

然而,不可否认的是,中国的大模型发展在某些方面仍与OpenAI等大型国际公司存在差距。王小川表示,国内大模型发展的现状是“理想上稍慢一步,但在实际应用上跑得更快”。尽管在技术创新和理论方面,美国领先一些,但中国在将技术应用到实际场景的能力方面更强。百川智能拥有经验丰富的搜索团队,他们以往成功开发了基于语言模型的超级应用,并且拥有经过市场验证的技术、产品和商业化能力。这支团队的搜索技术能够为大模型的研发提供有力支持,同时也能够弥补大模型在某些方面的不足,如处理幻觉等问题。

通过结合过去的经验和技术积累,百川智能目前已经成为了中国大模型创业领域的引领者之一。其开源大模型在短短三个月内下载量超过600万次,而新发布的Baichuan2-192K在通用和垂直领域均达到领先水平,中英文表现更胜一筹,超越了LLaMA2。最新发布的Baichuan2-192K更是全球首款支持最长上下文窗口的大模型,一次可输入35万字,全面领先Claude2-100K。

除了团队和经验优势外,百川的快速模型迭代也离不开云计算的支持。王小川介绍说,模型的快速迭代和部署得益于强大的云计算支持,百川智能与阿里云紧密合作,共同致力于模型的预训练和部署等领域。在双方紧密合作下,百川成功完成了千卡大模型的训练任务,有效降低了模型推理成本,提高了模型部署效率。

此外,百川的开源模型在阿里云的魔搭社区吸引了众多开发者,他们借助社区的力量对百川的大模型进行微调,以满足各种垂直领域的需求,从而丰富了国内大模型生态系统。

王小川表示,未来,百川智能将与阿里云保持深度合作,共同探索更多前沿的大模型技术创新,推动大模型在更多应用场景中得以落地,以共同促进大模型生态系统的繁荣。

 
 
更多>同类内容
全站最新
热门内容