IT 之家 1 月 20 日讯息,谷歌议论院发文,公布了" Titans "系列模子架构,相应模子架构最大的脾气是聘请"仿生打算",集会了短期挂牵、始终挂牵和细心力机制,赈济跳跃 200 万个 Token 的凹凸文长度,面前关系论文已发布在 arXiv 上(点此侦探),谷歌霸术以前将 Titans 关系工夫开源。
面前业界流行的 Transformer 模子架构天然在大多量场景发扬优秀,但其凹凸文窗口(Window)长度的适度,时时仅为几千到几万个 Token,这使得它们在处理长文本、多轮对话或需要大鸿沟凹凸文挂牵的任务中,雷同无法保捏语义连贯性和信息准确性。
而谷歌这一 Titans 系列模子架构通过引入深度神经始终挂牵模块(Neural Long-Term Memory Module)灵验处置了相应问题,其打算灵感堪称来自东谈主类的挂牵系统,集会了短期挂牵的快速反馈与始终挂牵的捏久脾气,并通过细心力机制来细心实施现时的凹凸文(细心于用户即时输入的领导词,并保留关于以往领导词的准确挂牵)。
IT 之家参考论文获悉,Titans 具有三种架构打算变体,诀别是 Memory as a Context(MAC)、Memory as a Gate(MAG)和 Memory as a Layer(MAL),不错凭据不同的任务需求整合短期与始终挂牵。其中" MAC "架构变体将始终挂牵算作凹凸文的一部分,允许细心力机制动态集会历史信息与现时数据,合适处理需要详实历史凹凸文的任务。" MAG "架构变体则凭据任务需求,休养及时数据与历史信息的进犯性比例,专注于现时最关系的信息。
谷歌重心强调了" MAL "架构变体,该架构主要将挂牵模块打算为深度相聚的一层,也等于从模子打算层面,径直将用户的历史记载和当今输入的凹凸文实质进行固定压缩,之后交由模子的细心力模块处理,因此遵守相对较高,但输出实质遵守不如" MAC "和" MAG "变体。
谷歌宣称,Titans 系列模子架构在长序列处理任务中的发扬彰着优于现存模子开云体育,不管是讲话建模已经时候序列展望,Titans 在准确性和遵守上皆展现了"压倒性上风",甚而在某些场景中杰出了如 GPT-4 等具非凡十倍参数的模子。