超越ToT，苏黎世理工发布新一代思维图GoT：推理质量提升62%，成本降低31%-数艺网

资讯: 展览资讯大型展会灯光节大型盛典赛事中标捷报产品快讯热门话题艺术节活动演出新闻数艺报道俱乐部签约

观点: 大咖专访观点洞察书籍推荐吐槽设计观点企业访谈问答趋势创新论文职场方法薪资报价数艺专访

幕后: 幕后故事团队访谈经验分享解密评测数艺访谈

干货: 设计方案策划方案素材资源教程文案资源 PPT下载入门宝典作品合集产品手册电子书项目对接

0
0
0

分享

超越ToT，苏黎世理工发布新一代思维图GoT：推理质量提升62%，成本降低31%: 2023-09-12

新智元报道
编辑：LRS
【新智元导读】推理速度、推理质量二者兼得，全新一代思维图GoT可以处理更复杂推理任务！

大型语言模型在推理上仍然是弱势项目，需要依赖各种思维工具辅助完善推理过程。

最近，苏黎世联邦理工大学、华沙理工大学的研究人员共同提出了一个全新的LLM思维框架GoT（Graph of Thoughts，GoT），在推理质量和推理速度上都要超越现有的思维链（CoT）和思维树（ToT）等方法。

论文链接：https://arxiv.org/pdf/2308.09687.pdf

GoT的关键思想和主要优势在于将LLM生成的信息建模为图（arbitary graph），其中信息单元（思维，LLM thoughts）作为图的顶点，顶点之间的依赖关系作为图的边。

GoT方法可以将任意的LLM思维组合成协同结果，提取出整个思维网络的本质，或者使用反馈回路来增强思维。

通过实验可以证明GoT在不同任务上提供了优于现有技术的优势，例如，与ToT相比，排序任务的质量提高了62%，同时成本降低了31%

研究人员认为，GoT方法可以让LLM推理更接近人类的思维和大脑推理机制，比如二者都在内部形成了复杂的网络结构。

LLM思维（thought）的进化之路

用户与LLM对话的过程主要包括用户消息（提示，prompts）和模型回复（思维、想法，thoughts），其中回复可以是一段文本（摘要任务）、一个文档（生成任务）或是一个代码块等。

为了充分激活语言模型的能力，通常会采用各种提示方法：

1. Input-Output (IO) 提示

输入序列后，直接用语言模型获取输出，不添加任何中间思考过程。

2. 思维链（Chain-of-Thought, CoT）

在输入和输出之间引入多个中间思维状态，相比IO方法，可以显著提升语言模型在数学难题和通用推理任务上的性能。

3. 多思维链

独立生成多条思维链，然后根据预先指定的评分指标返回最佳输出结果的思维链。

自一致思维链（CoT-SC）方法可以将CoT扩展到多条推理路径，不过没有进行单路径内的「局部探索」，例如回溯（backtracking）。

4. 思维树（Tree of Thoughts, ToT）

ToT将过程或推理建模为一棵思维树来增强CoT-SC方法，单个树节点代表部分解决方案；基于给定的节点，思维生成器（thought generator）可以构造出一定数量的新节点，然后用状态评估器（state evaluator）为每个新节点生成相应评分。

根据用例的不同，可以使用LLM自身对输出结果进行评估，也可以利用人工评分等。

扩展树的过程中，节点的调度取决于使用的搜索算法，如深度优先、广度优先。
其他方法如思维分解（thought decomposition）等或多或少都隐含使用了树的思路。

思维图（Graph of Thought, GoT）框架

总体来说，GoT包含四部分：

1. 语言模型推理过程，即在特定上下文中，所有语言模型的思维，以及思维之间的关系

2. 潜在的思维转换

3. 用于获取思维评分的评估函数

4. 用于选择最相关思维的排序函数

推理过程

研究人员将推理过程建模为一个有向图，顶点代表某个问题（初始问题、中间问题、最终问题）的一个解决方案，有向边代表使用「出节点」作为直接输入构造出的思维（入节点），具体思维的形式取决于用例。

图节点的类别也不一定相同，例如在生成任务中，某些节点代表「写一段文字的规划」，另一些节点用来对「实际文本段」进行建模，推理过程是一个异构图（heterogeneous graph）。

思维转换

基于图结构，GoT可以在推理中实现不同的思维转换，也可以叫做graph-enabled transformations.

比如说，在写作任务中，可以将几篇输入文章合并成一个连贯的摘要；在排序任务中，可以将几个排序后的数字子数组（sub-array）合并成一个最终的排序数组。

每次变换操作都包含两部分：1）反映当前推理状态的图，以及2）一个用到的语言模型。

变换操作会修改当前的图，添加新的节点和输入边。

为了最大化GoT的表现力，用户可以指定要删除的相应顶点和边来显式删除思维；为了节省上下文空间，用户可以删除推理中未来不改进的部分。

1）聚合转换（Aggregation Transformations）

GoT可以将任意多个思维聚合成一个新的思维，并将不同思维的优势结合起来。
在最基础的形式中，只创建一个新的节点，其余思维链中的节点作为出节点连接到新节点中。

更一般地，该操作还可以聚合推理路径，也就是组成更长的推理路径

2）优化转换（Refining Transformations）

可以修改当前思维节点v为一条循环边（v, v），代表与原始思维相同迭代思维。

3）生成转换（Generation Transformations）

可以基于已有的单思维节点生成一个或多个新的思维，和之前的推理模式，如ToT或CoT-SC类似。

对思维进行评分和排序

评估函数所需要的数据包括受评估的思维、整个推理过程的状态以及语言模型，要求全推理过程可以最大化函数的通用性。

在对思维的排序时，其输入包括推理过程、语言模型以及指定返回k个评分最高的思维。

系统架构&可扩展性

GoT架构由一组交互模块组成：

1. 提示器（Prompter）：为LLM准备信息

主要负责把图结构编码进提示词中，GoT架构允许用户根据不同用例实现不同的图编码，提供全部图结构访问权限。

2. 解析器（Parser）：从LLM的回复中抽取信息

解析器为每个思维构造出一个思维状态（thought state），包含了抽取出的信息，并用于后续状态更新。

3. 评分模块（Scoring）：对LLM回复进行验证和评分

验证一个给定的LLM思维是否能够满足潜在的正确性条件，然后对思维进行打分。

具体分数可能需要构造提示，让语言模型给出评价；对某些用例来说，人类反馈评分也可以；如果是排序之类的用例，可能还需要引入局部评分函数。

4. 控制器（Controller）：协调整个推理过程，并决定如何继续推理

控制器中包含两个重要组件：图操作（the Graph of Operations, GoO）和图推理状态（GRS）。

其中GoO是一个静态结构，指定了给定任务上的图分解过程，即规定了可用于LLM思维转换的操作，以及思维之间的顺序和依赖关系；每个操作对象都知道自己的前置操作和后继操作。

GRS是一个动态结构，用来维护LLM推理过程进行中的状态，包括所有思维的历史及状态。

示例用例

1. 排序

比如任务是对有重复的0-9数字序列进行排序，直接输入的话，语言模型无法对超过一定长度的序列正确排序。

在GoT框架中，研究人员采用基于合并的排序方法：

首先将输入的数字序列分解为多个子矩阵；然后对子矩阵分别进行排序；再将子矩阵进行排序；最后将所有子矩阵合并，得到最终结果。

在这个用例中，LLM思维就是一串有序的数字序列。

为了对LLM的输出进行评分，假定输入序列a的长度为n，输出序列b的长度为m，可以将误差范围定义为：

X表示错误排序的连续数字对的数量，如果相邻两个数字排序错误，即左边的数字大于右边，则X加一。

Y表示，输出序列中的数字频率，与输入序列频率的吻合程度。

2. 关键词计数任务

GoT框架将输入文本分割成多个段落，计数每个段落中的关键字，并聚合子结果。

段落的数量可以预先定义，也可以留给LLM分割，或者将每个句子视为一个单独的段落。

为了获得对思维的评分，首先需要对每个关键字推导出计数和正确计数之间的绝对差值，然后将所有差值相加，并得到最终分数。

3. 文档合并

该任务的目标是基于几个内容部分重叠的输入文档生成一个新的保密协议（NDA）文档，尽量减少重复，同时最大限度地保留信息，可以广泛应用于法律程序等领域。

为了给解决方案打分，研究人员要求语言模型查询两个值（每个值三次，取平均值），第一个值对应于解决方案冗余（10表示没有冗余，0表示至少一半的信息是冗余的），第二个值代表信息保留（10表示保留了所有信息，0表示没有保留），然后计算调和平均值。

延迟与思维量的权衡

GoT在延迟（思维图中达到给定最终思维的跳数）和思维量（volume，思维图中存在通往某个思维的路径数量）之间的权衡，也比之前的提示方案要好。

假设输出一个思维的时间成本为O(1)，每个提示方案的总成本固定为Θ（n）：

1. CoT-SC由源自单个起始思维的k个独立链组成；

2. ToT是一个完整的k-ary树；

3. 在GoT中，在完整k-ary树的叶子处与一个大小相同但边反向的镜像k-ary树连接起来；

可以看到，虽然CoT-SC提供的思维量为N，但代价是高延迟（N）；CoT-SC将延迟降低了k倍（对应于分支因子），但同时也将容量降低了k倍。

ToT提供logk N的延迟，但容量也下降了；

GoT是唯一一个同时具有logk N的低延迟和高容量N的方案，可能是由于GoT利用聚合思想，可以从分解图中的其他中间思维获取到最终思维。

实验结果

总的来说，GoT在排序、找集合交集、关键词计数和文档合并任务上，其结果质量要比基线模型更好，并且推理成本也更低。

GoT vs. ToT

在所有任务中，GoT都比ToT（树的分支更多、深度较浅）和ToT2（树的分支少、深度更深）的性能更好。ToT通常比ToT2的质量更高，但消耗也更大。

相比ToT，GoT方法将中值误差降低了约62%，从而实现了更高的排序质量，并且运行成本降低了31%以上；优势主要是因为GoT能够将复杂的任务分解成更简单的子任务，独立解决这些子任务，然后逐步将这些结果合并成最终结果。

GoT vs. IO / CoT

GoT的质量更高，对于排序（P=64）任务，GoT的中值误差分别比CoT和IO低约65%和约83%，不过GoT和ToT的运行成本远高于IO和CoT

随着问题规模P的增加，GoT相比其他基线来说质量提升更大。

总的来说，这个分析说明了GoT确实非常适合复杂的问题案例，因为推理调度通常会随着问题规模的增长而变得更加复杂。

阅读原文 * 文章为作者独立观点，不代表数艺网立场转载须知: 本文内容由数艺网收录采集自微信公众号新智元 ，并经数艺网进行了排版优化。转载此文章请在文章开头和结尾标注“作者”、“来源：数艺网” 并附上本页链接：如您不希望被数艺网所收录，感觉到侵犯到了您的权益，请及时告知数艺网，我们表示诚挚的歉意，并及时处理或删除。

数字媒体艺术新媒体艺术科技艺术

11007

0

评论 (0)

登录| 注册后参与评论

北京

甲方 · 媒体平台

未认证的机构号

+关注认领

recently released

查看更多

Related articles

您确定认领此案例

数艺网是一个信息获取、分享及传播的平台，我们尊重和鼓励数艺网用户创作的内容，认识到保护知识产权对数艺网生存与发展的重要性，承诺将保护知识产权作为数艺网运营的基本原则之一。

本条款原则如下：

1. 用户在数艺网上发表的全部原创内容（包括但不仅限于文章、案例/项目和评论），著作权均归用户本人所有。用户可授权第三方以任何方式使用，不需要得到数艺网的同意。

2. 数艺网上可由多人参与编辑的内容，包括但不限于案例/作品的认领、企业/机构的认领，所有参与编辑者均同意，相关知识产权归数艺网所有。

3. 数艺网提供的网络服务中包含的标识、版面设计、排版方式、文本、图片、图形等均受著作权、商标权及其它法律保护，未经相关权利人（含数艺网及其他原始权利人）同意，上述内容均不得在任何平台被直接或间接发布、使用、出于发布或使用目的的改写或再发行，或被用于其他任何商业目的。

4. 为了促进知识的分享和传播，用户将其在数艺网上发表的全部内容，授予数艺网免费的、不可撤销的、非独家使用许可，数艺网有权将该内容用于数艺网各种形态的产品和服务上，包括但不限于网站以及发表的应用或其他互联网产品。

5. 第三方若出于非商业目的，将用户在数艺网上发表的内容转载在数艺网之外的地方，应当在作品的正文开头的显著位置注明原作者姓名（或原作者在数艺网上使用的帐号名称），给出原始链接，注明「发表于数艺网」，并不得对作品进行修改演绎。若需要对作品进行修改，或用于商业目的，第三方应当联系用户获得单独授权，按照用户规定的方式使用该内容。

6. 数艺网为用户提供「保留所有权利，禁止转载」的选项。除非获得原作者的单独授权，任何第三方不得转载标注了「禁止转载」的内容，否则均视为侵权。

7. 在数艺网上传或发表的内容，用户应保证其为著作权人或已取得合法授权，并且该内容不会侵犯任何第三方的合法权益。如果第三方提出关于著作权的异议，数艺网有权根据实际情况删除相关的内容，且有权追究用户的法律责任。给数艺网或任何第三方造成损失的，用户应负责全额赔偿。

8. 如果任何第三方侵犯了数艺网用户相关的权利，用户同意授权数艺网或其指定的代理人代表数艺网自身或用户对该第三方提出警告、投诉、发起行政执法、诉讼、进行上诉，或谈判和解，并且用户同意在数艺网认为必要的情况下参与共同维权。

9. 数艺网有权但无义务对用户发布的内容进行审核，有权根据相关证据结合《侵权责任法》、《信息网络传播权保护条例》等法律法规及数艺网社区管理规定对侵权信息进行处理。

侵权举报

1.处理原则

数艺网作为新媒体艺术领域的分享交流平台，高度重视自由表达和个人、机构正当权利的平衡。依照法律规定删除违法信息是数艺网社区的法定义务，数艺网社区亦未与任何中介机构合作开展此项业务。

2.受理范围

受理数艺网社区内侵犯机构或个人合法权益的侵权举报，包括但不限于涉及个人隐私、造谣与诽谤、商业侵权。

a.涉及个人隐私：发布内容中直接涉及身份信息，如个人姓名、家庭住址、身份证号码、工作单位、私人电话等详细个人隐私；

b.造谣、诽谤：发布内容中指名道姓（包括自然人和机构）的直接谩骂、侮辱、虚构中伤、恶意诽谤等；

c.商业侵权：泄露机构商业机密及其他根据保密协议不能公开讨论的内容。

3.举报条件

用户在数艺网发表的内容仅表明其个人的立场和观点，并不代表数艺网的立场或观点。如果个人或机构发现数艺网上存在侵犯自身合法权益的内容，可以先尝试与作者取得联系，通过沟通协商解决问题。如您无法联系到作者，或无法通过与作者沟通解决问题，您可通过点击内容下方的举报按钮来向数艺网平台进行投诉。为了保证问题能够及时有效地处理，请务必提交真实有效、完整清晰的材料，否则投诉将无法受理。您需要向数艺网提供的投诉材料包括：

a. 权利人对涉嫌侵权内容拥有商标权、著作权和/或其他依法可以行使权利的权属证明，权属证明通常是营业执照或组织机构代码证；

b. 完整填写的通知书；附供下载的：侵权投诉通知书；

c. 举报人的身份证明，身份证明可以是身份证或护照；

d. 如果举报人非权利人，请举报人提供代表权利人进行举报的书面授权证明。

e. 为确保投诉材料的真实性，在侵权举报中，您还需要签署以下法律声明：

(1) 我本人为所举报内容的合法权利人；

(2) 我举报的发布在数艺网社区中的内容侵犯了本人相应的合法权益；

(3) 如果本侵权举报内容不完全属实，本人将承担由此产生的一切法律责任，并承担和赔偿数艺网因根据投诉人的通知书对相关帐号的处理而造成的任何损失，包括但不限于知乎因向被投诉方赔偿而产生的损失及数艺网名誉、商誉损害等。

4.处理流程

出于网络平台的监督属性，并非所有申请都必须受理。数艺网自收到举报的七个工作日内处理完毕并给出回复。处理期间，不提供任何电话、邮件及其他方式的查询服务。出现数艺网已经删除或处理的内容，但是百度、谷歌等搜索引擎依然可以搜索到的现象，是因为百度、谷歌等搜索引擎自带缓存，此类问题数艺网无权也无法处理，因此相关申请不予受理。您可以自行联系搜索引擎服务商进行处理。此为数艺网社区唯一的官方侵权投诉渠道，暂不提供其他方式处理此业务。用户在数艺网中的商业行为引发的法律纠纷，由交易双方自行处理，与数艺网无关。

免责申明

1.数艺网不能对用户发表的回答或评论的正确性进行保证。

2.用户在数艺网发表的内容仅表明其个人的立场和观点，并不代表数艺网的立场或观点。作为内容的发表者，需自行对所发表内容负责，因所发表内容引发的一切纠纷，由该内容的发表者承担全部法律及连带责任。数艺网不承担任何法律及连带责任。

3.数艺网不保证网络服务一定能满足用户的要求，也不保证网络服务不会中断，对网络服务的及时性、安全性、准确性也都不作保证。

4.对于因不可抗力或数艺网不能控制的原因造成的网络服务中断或其它缺陷，数艺网不承担任何责任，但将尽力减少因此而给用户造成的损失和影响。

协议修改

1.根据互联网的发展和有关法律、法规及规范性文件的变化，或者因业务发展需要，数艺网有权对本协议的条款作出修改或变更，一旦本协议的内容发生变动，数艺网将会直接在数艺网网站上公布修改之后的协议内容，该公布行为视为数艺网已经通知用户修改内容。数艺网也可采用电子邮件或私信的传送方式，提示用户协议条款的修改、服务变更、或其它重要事项。

2.如果不同意数艺网对本协议相关条款所做的修改，用户有权并应当停止使用数艺网。如果用户继续使用数艺网，则视为用户接受数艺网对本协议相关条款所做的修改。

阅读并同意此认领协议方可认领案例