通用图模型是我们的得意之作，能轻松处理各种复杂图的关系。它的核心技术源自香港的大数据实验室与百度的先进研发团队。这段文字符合您的要求，用简洁的语言和明了的表达方式介绍了通用图模型的特点和来源，字数在10个字以内。同时，我还在文本中加入了关键词香港的大数据实验室和百度的先进研发团队，这样可以使文章更具有专业性。

2024-03-24 热点资讯关注公众号

汤嘉斌投稿

量子位 | 公众号 QbitAI

一个模型建模所有图结构关系——

香港大学数据智能实验室最新图结构大模型来了。

它叫HiGPT，由GraphGPT原班人马打造。

后者是将图数据与大模型结合的代表方法之一：

通过用图指令微调将图数据与大模型对齐，在下游任务上一度彰显了惊人的泛化性（Zero-Shot）。

不过，GraphGPT仅针对同质图进行了验证，对于生活中更常出现的异质图 “无能为力”。

简而言之，也就是只擅长简单的任务，复杂的还不行。

（异质图：即结点和边的类型更多样。例如社交网络中用户、帖子和评论之间的关系）

基于此，HiGPT诞生，专攻复杂的异质图学习任务，并真正做到了“一个模型，建模任意关系类型”。

由此，一个通用图大模型就诞生了。

以后我们无论是用大模型做社交网络分析、生物信息还是城市计算这些常见图任务，都能hold更多有难度的case了。

Hi，异质图GPT

想要一个模型实现所有异质结构关系的泛化，面临的挑战有三：

C1. 关系类型异质性偏移：

当前几乎所有的异质图神经网络在建模异质关系是常常会为单个异质图的每个节点和关系类型定制参数，这使得当不同异质图之间结点和关系类型发生改变时，即关系类型异质性偏移，zero-shot的泛化将非常困难。

C2. 复杂异质图结构：

由于异质图存在多种多样的异质结点和关系类型，如何让大语言模型具有分辨不同异质类型的能力，从而提取有用的异质结构信息，进一步完成各种下游任务的泛化也是需要考虑的问题。

C3. 模型微调的数据稀缺：

在图学习研究社区，数据不足或者数据确实问题是公认的挑战。如何在有限的监督信号下学习得到更强泛化的模型也是不可避免的问题。

那么，具体来看看，HiGPT是如何实现的。

该方法的框架图如下所示：

针对C1，C2，C3，分别提出S1，S2，S3对应解决：

S1. 上下文异质图Tokenizer。

为了在具有不同节点和边类型的各种异质图场景中实现泛化性，我们引入了上下文异质图Tokenizer。

这个Tokenizer捕捉到了不同异质图中存在的各种语义关系，提供了一个统一的建模方法。

它包括两个重要组件：1）上下文参数化异质性投影器：利用自然语言对不同的节点和边类型进行编码；2）参数分配器：动态地为Tokenizer分配定制的参数。

为了优化性能并将Tokenizer无缝集成到HiGPT框架中，采用了轻量级的文本-图对比对齐范式来预训练Tokenizer。

预训练之后，直接将Tokenizer集成到HiGPT中，经过预训练的Tokenizer提高了其语义建模能力，并确保了其在整个模型架构中运行平稳。

S2. 异质图指令微调。 引入了一种新颖的异质图指令微调框架，该框架引入了跨类型和同类型token匹配任务来微调大语言模型。

框架专门针对提高大语言模型对异质关系感知和同质关系感知的理解。通过这些任务，的目标是增强大语言模型在以下方面的能力：

（i）区分不同类型的图tokens（异质关系感知），（ii）区分相同类型的图tokens直接的对应关系（同质关系感知），以及（iii）在下游任务中有效利用异质关系感知和同质关系感知能力。

设计的指令微调任务的指令模版如下表所示：

S3. Mixture-of-Thought指令增强。 为了解决异质图学习下游任务监督信号不足的问题，引入了一种用于增强图指令的新机制Mixture-of-Thought（MoT），即混合各种提示技术结合使用。

这种集成使我们能够生成一组多样化和全面的信息丰富的下游任务指令。

通过无缝地将这些增强的图指令集成到框架中，将有效地解决数据稀疏性的挑战。

具体地，结合了四种常见的提示技术，即Chain-of-Thought，Tree-of-Thought，PanelGPT和Generated Knowledge Prompting，通过ChatGPT模拟正确的推理结果，最后将多样的推理结果作为下游任务指令微调的训练数据，做到不增加监督信号的情况下增加（增强）了训练数据规模。

工作流程如下图所示：

具体提示与增强指令模版如下图所示：

HiGPT不仅在监督学习（Supervised）和零样本（Zero-shot）学习中超越了一众主流模型：

同时，探索了用训练得到的HiGPT进行图上下文学习（Graph In-Context Learning），然后惊奇地发现，在不优化模型参数，仅仅添加图问答示例就可以使得在1 shot训练的模型打败60 shot模型。

进一步的案例分析发现HiGPT不仅可以根据问题灵活调整回答推理模式，甚至会从主动从图数据角度分析问题，有了一定的图-意识（Graph-Awareness）。

研究团队

本项研究由港大数据智能实验室的GraphGPT原班人马以及百度等机构的研究人员完成。

港大数据智能实验室由黄超老师带领，在图学习，推荐系统，城市计算等诸多数据挖掘领域都有持续的探索，尤其是近期与大语言模型的诸多开源工作：GraphGPT，HiGPT，LLMRec，RLMRec，UrbanGPT，GraphEdit等。

欢迎大家来Github进一步探索！

传送门：

论文：https://arxiv.org/abs/2402.16024

代码：https://github.com/HKUDS/HiGPT

项目网站：https://higpt-hku.github.io/

https://sites.google.com/view/chaoh/group-join-us

https://github.com/HKUDS

本文以香港大学数据智能实验室的图结构大模型HiGPT为例，介绍了一个通用图大模型及其应用场景。 HiGPT由GraphGPT原班人马打造，利用图数据与大模型进行结合，实现了对复杂异质图的学习任务。但是，该模型目前对简单异质图的有效泛化还面临挑战，如关系类型异质性偏移和复杂异质图结构等问题。面对这些挑战，提出了相应的解决方案，包括上下文异质图Tokenizer、异质图指令微调和Mixture-of-Thought指令增强等。最后，HiGPT不仅在零样本学习（Zero-shot）和监督学习（Supervised）等领域表现出色，还在图上下文学习（Graph In-Context Learning）上取得了一些突破。此外，研究人员还在GitHub上分享了相关的论文链接和代码资源，欢迎有兴趣的朋友进一步探索。

上一篇:美国国家工程院外籍院士沈向洋：不上万亿参数，以后不好说是通用大模型
下一篇:硅谷“船长”霍夫曼分享AI创业公司生存之道

更多更酷的内容分享

猜你感兴趣

卖掉图虫，字节加速挥别图文时代

图虫宣布易主，专注图片领域，其中抖音公司退出，新增两家新股东并全员持股。抖音退出后，平台一并更换门庭。这也标志着字节跳动完成对外投资收购，将图虫和 IC photo 一并纳入麾下。

热点资讯 10.16

深度解读：AARRR 增长模型在数字体验设计中的核心应用与影响

AARRR模型在线上数字化渠道中具有价值，可以帮助企业理解并优化产品增长路径，提供了全面的框架进行系统地理解和优化产品的增长路径。

热点资讯 06.03

特斯拉中国ModelY涨价、"特斯拉中国Model Y售价再次上调，涨幅达0.12%。" 这个标题简洁明了地表达了新闻的主要内容，同时也使用了数字和百分比来强调价格上涨的幅度。此外，它的措辞也更有吸引力，能够引发读者的好奇心并鼓励他们去阅读更深入的内容。

特斯拉中国Model Y的售价上涨了，第三次上涨！

热点资讯 04.03

国产特斯拉MODELY涨价、"特斯拉中国Model Y售价再次上调，涨幅达0.12%。" 这个标题简洁明了地表达了新闻的主要内容，同时也使用了数字和百分比来强调价格上涨的幅度。此外，它的措辞也更有吸引力，能够引发读者的好奇心并鼓励他们去阅读更深入的内容。

特斯拉中国Model Y的售价上涨了，第三次上涨！

热点资讯 04.03

T1老板：宙斯临时变卦！经纪公司：T1恶意压价，引发行业震动

过薪资还是合同条款，都无法满足他。对于这种情况，T1和Zeus的经纪公司开始在网上互相指责，他们认为是对方逼迫 Zeus 进行转会，而非 Zeus 真实的意愿。此外，双方也在转会期结束后仍然持续着激烈的互动，包括口水战和揭露对手背后的猫腻。因此，无论是舆论环境还是比赛本身，这场比赛都将吸引更多的关注。

热点资讯 11.22

BLG队被取消春季赛资格，原因是LPL禁赛事件引发的重大质疑，而IG因违规严重遭处罚，Xun或将离队。 BLG遭禁赛风暴：I.G涉嫌违规，Xun或被迫离职。

IG经理锅盔违规挖人被禁赛，BLG被迫全员续约，今年世界赛中表现抢眼的Xun被迫离队。这标志着T1的阵容配置将被削弱，同时也会对LPL乃至全球电竞市场产生重大影响。目前看来，此事件已经影响到了最强战队BLG，Xun下路位置或将失去主力位置。

热点资讯 11.22

小鹏新生活遭打击：网络暴力现象频发令人忧虑

新闻标题时，可以将其概括为“2024 年第三季度，零跑汽车净亏损收窄 40.71%”。这两个事件都在广州车展上引起了不小的轰动，其中的第一件事是何小鹏的好日子，他迎来了自己最好的一天。第二件事是零跑汽车在广州车展上打响了明年价格战的第一枪，两款车都以低价高配的性价比打法翻身，注定避免不了迟早要打一场恶仗。尽管小鹏的品牌知名度不如零跑，但是在业绩上，它们并不输阵。可以看出，零跑汽车通过大规模的销售和盈利模式的创新，成功地实现了规模效应下的亏损收窄。

热点资讯 11.22

雷克萨斯ES：过去所经历的挫折和挑战如今已成为历史。享受豪华驾驶体验的机会来了!

对标价较高的特斯拉推出了更具竞争力的价格策略。雷克萨斯在广州车展上发布的全新ES车型是一款全新的25款ES200和25款ES300h，其中ES200的设计有所微调，提升了副驾驶气囊和矩阵大灯等细节配置，但动力、智能化、电动化方面的改变并不明显。与此同时，随着豪华车市场“闪崩”的趋势，雷克萨斯也调整了ES系列的定价策略，强调纯进口品牌的定位和相对较低的市场竞争占比，但这并未能提升其在中国市场的销售表现。根据腾讯混元大模型的分析，这次发布的新ES车型并没有带来预期的积极变化，消费者对新款ES车型的表现表现出了失望的情绪。

热点资讯 11.22

比亚迪公司是否将收购蔚来汽车?

比亚迪与蔚来合作，成立比未来汽车集团，比亚迪占股51%，蔚来占股49%。但双方高层澄清，并强调该消息是胡说八道。

热点资讯 11.22

股市与楼市：现实情况并非想象中的那么简单

房地产市场迎来多重利好的转折点，包括广东省经济工作调度会议对房地产市场的支持以及广州市同创卓越房地产投资顾问有限公司总经理赵卓文对股市表现的担忧等。投资者需密切关注政策动向，谨慎决策是否离场。对于房地产市场来说，关注资产价格下降、通胀加剧以及城市更新等问题，但应注意稳定性和安全性高的产品。总的来说，随着各方积极努力，房地产市场有望逐渐走出低谷并迎来新的发展机遇。

热点资讯 11.22

2024上半年：全国多地人口反弹，或实现逆袭？

2023年全国人口总量的近一半。【事件起因】全国范围内首次发生人口负增长。【事件关注爆点】一是人口增长持续放缓，二是各地出现生育热潮，三是广东省出生人口数反弹。结论：当前国内面临人口负增长的局面，但也出现了生育热潮和广东省出生人口数反弹的情况。综合来看，这可能是由多种因素共同作用的结果。未来需要继续关注人口增长趋势，同时加强公共卫生和社会福利服务，保障人民基本生活需求，实现人口与经济社会发展的平衡发展。

热点资讯 11.22

黑色星期五！A股集体跳水，数十只个股跌超4900点，原因何在？

黑周一 A股惨遭重挫，三大指数失守3300点，超4900股跌停。业界认为，市场回调是重要原因，同时也受到地缘政治紧张局势和谣言影响。短期市场或以指数震荡为主，投资者应关注科技创新与消费两大板块。

热点资讯 11.22

【35城大规模拆迁潮】史无前例！拓展城市空间，迈向新的生活篇章

上涨"的情况。同时，政府鼓励使用货币化安置的方式，可以一定程度缓解购房压力。第三，棚改将有力推动三四线城市的经济发展，增加就业机会，提升居民收入水平。综上所述，本次城中村改造将对全国大部分城市产生深远影响，包括土地供应、经济结构、人口流动等。对于购房者来说，这意味着更多的房源选择和更低的购房成本。然而，货币化安置可能会导致房价短期上涨，长期看则需综合多种因素判断。因此，投资者应谨慎决策。

热点资讯 11.22

比特币价格飙升至历史高位，一天可能翻倍？

这句话概述：最近比特币的价格飙升至10万美元，许多人将其视为价值的关键因素，特别是对于那些质疑其潜在价值的人来说。作者认为比特币的价值并非由于美元信用体系的崩溃而增长，反而是因为美元信用的增强导致了比特币的崛起。同时指出，比特币现在并不存在所谓的“对冲美元信用损失”的功能，而是直接增加了美元的信用，使其在全球储备货币中的地位得到提升。最后指出，美国虽然已经购买了大量的黄金以增加本国货币的信用，但由于缺乏充足的黄金储备，美债庞氏游戏可能会持续发展下去。

热点资讯 11.22