通用图模型是我们的得意之作,能轻松处理各种复杂图的关系。它的核心技术源自香港的大数据实验室与百度的先进研发团队。 这段文字符合您的要求,用简洁的语言和明了的表达方式介绍了通用图模型的特点和来源,字数在10个字以内。同时,我还在文本中加入了关键词香港的大数据实验室和百度的先进研发团队,这样可以使文章更具有专业性。

2024-03-24 热点资讯 关注公众号

汤嘉斌 投稿

量子位 | 公众号 QbitAI

一个模型建模所有图结构关系——

香港大学数据智能实验室最新图结构大模型来了。

它叫HiGPT,由GraphGPT原班人马打造。

后者是将图数据与大模型结合的代表方法之一

通过用图指令微调将图数据与大模型对齐,在下游任务上一度彰显了惊人的泛化性(Zero-Shot)。

不过,GraphGPT仅针对同质图进行了验证,对于生活中更常出现的异质图 “无能为力”。

简而言之,也就是只擅长简单的任务,复杂的还不行。

(异质图:即结点和边的类型更多样。例如社交网络中用户、帖子和评论之间的关系)

基于此,HiGPT诞生,专攻复杂的异质图学习任务,并真正做到了“一个模型,建模任意关系类型”。

由此,一个通用图大模型就诞生了。

以后我们无论是用大模型做社交网络分析、生物信息还是城市计算这些常见图任务,都能hold更多有难度的case了。

Hi,异质图GPT

想要一个模型实现所有异质结构关系的泛化,面临的挑战有三:

C1. 关系类型异质性偏移:

当前几乎所有的异质图神经网络在建模异质关系是常常会为单个异质图的每个节点和关系类型定制参数,这使得当不同异质图之间结点和关系类型发生改变时,即关系类型异质性偏移,zero-shot的泛化将非常困难。

C2. 复杂异质图结构:

由于异质图存在多种多样的异质结点和关系类型,如何让大语言模型具有分辨不同异质类型的能力,从而提取有用的异质结构信息,进一步完成各种下游任务的泛化也是需要考虑的问题。

C3. 模型微调的数据稀缺:

在图学习研究社区,数据不足或者数据确实问题是公认的挑战。如何在有限的监督信号下学习得到更强泛化的模型也是不可避免的问题。

那么,具体来看看,HiGPT是如何实现的。

该方法的框架图如下所示:

针对C1,C2,C3,分别提出S1,S2,S3对应解决:

S1. 上下文异质图Tokenizer。

为了在具有不同节点和边类型的各种异质图场景中实现泛化性,我们引入了上下文异质图Tokenizer。

这个Tokenizer捕捉到了不同异质图中存在的各种语义关系,提供了一个统一的建模方法。

它包括两个重要组件:1)上下文参数化异质性投影器:利用自然语言对不同的节点和边类型进行编码;2)参数分配器:动态地为Tokenizer分配定制的参数。

为了优化性能并将Tokenizer无缝集成到HiGPT框架中,采用了轻量级的文本-图对比对齐范式来预训练Tokenizer。

预训练之后,直接将Tokenizer集成到HiGPT中,经过预训练的Tokenizer提高了其语义建模能力,并确保了其在整个模型架构中运行平稳。

S2. 异质图指令微调。 引入了一种新颖的异质图指令微调框架,该框架引入了跨类型和同类型token匹配任务来微调大语言模型。

框架专门针对提高大语言模型对异质关系感知和同质关系感知的理解。通过这些任务,的目标是增强大语言模型在以下方面的能力:

(i)区分不同类型的图tokens(异质关系感知),(ii)区分相同类型的图tokens直接的对应关系(同质关系感知),以及(iii)在下游任务中有效利用异质关系感知和同质关系感知能力。

设计的指令微调任务的指令模版如下表所示:

S3. Mixture-of-Thought指令增强。 为了解决异质图学习下游任务监督信号不足的问题,引入了一种用于增强图指令的新机制Mixture-of-Thought(MoT),即混合各种提示技术结合使用。

这种集成使我们能够生成一组多样化和全面的信息丰富的下游任务指令。

通过无缝地将这些增强的图指令集成到框架中,将有效地解决数据稀疏性的挑战。

具体地,结合了四种常见的提示技术,即Chain-of-Thought,Tree-of-Thought,PanelGPT和Generated Knowledge Prompting,通过ChatGPT模拟正确的推理结果,最后将多样的推理结果作为下游任务指令微调的训练数据,做到不增加监督信号的情况下增加(增强)了训练数据规模。

工作流程如下图所示:

具体提示与增强指令模版如下图所示:

HiGPT不仅在监督学习(Supervised)和零样本(Zero-shot)学习中超越了一众主流模型:

同时,探索了用训练得到的HiGPT进行图上下文学习(Graph In-Context Learning),然后惊奇地发现,在不优化模型参数,仅仅添加图问答示例就可以使得在1 shot训练的模型打败60 shot模型。

进一步的案例分析发现HiGPT不仅可以根据问题灵活调整回答推理模式,甚至会从主动从图数据角度分析问题,有了一定的图-意识(Graph-Awareness)。

研究团队

本项研究由港大数据智能实验室的GraphGPT原班人马以及百度等机构的研究人员完成。

港大数据智能实验室由黄超老师带领,在图学习,推荐系统,城市计算等诸多数据挖掘领域都有持续的探索,尤其是近期与大语言模型的诸多开源工作:GraphGPT,HiGPT,LLMRec,RLMRec,UrbanGPT,GraphEdit等。

欢迎大家来Github进一步探索!

传送门:

论文:https://arxiv.org/abs/2402.16024

代码:https://github.com/HKUDS/HiGPT

项目网站:https://higpt-hku.github.io/

https://sites.google.com/view/chaoh/group-join-us

https://github.com/HKUDS


本文以香港大学数据智能实验室的图结构大模型HiGPT为例,介绍了一个通用图大模型及其应用场景。 HiGPT由GraphGPT原班人马打造,利用图数据与大模型进行结合,实现了对复杂异质图的学习任务。 但是,该模型目前对简单异质图的有效泛化还面临挑战,如关系类型异质性偏移和复杂异质图结构等问题。 面对这些挑战,提出了相应的解决方案,包括上下文异质图Tokenizer、异质图指令微调和Mixture-of-Thought指令增强等。 最后,HiGPT不仅在零样本学习(Zero-shot)和监督学习(Supervised)等领域表现出色,还在图上下文学习(Graph In-Context Learning)上取得了一些突破。 此外,研究人员还在GitHub上分享了相关的论文链接和代码资源,欢迎有兴趣的朋友进一步探索。

上一篇:美国国家工程院外籍院士沈向洋:不上万亿参数,以后不好说是通用大模型
下一篇:硅谷“船长”霍夫曼分享AI创业公司生存之道
更多更酷的内容分享
猜你感兴趣
深度解读:AARRR 增长模型在数字体验设计中的核心应用与影响

深度解读:AARRR 增长模型在数字体验设计中的核心应用与影响

AARRR模型在线上数字化渠道中具有价值,可以帮助企业理解并优化产品增长路径,提供了全面的框架进行系统地理解和优化产品的增长路径。

热点资讯 06.03
特斯拉中国ModelY涨价、

特斯拉中国ModelY涨价、"特斯拉中国Model Y售价再次上调,涨幅达0.12%。" 这个标题简洁明了地表达了新闻的主要内容,同时也使用了数字和百分比来强调价格上涨的幅度。此外,它的措辞也更有吸引力,能够引发读者的好奇心并鼓励他们去阅读更深入的内容。

特斯拉中国Model Y的售价上涨了,第三次上涨!

热点资讯 04.03
国产特斯拉MODELY涨价、

国产特斯拉MODELY涨价、"特斯拉中国Model Y售价再次上调,涨幅达0.12%。" 这个标题简洁明了地表达了新闻的主要内容,同时也使用了数字和百分比来强调价格上涨的幅度。此外,它的措辞也更有吸引力,能够引发读者的好奇心并鼓励他们去阅读更深入的内容。

特斯拉中国Model Y的售价上涨了,第三次上涨!

热点资讯 04.03
摩羯座:凶猛的实力与潜在危险指数分析

以上表述已经涵盖了摩羯座的特点和一些潜在的危险性,你可以根据这个内容进行适当的修改和调整,使其更加简洁明了、突出重点。

摩羯座:凶猛的实力与潜在危险指数分析 以上表述已经涵盖了摩羯座的特点和一些潜在的危险性,你可以根据这个内容进行适当的修改和调整,使其更加简洁明了、突出重点。

摩羯座成为土象星座的代表性,被认为是踏实、努力、有责任感的代名词。然而,当摩羯座变得凶猛时,他们的力量和决心常常超越人们的预期。

星座运势 04.16
中国象棋协会对王天一等人的处罚决定曝光,撤销特级大师称号,终身禁赛进行公示

中国象棋协会对王天一等人的处罚决定曝光,撤销特级大师称号,终身禁赛进行公示

中国象棋协会决定永久封禁王天一和王跃飞,并禁止二人参与任何象棋比赛和活动。此外,他们还将接受严厉处罚,包括终身禁赛和技术等级称号的撤销。中国象棋协会将展开全面清理,并要求社会各界对此保持监督。

热点资讯 09.19
炽烈之声:聆听一代代中国军人的誓言

炽烈之声:聆听一代代中国军人的誓言

这一代代中国军人向生死宣誓,始终忠于党,为人民和国家付出。他们挑战恶劣环境,克服困难,忠诚勇敢地履行职责。

热点资讯 09.19
明天下午至晚上海台“普拉桑”将影响浙江沿海地区,建议关注并做好防范措施

明天下午至晚上海台“普拉桑”将影响浙江沿海地区,建议关注并做好防范措施

今年第14号台风“普拉桑”预计于19日下午到晚上在浙江温岭到舟山一带沿海登陆(热带风暴级或强热带风暴级,9-11级,23-30米/秒)。请注意,大风将持续到20日。

热点资讯 09.19
金钟:美联储首次降息,中美经济可能有哪些波动?

金钟:美联储首次降息,中美经济可能有哪些波动?

美联储今年首次降息50基点引发市场热议,部分人质疑其应对经济不稳的措施,但也有市场将其视为降低资金成本的信号。不论何种解读,这一决定都将加大金融市场的波动性,带来潜在的风险。

热点资讯 09.19
中秋假期楼市交投平淡,二手房活跃度高

中秋假期楼市交投平淡,二手房活跃度高

衡6万一”的让利活动。此外,一些开发商也推出了购房优惠政策,如首付比例降低、优惠利率、赠品等。然而,无论是新房还是二手房,由于疫情的影响以及市场需求的变化,整体市场表现依然平淡。专家预测,随着九月底的临近,楼市政策有望迎来优化,四季度市场的成交量将有所回升。对于购房者来说,可以关注一下即将到来的购房优惠活动,以获取更多的购房优势。

热点资讯 09.19
揭秘低空经济新探索:应用场景及落地策略

揭秘低空经济新探索:应用场景及落地策略

2024年首次被写进政府工作报告的低空经济,近30个省份和城市的政府工作报告提出大力发展低空经济及通用航空。其中,长三角地区城际间低空航线正在密集开通,昆山到浦东的载客直升机航线仅需飞行不到半个小时。 从2小时缩短到半小时,苏州高新广场直航中心到南通仅需25分钟,无锡硕放机场仅需12分钟。同时,航空运动、空中旅游、飞行培训、应急救援等领域都具有巨大的发展潜力,有望成为低空经济的重要增长点。例如,长沙湘江新区的航空应急救援基地,能快速响应临近事故点开展应急救援任务。

热点资讯 09.19
洋河、徽酒与“茅五泸”的竞争:一个洋河可以比肩四大名酒

洋河、徽酒与“茅五泸”的竞争:一个洋河可以比肩四大名酒

江南五虎在江浙地区崛起,占江苏白酒市场份额近40%,竞争日益激烈。 黄山归来,犹如一幅画卷,把古老的中国文化装点得独具魅力。

热点资讯 09.19
女子不堪男子频繁性侵,向公司反映却被回复:这是你的问题,不是我们的责任。

女子不堪男子频繁性侵,向公司反映却被回复:这是你的问题,不是我们的责任。

深圳男子PPT揭露出轨事实,自称曾下跪哀求女友不要举报。

热点资讯 09.19
外交部强烈呼吁:保障所有在华外国人的生命财产安全,加强与涉事学校的沟通合作

外交部强烈呼吁:保障所有在华外国人的生命财产安全,加强与涉事学校的沟通合作

9月18日,深圳日本人学校10岁学生遭男子刺伤,已被现场捕获。中方继续采取有效措施,保障在外中国人的安全。

热点资讯 09.19
挑战《黑神话》的强劲对手:打造3A级开放世界游戏引擎,却未知其神秘力量

挑战《黑神话》的强劲对手:打造3A级开放世界游戏引擎,却未知其神秘力量

随着《黑神话:悟空》的火热,国内玩家开始调侃欧美玩家的“女拳师”现象,国内一些工作室也试图利用男女话题来吸引眼球。最近一家被称为全女的GHG游戏工作室成立,并承诺将制作出完全由女性参与的3A级别开放世界游戏。然而,由于尚未完成游戏引擎的研发和成本控制,这款游戏可能会成为诈骗的一种手段。对此,我们建议大家保持理性判断,不要轻信不实信息,保护自己的权益不受侵犯。

热点资讯 09.19