Redian新闻
>
今日arXiv最热大模型论文:清华把大模型用于城市规划,回龙观和大红门地区成研究对象

今日arXiv最热大模型论文:清华把大模型用于城市规划,回龙观和大红门地区成研究对象

科技

夕小瑶科技说 原创
编辑 | Tscom

引言:参与式城市规划的新篇章

随着城市化的不断推进,传统的城市规划方法面临着越来越多的挑战。这些方法往往需要大量的时间和人力,且严重依赖于经验丰富的城市规划师。为了应对这些挑战,参与式城市规划应运而生,它强调不同利益相关者,包括官员、专业人士、开发商、当地居民和公众的积极参与。这种包容性的方法旨在通过精心设计的程序、讨论、小组会议或研讨会,将多样化的视角纳入规划和决策过程中。然而,参与式规划的传统范式仍然存在许多实践中的挑战,如成本高昂、缺乏熟练的协调者、效率低下以及参与兴趣低落。

幸运的是,随着信息技术的飞速发展,尤其是大语言模型(LLMs)的出现,我们有了新的解决方案。在本研究中,我们引入了一个基于LLM的多代理协作框架,模拟规划师和数千名具有不同特征和背景的居民,用于参与式城市规划,可以生成考虑居民多样化需求的城市区域土地利用规划。此外,为了提高讨论的效率,我们采用了鱼缸讨论机制,其中部分居民讨论,其余的居民在每一轮中充当听众。最后,我们让规划师根据居民的反馈修改规划。

我们在北京的两个区域部署了我们的方法。实验表明,我们的方法在居民满意度和包容性指标上达到了最先进的性能,并且在服务可达性和生态指标方面也超过了人类专家。

论文标题

Large Language Model for Participatory Urban Planning

论文链接:

https://arxiv.org/pdf/2402.17161.pdf

大语言模型(LLM)在城市规划中的创新应用

1. 传统城市规划的局限性

传统的城市规划方法依赖于经验丰富的规划专家,涉及多方利益的考量,并且通常需要对独特的社区问题进行个案审查。这种方法要求大量的时间和人力资源,并且严重依赖于经验丰富的城市规划师。随着城市的持续增长和城市更新需求的稳步上升,传统城市规划方法的局限性变得越来越明显,迫切需要探索能够提高其效率和有效性的创新方法。

2. LLM作为模拟人类代理的潜力

近年来,大语言模型(LLM)展现出了模拟人类代理的显著能力,这为轻松模拟参与式过程提供了可能。在城市规划领域,LLM可以用来生成考虑居民多样化需求的土地利用规划。

如下图所示,可以构建LLM代理来模拟规划师和成千上万具有不同特征和背景的居民。首先,让规划师进行初始土地利用规划。为了处理居民不同的设施需求,可以在每个社区中启动居民之间的讨论,居民根据他们的特征提供反馈。此外,为了提高讨论的效率,采用鱼缸讨论机制,部分居民参与讨论,其他人在每轮中充当听众。最后,规划师根据居民的反馈修改规划。

在北京的两个区域进行的实验表明,该方法在居民满意度和包容性指标上实现了最先进的性能,并且在服务可达性和生态指标方面也超过了人类专家。

多代理协作框架的构建

1. 角色设计:规划师与居民代理

如下图,在构建多代理协作框架时,首先需要设计不同的角色来模拟城市规划中的真实参与者。规划师代理负责整体规划考量,需要理解区域的空间分布,并根据人类专家设计的规划指南提出初始规划。居民代理则是参与式城市规划中不可或缺的一部分,因此设计LLM代理来模拟该区域的居民。每个居民代理都有详细的个人资料,包括性别、年龄、教育水平和家庭规模。为了确保公平和包容性,一些居民代理被赋予了特殊背景,如有孩子的家庭、有病人的家庭和独居老人。每个居民代理都被随机分配一个家庭地址,并且只能观察到他们家附近15分钟步行或骑行范围内的区域。

2. 规划工作流程:初始规划与居民反馈

在规划师和居民代理的角色确定后,提出了一个通过多代理协作的规划流程。规划师首先基于要求和专家知识提出初始规划,然后关键的参与式规划理念是征询居民对该规划的意见并据此进行修订。然而,不同居民可能对土地利用有不同的需求,这可能导致邻近居民之间的利益冲突。为了更好地平衡他们的需求,提出让居民通过讨论来相互沟通。由于居民只关心他们家附近的区域,因此讨论不必包括所有居民,而只需要在邻近居民之间进行。因此,将整个区域划分为基于现实世界社区和道路网络的四个不同社区。对于每个社区,邀请居住在那里或附近的居民进行几轮讨论,在讨论中分享对土地利用规划的意见。根据居民在讨论中的意见,规划师相应地修订该社区的规划。

为了应对大量居民参与讨论的挑战,提出采用鱼缸讨论机制来提高讨论的效率。在每轮中,居民被分为内圈和外圈。内圈的居民积极参与讨论,而外圈的居民则认真倾听。每轮讨论后,内外圈的成员会随机交换,并且讨论历史被总结以避免过长的上下文。通过这样的设计,规划师和居民代理能够高效有效地协作生成考虑不同居民需求的土地利用规划。

鱼缸讨论机制:提升效率的关键

在参与式城市规划中,传统的参与范式往往需要经验丰富的规划专家,且常常耗时且成本高昂。为了提高讨论效率,我们采用了鱼缸讨论机制。在这种机制中,部分居民参与讨论,其余的居民则作为听众。每轮讨论结束后,内外圈的成员会随机交换,讨论历史也会被总结,以避免过长的对话文本。通过这种设计,规划师和居民代理能够高效、有效地共同制定出考虑到不同居民需求的土地利用规划。

实验设置与基准比较

1. 实验数据集介绍:北京的两个区域案例

我们的方法部署在北京的两个真实世界区域(下图):回龙观(HLG)和大红门(DHM)。HLG位于北京市中心以北33公里处,原本是一个卫星城镇,现已融入北京大都市区。由于居民需远距离通勤,HLG成为了一个典型的通勤城镇。DHM位于北京南部,有着悠久的居住历史,城市布局杂乱无章,混合了住宅、商业、仓储、物流和租赁复合体。两个区域的选择考虑到了它们在社会经济概况、人口组成和城市规划复杂性上的多样性。

2. 实施细节与评价指标

我们根据道路和现有土地利用条件将HLG和DHM区域划分为若干区域。我们保留了居住区和主要绿地,将其他区域视为待规划的空地。HLG和DHM各有42个空地区域需要规划(下表)。为了确保规划结果现实可行,我们为两个社区设定了基础设施覆盖的最低要求。

在实验中,我们使用了gpt-3.5-turbo-1106作为居民代理,使用gpt-4-vision-preview作为规划师代理,因为它需要输入区域地图。在每个社区的规划过程中,我们让居民进行了3轮讨论,每轮选出50名居民参与讨论。为了确保结果的稳健性,我们将LLM的温度设置为0,并报告了使用不同随机种子的五次运行的平均结果。

为了评估我们的框架,我们选择了六种方法作为比较基准:随机方法(Random)、集中方法(Centralized)、分散方法(Decentralized)、几何集合覆盖算法(GSCA)、深度强化学习(DRL)以及人类设计师(Human Expert)的结果。

而评价指标,我们采用了两类:不考虑需求的(need-agnostic)和考虑需求的(need-aware)。不考虑需求的指标是聚合指标,提供了整个社区的概览,专注于服务(Service)和生态(Ecology),而不考虑个体的定制化需求。考虑需求的指标包括满意度(Satisfaction)和包容性(Inclusion),这些指标衡量了规划过程是否充分考虑了边缘群体的需求,从而促进了更公平和包容的城市发展策略。我们将不考虑需求的和考虑需求的服务和生态满意度以及包容性结合起来,以衡量意向草案的性能,旨在符合参与式规划的核心愿景,并照顾到所有利益相关者的满意度。

实验结果:LLM在居民满意度和包容性上的表现

实验的具体比较数据见下表,粗体字是最佳结果,下划线是次佳结果。

1. 居民满意度

在实验中,我们的LLM方法在居民满意度(Satisfaction)上表现出色,超过了所有基线方法。例如,在HLG数据集上,我们的方法的满意度得分为0.787,这意味着居民平均能够在500米内访问到78.7%的他们需要的设施,比基线方法至少提高了11.2%。这一结果表明,我们的方法能够通过允许居民讨论并根据他们的意见修改计划,有效地考虑居民的多样化需求。

2. 包容性

在包容性(Inclusion)方面,我们的方法同样取得了最佳表现。在HLG数据集上,包容性得分为0.773,表明77.3%的边缘化群体的需求得到了满足。这一成绩进一步证明了我们的方法能够确保更加公平和包容的城市发展策略。

角色扮演与讨论设计的有效性分析

1. 角色扮演的有效性

为了评估角色扮演设计的有效性,我们进行了消融实验(下图),其中移除了所有居民的个人资料,并将他们替换为相同的提示:“你是城市中一个地区的居民”。结果显示,去除角色扮演后,居民满意度和包容性指标分别下降了4.7%-8.0%,这表明居民的个人资料能够有效反映他们的多样化需求。

2. 讨论设计的有效性

在讨论设计方面,我们同样进行了消融实验(上图),其中不允许居民之间进行讨论。相反,参与讨论的居民只是单独报告他们对计划的看法,然后这些意见被汇总并发送给规划师进行计划修订。结果显示,去除讨论后,居民满意度和包容性指标分别下降了4.1%-6.3%,这表明单独询问并汇总每个居民的意见是次优的。相比之下,讨论允许居民相互交流,更好地平衡了他们的不同意见和多样化需求。

3. 讨论过程分析

通过对HLG地区的案例分析,我们观察到在社区讨论和规划师修订过程中,居民的意见得到了充分的交流和考虑,从而提高了整个社区的满意度。例如,见下图(a),在社区1的讨论中,大多数居民对计划已经表示满意,但仍有一些有特殊需求的居民提出在区域1、3和5增加新设施的建议。经过几轮讨论,许多其他居民接受了这些意见并表示支持,因此规划师根据这些建议对这些区域进行了修订。下图(b)是各社区修订后的指标。0表示初始规划,4表示四个社区修改后的最终规划。指标为5次运行的平均值。

综上所述,我们的LLM方法不仅能够有效地考虑居民的多样化需求,而且在提供公共服务可达性和生态评分方面与最先进的强化学习方法相媲美。通过多代理协作设计,我们的方法在居民满意度和包容性方面取得了显著的成绩,同时也保持了与人类专家相当的服务和生态指标。

讨论过程分析:居民意见的交流与规划师的修正

在参与式城市规划中,居民的积极参与是规划过程的核心。为了平衡居民的多样化需求,本研究采用了基于LLM的多代理合作框架。在这个框架中,规划师首先提出一个初始的土地利用计划,然后通过居民之间的讨论来修正这个计划。这一过程的关键在于如何让居民之间的交流更有效,并确保规划师能够根据居民的反馈进行合理的修改。

1. 居民意见的交流

在每个社区内,居民基于他们的个人档案(包括性别、年龄、教育水平和家庭大小等信息)提出对初始规划的反馈。例如,有孩子的家庭可能需要学校,而有病人的家庭可能更倾向于医疗服务和公园。通过让居民在讨论中表达他们的意见,可以更好地平衡他们的需求。在讨论过程中,居民们不仅分享了他们对土地利用计划的看法,还有机会了解到其他居民的需求和建议。

2. 规划师的修正

规划师在居民讨论后对计划进行修正。这一过程中,规划师需要综合考虑居民的反馈,并做出相应的调整。例如,在讨论过程中,如果多数居民对某个区域的规划表示满意,但有特殊需求的居民提出了增加新设施的建议,规划师可能会根据这些建议对该区域进行修改。通过这种方式,即使是少数群体的观点也能得到充分的讨论和考虑,从而提高整个社区的满意度。

超参数研究:讨论轮数对结果的影响

在本研究中,讨论轮数是一个重要的超参数,它直接影响到居民讨论的深入程度和规划修正的效果。为了探究讨论轮数对结果的影响,我们进行了一系列实验,讨论轮数从1到4不等。

1. 讨论轮数的设定

实验中,居民讨论的轮数设定为1到4轮。在每一轮讨论中,居民们分享他们对土地利用计划的看法,并对计划提出建议。规划师则根据这些讨论的结果进行计划的修正。

2. 讨论轮数对结果的影响

实验结果显示(下图),当讨论轮数从1增加到3时,居民满意度(Satisfaction)和包容性(Inclusion)指标有显著提升。例如,在HLG数据集上,居民满意度从0.738提升到0.787,包容性指标提升了5.9%。这表明多轮讨论能够更好地平衡居民的不同意见,并制定出更能满足他们需求的土地利用计划。

然而,当讨论轮数增加到4时,这些指标没有进一步提升(上图),这可能是因为过长的讨论可能导致性能的停滞甚至恶化。此外,服务(Service)指标的趋势与居民满意度和包容性指标相似,而生态(Ecology)指标则有所波动,这可能是由于在设施和绿地之间存在潜在的权衡。

综上所述,讨论轮数对居民讨论和规划修正的结果有直接影响。适当的讨论轮数可以促进居民之间的有效沟通,帮助规划师根据居民的反馈做出更合理的规划调整。

结论与未来展望:LLM在城市规划中的潜力与挑战

1. 结论

本研究通过引入大语言模型(LLM)来模拟参与式城市规划的全过程,展示了LLM在城市规划中的应用潜力。我们设计了LLM代理来模拟规划师和具有不同背景的居民,通过特定的提示设计来实现这一点。然后,我们提出了一个框架,居民可以讨论规划师制定的土地利用计划,并且规划师根据讨论结果相应地修订计划。此外,为了在大量居民中进行更有效的讨论,我们采用了鱼缸讨论机制,其中部分居民进行讨论,其余的居民则倾听。在北京的两个真实世界场景中部署了我们的方法,结果表明我们的方法能够有效满足居民的多样化需求,并且在服务可达性和生态指标方面与最先进的强化学习方法相媲美。

2. 未来展望

尽管LLM在城市规划中展现出了巨大的潜力,但我们必须承认,在整个过程中对规划要素的简化可能会导致与实际规划场景的偏差。例如,所有权、开发成本和更高层次的规划等因素在本研究中被省略,这可能会影响到规划的实际应用。希望这些不足可以通过新的提示设计来解决,而不会影响我们框架的有效性和可解释性。此外,我们的框架在很大程度上依赖于手动设计的提示,尤其是对于规划师而言。为了使规划师代理理解规划地图,我们需要描述每个区域的位置和邻近情况,这限制了我们方法的泛化能力。

未来的工作方向之一是将我们的框架与人类专家结合起来,构建人工智能协作工作流。例如,我们可以用人类替换规划师或某些居民,以获得更好的真实性和性能。此外,多代理协作设计也有望应用于涉及大量代理的其他任务。

3. 挑战

LLM在城市规划中的应用面临着多方面的挑战。首先是数据的准确性和代表性问题,LLM的输出质量高度依赖于输入数据的质量。其次,LLM在处理复杂城市规划问题时可能需要更高级的理解和推理能力。此外,参与式规划的核心是包容性和多样性,LLM需要能够处理来自不同背景和利益的居民的反馈。最后,随着技术的发展,如何确保LLM的透明度和可解释性,以及如何处理与现有规划流程的集成问题,都是需要进一步探索的重要问题。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
今日arXiv最热NLP大模型论文:Github万星!北航发布零代码大模型微调平台LlamaFactory今日arXiv最热大模型论文:大模型也来看球,还能判断是否犯规今日arXiv最热NLP大模型论文:微软提出SliceGPT,删除25%模型参数,性能几乎无损今日Arxiv最热NLP大模型论文:复旦大学最新研究,如何让大模型说出“我不知道”?今日arXiv最热NLP大模型论文:微软:用大模型分析用户满意度,让智能系统更善解人意今日arXiv最热NLP大模型论文:浙江大学:蒸一蒸,多Agent变成单一模型,效果更好今日arXiv最热NLP大模型论文:COLING2024发布数据集揭示从莎士比亚时期开始的性别偏见Arxiv最热论文推荐:揭秘Transformer新身份、谷歌VLM蒸馏、复旦LEGO模型今日arXiv最热NLP大模型论文:面向不确定性感知的Language Agent今日Arxiv最热NLP大模型论文:LLM化身符号逻辑大师,智能体文本游戏新纪元今日arXiv最热大模型论文:何恺明重提十年之争——模型表现好是源于能力提升还是捕获数据集偏见今日arXiv最热NLP大模型论文:一文读懂大模型的prompt技术今日Arxiv最热NLP大模型论文:Meta自我奖励模型超越人类反馈限制,刷新AlpacaEval 2.0排行榜今日arXiv最热NLP大模型论文:斯坦福发布法律指令数据集LawInstruct,统一17个辖区24种语言美股基本面 - 2024_01_13 * 午报 * 超越苹果!微软市值登顶凭什么?。美国议员质疑美今日arXiv最热NLP大模型论文:像人一样浏览网页执行任务,腾讯AI lab发布多模态端到端Agent今日Arxiv最热NLP大模型论文:MIT推出新方法,大幅提升LLMs的连贯性、准确性和可更新性!今日arXiv最热NLP大模型论文:北京大学警惕ChatGPT等大模型遏制人类的创新能力今日arXiv最热NLP大模型论文:IBM研究院提出Genie方法,自动生成高质量数据集毕业后在北京合租合睡的日子 (三)今日arXiv最热NLP大模型论文:大模型RAG新宠!浙江大学发布自反馈检索增强方法毕业后在北京合租合睡的日子 (二)今日Arxiv最热NLP大模型论文:清华大学让大语言模型自动并行自回归解码,速度提升高达4倍!今日arXiv最热NLP大模型论文:引入噪声,可提升RAG检索效果超30%??今日arXiv最热NLP大模型论文:CMU最新综述:工具使用,大模型的神兵利器今日arXiv最热NLP大模型论文:韩国团队提出ResearchAgent系统,模仿人类产出论文idea今日Arxiv最热NLP大模型论文:AllenAI最新研究:让AI从简单学起,竟然能解决难题?今日arXiv最热NLP大模型论文:华东师大发布对话级大模型幻觉评价基准DiaHalu毕业后在北京合租合睡的日子 (一)2014年的第一场雪谷歌发布West-of-N,利用合成数据,显著提升LLM奖励模型质量 | 今日Arxiv最热大模型论文今日arXiv最热NLP大模型论文:伯克利&DeepMind联合研究,RaLMSpec让检索增强LLM速度提升2-7倍!清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!今日arXiv最热NLP大模型论文:微软发布可视思维链VoT,提高大模型空间想象力今日arXiv最热NLP大模型论文:天津大学发布大模型数学能力细粒度评价基准FineMath
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。