该文档是关于COMP3702课程作业2的介绍,作业主题是BeeBot MDP。学生需要为在六边形环境中运行的BeeBot开发规划算法,使其能够推动、拉动和旋转蜂蜜“Widgets”以重新定位它们到目标蜂巢位置。作业包括编程和报告两部分,占总成绩的20%,需要通过Gradescope提交。文档详细介绍了BeeBot的环境表示、代理及其动作、动作成本、障碍物、Widgets、目标、交互模式以及作为MDP的相关内容,并提供了支持代码和测试用例,学生需要实现价值迭代(VI)和策略迭代(PI)等MDP算法。 COMP3702人工智能(2024年第二学期) 作业2:BeeBot MDP 关键信息: – 截止日期:2024年9月20日星期五下午1点 – 本作业评估你为具有挑战性的问题开发离散搜索技术的技能。 – 作业2占你最终成绩的20%。 – 本作业由两部分组成:(1)编程和(2)报告。 – 这是一个个人作业。 – 代码和报告都将通过Gradescope(https://www.gradescope.com/)提交。你可以在Blackboard上找到COMP3702 Gradescope网站的链接。 – 你的代码(第1部分)将使用Gradescope代码自动评分器进行评分,使用在https://github.com/comp3702/2024-Assignment-2-Support-Code提供的支持代码中的测试用例。 – 你的报告(第2部分)应符合提供的模板,为.pdf格式,并根据格式a2 – COMP3702 – [SID].pdf命名。报告将由教学团队评分。 BeeBot AI环境 你被要求为自动控制BeeBot开发一种规划算法,BeeBot是一只在六边形环境中运行的蜜蜂,能够推动、拉动和旋转蜂蜜“Widgets”,以便将它们重新定位到目标蜂巢位置。为了帮助你完成这项任务,我们提供了BeeBot环境的支持代码,你将与之接口来开发你的解决方案。为了最优地解决一个关卡,你的AI智能体必须有效地找到一系列动作,以便每个目标单元格都被一个Widget的一部分占据,同时产生最小的可能动作成本。 对于A2,BeeBot环境已被扩展为对动作的非确定性结果进行建模。成本和动作有效性现在被奖励函数所取代,其中动作成本由收到的负奖励表示,当发生碰撞(蜜蜂或蜂蜜Widget与障碍物之间,或Widget之间)时会产生额外的惩罚(即负奖励)。游戏环境的更新以粉色字体表示。 BeeBot的关卡由一个六边形的单元格网格组成,每个单元格包含一个表示单元格类型的字符。一个示例游戏关卡如图1所示。 图1:BeeBot的示例游戏关卡,展示了基于字符和GUI可视化器的表示 环境表示 六边形网格 环境由一个六边形网格表示。六边形网格的每个单元格由(行,列)坐标索引。六边形网格从上到下,从左到右索引。也就是说,左上角的坐标为(0,0),右下角的坐标为(nrows – 1,ncols – 1)。偶数编号的列(从0开始)在行的上半部分,奇数编号的列在行的下半部分。一个示例如图2所示。 ____ ____ / \ / \ /row 0 \____/row 0 \____… \col 0 / \col …
COMP3702作业2 代写 Read More »