QBUS2820作业1 代做

该文档是关于QBUS2820课程作业1的说明,主要任务是基于给定的数据集建立回归模型来预测建筑物的每日供暖负荷,使用均方误差(MSE)来衡量预测准确性。需要提交三个文件,包括报告数据分析过程和结果的文档文件、实现数据分析过程并产生测试误差的Python文件以及包含对测试数据集预测结果的CSV文件。文档需详细描述数据分析过程,Python文件需能顺利运行并产生测试误差,同时还说明了评分标准和相关注意事项。

QBUS2820作业1(30分)

2024年8月23日

1 背景

开发用于建筑物供暖负荷的预测模型在能源效率管理中至关重要。假设你为一家能源效率咨询公司工作,你的任务是通过预测建筑物的每日供暖负荷需求来优化建筑物供暖系统的运行。 数据集中的变量“ HeatingLoad ”在“ HeatingLoad_training.csv ”中表示维持建筑物内舒适室内温度所需的每日总能量(以千瓦时为单位)。此数据包括几个影响供暖负荷的预测变量,如建筑物特征、环境条件和占用率。响应变量和协变量的详细信息在下表中。 | 变量 | 描述 | | —- | —- | | “ HeatingLoad ” | 所需的每日总供暖能量(以千瓦时为单位) | | “ BuildingAge ” | 建筑物的年龄(以年为单位) | | “ BuildingHeight ” | 建筑物的高度(以米为单位) | | “ Insulation ” | 保温质量(1 = 良好,0 = 差) | | “ AverageTemperature ” | 平均每日温度(以摄氏度为单位) | | “ SunlightExposure ” | 每单位面积接收的太阳能(以瓦/平方米为单位) | | “ WindSpeed ” | 建筑物所在位置的风速(以米/秒为单位) | | “ OccupancyRate ” | 建筑物被占用的比例(百分比) |

表1:变量描述 你的任务是基于这些协变量开发一个回归模型来预测“ HeatingLoad ”。此外,还提供了数据集“ HeatingLoad_test_without_HL.csv ”,它是实际测试数据集“ HeatingLoad_test.csv ”中删除了“ HeatingLoad ”列的版本。测试数据集“ HeatingLoad_test.csv ”(未提供)与训练数据“ HeatingLoad_training.csv ”具有相同的结构。

1.1 测试误差

为了测量预测准确性,请在测试数据上使用均方误差(MSE)。令 为 的预测值,其中 是测试数据中的第 个“ HeatingLoad ”。测试误差计算如下: 测试误差 = 其中 是测试数据中的观测数量。

2 提交说明

  1. 请通过Canvas网站提交三个文件(或更多,如果必要):
    • 一个名为“ SID_Assignment1_document.pdf ”的文档文件,报告你的数据分析过程和结果。你应该将“ SID ”替换为你的学生ID。
    • 一个名为“ SID_Assignment1_implementation.ipynb ”的Python文件,用于实现你的数据分析过程并产生测试误差。如果需要,你可以提交其他文件,格式为“ SID_Assignment1_ ”。
    • 一个CSV文件“ SID_Assignment1_HL_prediction.csv ”,包含对数据集“ HeatingLoad_test_without_HL.csv ”中“ HeatingLoad ”的预测。这个CSV文件应该只有一列,名为“ HeatingLoad ”,其中保存预测值。
  2. 关于你的文档文件“ SID_Assignment1_document.pdf ”:
    • 详细说明你的数据分析过程:如何进行探索性数据分析(EDA),使用的方法/预测变量以及背后的原因。描述应足够详细,以便其他数据科学家能够理解和复制该任务。所有数值结果应报告到小数点后四位。
    • 清晰、适当地呈现相关图表和表格。
    • 页面限制为15页,包括所有内容:附录、计算机输出、图表、表格等。
  3. Python文件必须使用Jupyter Notebook编写,并假设所有必要的数据文件(“ HeatingLoad_training.csv ”和“ HeatingLoad_test.csv ”)与Python文件在同一文件夹中。
    • Python文件“ SID_Assignment1_implementation.ipynb ”必须在最后一个代码单元中包含以下代码:
    import pandas as pd
    HeatingLoad_test = pd.read_csv("HeatingLoad_test.csv")
    # 你的代码在这里:产生测试误差test_error的代码
    print(test_error)

    评分人员希望看到与提供完整测试数据时相同的测试误差。该文件应包含足够的解释,以便评分人员能够运行你的代码。

    • 仅使用讲座和教程中涵盖的方法。你可以自由使用任何公开可用的Python库来实现你的模型。

3 评分标准

本作业总分为30分,其中18分分配给“ SID_Assignment1_document.pdf ”的内容,12分分配给Python实现。评分细分如下: 1. 预测准确性:你的测试误差将与所有提交(包括教学团队)中的最小测试误差进行比较。 – 评分人员首先运行“ SID_Assignment1_implementation.ipynb ”。 – 如果文件运行顺利并产生测试误差,将根据相对于最小MSE的预测准确性和实现的适当性最多授予12分。 – 如果评分人员无法运行“ SID_Assignment1_implementation.ipynb ”或未产生测试误差,可能根据文件的适当性授予部分分数(最多4分)。 2. “ SID_Assignment1_document.pdf ”中描述的报告:最多根据以下方面分配18分: – 所选预测方法的适当性。 – 数据分析过程的细节、讨论和解释。 有关更多详细信息,请参阅评分标准。 3. CSV文件提交:如果未能以正确格式上传CSV文件,最多将扣除2分。

4 错误

如果你认为本作业存在错误,请联系教学团队。