该文档是关于MAST30027课程2024年作业3的说明,作业占总成绩的12%,需以PDF格式在LMS上提交,迟交需提前申请延期。作业包括两个问题,均涉及对观测数据的建模和使用EM算法估计参数。问题1对300个观测数据使用三个负二项分布的混合模型进行建模,要求推导期望、E步和M步,并使用EM算法估计参数,运行两次并报告对应最高不完全对数似然的参数估计。问题2对400个观测数据进行建模,前300个与问题1相同,后100个使用第一个负二项分布,同样要求推导期望、E步和M步,使用EM算法估计参数并运行两次。
MAST30027:现代应用统计学
作业3,2024年。
截止日期:9月23日星期一晚上11:59 – 本作业占总成绩的12%。 – 为获得满分,需展示您的工作过程,包括1)使用的R命令和输出,2)数学推导,以及3)严格解释得出结论或答案的原因。如果只提供最终答案,将得零分。 – 提交的作业必须打字(数学公式除外),并仅以单个PDF文档的形式通过LMS提交(不允许其他格式)。对于数学公式,可以拍照。答案必须清晰编号,并与作业问题的顺序相同。 – LMS不接受迟交的作业。确保作业正确并按时提交是您的责任,在线提交的问题不是迟交或提交错误版本作业的有效借口。 – 我们将标记一组选定的问题。我们将选择价值≥满分50%的问题。 – 如果您需要延期,请在截止日期前联系讲师并提供适当的理由和支持文件。只有在截止日期前获得讲师的延期许可,迟交的作业才会被接受。为确保讲师在截止日期前回复您的延期请求电子邮件,请在截止日期前24小时联系。在任何情况下,如果作业的解决方案已发布,该作业将不会被评分。 – 此外,请阅读LMS上“Subject Overview”页面的“Assessments”部分。
1. 文件assignment3_2024_prob1.txt
包含300个观测值。我们可以读取这些观测值并制作直方图,如下所示:
> X <- scan(file="assignment3_2024_prob1.txt", what=double())
300 items
Read > length(X)
1] 300
[> hist(X, breaks=0:max(X))
我们将使用三个负二项分布的混合模型对观测数据进行建模。具体来说,我们假设观测值X1, …, X300相互独立,并且每个Xi遵循混合模型 Zi ∼ Categorical(π1, π2, 1 − π1 − π2), Xi|Zi = 1 ∼ NegBinomial(r, p1), Xi|Zi = 2 ∼ NegBinomial(r, p2), Xi|Zi = 3 ∼ NegBinomial(r, p3), 其中r是某个已知常数。负二项分布的概率质量函数为 $$
f(x; r, p) = \binom{x + r – 1}{r – 1}p^r(1 – p)^x.
$$ 我们旨在使用EM算法获得参数θ = (π1, π2, p1, p2, p3)的极大似然估计。 (a)(5分)令X = (X1, …, X300)和Z = (Z1, …, Z300)。推导完全对数似然的期望,Q(θ, θ0) = EZ|X, θ0[log (P(X, Z|θ))]。 (b)(3分)推导EM算法的E步。 (c)(5分)推导EM算法的M步。 (d)(5分)注意:您对这个问题的回答应该是打字输入的。包含屏幕捕获的R代码或图形的答案将不会被评分。 实现EM算法,并通过将实现的算法应用于观测数据X1, …, X300,获得参数的极大似然估计,假设r = 10。当EM迭代次数达到500时,或当不完全对数似然的变化小于10 − 5(ϵ = 10 − 5)时,终止算法。使用以下两个不同的初始值运行EM算法两次,并报告对应最高不完全对数似然的参数估计。 |π1|π2|p1|p2|p3| |—|—|—|—|—| |第一次初始值|0.1|0.3|0.1|0.8|0.5| |第二次初始值|0.2|0.4|0.3|0.2|0.7| 对于每次EM运行,通过绘制它们来检查不完全对数似然在每次EM迭代时是否增加。
2. 文件assignment3_2024_prob2.txt
包含100个额外的观测值。我们可以读取问题1中的300个观测值和新的100个观测值,并制作直方图,如下所示:
> X <- scan(file="assignment3_2024_prob1.txt", what=double())
300 items
Read > X.more <- scan(file="assignment3_2024_prob2.txt", what=double())
100 items
Read > length(X)
1] 300
[> length(X.more)
1] 100
[> xgrid <- 0:max(c(X, X.more))
> par(mfrow=c(2, 2))
> hist(X, breaks=xgrid, ylim=c(0, 21), main="Histogram of X", xlab="X")
> hist(X.more, breaks=xgrid, ylim=c(0, 21), main="Histogram of X.more", xlab="X.more")
> hist(c(X, X.more), breaks=xgrid, ylim=c(0, 21), main="Histogram of X & X.more", xlab="X & X.more")
令X1, …, X300和X301, …, X400分别表示来自assignment3_2024_prob1.txt
的300个观测值和来自assignment3_2024_prob2.txt
的100个观测值。我们假设观测值X1, …, X400相互独立。我们使用三个负二项分布的混合模型对X1, …, X300进行建模(如我们在问题1中所做的那样),但我们使用这三个负二项分布中的第一个对X301, …, X400进行建模。具体来说,对于i = 1, …, 300,Xi遵循混合模型 Zi ∼ Categorical(π1, π2, 1 − π1 − π2), Xi|Zi = 1 ∼ NegBinomial(r, p1), Xi|Zi = 2 ∼ NegBinomial(r, p2), Xi|Zi = 3 ∼ NegBinomial(r, p3), 而对于i = 301, …, 400,Xi遵循 Xi ∼ NegBinomial(r, p1), 其中r是某个已知常数。我们旨在使用EM算法获得参数θ = (π1, π2, p1, p2, p3)的极大似然估计。 (a)(5分)令X = (X1, …, X400)和Z = (Z1, …, Z300)。推导完全对数似然的期望,Q(θ, θ0) = EZ|X, θ0[log (P(X, Z|θ))]。 (b)(5分)推导EM算法的E步和M步。 (c)(5分)注意:您对这个问题的回答应该是打字输入的。包含屏幕捕获的R代码或图形的答案将不会被评分。 实现EM算法,并通过将实现的算法应用于观测数据X1, …, X400,获得参数的极大似然估计,假设r = 10。当EM迭代次数达到500时,或当不完全对数似然的变化小于10 − 5(ϵ = 10 − 5)时,终止算法。使用以下两个不同的初始值运行EM算法两次,并报告对应最高不完全对数似然的参数估计。 |π1|π2|p1|p2|p3| |—|—|—|—|—| |第一次初始值|0.1|0.3|0.1|0.8|0.5| |第二次初始值|0.2|0.4|0.3|0.2|0.7| 对于每次EM运行,通过绘制它们来检查不完全对数似然在每次EM迭代时是否增加。