是否有用于从频率表计算一阶转换矩阵的R包?
我有一个由 8 亿条记录聚合而成的频率表,我想知道是否可以使用包从频率表中计算一阶转移矩阵,这是不对称的,因为某些状态再也没有发生过。频率表的一个示例是:
library(data.table)
model.data <- data.table(state1 = c(3, 1, 2, 3), state2 = c(1, 2, 1, 2), Freq = c(1,2,3,4))
model.data 看起来像这样:
| 状态 1 | 状态2 | n |
|---|---|---|
| 3 | 1 | 1 |
| 1 | 2 | 2 |
| 2 | 1 | 3 |
| 3 | 2 | 4 |
回答
看来您可能已经知道该stats::xtabs函数,因为您要求我们处理的结果似乎是该base::as.data.frame.table函数的结果,该函数将“宽”结果从table调用转换为“长”数据帧表示相同的数据。(但也许不会,因为您发布了添加了额外令人困惑的列的民意调查代码。)在这里,我们将反转该过程,以便我们可以恢复矩阵(Rtable对象继承自该矩阵)。
请注意,我正在使用您的数据对象,但没有使用 pkg:pollster 代码,因为您的表似乎不是基于该 data.table 对象。
如何获得零列,...只需在state2=3“列”位置放入一个零数据元素。您只需要为整个列在 state2 中添加一个数据点,但显然它需要来自某个 state1 值。它可以来自任何状态 1 值:
model.data <- data.table(state1 = c(3, 1, 2, 3, 3),
state2 = c(1, 2, 1, 2, 3),
Freq = c(1,2,3,4, 0))
xtabs(Freq~state1+state2, model.data)
#------------
state2
state1 1 2 3
1 0 2 0
2 3 0 0
3 1 4 0
补充说明:只是为了表明这在“民意调查” tidyverse 环境中有效......
> library(pollster)
> crosstab(model.data, state1, state2, Freq)
# A tibble: 3 x 5
state1 `1` `2` `3` n
<dbl> <dbl> <dbl> <dbl> <dbl>
1 1 0 100 0 2
2 2 100 0 0 3
3 3 20 80 0 5
并进一步注意,如果您想制作转换矩阵,则需要删除“n”列。(我不太明白它代表什么。)
关于如何制作转换矩阵(如果需要,则将矩阵除以rowSums结果,因为转换矩阵需要使每行总和为单位)
mat <- xtabs(Freq~state1+state2, model.data)
trans_mat <- mat/rowSums(mat)
trans_mat
#-----
state2
state1 1 2 3
1 0.0 1.0 0.0
2 1.0 0.0 0.0
3 0.2 0.8 0.0
现在您可以使用矩阵乘法计算任何离散间隔的状态:参见?'%*%'或矩阵求幂?expm::expm
这是进一步编码与转移矩阵上的矩阵运算相关的图以生成马尔可夫模拟:
R 中的简单马尔可夫链(可视化)
markovchain包中提供了对马尔可夫序列的进一步统计操作,但我没有看到它有任何用于从数据实际构建转换矩阵的内容。我可能错了,因为我只阅读了小插图的前 5 个包。(他们似乎假设每个人都知道该怎么做,尽管当我为上面链接的答案编写代码时,我需要回到我的书上复习。)