最好看的新闻,最实用的信息
11月25日 °C-°C
纽币 : 人民币=4.2412

网友成功预测上海近三日新增病例数,新冠疫情预测究竟靠不靠谱?(组图)

2022-03-29 来源: 上观新闻 原文链接 评论6条

微博上有位网友通过自己的计算,成功预测了26、27日的上海新增病例(包括确诊和无症状)数——写文章时我看了下,28日的数据(29日上午公布)和他的估算也差得不多。

网友成功预测上海近三日新增病例数,新冠疫情预测究竟靠不靠谱?(组图) - 1
中央国债登记结算有限责任公司上海总部工作人员为封闭管理准备的行军床和睡袋(3月27日摄)。新华社发

作为一个数据爱好者,想说说这个预测有没有道理。

首先来说下他的计算方式,e^(x*d+y+ε)=确诊数。这是一个指数模型算式,简单来说,作者从一段时期的数据(确切的说是12-15日这14天)推测,新增阳性病例是在按一个规律性的指数增长,然后他自己设计了回归模型,算出平均每天增长28%这个数字。

这个算法有没有道理呢?其实如果对12-25日的数据作一个观测,肉眼就可发现每日新增病例数的增长率,围绕30%附近(下图红色直线)波动。如果相信这是一种规律的话,算出来的增长指数差异不大。比如我用另一种方法算了一下,x1=[ln(P[25日])-ln(P[12日])]/13,(这个公式没有用回归,比较粗暴),大概能算出新增病例每天增长31%,如果我们用这个数字预测26日和27日,一个是2975例,一个是3516例,和实际数字2676和3500差距也不是很大,27日的预测甚至比这位网友还更准一点。

网友成功预测上海近三日新增病例数,新冠疫情预测究竟靠不靠谱?(组图) - 2

但如果我们把这根曲线再往前拉一拉,看2月底到3月初的数值(红框),就会发现之前的新增病例日增长率要高得多,而且有一个明显下降的过程。

这首先说明,相比疫情之初,我们的防控手段起到了效用,有效压低了R0值。

其次,最近这半个月的增长指数比较稳定,是不是就能预测之后的数据?

这里边有两个问题,一是这个指数能不能代表全市的情况?我并不能完全肯定。一个猜测是检测人数在按指数级增长(管控范围在扩大),而病例在被检测人数中比例是比较稳定的,不过,这只能代表病例在检测人群中的比例,不能代表病例在全部人口中的比例。这个我们可以看一下下图,在闭环隔离管控内的检测阳性数值,要大大高于风险人群筛查,而从绝对人数上,应该是风险人群的数量更大。因此我认为全市性的病毒传播要远低于管控区的传播,4月5日以后我们可以来看下这个推测对不对。

第二个问题,即便相信这个指数代表着全市性的规律,那么是不是能预测更久的数据?比如按这位网友推测,4月1日上海的每日新增病例就会超过万例,4月3日达到1万9千多例。

说实话我是不敢这么大胆的。首先是这个用过去14天数据反推的模型实在太简单了,完全没有引入其他变量,比如我上面说的检测范围。其次,14天的时间太短了,明显忽视了防控手段有一定的滞后效应。就大家熟知的例子而言,大规模管控措施的实行成功令武汉的传染数从2.35降到接近于1,花了约4个月的时间,而当中也经历过病例稳定增长的瓶颈期。

经验告诉我们,新冠疫情在一个人口庞大的区域的发展趋势,是很难预测的。实际上2020年疫情爆发以来,全球各国医学专家弄出来的模型给出的预测结果,都不是太靠谱,有时上一周还很准确的模型,下一周可能就会谬以千里。

为什么新冠疫情很难预测?这是因为第一,任何基础的指数,其微小的差距在一定时间后也会变得很大。如果R0分别等于2.9和3.1,那么传播10轮对应的累计确诊就分别是22142和39030人。随着传播轮数的增加,结果的差异性会放得更大。

其次,模型很难对曲线拐点给出准确的预测,拐点指的是峰值、突然变陡或变缓。用一句俗话说,量变才能达到质变。但在现实中,除非完全躺平,不然影响疫情的变量实在太多了,比如防疫措施的力度,方式,个人行为变量,社会经济条件包括医疗,住宿,交通等。变量越多,模型越复杂,不同模型计算出的“质变”拐点差异就越大。

预印本论文网站medRxiv 上有过一篇256位作者撰写的关于新冠预测的论文,这些作者都是全球各地做新冠预测模型的研究者,文章称,模型所预测的周期越长,其准确性就越低:与对未来一周的预测相比,对未来四周的预测错误率升高了一倍,四周被认为是有实际意义的短期预测时长的上限;如果把对未来二十周的预测结果也拿来比的话,其错误率是一周的五倍。

从这个意义上来说,预测对了两三天的数据,真的不算什么。

最后想说,作为一个野生数据工作者,略知统计和建模并不是完全客观的存在,会因为研究者的立场和先验知识而呈现出截然不同的结果,所以,对于疫情预测这样复杂的工作,应该心存更多的敬畏。

今日评论 网友评论仅供其表达个人看法,并不表明网站立场。
最新评论(6)
随遇而安的人 2022-03-30 回复
数据推算应该还是大致上能够获得,一般的结果~但人为的因素蛮大的~比方说一个阳新外出的青年,在人群密集的地方,没戴口罩,打了一个喷嚏……而这个打喷嚏的地方是南来北往的火车巴士交换中心~其最恶劣的结果就是迅速传播……跟原有数据控制有更大的差距了?
Archangles_K 2022-03-29 回复
1万例,4月份以后能到的
古月Karina 2022-03-29 回复
三天就破4000
李沐沐Moon 2022-03-29 回复
疫情用这种算法肯定不准的。疫情很难捉摸它,客观因素实在太多了。
韩队长 2022-03-29 回复
预测下,什么时候可以清零,生活恢复正常


Copyright Media Today Group Pty Ltd.隐私条款联系我们商务合作加入我们

分享新闻电话: (02) 8999 8797

联系邮箱: [email protected] 商业合作: [email protected]网站地图

法律顾问:AHL法律 – 澳洲最大华人律师行新闻爆料:[email protected]