返回

文章详情

过多的R包:CRAN被提交淹没

Hacker News2026年6月24日 10:59

CRAN仍然是地球上最易获取的统计知识仓库,接受的新包数量正在以前所未有的速度增长。但是,R社区真的从这种新增长中受益吗?如果你在阅读这篇关于R-bloggers的帖子,你可能知道我已经在CRAN上发布了“前40个”新R包的选择已经有一段时间了。我第一次这样做是我在Revolution Analytics工作的一个部分,然后是在RStudio和Posit的R Views上,现在是在R Works上。过去,我需要大约一天的愉快工作分散在一个月中来选择四十个有趣的包。对于大约一百个包,我可以查看所有包的网页,下载并尝试小部分包。现在,“前40个”已经变成了一个真正的跑步机项目。以下图表显示了自从我开始在R Works上发布以来,进入CRAN的新包数量。显示图表代码库(tidyverse)文件路径 <- "new-cran-pkgs.csv" 如果(!file.exists(文件路径)) { stop(paste("文件未找到!请检查路径:",文件路径)) } #安全地读取文本和数字 raw_data <- read.csv(文件路径,colClasses = c("character","numeric"),stringsAsFactors = FALSE) plot_data <- raw_data |> mutate(日期 = my(月份)) |> arrange(日期) new_pkg <- ggplot(plot_data,aes(x = 日期,y = Num_pkgs,group = 1)) + geom_line(color = "#1f77b4",size = 1) + geom_point(color = "#d62728",size = 1.2) + labs(title = "新CRAN包的每月数量",x = "日期",y = "包的数量",caption = "来源:R Works的每月前40个帖子") + theme(plot.title = element_text(face = "bold"),panel.grid.minor = element_blank(),axis.text.x = element_text(angle = 45,hjust = 1)) new_pkg 为什么会有如此急剧的增加?可能发生了什么?好吧,我有一个猜想。显然,现在封装一些代码并将其发送到CRAN变得太容易了。这是可以理解的:写入和部署任何类型的软件实在太简单了。以下图表是约翰·伯恩-穆多克(John Burn-Murdoch)最近在《金融时报》上发布的,基于NBER研究,显示了我们行动AI时代应用程序的爆炸性增长。该图表还表明,新应用并没有对人们的生活或企业利润产生太大的积极贡献。它们显然没有被使用、评审或甚至被发现。那么,让我们就新R包提出同样的问题。它们中的大多数真的在为R和R社区做贡献吗?它们是否在贡献新的统计方法,扩展R在新应用领域的影响力,提供高效的高性能代码,或者做一些可以说对R社区有利的事情?作为一个有参与意识的业余爱好者,我的印象是:大多数新R包并没有做出贡献。一个明显的质量指标是文档。相当数量的新R包没有提供足够的文档来解释它们提供了什么。例如,在五月,323个新CRAN包中有40个没有README文件,没有小册子,也没有指向仓库的URL。在我看来,可能有例外的包拥有某种可发现的文档(例如,期刊出版物)或不打算被终端用户调用,因为它们是某一系列包的基础设施,不描述它们的工作内容、理由和方式的包都不是贡献。作为跑步机上的小白鼠,我很高兴听到你想说的。如果你有兴趣,请在R Works的GitHub库的Issue #68中留下评论。

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡