过多的R包：CRAN被提交淹没

CRAN仍然是地球上最易获取的统计知识仓库，接受的新包数量正在以前所未有的速度增长。但是，R社区真的从这种新增长中受益吗？如果你在阅读这篇关于R-bloggers的帖子，你可能知道我已经在CRAN上发布了“前40个”新R包的选择已经有一段时间了。我第一次这样做是我在Revolution Analytics工作的一个部分，然后是在RStudio和Posit的R Views上，现在是在R Works上。过去，我需要大约一天的愉快工作分散在一个月中来选择四十个有趣的包。对于大约一百个包，我可以查看所有包的网页，下载并尝试小部分包。现在，“前40个”已经变成了一个真正的跑步机项目。以下图表显示了自从我开始在R Works上发布以来，进入CRAN的新包数量。显示图表代码库（tidyverse）文件路径 <- "new-cran-pkgs.csv" 如果（！file.exists（文件路径）） { stop（paste（"文件未找到！请检查路径："，文件路径）） } #安全地读取文本和数字 raw_data <- read.csv（文件路径，colClasses = c（"character"，"numeric"），stringsAsFactors = FALSE） plot_data <- raw_data |> mutate（日期 = my（月份）） |> arrange（日期） new_pkg <- ggplot（plot_data，aes（x = 日期，y = Num_pkgs，group = 1）） + geom_line（color = "#1f77b4"，size = 1） + geom_point（color = "#d62728"，size = 1.2） + labs（title = "新CRAN包的每月数量"，x = "日期"，y = "包的数量"，caption = "来源：R Works的每月前40个帖子"） + theme（plot.title = element_text（face = "bold"），panel.grid.minor = element_blank（），axis.text.x = element_text（angle = 45，hjust = 1）） new_pkg 为什么会有如此急剧的增加？可能发生了什么？好吧，我有一个猜想。显然，现在封装一些代码并将其发送到CRAN变得太容易了。这是可以理解的：写入和部署任何类型的软件实在太简单了。以下图表是约翰·伯恩-穆多克（John Burn-Murdoch）最近在《金融时报》上发布的，基于NBER研究，显示了我们行动AI时代应用程序的爆炸性增长。该图表还表明，新应用并没有对人们的生活或企业利润产生太大的积极贡献。它们显然没有被使用、评审或甚至被发现。那么，让我们就新R包提出同样的问题。它们中的大多数真的在为R和R社区做贡献吗？它们是否在贡献新的统计方法，扩展R在新应用领域的影响力，提供高效的高性能代码，或者做一些可以说对R社区有利的事情？作为一个有参与意识的业余爱好者，我的印象是：大多数新R包并没有做出贡献。一个明显的质量指标是文档。相当数量的新R包没有提供足够的文档来解释它们提供了什么。例如，在五月，323个新CRAN包中有40个没有README文件，没有小册子，也没有指向仓库的URL。在我看来，可能有例外的包拥有某种可发现的文档（例如，期刊出版物）或不打算被终端用户调用，因为它们是某一系列包的基础设施，不描述它们的工作内容、理由和方式的包都不是贡献。作为跑步机上的小白鼠，我很高兴听到你想说的。如果你有兴趣，请在R Works的GitHub库的Issue #68中留下评论。