家谱公司在过去几十年里一直在数字化家庭记录,人工智能正在加速这一进程。
家谱公司在过去的42年里,收集了来自88个国家的超过710亿份出生证明、结婚证和其他家庭记录,以建立1.48亿个家族树。在家谱公司历史的大部分时间里,收集、标记和整理这些数据是一个耗时的缓慢过程。家谱公司的员工和第三方供应商需要数月时间手动输入数据和转录国际家庭记录。国际扩张始于2001年,当时公司在英国推出了一个网站,但加入其他市场的成本很高,斯里拉姆·提亚卡拉扬表示,自2020年11月以来担任家谱公司首席技术官的他说:“来自世界各地的丰富内容的数字化所需的时间成本是我们的限制因素。”家谱公司的大多数人工智能工作由提亚卡拉扬主导,他于2017年9月加入公司担任首席信息官;他的扩展角色是在投资公司黑石完成其47亿美元收购家谱公司的一个月前。此后,提亚卡拉扬表示,家谱公司在机器学习和人工智能方面的投资,以及传统与生成式人工智能的进展,加快了数字化过程。他补充说,人工智能还为新的用户工具铺平了道路,包括基于人工智能的人脸和手写识别技术。培训人工智能模型。早在2003年,数据科学家和软件研究工程师杰克逊·里斯被朋友招募加入家谱公司,担任数字成像与保存服务的负责人。当时,家谱公司有一个人的成像部门在数字化普查数据、出生和死亡记录、移民表格和其他历史记录,里斯告诉《商业内幕》。他最初被聘请是为了将公司的成像操作内部化,并在三年内将其数字成像团队扩大到70多名员工。里斯告诉《商业内幕》,扩大的团队使用的技术已经过时,例如微缩胶卷扫描仪,将政府档案和报纸剪辑转化为数字文件。自2014年以来,家谱公司开始集中精力于早期人工智能项目,专注于开发家谱公司的专有机器学习模型和计算机视觉系统,以构建能够读取纸质文件的算法,里斯说。该初步工作持续到2016年。随后,他的团队与谷歌于2018年10月发布的自然语言处理模型BERT合作,构建更精确的数据提取工具。里斯表示,之前,当家谱团队收到数百万份新的出生记录时,领域专家会审查这些文档,然后将其交给索引员,后者负责转录和标记。家谱公司随后在这些数据上训练其专有的人工智能模型,希望在领域专家、索引员和数据科学家之间经过几轮反复交互后,人工智能模型的准确率超过90%。里斯表示:“那是最好的情况;有时我们需要进行八次、十次甚至十多次迭代,才能真正调整好模型。”到2019年,家谱公司结合了基于BERT的模型,更快地处理其讣告收藏和其他记录提取项目。该公司还保持员工参与,以继续验证训练数据,确保模型能够有效处理记录,里斯说。ChatGPT的转折点。提亚卡拉扬表示,2022年11月ChatGPT的出现是另一个“确定可能性的艺术的转折点”。来自OpenAI、Anthropic和其他人工智能巨头的新大型语言模型开启了加速处理非结构化数据的可能性,包括用户生成的图像、扫描文档和书面故事。他说,现在人工智能能够更快、更准确地进行记录提取,家谱公司可以获取出生记录和其他数据,应用来自OpenAI、谷歌和Anthropic的专有模型以及开源人工智能模型,并“为我们的用例微调它们”,里斯说。他补充说,该公司能够处理近200种不同的语言,几乎不需要迭代模型训练。到2023年9月,家谱公司也在使用大语言模型来面向用户的功能,提亚卡拉扬说。面部匹配,一个基于人工智能的人脸识别工具,帮助用户识别家庭照片中的人,于2024年7月首次亮相。提亚卡拉扬还介绍了一个基于人工智能的手写笔记转录工具示例。2025年4月,公司推出了一项文档转录功能,允许客户上传JPG和PNG文件的扫描件,并生成其家庭手写笔记的转录。2025年12月推出的家谱AI故事允许客户在公司数据库中点击祖先的页面,听到由人工智能讲述的他们生活的音频故事。到2025年底,家谱公司的超过50%...
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡