人工智能网络数据基础设施层的出现

人工智能正在蓬勃发展。每天都有新的用例出现。为了充分利用这项技术的潜力，企业需要大规模的数据。然而，在许多情况下，相关信息是被阻塞的或是非结构化的，这限制了其被人工智能模型的使用。要理解这一挑战，可以考虑网络本身的基础。网络并不是为新的人工智能应用要求的自动发现和检索而设计的。克服这一固有设计约束需要基础设施。人工智能的下一个前沿可能依赖于一个新的网络数据基础设施层，该层能够使模型发现和映射这个不断扩展的数字领域。这个层面必须能够导航数亿个现有的网络域和每周创建数十亿个新的URL，提供实时信息并克服技术障碍。“数据表明，外面还有很多数据，”Bright Data的首席执行官Or Lenchner说，“想想宇宙：它在那里，但你不知道你不知道什么。” 使新鲜、相关和可信数据的访问成为可能。尽管早期的人工智能突破是通过扩展训练数据和模型规模来推动的，但组织现在面临一个基本瓶颈：他们需要与网络数据的动态、非结构化和不断发展的特性保持同步，以便将输出基于当前和可验证的信息。人工智能的性能不仅依赖于模型架构，还依赖于系统的计算、网络、检索和数据工程能力——即系统快速且可靠地获取新鲜、相关和可信数据的能力。传统的模型训练依赖于在特定时间点收集的信息快照。在如此静态数据上训练人工智能已不再足够。为了跟踪竞争对手的定价、消费者情绪和市场趋势等波动，公司需要不断获取新信息，实时拉取数据以及相关背景。因此，他们的基础设施必须能够处理数百万个跨网站的同时交互，这些网站因地理位置、语言、格式和访问规则而异。“如果它不能检索实时信息，它就缺乏上下文，”Lenchner说。“在商业环境中，这已经不可接受。过时的答案会导致错误的决策和失望的消费者。”速度不仅仅是便利的问题；它是一个必要的问题。当今的组织在价格、库存、市场、安全威胁和客户行为不断变化的环境中运作。延迟的数据检索可能会降低一个既复杂又精致的模型的有效性。使用实时、高质量的网络数据也可以减少人工智能的幻觉，因为模型有了更相关的知识基础。这建立了用户的信任。事实上，一项调查发现，56%的人工智能从业者表示，企业需要访问实时网络数据以提高对人工智能输出的信任。为了确保模型高效且有效地运行，信息还必须被精简到适当的必需品。尽管引入了检索增强生成（RAG），即模型在查询时拉入外部数据，但许多人工智能系统仍然难以在操作环境中提供当前、上下文相关和可信的输出。根据Gartner的统计，60%的人工智能项目如果不具备AI-ready数据——准确、结构化、有条理和上下文化的——到年底将会被放弃。这是因为大规模检索本身并不能解决问题。正如Lenchner所说：“你需要大规模地检索数据，同时也要实时检索。延迟成为问题，因为最终用户在等待输出。” 访问新鲜的、符合人工智能需求的数据以大规模为导入了技术和结构挑战。在实践中，许多企业系统结合公共网络检索与API、许可的数据集和内部专有数据，以支持其人工智能应用。将这些分散的来源整合为一个及时且可用的知识层需要专业能力。一些研究发现，97%的人工智能组织依赖于实时网络数据基础设施，但90%感到受到各种限制的束缚。公司们越来越多地开发技术方法来应对这些限制。Lenchner进行了这样的比喻：“把训练好的模型想象成智能，而相关的数据则是知识。一个强大的智能层坐落在一个空洞的知识层之上，就像一个什么都不知道的天才——在实践中毫无用处。智能和知识必须结合在一起。” 新基础设施的前景一个新的网络数据基础设施层可以通过使数据发现、实时访问和适应特定上下文成为可能，从而满足对更强大的人工智能输入的需求。正如Lechner所描述的，“这一切都关乎以超低延迟大规模收集数据，而不被阻塞。”