LLM 也是用于数据清理和丰富的绝佳 AI 工具。我们以非结构化地址或静态位置数据为例。
假设您有一个包含 1,000 份公司资料的数据集,其中包含带有自由用户输入字段的数据。其中之一是“位置”。一些公司可能输入了州(例如德克萨斯州)作为其地址,而其他公司则使用城市(例如达拉斯)。必须对此类数据进行结构化以进行分析。
您可以将数据集上传到 LLM,并制定提 电话号码数据库 示来统一这些数据。例如:“查找带有城市名称的‘位置’值,并将其更改为该城市所在州的名称。”
这是另一个例子。获取有关公司专长是什么的准确信息可能很复杂,因为大多数上市公司的描述都是为了营销工作,使用诸如“推动创新”或“改变 x 领域”之类的流行词。但你需要确切地知道他们专长于什么——尤其是在B2B领域。
LLM 可以处理公司描述并根据特定标准对其进行标记或提取和总结相关事实。
它是如何工作的?让我们看看如何在 LLM 的帮助下实现自动分类。
您拥有相同的数据集,其中包含 1,000 份公司资料和潜在客户列表。假设您正在为使用或可能使用AI 的公司构建工具。您希望通过您的服务接触符合您理想客户资料的公司。
公司描述是从公开的社交网络上的公司列表中提取的,这意味着您正在处理公司生成的描述。您可以指示法学硕士分析哪些公司使用人工智能,并以表格、信息图或文本摘要的形式呈现结果。
法学硕士可以检索隐藏数据
通常,最可靠的数据丰富选项是使用针对您的特定需求进行微调的 LLM,尤其是在处理大数据时。这是一个昂贵的选项,对于资源受限的 提高参与度 公司来说并不容易获得。不过,我鼓励您至少尝试使用易于访问的 LLM 解决方案进行测试。
说到使用 LLM 来丰富数据,其主要优势在于能够以通常需要人类或类人智力的方式从数据中提取信息。此类任务需要理解背景并具备得出结论的能力。
有人可能会说,从源数据中提取“免费试用”之类的信息不算丰富,但根据我的经验,这是一项比数据清理或简单地查找关键字更高级别的任务。法学硕士对上下文的理解程度很高,他们可以从数据中提取信息,而无需使用源中提到的确切短语。这会产生宝贵的、难以获得的数据。
LLM 实际应用:公司分析示例
准备好再举一个例子了吗?让我们仔细看看 Coresignal 的多源公司数据。该数据集包含超过 3500 万条公司记录,全面展现了每个行业中全球最杰出的公司。
每个简介都包含所有关键的公司特征的 比特币数据库美国 列表,例如公司统计数据、投资信息或劳动力趋势。
其中一些领域是在丰富过程中出现的,当时基于 LLM 的算法分析了公司描述,识别了新兴类别,并定义了可用于定义公司的关键词,例如技术图表数据。