大多数 ICP 没用。不是因为写它的团队偷懒,而是因为格式本身就是坏的。一份典型的 2024 年风格 ICP 是一套幻灯片,列着「中型 SaaS 公司、增长导向团队、决策人是销售 VP 及以上」之类的子弹点。这是一种感觉,不是 ICP。感觉没法把一份 5 万个账号的清单筛到这个月值得接触的 800 个,感觉没法变成评分权重,感觉也没法在下季度客户结构变化时被重新推导。
2026 年一份真正好用的 ICP,是一份结构化文档——每次评分跑模型都从头读一次——加上一张数值权重表,能确定性地给账号排序。以前需要一个资深 RevOps 花三个月做,现在配上一个像样的 LLM,两周纪律性工作就够了,而且产出比手动版本更锐利。下面是我们给每一个开口要做这件事的 Anvil 客户跑的具体流程。
步骤 1:导出销售额前 20% 的客户
打开你的 CRM 或计费系统,按过去 12 个月年化营收拉出前 20% 的客户。不是按合同金额前 20%——按「留存的、还在付的营收」前 20%。这两者差别很大。初始合同大但六个月内流失的客户是噪声;他们告诉你的是「你的销售话术」,不是「你的 ICP」。
名单里至少要 30 个客户。如果你还没有 30 个付费客户,做 ICP 太早——先去成交更多客户再回来。模型能找出非偶然模式的下限是 25 到 30 个,而且这已经在边缘。再少,你会过拟合到一两个个案。
前 20% 名单里的每个客户,你需要三类数据:
- 行业属性 Firmographic:行业子类、员工数、营收档位、地域、融资阶段、成立年份、技术栈线索。
- 行为 Behavioral:他们怎么找到你的(渠道归因)、销售周期多长、买家是谁(角色、级别、职能)、买了什么(产品/套餐)、头 12 个月有没有扩张以及怎么扩。
- 定性 Qualitative:用两三句话写客户自己说的「为什么买」,最好从 discovery 通话纪要或续约对话纪要里摘出来。
大多数团队跳过的就是定性那块,跳过就毁了整个练习。数字告诉你「谁」;话告诉你「为什么」。两个都要。
步骤 2:把结构化和行为数据喂给 LLM
把数据集整理成单一 JSON 或 CSV,一行一个客户,上面的字段做列。如果担心,可以匿名化公司名,但必须保留你要找模式所依赖的字段——行业、规模、技术栈——明文留着,这些就是你想被模型挖出来的模式。
用一个长上下文、推理能力像样的模型。这种模式抽取在 Anvil 里我们跑 DeepSeek-pro,可以一次性把整个数据集吃下;Claude、GPT、Gemini 的顶级版本也都行。这一步别用小蒸馏模型;你要的是模型在数据集上真做推理,而不是浅层匹配。
第一个 prompt 要刻意开放。类似这样:
「下面是我们按留存营收排前 20% 的客户数据集。每行包含行业属性、行为、定性数据。不要预设我们的理想客户是什么,找出 5 到 7 条把这群客户和我们可及市场里普通公司区分开的非显然模式。每条模式给出证据并给出置信度。能在至少 70% 的行里成立的模式,比只贴合少数个案的模式价值更高。」
不要把你现有的 ICP 喂给模型。这个练习的目的是找出你目前忽略了什么。如果你跟模型说「我们 ICP 是 X,找证据」,你拿回来的就是 X 的复读,不是发现。
步骤 3:提炼人眼会漏的模式
第一遍会产出一些显然的(「大多数是 SaaS」「大多数 50-500 人」)和一些不显然的。不显然的那一类才是价值所在。我们自己的数据里,最有用的一条是:在竞品宣布涨价后买进来的客户,头一年扩张率比竞品平静期买进来的客户高 3.4 倍。这条模式人眼看不到,模型一次跑就出来了。
同一个 prompt 用稍微不同的措辞、不同的行顺序跑 3-4 次,把多次都出现的模式留下。只在一次跑里出现的可能是注意力分布的伪影;多次出现的才是真的。
然后用第二个 prompt 给模式做压力测试:
「对你找到的每条模式,什么证据可以证伪它?数据集里如果出现什么会推翻它?前 20% 里有不符合这条模式的客户吗?如果有,他们为什么是例外?」
第二个 prompt 是关键。它强迫模型暴露反证,而这正是大多数模式抽取练习缺的东西。能扛过证伪挑战的模式,比只在第一轮发现里冒出来的可靠得多。
步骤 4:把模式翻译成筛选规则和评分权重
模式不是 ICP。把模式变成机器可读的规则,才是 ICP。对每条幸存模式写两个工件:
- 筛选规则 Filter rule:硬性是/否条件,不通过就出局。例:「行业不在[SaaS、Fintech、Marketplace] → 排除」。筛选规则要节制,最多 5-8 条,因为每加一条就砍掉一部分可及市场,只在真正关键的事情上砍。
- 评分权重 Scoring weight:对线索分的数值贡献,范围大概 -20 到 +30,条件命中时加上去。例:「员工数在 100-500 → +15」。评分权重可以有二三十条没问题,因为它们是软加合,不是硬卡门。
完整规则集做好后,用「留出的」客户来验证。挑 5-10 个故意没放进训练集的客户(或在前 20% 里随机抽),让他们走一遍评分系统。每一个都应该高于「合格」阈值。任何一个低于,说明你的规则太紧、把真正的理想客户排除了。调权重,再验。
同时用十个最差的客户跑一遍——六个月内流失或者持续在客服那边占用过多资源的那种。好的规则集应该给他们打到阈值之下。如果你的规则把他们也判为合格,说明你有假阳性问题,需要对「区分坏客户和好客户」的那条模式加一个负权重。
一个示例输出长什么样
下面是某个 Anvil 客户(B2B 物流 SaaS)用这套流程做出来的 ICP 文档片段,名字已替换。
「硬筛选:(1)总部在东南亚(印尼、越南、泰国、菲律宾、马来西亚、新加坡)。(2)做冷链或末端配送。(3)公开技术栈页上当前不是 TopTier WMS Pro 的客户。(4)员工至少 200 人。
评分权重(节选):过去 90 天发布过 Logistics Coordinator 岗位:+25。过去 60 天有公开吐槽手工跟单:+20。成立年份在 2014-2019(该品类的甜区):+12。CEO 或 COO 有产品运营背景:+10。融资阶段 A 或 B:+8。在用 Shopify(数字成熟度信号):+6。任何公开职位描述里有 Excel 做库存:+18。已和路线规划品类的某个竞品集成:-15(已深度绑定)。员工数 2000 以上:-10(过于企业级,以当前打法销售周期太长)。」
注意这些规则全是具体、可观察、带信号味的。没有一条是「公司重视创新」「决策人有前瞻思维」。这些短语没法变成筛选规则,因为没法对照数据去检验。一条模式如果不能翻译成对公开字段的是/否问题,就丢掉。
每季度刷新一次
ICP 会衰减。客户结构会变、产品功能会更新、竞争对手进出。每九十天把整个流程重跑一次,把上季度的 ICP 留作对比。能扛过刷新的模式是耐用的;在新一季度首次出现的模式,通常是对市场变化的反应,需要快速响应。
第一次做要两周的事,到第三次刷新只要两天。数据集已经结构化、prompt 已经打磨过,你只要把上季度新增客户加进去,再跑一遍。
人仍然重要的地方
AI 擅长抽模式;不擅长决定哪些模式该上线。有些模式真但战略上不该用——比如「我们最好的客户都来自 2025 Q3 一个特定的会议巡回」是一条真模式,但如果那个巡回不再举办,这条模式就只是历史伪影,不是前瞻信号。每条模式都得人去看一眼,决定要不要给它权重。
同理,「合格线索」的阈值也得人定。模型能打分;只有团队能决定 100 分里 75 分是分界线——因为这是销售目前接得住的容量。容量大就把阈值调低,容量小就调高,不是因为模型说该是 75。
Anvil 在哪儿派上用场
我们把 ICP 编辑直接做进了 Anvil 产品,是因为见过太多客户把这件事写在表格和 Notion 文档里,最后没人知道哪一版是正本。在 Anvil 里,你的 ICP 是一份结构化文档,评分引擎每次跑都从头读它;筛选规则会自动剪掉挖掘池,评分权重直接驱动排序。也可以导出供你自己存档,或者喂给其他工具。
但真话是,上面这套流程用不用 Anvil 都成立。纪律是价值,工具是便利。如果你 2026 年在做 B2B,手上没有一份 LLM 能一次读完的 ICP,你就在白白丢掉复利杠杆。两周的专注工作,你就能在比对手高一个维度的平面上运转。