地弄清楚我们计划抓取哪些数据

直接复制并粘贴到 Google 文档中将是一场灾难；页面上的其他内容太多了。这就是 IMPORTXML 的用武之地。第一步是打开 Google 表格并将所需的 URL 输入到单元格中。它可以是任何单元格，但在下面的示例中，我将 URL 放入单元格 A1 中。

导入在开始抓取之前

我们需要准确。在本例中，它恰好是 Twitter 句柄，因此我们将这样做。首先，右键单击 WhatsApp 号码们的目标（Twitter 句柄），然后单击“检查元素”。检查元素.png 一旦进入“检查元素”，我们想要找出我们的目标位于页面上的哪个位置。

twitter 检查元素 2.png 因为我们需要 Twitter 句柄而不是 URL，所以我们将重点关注 <a></a> 标签内的元素/修饰符/标识符“target”而不是“href”。我们还碰巧注意到标签的“子级”。

篇文章的主题，但我们需要记住的是，对于这个特定的 URL，这是我们需要提取的马特·谢尔曼高级副总裁营销总监所需信息的位置。它几乎肯定会生活在不同的区域，对任何其他给定的 URL 具有不同的修饰符；这只是我们所在网站特有的信息。让我们来看看可怕的事情（也许？）：如何编写公式。

有条理的列表，其中列出了页面上所有顶级 Twitter 句柄。

瞧。很酷，对吧？执行此操作时要记住的一点是，这些值是通过公式创建的，因此尝线数据库试定期复制和粘贴它们可能会变得混乱；您需要复制并粘贴为值。现在，让我们打破这种疯狂。与表格中的任何其他函数一样，您需要以等号开头，因此我们以 =IMPORTXML 开头。

URL 的单元格（在本例中为单元格 A1），然后添加逗号。开始查询时始终需要使用双引号，后跟两个正斜杠 (“//”)。接下来，选择要抓取的元素（在本例中为 h3 标签）。我们不需要 h3 元素中的所有信息，只需要 <a></a> 标签的特定部分，特别是我们找到 Twitter 句柄的“目标”部分。