地弄清楚我们计划抓取哪些数据

直接复制并粘贴到 Google 文档中将是一场灾难;页面上的其他内容太多了。这就是 IMPORTXML 的用武之地。 第一步是打开 Google 表格并将所需的 URL 输入到单元格中。它可以是任何单元格,但在下面的示例中,我将 URL 放入单元格 A1 中。

导入在开始抓取之前

我们需要准确。在本例中,它恰好是 Twitter 句柄,因此我们将这样做。 首先,右键单击 WhatsApp 号码 们的目标(Twitter 句柄),然后单击“检查元素”。 检查元素.png 一旦进入“检查元素”,我们想要找出我们的目标位于页面上的哪个位置。

twitter 检查元素 2.png 因为我们需要 Twitter 句柄而不是 URL,所以我们将重点关注 <a></a> 标签内的元素/修饰符/标识符“target”而不是“href”。我们还碰巧注意到 标签的“子级”。

这些值的含义是另一

篇文章的主题,但我们需要记住的是,对于这个特定的 URL,这是我们需要提取的 马特·谢尔曼 高级副总裁 营销总监 所需信息的位置。它几乎肯定会生活在不同的区域,对任何其他给定的 URL 具有不同的修饰符;这只是我们所在网站特有的信息。 让我们来看看可怕的事情(也许?):如何编写公式。

它生成了一个精彩的

有条理的列表,其中列出了页面上所有顶级 Twitter 句柄。

瞧。很酷,对吧? 执行此操作时要记住的一点是,这些值是通过公式创建的,因此尝 线数据库  试定期复制和粘贴它们可能会变得混乱;您需要复制并粘贴为值。 现在,让我们打破这种疯狂。 与表格中的任何其他函数一样,您需要以等号开头,因此我们以 =IMPORTXML 开头。

接下来我们找到具有目标

URL 的单元格(在本例中为单元格 A1),然后添加逗号。开始查询时始终需要使用双引号,后跟两个正斜杠 (“//”)。接下来,选择要抓取的元素(在本例中为 h3 标签)。我们不需要 h3 元素中的所有信息,只需要 <a></a> 标签的特定部分,特别是我们找到 Twitter 句柄的“目标”部分。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部