因此我们需要选择

” 在这种特殊情况下,Twitter 句柄是唯一可以根据我们的公式以及它最初在 HTML 中的编写方式进行抓取的元素,但有时情况并非如此。如果我们正在寻找旅游博主,并且发现了如下所示的网站,其中我们想要的 Twitter 句柄位于文本段落中,该怎么办? 女性旅游博主.png 查看“检查元素”按钮,我们会看到以下信息: 莎拉 v2.png 顶部矩形是我们需要的 div 和类,第二个矩形是我们需要的另一半信息:<p> 标记。

标签在中用于指定给定段落的位置

我们要查找的 Twitter 句柄位于文本段落内, <p> 标签作为 telegram 数字数据 要抓取的元素。 我们再次将 URL 输入到单元格中(任何空单元格都可以)并写出新公式 )。

这次我们没有像前面的示例那样选择所有 h3 元素,而是在 div 元素中查找具有“span8 column_container”类的所有 <p> 标签。我们在具有“”类的 div 元素中查找 <p> 标记的原因是因为页面上还有其他 <p> 标记,其中包含我们可能不需要的信息。

所有 句柄都包含

在该特定分类的 div 中的 <p> 标签中,因此通过选择它,我们将选择最合适 马可·丹努索 顾问 的数据。 然而,结果并不完美,如下所示: 凌乱的结果.png 结果不太理想,但仍然可以管理——我们最终只想要 Twitter 句柄,但提供了一大堆其他文本。

绿色矩形中突出显示的结果更

接近我想要的结果,但不在我需要的列中(屏幕截图视图之外的页面 线数据库  下方还有另一个结果,但大多数都在我需要的位置)。为了确保我们以适当的格式获取所有数据,我们可以复制并粘贴 A-C 列中所有内容的值,这将删除由公式填充的值,并将它们替换为可以操作的硬值。

完成后我们可以将外围值

(B 列中的一个和 C 列中的一个)剪切并粘贴到 A 列中相应的单元格中。 我们所有的数据现在都在 A 列中;但是,某些单元格包含不包含 Twitter 句柄的信息。我们将通过运行 =QUERY 函数并将包含“@”的单元格与不包含“@”的单元格分开来解决此问题。

在一个单独的单元格

我使用单元格 C4)中,我们将输入 =query(A4:A36,或“选择 A,其中 A 包含‘@’”) 并按 Enter 键。繁荣。从现在开始,我们将只拥有包含 Twitter 句柄的单元格,这比包含包含带有和不带有 Twitter 句柄的单元格的混合结果包有了巨大的改进。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部