使用C#和HtmlAgilityPack库编写一个爬虫程序
作者:野牛程序员:2023-12-28 15:34:57C#阅读 2630
使用C#和HtmlAgilityPack库编写一个简单的爬虫程序可以帮助你提取网页上的信息。以下是一个基本的示例代码,该代码演示了如何使用HtmlAgilityPack来解析HTML并提取链接:
using System; using HtmlAgilityPack; class Program { static void Main() { // 指定目标网页的URL string targetUrl = "https://example.com"; // 创建HtmlWeb实例并加载网页 HtmlWeb web = new HtmlWeb(); HtmlDocument document = web.Load(targetUrl); // 选择要提取的链接的XPath表达式 string xpathExpression = "//a[@href]"; // 通过XPath选择器选择所有包含href属性的链接 HtmlNodeCollection linkNodes = document.DocumentNode.SelectNodes(xpathExpression); // 输出提取的链接 if (linkNodes != null) { foreach (HtmlNode linkNode in linkNodes) { // 获取链接的href属性值 string linkUrl = linkNode.GetAttributeValue("href", ""); // 输出链接 Console.WriteLine(linkUrl); } } else { Console.WriteLine("未找到链接"); } } }
使用爬虫程序时,请始终遵循网站的robots.txt文件和相关政策,以确保你的爬虫行为合法和合规。
野牛程序员教少儿编程与信息学奥赛-微信|电话:15892516892

- 上一篇:C语言指针的使用
- 下一篇:使用Python的Scrapy库来编写一个爬虫程序