你现在的位置:首页/数据采集
推荐阅读

C# 数据采集开源插件推荐

作者: IT小兵 | 分类: 开源代码 | 2015年7月29日| 热度:
C# 数据采集开源插件推荐

在本站好多文章介绍了C#的网页数据采集。比如使用GeckoWebBrowser、HtmlAgilityPack。 今天再次推荐2个html解析插件:Html2Article和NReadability。介绍具体使用之前,先说明一下网页采集数据的算法。查找发现了两个比较好的网页正文提取算法:国内:哈工大的《基于行 ...

Visual Studio 2013 Update4简体中文完整包下载

作者: IT小兵 | 分类: 软件推荐 | 2015年6月13日| 热度:
Visual Studio 2013 Update4简体中文完整包下载

‍‍‍‍‍‍‍‍‍‍在微软技术支持中心,介绍了VisualStudio2013Update4将为普通开发者带来更多全新功能、修复之前旧版bugs、提升性能以及稳定性。已经集成了VS2013Update4升级包的ISO安装镜像,无需手动安装VS2013,再安装Update4,可以节省不少时间。当然啦,这个安装包比以往都大 ...

程序员在编程中遇到的奇葩弱智问题:补充

作者: IT小兵 | 分类: 程序员成长系列 | 2014年12月30日| 热度:
程序员在编程中遇到的奇葩弱智问题:补充

在前几天群里做的调查:程序员在编程中遇到的奇葩弱智问题,结果在博客园被转载了,有点小激动那。今天发布一下各种评论的整理版本。原文:程序员谈谈你在编程中遇到的奇葩弱智问题(群交流采集) http://www.suchso.com/programmer/chengxuyuan-biancheng-qipa-ruo ...

程序员谈谈你在编程中遇到的奇葩弱智问题(群交流采集)

作者: IT小兵 | 分类: 程序员成长系列 | 2014年12月9日| 热度:
程序员谈谈你在编程中遇到的奇葩弱智问题(群交流采集)

前几天在群里发起了一个话题:说说你在编程中遇到的奇葩弱智问题?在群:Jquery插件交流346717337中很多人谈了说法,现在收集一下:排名不分先后,按照发言顺序来的。1、jquery插件一个通用函数一直报错,尤其是很明显是存在的函数,很有可能就是你没有引入jquery。。。或者版本不对2、调试半天没变化:不在同一个 ...

实用程序员福利各大平台免费接口

作者: IT小兵 | 分类: 生活多美好 | 2014年12月3日| 热度:
实用程序员福利各大平台免费接口

作为程序员,是不是一直想做一些小程序员,来满足自己或者朋友的需求?又不想花费成本去购买或者采集。那么今天分享这些各大平台的免费api接口,就是你要的东西。比如以前我一直想做一个天气预报的应用,结合echarts进行使用,但是天气接口是中国天气网的,需要审核,而且我感觉这个政府部门办事就拖拉也不给审核过,也不审核。一直在 ...

人品不好的创业者难成大事:说的好像人品好就能成功似地

作者: IT小兵 | 分类: 程序员成长系列 | 2014年12月2日| 热度:
人品不好的创业者难成大事:说的好像人品好就能成功似地

最近我一直在思考,俗话说无奸不商,可为什么现在成功者中少有卑鄙的呢?当然也有例外,但是非常少。卑鄙的人可不是少数。实际上,是互联网让我们了解到一个人能够被卑鄙到什么程度。过去只有名人和专家才能掌握舆论,现在互联网给了每个人传播的渠道,我们这才能看到那些过去被隐藏在长尾中的卑劣的人和事。尽管卑鄙的人很多,但是成功者里鲜有 ...

C#使用webclient获取搜狐网页内容的乱码问题

作者: IT小兵 | 分类: 项目实战 | 2014年11月28日| 热度:
C#使用webclient获取搜狐网页内容的乱码问题

这几天使用c#的webclient进行网站页面内容的获取,但是在获取搜狐网页内容时,总是乱码。开始以为是编码的问题,但是不管使用gb2312、gbk、utf8,最终的结果都是乱码,代码如下:            ...

C# GeckoWebBrowser采集网站图片的完整实例和代码

作者: IT小兵 | 分类: 项目实战 | 2014年8月21日| 热度:
C# GeckoWebBrowser采集网站图片的完整实例和代码

最近有很多朋友问我采集网站数据的问题,其实方式有很多,但是还得有合适的。以前发过几篇了,今天再分享一个获取网站图片的例子。首插件管理先说明一下几个采集用的组件:1、GeckoWebBrowser浏览器插件。是使用的Firefox一样的核心的浏览器。可以实现大部分浏览器的功能2、HtmlAgilityPack:html解 ...

C#xml帮助类xmlhelper:支持批量数据更新和插入(纯干活)

作者: IT小兵 | 分类: 项目实战 | 2014年8月18日| 热度:
C#xml帮助类xmlhelper:支持批量数据更新和插入(纯干活)

前几天在网上当了个xml的帮助类:xmlhelper。里面支持插入、更新、删除等操作。基本的功能都满足我的需求。但是最近我在搞一个采集数据的程序,采集一个网站10000多的图片和文章数据。写入的doc.xml文件有50M之多。每次操作删除一个xmlnode数据,都需要load一遍xmldocument。非常的慢。我修改 ...

C# System.Net.Http.HttpClient使用说明及实例代码

作者: IT小兵 | 分类: 项目实战 | 2014年8月18日| 热度:
C# System.Net.Http.HttpClient使用说明及实例代码

本博客写了很多关于采集数据的文章,很多基于HtmlAgilityPack的操作。今天分享一个基于C#System.Net.Http.HttpClient使用说明及实例代码。1、什么是System.Net.Http.HttpClient? System.Net.Http 是微软.net4.5中推出的H ...

新手解读--百度搜索引擎网页质量白皮书的分析--内容重要性

作者: IT小兵 | 分类: 产品设计 | 2014年8月11日| 热度:
新手解读--百度搜索引擎网页质量白皮书的分析--内容重要性

昨天分享了[《百度搜索引擎网页质量白皮书》正式版--要多看看了]。很多地方都很诚恳的提醒站长,尤其是小站长,做好内容,做好排版,做好用户体验。不要刻意去迎合搜索引擎,适度seo,不要过度广告等等。总体看起来,如果百度搜索引擎真是这么分析的,那我们这些小站长还是有福了。不然很多采集站点盖过我的内容就影响了我的点击。作为一 ...

《百度搜索引擎网页质量白皮书》正式版--要多看看了

作者: IT小兵 | 分类: 生活多美好 | 2014年8月9日| 热度:
《百度搜索引擎网页质量白皮书》正式版--要多看看了

百度搜索引擎网页质量白皮书完整版内容如下:1引言网页质量是一个网页满足用户需求能力的衡量,是搜索引擎确定结果排序的重要依据。在网页资源内容与用户需求有相关性的基础上,内容是否完整、页面是否美观、对用户是否友好、来源是否权威专业等因素,共同决定着网页质量的高低。对于搜索引擎来说,给用户呈现的网页质量直接影响了最终的搜索效 ...

XPath语法以及实用示例

作者: IT小兵 | 分类: 项目实战 | 2014年7月25日| 热度:
XPath语法以及实用示例

‍‍‍‍‍‍‍‍‍‍‍‍ 在比较早一个文章中提到实用xpath,用来获取返回的html的dom数据,今天将xpath的语法记录一下。参考:.Net解析html文档类库HtmlAgilityPack完整使用说明--采集软件开发尤其好用-项目实战-IT工作生活这点事。JustSuchSo!http://www.s ...

程序员成长系列--高手和菜鸟的区别是什么?

作者: IT小兵 | 分类: 程序员成长系列 | 2014年7月17日| 热度:
程序员成长系列--高手和菜鸟的区别是什么?

 随着做软件的时间越来越长,我发现,做软件越来越难。难在哪?难在怎么做出一个好的软件。好的软件标准是什么?两个词,好用,好看!程序员的最大价值在于做出好用又好看的软件的能力。因此,我觉得程序员的价值绝对不在于技术本身,而在于做出好用且好看软件的能力。这是一个开放性的话题,每一个人都是菜鸟过来的,我希望和祝愿每一个技术人 ...

产品经理需要哪些沟通技巧?

作者: IT小兵 | 分类: 产品设计 | 2014年6月24日| 热度:
产品经理需要哪些沟通技巧?

推荐:    身边总有很多人说自己是产品经理,却是只有徒有虚名,没有真正了解啥是产品经理。这篇文章不错。说明了产品经理,中一个很重要的技能之一:就是沟通。总结来说,产品经理有这样一些特别的沟通技巧。      尊重专业, ...

«12»
给您更多信息和帮助

在这里您可以找到更多:

技术交流群:346717337 Jquery插件交流

投稿:suchso@vip.qq.com

承接:企业网站门户/微网站/微商城/CMS系统/微信公众号运营/业务咨询

echarts教程系列
本月最热文章

微信扫一扫,徜徉悠嘻网,您的休闲乐园

微信公众号:快乐每一天

随机文章
标签

技术交流群:346717337

投稿:suchso@vip.qq.com

承接业务:企业网站门户/微网站/微商城/CMS系统/微信公众号运营/业务咨询等