欢迎光临 我们一直在努力

10年站长经历,有价值的内容才是王道

作者:admin日期:

分类:六哥SEO/SEO优化技术/


一、我是从网络推广入门SEO的

2008年,刚刚大学毕业就面临着找工作。我自己学的专业是电子商务,其实在上大学之前根本不知道电子商务是什么,因为父母都是农村的,考的大学也不好,也没有人指导我如何去选专业。不过相信我以后的小孩就不会有这样的情况了,当时的电子商务刚刚兴起,一线城市很火爆,像我们这样三四线的小城市,找电子商务工作真的太难了。

跟很多刚毕业的学生一样,穿这西装革履,一本正经的带上打印好的简历,就这样参加了各种面试。去了企业别人问的问题真的一问三不知,面试的自己都没有信心了。后来都对面试产生了恐惧,因为实在受不了打击。

后来看到一个岗位,叫网络推广。看了职位描述,感觉也挺简单,也不需要说话。投了很多这样的简历,屁颠屁颠的就去了。果然面试上了,一个月1600。果断的就答应了。当时我租的城中村,一个月房租140。

后来上班知道,原来推广确实很简单。就是注册账号,拼命的发帖。一天发上百条。刚开始的一个月就跟傻子一样,不停的注册账号,不停的保存分类信息网站,不停的发帖。
二、反思推广的未来,正式加入SEO大军中

又干了一段时间,我开始有点受不了了,感觉这么干,就跟机器人一样,重复重复在重复,而且也没人鸟我。整个公司的氛围都很安静,只听到键盘敲个不停,一边在伪原创,一边在发帖。我实在受不了,就开始在百度上搜索如何提升自己。当时就看到了一篇比较完整的介绍SEO的文章。

看完后我才明白,原来推广只是为了配合SEO。因为里面写了一句话:内容为王、外链为皇。当时的分类信息是可以带链接的。公司之前还有一个岗位,是专门换外链的。可见当时外链的重要性。大凡有流量的网站,外链至少都是好几万,甚至几十万几百万。

后来继续搜索SEO做的好的人,感觉他们的收入也还可以,就开始自己学习SEO了。并自己做了一个网站。(补充一下:现在推广的形式非常多,并且移动端也很发达,所以推广肯定不是为了SEO服务。)


三、一做SEO就是10年,不过后来的SEO只是辅助了

刚开始的几年,SEO还是比较吃香的,当时知道了关键词设置,标签、发外链,文字链,锚文本之类的,包括新闻源带链接权重高,真的是无所不用,后来网站的权重,关键词排名都很好,记得网站最好的时候,权重是5,一天有万把的流量。

不过好景不长啊,2012年左右的时候,分类信息被打击的很严重,外链也渐渐的失效了,或者说变得没有那么有效了。之前业内的做法都是发伪原创。后来优化了很久,都没有优化回来,看到了很多关于百度算法的文章,才知道,野蛮时代已经过去。

相信做过SEO的人,每天都查询关键的排名,使用追词工具,发外链,下面一帮伪原创的编辑,还有一个换友链的,少则手上三个网站,多则几百个网站。


四:认真的做内容,不用刻意,也有效果

SEO的优化变的难了,但是获取流量任然是企业永不停止的道路。我开始走向了运营的道路。我帮助一家企业运营一个农业电商的网站,通过推广,通过不断的迭代产品,不断的活动,不断的输出有价值的的东西。

有一天偶然的查了一下自己网站的权重,居然也达到了3。虽然很一般 ,但是我并没有刻意的去优化。后来还是进行了一些简单的关键词和重点标签的调整。

其实现在想来,百度调整以后 ,只是让我们输出有价值的内容。之前的SEO太野蛮生长,不过现在看来,我个人的理解,SEO他不是过时了,只是从主位变到了辅位。他不是一个职位,而是很多职位所必备的一个技能。

自从Google退出中国市场,Baidu就成了国内搜索引擎巨头,所谓树大招风,一直以来百度成为国内众多黑客攻击的对象。又因为其本身作为一款搜索引擎,拥有很多的网络资源,因此借助baidu来获取海量数据,成为了一种便捷有效的信息收集途径。虽然baidu在爬虫算法上没有google那么优秀,但对中文搜索的支持并不会很差(小小吐槽一番百度),然而在通过百度爬取数据时,我们往往会遇到百度自身的反爬虫措施,如何解决这些反爬虫措施,将会是本文的重点。

关于反爬虫的技术,网上有很多资源,方法不外乎(代理、识别验证码、分布式架构、模拟浏览器、ADSL切换ip等),这些不是本文的重点,本文只针对爬取百度搜索引擎时遇到的反爬虫措施,以及一些解决方案。

一般来说,单线程的爬虫时间间隔设置为>2s,短时间内应当不会被屏蔽,当然长时间爬取还是不行;如果使多线程无时间间隔爬取,那么大概30分钟肯定就会屏蔽了。  我曾尝试过添加headers,甚至使用phantomjs模拟浏览器等方式,均以失败告终。我想百度作为一家搜索引擎公司,爬虫技术本就是其核心技术之一,因此跟它玩反爬虫技术应当是以卵击石(类似模拟浏览器,修改headers等方法应该无效)。然而我们可以换个思路,百度也不是不允许爬虫访问,只是限制了爬取频率。而对于访问的headers等信息并没有做明显的限制。那么也就是说,百度的反爬虫实际上是控制单ip访问的频率,那么我们就可以通过分布式架构或者切换ip等方式去解决。

在探讨如何解决被屏蔽问题前,我们先来研究下被百度屏蔽时的现象。一般来说,当百度检测到某ip访问流量特别大时,会先进行源码提示,如果还没停止访问,那么就会直接屏蔽访问。基于百度反爬虫的特点,我们可以通过分布式部署爬虫服务器,来采集资源,当然个人觉得ADSL服务器效果会更佳。但是分布式部署,尤其是ADSL服务器部署,成本会变得非常高,而且需要维护。那么有没有只用一台服务器就可以解决被屏蔽的问题呢?
  
答案是肯定,那就是单机+多线程+ip代理,这种方式比较实惠,但比较考验ip代理的稳定性。经个人测试,感觉国内绝大部分代理(收费、免费、动态等)都不是很稳定,因此这是一种折中的方式,那么有没有更好的方式呢署;又因为百度在国内的占有率很高,因此其提供搜索服务的服务器也应当是分布式部署的,也就是说全国各地部署了很多百度的服务器。  那么当我们打开浏览器,访问百度时,提供搜索服务的服务器往往是离我们最近的那台,因此可以想见屏蔽我们的也就是那台服务器。大胆想象一下,如果我们能自由切换去访问不同地区的百度服务器,那么是否可以绕过被单一服务器屏蔽的问题呢?当然这一解决方案的前提是:我们必须拥有大量的百度服务器的ip地址,百度允许用ip地址访问(实在不行就更改host) 
 
可喜的是,以上2点都不难办到。网上有百度服务器的资源可以获取,当然也可以通过在不同地区的服务器ping百度获取ip;至于直接通过ip地址访问百度,这默认便是可行的(不知道百度为何这样设置)百度的大招通过以上几种方式,应该可以绕过百度的反爬虫机制,但是百度也不是吃素的,它也有自己独特的反爬虫杀招,或许称之为”搜索限制”或者是”资源保护”措施更合适一点。

在几次爬取过程中,我无意发现在headers中加不加cookies会影响最终的搜索结果(主要影响搜索结果的多少)。以上几点严格意义上来说,并不算反爬虫技术,只是一种保护自身资源的方式,其意不言而喻通过获取百度搜索结果源码,以及通过正则匹配,我们能够得到一些搜索结果链接,然后这些链接并不是网站原链接,有以下2种形式:我暂且称它为”百度链接”,其基本就是以上2种形式。第一种是通过点击右键复制链接地址获取到的,通常带有eqid参数,用来表示referer;第二种是通过页面源代码获取到的,这种是不带wd与eqid参数的。而eqid参数的值在每次刷新页面后,都会改变,这可能是百度限制黑帽SEO所设置的一个参数。  那么我们比较两者之差异,当我们分别取访问这2条连接时,返回的数据包是不一样的。

最后,我谈谈我的感受,不论是做网站,做APP,还是做公众号,坚持做、用心做,还要持续的输出有价值的内容。一定会有效果。加油,各位站长。
本文标签:

相关阅读

  • 10年站长经历,有价值的内容才是王道

  • adminSEO优化技术
  • 一、我是从网络推广入门SEO的 2008年,刚刚大学毕业就面临着找工作。我自己学的专业是电子商务,其实在上大学之前根本不知道电子商务是什么,因为父母都是农村的,考的大学也不
  • 浅谈微信成功路途所经历的的失败尝试

  • admin心情日记
  • 这是一篇并非标题党的文章。 无疑,坐拥十亿月活的微信极其成功,有人说微信的成功在于赛道的成功,然而即便把微信和国际上其他地区的同类应用WhatsApp、Line等相比,微信所取得的
  • 权威公布:百度搜索网页标题规范

  • adminSEO优化技术
  • 站长关心网站排名、流量,甚至顾及 百度 算法的变更,不得不时刻关注着搜索的动向;对于百度搜索来说,不断奋斗在提升用户搜索体验上,相关平台是更新规范了不少细节文档,尤
关键词不能为空
极力推荐

聚合标签