【SEO资讯】SEO新闻|最新SEO资讯 第 1 页 - SEO资讯 - SEO祥子博客seoxiangzi.com
收藏:WINDOWS批量删除海量指定大小的文件
祥子博客用的Windows Server,博客运行几年后产生了海量的小文件缓存内容(大约有400万左右缓存文件)。经测试,祥子用以下这句批量删除指定大小(小于1K)的文件,实测有效:for /r "K:\76" %i in (*) do @(if %~zi lss 1024 del /f "%i") 。
标签:|
Phthon Django框架WEB开发:一个菜鸟的入门心得
花了两个月,Python Django学习告一段落,而纯粹基于python Django框架全手工开发的网站明天就能上线了(虽然只是个辣鸡网站)。在django web开发的学习路上,踩过很多坑,不过终于完成开发了,而我的“足球粉丝网”明天即将上线。
非科班出身,我自学过ASP、PHP、Python,而学习Python之路是其中最令我有满足感,最令我快乐的学习过程。基于非常强大的库调用,使用Django框架开发网站效率非常之高,而数据采集模块更令人着迷。
Python也有机会成为未来互联网开发的大方向之一。前车之鉴,在此分享我在学习Python Django框架中踩过的坑和以实用的入门文档,希望能帮到想用Django做数据采集和WEB开发的朋友(附我收藏的所有实用文档和避坑宝典)。
标签:| python |
原创:django配置根目录访问静态文件favicon.ico 返回状态要200不要302
一般前端开发者都不会在意favico.com放在什么目录,是否经历了跳转。但是,对一名SEO专家来说,祥子不希望页面请求不能有任何跳转。所以,就有了下面这个办法:Django使用HttpResponse返回图片并显示。这可能是django项目把静态文件放在根目录,能正常访问并返回200状态的唯一方法。根目录访问favicon.ico并返回200状态的使用实例:
favicon.py:
from django.http import HttpResponse
标签:| python |
g_resources.DistributionNotFound: The pytz distribution was not found and is required by Django
最近正在学Python WEB开发,刚装好Python,PyCharm,Django。准备入手正式学习,在创建第一个django项目时需要先行初始化。在输入初始化指令时报错:pkg_resources.DistributionNotFound: The 'pytz' distribution was not found and is required by Django。
初始化Django项目:django-admin startproject HelloWorld
一文看懂robots怎么写:蜘蛛协议robots.txt写法实例详解
robots.txt是SEO同行们在制定一个网站优化方案时需要首要考虑的一个问题,任何网站进行SEO优化前,你需要首先写一个非常规范的robots.txt。robots怎么写,这几乎是你制定SEO优化方案、提升你网站SEO表现最具性价比的工作,没有之一。robots.txt是什么?robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件(其实UTF-8也没任何问题),它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。
Robots协议
SEO常识:不同HTTP返回码搜索引擎如何处理
HTTP常见返回状态表现在用户端通常是网页能打开、网不能访问。页反馈在搜索引擎的蜘蛛程序则会表现在具体的状态码,如我们通常知道的:200表示正常访问、301为永久重定向、302临时重定向、404页面无法访问、501服务器故障 等等。那么,搜索引擎蜘蛛发起访问时,对于不同的HTTP返回状态是如何处理呢?2xx(200访问成功):HTTP 结果代码,表示成功的“有条件地允许”抓取结果。3xx(访问被重定向):一般情况下,系统会跟踪重定向,直到发现有效的结果(或确认出现循环)。我们会跟踪有限次数的重定向(适用于 HTTP/1.0 的 RFC 1945 最多允许 5 次重定向),然后便会停止,并将其处理为 404 错误。我们并未定义如何处理指向禁止网址的 robots.txt 重定向,并且不建议用户这么做。同样,我们也未定义如何根据返回 2xx 的 HTML 内容处理 robots.txt 文件的逻辑重定向(框架、JavaScript 或元刷新型重定向),并且不建议用户这么做。
【谷歌蜘蛛名称大全】绝对不仅仅只是你知道的Googlebot
正如所有国内SEO所知,百度蜘蛛名称叫作BaiduSpider,而谷歌蜘蛛名称叫作GoogleBot。但是不限于此,谷歌不同产品的抓取UA(User-Agent)是不一样的。可以理解为每个产品都是独立项目在运行。当然,它们的名称也可能是一样,比如谷歌PC版蜘蛛和移动端蜘蛛的名称都是Googlebot。以下为谷歌所有产品抓取工具的蜘蛛名称(谷歌官方称之为:用户代理令牌或产品令牌)与User-Agent(完整的用户代理字符串)。
PHP正则表达式匹配所有中文汉字内容
大多数SEO一般不会用到正则表达式,除了在为网站写伪静态规时。不过,如果你的网站要自动处理大量内容,可能最简单正则使用尚无法满足你的需要。今天,祥子在测试内容抓取并是进行文字处理时,需要过滤所有带有汉字的行,所以就有了这个:匹配所有带有中文字符的行(即有汉字的行 ),实测正确的正则表达式为:(.*)[^\x00-\xff](.*)。另外几句常用正式分享:
SEO行业
2019年四大SEO行业趋势
SEO全国
SEO(Search Engine Optimization):
标签:| seo |
最新爬虫漏洞研究:利用谷歌Googlebot实现XSS攻击
所有的SEO从业者,尤其是早期谷歌尚未退出中国市场就进入SEO行业或英文网站SEO人员可能对谷歌搜索引擎的一些特性会很了解。区别于国内诸如百度、360等搜索引,谷歌有一个非常明显的特点:对网页的抓取和收录有着非常高的开放度。讲人话:谷歌更容易收录你的网页!不要以为SEO祥子跑题了。本文探讨主题是“谷歌Googlebot XSS攻击漏洞”。而这个漏洞利用过程确实以谷歌的收录速度作为一个前提。如果谷歌跟百度或其它搜索引擎一样,对网页的索引具有较高的门槛,那么网络攻击者或许很难利用这个漏洞并给其它用户带来风险。
Mobile-first indexing enabled for anywebsite--英文站谷歌SEO值得拥有
根据SEO祥子对谷歌搜索引擎排名算法的观察与分析,谷歌大约于2015年开始非常重视网页在使用移动设备访问时的用户体验。对于在移动设备(手机、平板电脑)上访问用户体验优秀的网站,往往能轻易的获取更好的搜索排名与谷歌搜索流量。如果有一天,你的谷歌网站管理员账户收到一封标题为“Mobile-first indexing enabled for anywebsite”的邮件(anywebsite指你的域名),那么恭喜你!你的网站已经获得谷歌移动设备访问友好性的认可,你将会更容易获量谷歌移动端的搜索流量。
拥抱AI:用人工智已渐渗透数字营销
几年前互联网公司对AI的认识几乎还等于零,自然不会将人工智能纳入数字营销领域。但目前,人工智能的使用正在不断发展,并且它被用于生活的各个方面,数字营销也不例外。各种调查表明,人工智能和机器学习将是多项创新的最关键平台,并为所有新兴技术提供动力。然而,人工智能技术已经以最意想不到的方式彻底改变了数字营销世界。当然,人工智能在营销领域的应用才是刚刚起步而已,前景将是非常广泛。
SEO祥子整理了时下较为常见AI营销应用,你们公司有没有在考虑?生成内容 -人工智能自己编写和创建内容...
SEO关于内容的困惑:专注原创OR采集伪原创?
SEO业内盛传所谓的“内容为王 外链为皇”,这里的内容当然说的是原创内容。那么,你一定会迷惑:中文网站排名中里的网站,并没有哪个网站是可以显著看得出是“专注提供高同量原创内容”的? (当然,这里还存一个问题是部分网站并不以百度或其经搜索引擎做为主要引流渠道 。)【今天不想写了,下次继续,是个很有意思的话题,我一定会再补充 】
百度收录做到1818万后:我还在等你,百度!
最近听SEO圈内盛谈百度又推出某算法2.0更新上线。嗯,又“上线”,那哥的网站又该涨指标了!因为我维护的网站,一般都是尽可能按照最完美的搜索引擎为标准来策划并执行的,而并不是针对“现在的”百度。所以,要个算法升级意味着更符合完美搜索引擎规则的网站会取得更好的表现。没错,在这个XX算法2.0上线的第二天,哥的个人站在百度站长资源平台可查到索引量涨了,由之前一直稳定的1550万左右增长至1753万。同样的套路,应该会有同样的结果:小站在百度的收录量在1550万维持了近一年时间后,终于,即将大幅增长!
随笔:网站稳定性对SEO排名还是很重要的
在深圳SEO交流群里看到多位业界高手在群里吹水,各自博客都是百度深圳SEO排名首页的主。哥忧伤的查了下,深圳SEO,祥子博客第41位!哥虽然鲜有精力维护博客,平均一个月写不了一篇文章,有时发点内容还是转载的,但是哥曾经死守 深圳SEO 这个词的百度首页2-3位。为什么排名为个呢?原因很简单,事情是这个样子:大概在2017年初,博客被一个BC平台入侵,被植入木马病毒,网站全被改成了一些敏感的内容。正如前面说的博客很少维护,所以这种情况大概维持了一周左右,然后博客的排名一去不复返。
标签:| seo |
收藏:apache设置服务器端缓存
Apache 的缓存方式有两种,一种是基于硬盘文件的缓存,由 mod_disk_cache 实现,另一种是使用内存缓存,由 mod_mem_cache 实现,不过它们都是依赖 mod_cache 模块的,mod_cache 模块提供了一些缓存配置的指令供它们使用,而 mod_file_cache 模块是搭配 mod_mem_cache 模块使用的。
1、基于硬盘文件的缓存
基于硬盘文件存储的缓存由 mod_disk_cache 模块实现,先看个简单的配置例子:
标签:|
今天在玩Python写的第一个程序:Python九九程法表
#coding:utf-8
text=''
for i in range(1, 10):
for l in range(1,10):
if i<=l:
if i*l<10:
text = text + bytes(i) + ' * ' + bytes(l) + ' = ' + bytes(i * l) + ' '
else:
text = text + bytes(i) + ' * ' + bytes(l) + ' = ' + bytes(i * l) + ' '
text = text + ('\n')
print text
print 'OK'
1 * 1 = 1 1 * 2 = 2 1 * 3 = 3 1 * 4 = 4 1 * 5 = 5 1 * 6 = 6 1 * 7 = 7 1 * 8 = 8 1 * 9 = 9
标签:| python |
PHP报错解决:file_get_contents(): php_network_getaddresses
今天迁移一个网站到CentOS Apache,报错如下:“php_network_getaddresses: getaddrinfo failed: Name or service not known-- File:”。
解决方法:1. CentOS PING 目标网站PING不通,结果为:“ping: unknown host zhidao.baidu.com”,可以确认,CentOS服务器无法访问外网;
标签:| PHP |
节省带宽 提高服务器性能:用Robots禁止常见非主流搜索引擎掉抓取
,user-agent: Yahoo! Slurpdisallow: /,user-agent: Bingbotdisallow: /,user-agent: Msnbotdisallow: /,user-agent: ia_archiverdisallow: /,user-agent: YodaoBotdisallow: /,user-agent: Iaskspiderdisallow: /,user-agent: Yahoo!disallow: /,user-agent: Yahoo! Slurp Chinadisallow: /,user-agent: YisouSpiderdisallow: /,user-agent: EasouSpiderdisallow: /,user-agent: JikeSpiderdisallow: /,user-agent: EtaoSpiderdisallow: /,user-agent: YandexBotdisallow: /,user-agent: AhrefsBotdisallow: /,user-agent: ezooms.botdisallow: /,user-agent: msnbot-mediadisallow: /
标签:|