`
xxi
  • 浏览: 65858 次
  • 性别: Icon_minigender_1
  • 来自: 湖南
社区版块
存档分类
最新评论

URL搜索关键字的编码

阅读更多
由于想抓一些网页..

完成以下动作:
  进入网站, 搜索关键字,把搜索的结果抓取出来,再进入结果页面抓取数据


but发现上述关键字进行了编码处理.
在javaeye 找到相关介绍:
原文: 
  http://www.iteye.com/topic/286240
  http://www.iteye.com/topic/286810

但是是java实现. .

经过努力,转为Python代码:
#conding:utf-8

#码表[a-z, 2-7]
KEY = "abcdefghijklmnopqrstuvwxyz234567"

#16进制转为2进制,不够8位, 前面补0
def bin(x):
  result = ''
  while x > 0:
          mod = x % 2
          x /= 2
          result = str(mod) + result
  while len(result) != 8: result = '0%s' % result
  print result
  return result

def enCode(keys):
  encode = ''
  for char in keys:
    encode = "%s%s" % (encode, bin(ord(char)))
  encode = list(encode)
  fols = []
  for i in range(len(encode)/5 +1):
    bstr = ''.join(encode[:5])
    while len(bstr) < 5 : bstr = '%s0' % bstr
    fols.append(int(bstr, 2))
    del encode[:5]
  return map(lambda x : KEY[x], fols)

if '__main__' == __name__:
  print ''.join(enCode('中文'))



....呵呵,还是PYthon 强大!!!

这是更改后的代码, 看了一些pythoner,徐诶的代码,
差距还是很大啊...呵呵, 加油
2
0
分享到:
评论
1 楼 xxi 2009-12-10  
刚刚 测试,发现不能支持中文,
for 把一个中文, 当2个字节处理了..

相关推荐

    java asp分析各种搜索引擎的关键字,自动识别url 中关键字的编码

    网上也有一些代码,大部分都是通过输入的关键字来识别编码,并解码。但是搜索引擎得到的referer来源地址上的关键字是通过URLencode编码过的,而且各个网站的关键字Urlencode编码都不一样,gbk,utf-8,gb2312等等。

    淘宝 url 解码和编码方法(转的)

    淘宝 url 解码和编码方法(转的),本人转载,版权属于作者

    关键词编码工具

    主要用于百度统计关键词的的小工具,他可以把关键词编入访问页面中的url中 ,进行编码,可以统计到具体用户是通过搜索哪个关键词进入我们网站咨询的。

    Python解析、提取url关键字的实例详解

    研究了不同的url规则发现:只要在搜索关键字是用=嫁接的,查询的关键在解析后的query里 如果不是用=嫁接,查询的关键在解析后的path里。 解析的规则都是一样的,正则如下:(6中不同情况的组合) 另外host为‘s....

    使Nginx服务器支持中文URL的相关配置详解

    关于中文URL已经是老话题了,到目前为止依然有很大一部分SEOer都会说不要使用中文URL,对搜索引擎不友好。 不过,那已经是以前的事了,谷歌很早就支持了中文URL,当时百度技术没有跟上,URL中会出现乱码。 在谷歌的...

    网页监视器专版—自动监视网页上感兴趣的内容

    Pattern(url_target):您感兴趣的关键字对应的链接地址正则表达式,@title@可以表示提取到的关键字 页面编码:网页编码,因为懒不想写,所以手动填写之 监视记录:在网页上找到的您感兴趣的内容,双击列表项可以...

    淘特站内搜索引擎(C#版) v1.2

    3、提供gb2312编码的搜索接口(Default_GbK.aspx),解决使用gb2312的网站中,集成搜索表单,提交后乱码的问题。 4、提供DEDE,帝国,动易最新CMS版本的搜索引擎整合说明及代码。 更新说明(2010-5-4): 1、增加搜索...

    goto 多功能 及时搜索

    2、XLib库,主要是实现各种非UI功能的设计比如字符串特殊处理,编码转换、加密解密、内存池、多线程/线程池、文本/二进制文件、XML、PROFILE、进程间IO等处理、SOCKET/URL、HTTP服务器等。 ——Goto将UI和XLib合并...

    Goto文件搜索

    2、XLib库,主要是实现各种非UI功能的设计比如字符串特殊处理,编码转换、加密解密、内存池、多线程/线程池、文本/二进制文件、XML、PROFILE、进程间IO等处理、SOCKET/URL、HTTP服务器等。 ——Goto将UI和XLib合并...

    Goto 桌面搜索

    2、 XLib库,主要是实现各种非UI功能的设计比如字符串特殊处理,编码转换、加密解密、内存池、多线程/线程池、文本/二进制文件、XML、PROFILE、进程间IO等处理、SOCKET/URL、HTTP服务器等。 ——Goto将UI和XLib合并...

    一个非常非常实用的SEO在线工具分享给大家

    URL编码器/解码器 服务器状态检查器 网页屏幕分辨率模拟器 页面大小检查器 反向 IP 域检查器 黑名单查找 可疑域检查器 链接价格计算器 域托管检查器 获取网页源代码 谷歌索引检查器 网站链接计数检查器 C类IP检查器 ...

    WEB渗透测试数据库

    # 爆破url.txt中的所有站点,爆破敏感文件,自定义notfound页面关键字为“找不到页面” pen.py uribrute -b -u @urls.txt -t interestfile --notfound "找不到页面" 3.1.5 Google Hacking功能 pen.py的search子...

    VoiceRecognize_TTS:js语音识别和TTS朗读基于谷歌API localstorage

    将新站点与关键字集成起来非常简单,耗时数秒,基本上没有任何研究,并且几乎没有编码知识。 我个人将此作为我的。关键字对象该代码使用关键字对象及其数组来搜索用户想要执行的操作。 关键字对象是具有三个属性的...

    voice-command:一个简单的无API语音命令助手

    将新站点与关键字集成起来非常简单,耗时数秒,基本上没有任何研究,并且几乎没有编码知识。 我个人将此作为我的。关键字对象该代码使用关键字对象及其数组来搜索用户想要执行的操作。 关键字对象是具有三个属性的...

    后端接口需求.docx

    1. 文件查询:此接口用的地方很多,很重要,参数有:文件ID列表、上传时间区间、文件分类ID列表、资产编码列表、名称列表、关键字列表、文件状态列表、文件流程状态列表、上传者列表,所有参数中,至少有一个参数不...

    蜘蛛侠 自动采集

    文章目录/txt/ 放.txt文章段落 (UTF-8格式)编码转换工具 。 关键字目录/_webdbs/keys/ 如:d58.net域名 那么就建立文件如下 d58.net.txt 放txt文本1-2w个范围的关键字,一行一个(UTF-8格式)。 域名设置/_...

    使用springboot+mybatis+mysql实现的毕业设计-旅游网站.zip

    使用springboot+mybatis+mysql实现的毕业设计-旅游网站.zip 毕业设计项目,将ssm技术切换为springboot,使用内置的tomcat即可运行项目。 管理系统 ...当时编码经验不足,功能相对简单,但是完整;

    MetaProducts Offline Explorer Enterprise 7.7.4642 中文多语免费.zip

    灵活的URL过滤器具有强大的关键字支持微调您的下载 下载速度控制 下载可以预定,测序或通过命令行启动 在项目树的嵌套的文件夹 网址宏 在每一个项目中的多个网址 能够保持加载的文件的旧副本 下载队列管理器 数据...

    JSP的系统性教材

    关键字可以提高被搜索引擎搜索到的概率,多个关键字时,关键字之间使用逗号隔开。 2.定义网页的编码方式 meta标记可以用来告诉浏览器使用什么字符集显示网页内容。这样浏览器就可以正确地选择字符集,而不需要人工...

Global site tag (gtag.js) - Google Analytics