s5
职业顶帖手
级别: 博士生
UID: 32
精华: 0
发帖: 103
威望: 121 点
积分转换
愚愚币: 37 YYB
在线充值
贡献值: 0 点
在线时间: 182(小时)
注册时间: 2006-06-15
最后登录: 2010-01-31
楼主  发表于: 2006-06-15 20:04

 如何实现代理海量吸附的经验谈——献给新手朋友

管理提醒: 本帖被 lou1984 执行提前操作(2010-04-21)
如何实现代理海量吸附的经验谈——献给新手朋友

一年多不搞代理了,近来重又拾取,初始的目的是为了挣些威望,目的很不良哈?!可的确是这样,用不动脑的方法拿威望,何乐而不为?再者对一些数据库的破解也要用代理的。于是我开始温故知新——代理吸附,近十余天,小有收获,作为一种经验,介绍给新手朋友们。可别不相信我,为了加强我的贴子的说服力,之前在代理发布版边续发贴很多曰,才写此文。

1.什么是代理吸附网址?
大家打开以下网址,看看
http://www.zzxy.cn/proxy/best_proxy.php
http://www.anonymitychecker.com/page1.html
http://www.proxywhois.com/proxyl ... us-proxy-list_1.htm
聪明的朋友们,一定领会到了,代理吸附网址不就是含有代理的网页吗? RIGHT!把这些网页地址放在一块,就是代理吸附的列表了(PROXYLISTS)。你可以看到论坛里有人发贴的。

2.如何寻找代理吸附网址?
(1)最简单的方法就是在各代理论坛里,用人家的发布了的。把他们的到你自已的文本文件里吧!
(2)再有就是GOOGLE来找,
输入proxies
proxylist
proxylists
proxy+list
proxy+lists
anon+proxies
anon+proxy
anon-proxy
anon_list
之类的检索词,或你用些GOOGLE语法,如inurl:proxylist等。
中文的,你也可以输入:今曰代理 代理列表 等等。
找到后手工保存下其有代理的网址。

(3)用一些工具软件,自已制作。比如用Z-LEECHER吸附搜索引擎中含代理的URLS,过滤去重。应用PROXY-LEECH等试验下载,并去除无效的URLS即可,这种方法用了几种工具,但并不自动化,效率也不高,我也在研习。但这也是一种获取PROXYLISTS的思路吧!

3.当获取了大量的代理吸附列表,有很多重复的,很多无效的,如何整理?
我个人对收集的整理过程是:
(1)去重复:我用MAGICFILT或Z-LEECHER,当然还有很多,甚至有论坛发贴专门的去重软件。

(2)把所有链接都改为:标准的http://格式,比如www.dabest.org/ 改为http://www.dabest.org/
因为,有一些工具(如GETPROXYLIST),只支持这种标准格式,这点很重要,一定要做,否则吸不到代理,也不能怨别人了。
当然这种批量添加http:// 头的工作,是用EXCEL来完成的,别告诉我你不会用啊!这可是每个研究生必备的工具之一。

(3)经排序处理好的以每500条左右,作为一个单元(数量要以软件运行的承受力来定,个人去体会)存放在不同的TXT文本中。

3.什么是代理吸附?
代理吸附就是用某些工具,从以上形式的网页中,把代理下载下来,放入TXT文本文件中,以进一步验证。

那我们有什么样的工具与方法呢?那实在是太多了,而且会不断有新工具与方法出台,也有旧工具不断被淘汰或者是进化。我就我所知道的方法与评价一一道来,不能保证我的经验一定是圣经一样神圣,所以你必须带着挑剔的眼光来看贴。也不妨提一下你个人的意见。

(1)传统的AD与APL曾风风光光,到现在还是余威尚在,很多论坛的朋友,仍沉在其中,乐此不疲,可渐有许多朋友会发现,AD与APL吸附下来的代理,是越来越少。尤是APL的GOOGLE吸附完全不能用,而很多吸附不了的网页找开一看,却是明明有代理的。为什么?那是因为代理吸附网页,编程的发展,网页形式与结构,使AD与APL失效了。如打开看看http://www.proxy4free.com/page1.html多好的代理啊,可二者都下不下来了。有的论坛聪明的人,把AD能吸附的网址单独收集起来,仍发挥AD的热能。可我不喜欢,没那种精力。当然AD的其他功能,如密*****,代理匿名验证还是强大,不可忽略。单就代理吸附,我不建议大家再用它们了。

(2)不用代理列表,用GOOGLE上直接吸附的工具可以不可以呢?嗨!说来也伤心,那种方法,曾是我最为中意的海量获取代理的最简单方法。老手都知道proxynator2.0俗称西红柿,以及它的升级版PROXYMA ,以及前面所说的APL原本都是可以经由GOOGLE进行海量吸附代理的。但GOOGLE防黑客利用,屡屡改版,而代理软件不能跟上形式,以上的工具的新版都没有吸附功能了。伤心总是难免的。我们也就不用它们了。也许有一天,哪个精英大侠,会CRACK GOOGLE一下,解解气。


(3)代理猎狗1.0,是目前可用一种吸附工具
简介:
能够过滤出不规范的代理格式(非标准格式)。
支持多种版本的proxyjudeg验证版本。
可以最小化到托盘图标。
支持不规则各种代理页的代理吸附。
提供上传下载功能,可以互相共享大家新验证的代理。
吸附速度快,测试了吸附1000多页面,很快完成。
过滤重复代理功能独立化,可以用来过滤其他需要过滤得文本数据。(过滤速度超块,测试过滤7W多吸附代理,只需要2秒不到)
能够识别代理的归属.
活代列表可以排序,导出
我对此没试用,但从网友的使用情况来看,目前还是一款可用的吸附工具。

(4)FLASHGET+MAGICFILTER,这也是有效的方法。被作为了一种教程。
第一步:你要找到天天更新的代理网页,下他的网址,粘贴到记事本上。注意:最好改记事本的后缀名为LST,方便在网际快车下打开。
第二步:在网际快车上打开文件选项->导入列表 下载发布代理的网页
第三步:用MagicFilter这个软件在网页中提取代理。 
1。选择源文件2.提取代理。

我对此的评价:尚可一试。

(5)花刺、代理超人可实现有效的代理吸附,但不是海量吸附,前者不支持批量导入,后者对吸附的数量有限制,不是真正意义上的海量吸附!

(6)很久前曾用过PROXYJUSTICER大众版,也设计了代理吸附,但用起来,软件不稳定。我不推荐使用。

(7)PROXY LEECH与GetProxyList两款小巧的代理吸咐工具是近期我在论坛发贴子,推荐大家使用的。
前者是根据APL改版的,吸附力超强,对超量的验证有时会发生OVER RUN软件中止运行现象,而且会频频跳出存放网页COOKIE要求,无效的网页会对其运行速度有一定影响,
但其小巧对于小于500条的PROXYLIST可以跑动,同时在验证完成它的窗口会显示每一条链接,吸取了几个代理,我们也可以
据此来清理无效的地址。
GETPROXYLIST较前者运行更稳定。速度飞快!!!正因为速度太快了,我都懒于清除无效的链接。

我正在用这二款,仍力荐,尤其是后者!

(8)其他的:如用代理猎手/代理之王/SOCKETFINDER的PING网段来找代理,非代理吸附的内容就免谈了。
另外我还在试用Z-LEECHER来利用各种搜索引擎来吸附代理,但速度太慢了,软件易发故障,效率低,用于吸附,
暂时免谈了。
分享:

愚愚学园属于纯学术、非经营性专业网站,无任何商业性质,大家出于学习和科研目的进行交流讨论。

如有涉侵犯著作权人的版权等信息,请及时来信告知,我们将立刻从网站上删除,并向所有持版权者致最深歉意,谢谢。