2017-08-09 149 views
1

我需要建立与列表中不同网站的连接。只为该网站发送一些数据包和嗅探数据包,直到我不去下一个网站(迭代)。当我进入下一个迭代(网站)时,我只想嗅探并过滤该地址。我可以在一个Python代码中实现吗?发送数据包并在相同的python代码中嗅探

sniff(filter="ip and host " + ip_addr,prn=print_summary) 
req = "GET/HTTP/1.1\r\nHost: "+ website +"\r\nConnection: keep-alive\r\nCache-Control: max-age=0\r\nUpgrade-Insecure-Requests: 1\r\nUser-Agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/58.0.3029.110 Chrome/58.0.3029.110 Safari/537.36\r\nAccept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8\r\nAccept-Language: en-US,en;q=0.8\r\n\r\n" 
url = (website, 80) 
c = socket.socket(socket.AF_INET, socket.SOCK_STREAM, proto=socket.IPPROTO_TCP) 
c.settimeout(5.0) 
c.connect(url) 
c.setsockopt(socket.SOL_IP, socket.IP_TTL, i) 
c.send(req) 
print str(c.recv(4096)) 
c.close() 

我正在循环运行上面的代码。但是在第一次运行期间,它吸收了嗅探功能。谁能帮我这个?

+0

你使用这段代码来检查网站是否启动? – Stack

+0

nope,我会用它来做一些分析目的。为此,我想在连接设置过程中分析数据包以查找网站列表,并找出一些事实。 – tarun14110

+0

什么是“嗅探()”?它在哪里定义? – randomir

回答

1

好的我编辑了答案。

单个网站的嗅探数据包并不容易,因为scrapy使用的Berkley Packet Filter语法没有HTTP的简单选项。有关可用选项的一些建议,请参阅this question

一种可能性是从您的Web代理服务器嗅探TCP数据包;我在下面的代码示例中完成了这项工作,它将TCP数据包保存为各个指定文件的不同URL列表。我没有放入任何逻辑来检测页面加载完成时,我只用了60秒的超时时间。如果你想要不同的东西,那么你可以用它作为一个起点。如果您没有代理服务器进行嗅探,那么您需要更改bpf_filter变量。

NB,如果你要保存原始数据包数据,而不是转换到字符串版本,然后修改相关行(这是在代码注释。)

from scapy.all import * 
import urllib 
import urlparse 
import threading 
import re 

proxy = "http://my.proxy.server:8080" 
proxyIP = "1.2.3.4" # IP address of proxy 

# list of URLs 
urls = ["http://www.bbc.co.uk/news", 
     "http://www.google.co.uk"] 

packets = [] 

# packet callback 
def pkt_callback(pkt): 
    packets.append(pkt) # save the packet 

# monitor function 
def monitor(fname): 
    del packets[:] 
    bpf_filter = "tcp and host " + proxyIP  # set this filter to capture the traffic you want 
    sniff(timeout=60, prn=pkt_callback, filter=bpf_filter, store=0) 
    f=open(fname+".data", 'w') 
    for pkt in packets: 
     f.write(repr(pkt)) # or just save the raw packet data instead 
     f.write('\n') 
    f.close() 

for url in urls: 
    print "capturing: " + url 
    mon = threading.Thread(target=monitor, args=(re.sub(r'\W+', '', url),)) 
    mon.start() 
    data = urllib.urlopen(url, proxies={'http': proxy}) 
    # this line gets IP address of url host, might be helpful 
    # addr = socket.gethostbyname(urlparse.urlparse(data.geturl()).hostname) 
    mon.join() 

希望这给你一个好的起点。

+0

假设我在一些网站列表的循环中执行'urllib.urlopen'。当我连接到特定的网站时,我只想嗅探那个网站的数据包(可能是一个ip.addr过滤器,它会在每次迭代中更改),计算一些数据并为每个网站单独存储数据。你能帮我解决这个问题吗? – tarun14110

+0

@ tarun14110我编辑了这个答案,但您可能需要为scrapy过滤器(BPF格式)尝试不同的设置, –