2017-02-15 58 views
0
# Ex1 
    # Number of datasets currently listed on data.gov 
    # http://catalog.data.gov/dataset 


    import requests 
    import re 

    from bs4 import BeautifulSoup 


    page = requests.get(
     "http://catalog.data.gov/dataset") 

    soup = BeautifulSoup(page.content, 'html.parser') 

    value = soup.find_all(class_='new-results') 

    results = re.search([0-9][0-9][0-9],[0-9][0-9][0-9], value 


    print(value) 

代码就在上面..我想在regex = [0-9] [0-9] [0-9],[ 0-9] [0-9] [0-9]寻找python变量里面的正则表达式文本

变量 '值'

我怎么能做到这一点内的文本里面?

基于ShellayLee的建议我改成了

import requests 
import re 

from bs4 import BeautifulSoup 


page = requests.get(
    "http://catalog.data.gov/dataset") 

soup = BeautifulSoup(page.content, 'html.parser') 

value = soup.find_all(class_='new-results') 

my_match = re.search(r'\d\d\d,\d\d\d', value) 


print(my_match) 

仍然得到错误

回溯(最近最后一次通话): 文件 “ex1.py” 19行,在 my_match =重.search(r'\ d \ d \ d,\ d \ d \ d',值) 文件“/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/re.py”,行182,搜索 return _compile(pattern,flags).search(string) TypeError:期望的字符串或类似字节的对象

回答

0

您需要Python中的一些正则表达式的基础知识。 Python中的正则表达式以字符串表示,re模块提供的功能类似于match,search,findall,它可以将字符串作为参数并将其视为模式。

在你的情况下,图案[0-9][0-9][0-9],[0-9][0-9][0-9]可以被表示为:

my_pattern = r'\d\d\d,\d\d\d' 

然后使用像

my_match = re.search(my_pattern, value_text) 

其中\d指数字符号(同[0-9])。导致字符串的r意味着字符串中的背景不被视为助手。

搜索功能返回match object


我建议您先浏览一些教程,以摆脱进一步的混乱。官方HOWTO已经写得很好:

https://docs.python.org/3.6/howto/regex.html

+0

谢谢ShellayLee! –

+0

@BinuAlexander如果你发现答案有帮助,请给我一个upvote :) – ShellayLee