0
我有一个数据集,其中一列的标题是“什么是您的位置和时区?”使用python从文本中提取城市名称
这意味着,我们有像
- 丹麦项,CET
- 地点是英国德文郡,GMT时区
- 澳大利亚。澳洲东部标准时间。 + 10h UTC。
甚至
- 我的位置是俄勒冈州尤金市全年大部分时间还是在首尔, 韩国因学校放假。我的主要时区是太平洋时区的 。
- 对于整个五月我会在英国伦敦(GMT + 1)。在整个六月,我将在挪威(GMT + 2)或以色列 (格林威治标准时间+3)与有限的互联网接入。对于整个七月和八月 我将在英国伦敦(格林威治标准时间+ 1)。然后从 月,2015年,我公司将在美国波士顿(EDT)
有没有办法从这个提取城市,国家和时区?
我正在考虑创建一个包含所有国家/地区名称(包括简短形式)以及城市名称/时区的数组(包含开放源数据集),然后如果数据集中的任何单词与城市/国家/时区或简短形式将其填充到同一数据集中的新列并对其进行计数。
这是否实用?
=========== REPLT基于NLTK ANSWER ============
运行相同的代码,Alecxe我得到
Traceback (most recent call last):
File "E:\SBTF\ntlk_test.py", line 19, in <module>
tagged_sentences = [nltk.pos_tag(sentence) for sentence in tokenized_sentences]
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\tag\__init__.py", line 110, in pos_tag
tagger = PerceptronTagger()
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\tag\perceptron.py", line 141, in __init__
self.load(AP_MODEL_LOC)
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\tag\perceptron.py", line 209, in load
self.model.weights, self.tagdict, self.classes = load(loc)
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\data.py", line 801, in load
opened_resource = _open(resource_url)
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\data.py", line 924, in _open
return urlopen(resource_url)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 154, in urlopen
return opener.open(url, data, timeout)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 431, in open
response = self._open(req, data)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 454, in _open
'unknown_open', req)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 409, in _call_chain
result = func(*args)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 1265, in unknown_open
raise URLError('unknown url type: %s' % type)
URLError: <urlopen error unknown url type: c>
这是如何工作的?好像是巫术 – Keatinge
@Racialz'nltk'经常令人惊讶!我远不是NLP的专家,但试图增加更多的解释和链接进一步阅读。感谢您询问详细信息! – alecxe
辉煌。我不知道NTLK - 我会试验这个,然后(希望)接受答案:-) – GeorgeC