我使用扫描目录中的原始文本数据。 下面是一个例子:在原始文本中粘贴字符串行
ABADIE-LANDEL (Pierre) — 1920 — né à Paris. — 17, rue Campagne-Première
ABOU (Albert) — 1930 — né à Marseille.
— 41, rue de Seine, 6e.
ANGER (Jacques) — 1925 — né à Paris. — 33, rue Vineuse, 16e.
ANTHONE (Armand) — 1908 — né à Paris. — 4, avenue Victor-Hugo
Rue des Tournelles
ANTRAL (Jean) — 1920
这是偶尔的线,包括地址提到的名单。
数据被导入为R与:
readlines ("clipboard", encoding = " latin1 ")
- 我能够识别线,包括大写字母不同的正则表达式
[A-ZÁÀÂÄÃÅÇÉÈÊËÍÌÎÏÑÓÒÔÖÕÚÙÛÜÝYÆO][A-ZÁÀÂÄÃÅÇÉÈÊËÍÌÎÏÑÓÒÔÖÕÚÙÛÜÝYÆO |']
或艺术家姓名(ICU )
[\p{Uppercase Letter}][\p{Uppercase Letter}|']
- 我能够识别线,包括艺术品
^[0-9] + [\ s]的[^之二]`
- 我能够提取的艺术家的名字
".+(?=- [0-9]{4})"
或
(.+)[0-9]{4}.+ # with backreference \1
- 更多的数据,这里的数据来自1930年的目录样本:
https://docs.google.com/document/d/1nF3CQmZbDsCGKMp_OgZymxWIfoOx5xrNdTmDXZANwuc/edit?usp=sharing
我希望我能粘贴ADRESS子的作品,但我的最终目标是创建一个data.frame对象,结构如下:
第1列:NAME艺术家和姓氏;
第2列:补充剂(地址,国籍......)
3列:作品或更好的... ...
专栏3:1的工作
第4列2工作等
感谢您提前你的帮助。
你总是有4个字段?你能用'“ - ”'分开吗? – Mariano
我仍然不确定你想要做什么。你能提供一个最小可行的数据例子和一个期望输出的例子吗? –
你希望从上面的例子中得到什么输出? (用代码示例显示) –