我有如下的样本数据来支持多个空格:正则表达式使用python
(1) fshfonlpjspfmnfmnsjoide (2)dfljslmnljoifsjdjmfdsjf
foslndlknjhoihfodsiolnlnlkdfshoipfjhndfs subsection (3):wdjoinfeiu
(3)fwshfnlfgnoiuhwsoiuheoklnfsojoihoisnf
(i)fdfssd
(ii)flshf
(4)fjdspfj;mf;jspiojepjasm;lfmsdjipoj
对于上述样品,我想在每个点处打破数据在哪里接收段起始号码例如(1), (2),(3)等模式
但我不想在像第(3)部分这不是一个实际的新段落点休息。
我用正则表达式:pattern_string = "(\n|\s\s\s\s\s\s\s)\(\d+\)"
时像(1),但犯规的情况下,工作的新线新的段落开始的时候不段的新生产线启动例如它工作正常(2)在上面的示例中。 ,或者如果在新行的模式之前有单个空格,例如(4)之前有一个单独的空间。
目前还不清楚是什么“节”和“款之间的差别“ – alfasin
嗨Alfasin,部分由(1),(2),(3),(4)等代表。子部分只是在一个部分内的一些书面文本。 我的目的是打破部分层面的全文。但是,每个部分的编号都没有固定的起点。例如(1)从新行开始时开始。 (2)从一行的中间开始,并有一个由多个空格组成的空白区域。 (4)从新行开始,但在它之前有一些空格。 为了掩盖新行,我使用了\ n并且在(2)之前使用了多个\ s来覆盖多个空格。对于(4)来说,它不起作用,因为它之前有一个空白处。 –
如果您可以使用更易读的文字,则可以获得更多帮助。尽量不要砸太多的键盘 – JBernardo