我有一个功能,我把它从一长串URL(棒球统计)刮表数据。每个URL输入包含一个单一播放器的唯一表格,并包含多行数据。每个URL中的行代表玩家职业生涯中的所有季节。当然,输入参数是我所抓取的所有URL的列表。使用函数将唯一标识符附加到输出列表中的每个子列表?
因此,列表清单的整体列表包含多个玩家的统计数据。对于每个玩家,我们有多行代表他们职业生涯的所有年份。
所有的URL都来自同一个域,但具有不同的扩展名。示例列表:
input_list = ['www.baseball.com/BarryBonds01', 'www.baseball.com/JohnRSmith01', 'www.baseballl.com/MickyJMantle01', 'www.baseball.com/JohnJSmith02, www.baseball.com/MickySMantle02]
但是,每个URL页上的表不包含唯一标识符。因此,当我创建列表和最终数据框列表的最终列表时,我列出了一长串包含所有数据的列,但没有任何内容唯一标识整个数据框中的每个子列表。
如何为每个子列表添加唯一标识符(对于每个玩家)?一个理想的标识符将是URL扩展名,但我无法弄清楚代码是如何实现这一点的。
目前,我的名单列表的输出列表看起来是这样的(列表的列表更广泛的列表中列出的每个列表是一个单人):
output_list = [[[45, 54, 23, 23], [44, 22, 11, 55]], # Player A
[[32, 23, 54, 23], [223, 44, 55, 66], [23, 67, 74, 24]], # Player B
[[32, 46, 77, 44], [24, 65, 24, 44]], # Player C
[[23, 2, 5, 7], [22, 455, 44, 332]], # Player D
[[33, 33, 22, 55], [88, 2, 4, 66], [1, 0, 0, 8], [3, 3, 5, 6]]] # Player E
输出的身影,不过,长相像这样 - 没有识别属于特定玩家的行数据。
这里是我的输出列表的一个更好的表示:
output_list = [[45, 54, 23, 23], [44, 22, 11, 55], # Player A
[32, 23, 54, 23], [223, 44, 55, 66], [23, 67, 74, 24], # Player B
[32, 46, 77, 44], [24, 65, 24, 44], # Player C
[23, 2, 5, 7], [22, 455, 44, 332], # Player D
[33, 33, 22, 55], [88, 2, 4, 66], [1, 0, 0, 8], [3, 3, 5, 6]] # Player E
这听起来像你想存储的URL作为键(或至少基本URL的唯一分机)的字典,并数据作为一个值。没有更多的信息,这是不可能的。 – roganjosh
我添加了澄清信息,希望能够使我的问题更易于理解。谢谢! – TJE
请提供您希望的输出结果的例子。 –