2009-11-06 141 views
4

所以,我对我们的生产环境中的问题,即2个线程已经运行了像9小时5小时,他们所造成的CPU占用率保持在99%调试,CPU使用率过高

我已经包括了从堆栈跟踪!Clrstack和kb 2000 我一直在google等等......徘徊,我找不到任何东西可以帮助我找出这些线程正在做什么以及为什么他们在资源上消耗如此之多

0:048> !clrstack 
OS Thread Id: 0x345c (48) 
ESP  EIP  
01e5f068 7c8285ec [HelperMethodFrame_1OBJ: 01e5f068] System.Threading.WaitHandle.WaitOneNative(Microsoft.Win32.SafeHandles.SafeWaitHandle, UInt32, Boolean, Boolean) 
01e5f114 792b687f System.Threading.WaitHandle.WaitOne(Int64, Boolean) 
01e5f130 792b6835 System.Threading.WaitHandle.WaitOne(Int32, Boolean) 
01e5f144 7a9390a2 System.Net.ConnectionPool.CleanupCallback() 
01e5f154 7a938fc3 System.Net.ConnectionPool.CleanupCallbackWrapper(Timer, Int32, System.Object) 
01e5f184 7aa97f5f System.Net.TimerThread+TimerNode.Fire() 
01e5f1cc 7a584c84 System.Net.TimerThread+TimerQueue.Fire(Int32 ByRef) 
01e5f20c 7a55db8b System.Net.TimerThread.ThreadProc() 
01e5f25c 792d6cf6 System.Threading.ThreadHelper.ThreadStart_Context(System.Object) 
01e5f268 792f5611 System.Threading.ExecutionContext.runTryCode(System.Object) 
01e5f698 79e71b4c [HelperMethodFrame_PROTECTOBJ: 01e5f698] System.Runtime.CompilerServices.RuntimeHelpers.ExecuteCodeWithGuaranteedCleanup(TryCode, CleanupCode, System.Object) 
01e5f700 792f5507 System.Threading.ExecutionContext.RunInternal(System.Threading.ExecutionContext, System.Threading.ContextCallback, System.Object) 
01e5f71c 792e0175 System.Threading.ExecutionContext.Run(System.Threading.ExecutionContext, System.Threading.ContextCallback, System.Object) 
01e5f734 792d6c74 System.Threading.ThreadHelper.ThreadStart() 
01e5f960 79e71b4c [GCFrame: 01e5f960] 
01e5fc50 79e71b4c [ContextTransitionFrame: 01e5fc50] 



0:048> kb 2000 
ChildEBP RetAddr Args to Child    
01e5edf8 7c827cfb 77e6202c 00000001 01e5ee48 ntdll!KiFastSystemCallRet 
01e5edfc 77e6202c 00000001 01e5ee48 00000000 ntdll!NtWaitForMultipleObjects+0xc 
01e5eea4 79f4c88a 00000001 01e5f0e4 00000001 kernel32!WaitForMultipleObjectsEx+0x11a 
01e5ef0c 79f4c4bb 00000001 01e5f0e4 00000001 mscorwks!WaitForMultipleObjectsEx_SO_TOLERANT+0x6f 
01e5ef2c 79f4c5c4 00000001 01e5f0e4 00000001 mscorwks!Thread::DoAppropriateAptStateWait+0x3c 
01e5efb0 79f4c659 00000001 01e5f0e4 00000001 mscorwks!Thread::DoAppropriateWaitWorker+0x13c 
01e5f000 79f159e8 00000001 01e5f0e4 00000001 mscorwks!Thread::DoAppropriateWait+0x40 
01e5f104 792b687f 00000000 00000000 00000000 mscorwks!WaitHandleNative::CorWaitOneNative+0x156 
01e5f120 792b6835 00000000 00000000 7aa3488c mscorlib_ni+0x1f687f 
01e5f138 7a9390a2 00000000 21b09738 01e5f168 mscorlib_ni+0x1f6835 
01e5f14c 7a938fc3 041c7bcc 00000000 00000000 System_ni+0x4f90a2 
01e5f178 7aa97f5f 041c7bcc 1b790a40 1b790a40 System_ni+0x4f8fc3 
01e5f1c4 7a584c84 00000000 21b09738 01e5f224 System_ni+0x657f5f 
01e5f204 7a55db8b 0a62018c 0574ea00 00000000 System_ni+0x144c84 
01e5f254 792d6cf6 22124c7c 01e5f270 792f5611 System_ni+0x11db8b 
01e5f260 792f5611 00000000 1b790a40 01e5f280 mscorlib_ni+0x216cf6 
01e5f270 79e71b4c 00000000 00000000 01e5f300 mscorlib_ni+0x235611 
01e5f280 79e821b1 01e5f350 00000000 01e5f320 mscorwks!CallDescrWorker+0x33 
01e5f300 79e96501 01e5f350 00000000 01e5f320 mscorwks!CallDescrWorkerWithHandler+0xa3 
01e5f444 79e96534 79241ff0 01e5f578 01e5f498 mscorwks!MethodDesc::CallDescr+0x19c 
01e5f460 79e96552 79241ff0 01e5f578 01e5f498 mscorwks!MethodDesc::CallTargetWorker+0x1f 
01e5f478 79f8a3e1 01e5f498 57d102af 1b790a40 mscorwks!MethodDescCallSite::CallWithValueTypes+0x1a 
01e5f644 79f8a536 01e5f6d4 57d1021f 22124cc4 mscorwks!ExecuteCodeWithGuaranteedCleanupHelper+0x9f 
01e5f6f4 792f5507 01e5f698 0574ea6c 06cc1310 mscorwks!ReflectionInvocation::ExecuteCodeWithGuaranteedCleanup+0x10f 
01e5f710 792e0175 041c7828 01e5f76c 0574ea6c mscorlib_ni+0x235507 
01e5f728 792d6c74 041c7828 00000000 1b790a40 mscorlib_ni+0x220175 
01e5f740 79e71b4c 77e40000 00000000 01e5f7d0 mscorlib_ni+0x216c74 
01e5f750 79e821b1 01e5f820 00000000 01e5f7f0 mscorwks!CallDescrWorker+0x33 
01e5f7d0 79e96501 01e5f820 00000000 01e5f7f0 mscorwks!CallDescrWorkerWithHandler+0xa3 
01e5f90c 79e96534 7924290c 01e5fa68 01e5f9a0 mscorwks!MethodDesc::CallDescr+0x19c 
01e5f928 79e96552 7924290c 01e5fa68 01e5f9a0 mscorwks!MethodDesc::CallTargetWorker+0x1f 
01e5f940 79f3d803 01e5f9a0 57d10fc3 1b790a40 mscorwks!MethodDescCallSite::CallWithValueTypes+0x1a 
01e5fb28 79e9845f 01e5fe50 1b790a40 00000000 mscorwks!ThreadNative::KickOffThread_Worker+0x192 
01e5fb3c 79e983fb 01e5fdc4 01e5fbc4 79f7759b mscorwks!Thread::DoADCallBack+0x32a 
01e5fbd0 79e98321 01e5fdc4 57d108e7 1b790a40 mscorwks!Thread::ShouldChangeAbortToUnload+0xe3 
01e5fc0c 79fd876a 01e5fdc4 1b790a40 01e5fccc mscorwks!Thread::ShouldChangeAbortToUnload+0x30a 
01e5fc1c 79fd96f9 01e5fdc4 01e5fcc0 79f7759b mscorwks!Thread::RaiseCrossContextException+0x434 
01e5fccc 79fd878b 00000003 79fd8756 01e5fdc4 mscorwks!Thread::DoADCallBack+0xda 
01e5fce8 79e983fb 01e5fdc4 01e5fd70 79f7759b mscorwks!Thread::DoADCallBack+0x310 
01e5fd7c 79e98321 01e5fdc4 57d10953 00000000 mscorwks!Thread::ShouldChangeAbortToUnload+0xe3 
01e5fdb8 79e984ad 01e5fdc4 00000003 00000000 mscorwks!Thread::ShouldChangeAbortToUnload+0x30a 
01e5fde0 79f3d5d4 00000003 79f3d6e9 01e5fe50 mscorwks!Thread::ShouldChangeAbortToUnload+0x33e 
01e5fdf8 79f3d6ae 00000003 79f3d6e9 01e5fe50 mscorwks!ManagedThreadBase::KickOff+0x13 
01e5fe94 79f92015 1bb9e468 80a5e56d 80865927 mscorwks!ThreadNative::KickOffThread+0x269 
01e5ffb8 77e64829 0014d9c0 00000000 00000000 mscorwks!Thread::intermediateThreadProc+0x49 
01e5ffec 00000000 79f91fcf 0014d9c0 00000000 kernel32!BaseThreadStart+0x34 
+2

你有代码,改为分享? – marcc 2009-11-06 19:50:01

+1

张贴的callstack没有代码就没用了。小心编辑并提供一些?如果没有它,任何人都可以帮助你。 – 2009-11-06 19:54:35

+0

如果我能找到导致问题的代码,我不需要问这个问题......这是一个Web应用程序,它有200,000行代码,当前运行的51个线程和100个并发用户。我试图使用WinDbg来确定代码是什么......那些调用堆栈跟踪来自2个线程,它们处于繁忙的等待循环中,使用了cpu ......我所知道的在这一点上该怎么做是知道的导致问题并打印调用栈的线程。如果您有任何关于如何发现有问题的代码可帮助我解决问题的信息...... – Shane 2009-11-06 20:05:47

回答

0

如果你可以附加一个调试器,那么行为异常的线程通常会是你在'Break Al L”。

否则,我可能会采取一堆线程位置快照,并查看是否有任何线程始终不在等待(即WaitForMultipleObjectEx)。这应该让你知道哪些线程行为不当,以及他们通常运行哪些代码。

并确保你没有像任何代码:

while(1) 
    ; 

:)

+0

我知道导致问题的2个线程。 !当我做暴走他们是在列表 顶部失控 41:34200天5:31:57.781 48:3450天1:23:23.421 但我在一个失去了辩别了解为什么这两个线程都在坚持,他们究竟在做什么,以及代码是由哪些代码创建的...... 如果还有其他的事情你知道,我可以做的就是弄清楚创建这些线程的真棒: - ) – Shane 2009-11-06 20:08:11

1

您可以随时与调试器停止处理,并检查堆栈跟踪了几次。如果一个线程经常不在空闲并且处于同一个位置,那么您将更多地了解它在所有时间花费的位置。

在你粘贴的东西,我只看到一个线程的堆栈跟踪,你可以得到所有线程的堆栈跟踪? (对不起,如果是这样,我已经习惯在unix中做这件事了)

+0

是的,我已经这样做了......所有其他线程正在运行和退出,并做他们做得很好....只是这2个线程是坚持和使用了100%的CPU。目前是负载平衡,我有所有流量指向一个不同的网站,所以违规网站现在有零负载,只有这2个线程是活跃的,并用尽资源 – Shane 2009-11-06 20:11:00

1

使用ProcDump可以在CPU处于高电平时获取内存转储。然后检查所有线程的调用堆栈。同时运行perfmon并继续检查使用大部分CPU的线程。希望这有助于

+0

同时检查%时间花费在GC在perfmon – Naveen 2009-11-06 21:49:39

+0

是啊我有一个内存转储。 CPU不断高涨...它只是坐在99%......我用perfmon来检查正在运行的线程,并且只有2个线程正在忙着运行(上面公布的那些线程)。每个线程有完全相同的内存哑和clrstack转储(上面公布),每个线程分别占用资源的50%... 但我不知道接下来要做什么提示这些什么提示两个线程正在做或他们来自哪里 – Shane 2009-11-06 22:55:50

+0

%在GC上花费的时间不是那么高,它保持在0.2左右,我不认为这是高... – Shane 2009-11-06 23:40:54

10

好吧,让我找到了问题 我做了 !clrstack -p 和比!做对system.net部分,它揭示了问题的线索是一个System.net.Servicepoint指着我们SMTP服务器..

周围一派,发现这是问题 http://connect.microsoft.com/VisualStudio/feedback/ViewFeedback.aspx?FeedbackID=337557 这里还描述 http://www.vbforums.com/showthread.php?t=584384 这是一个问题的服务点不正确地发送quit命令和断开..这,他们会解决.net 4.0

现在我只是在解决方法代码,以确保服务点靠拢,并应制定出

感谢大家的帮助

+4

+1的位置......感谢您的跟踪! – 2009-11-07 12:45:59

+1

没有问题 如果有人很好奇这个魔术修复是什么...我找到了2个方法 1)只使用IIS皮卡 2) client.ServicePoint.MaxIdleTime = 1; client.ServicePoint.ConnectionLimit = 1; – Shane 2009-11-07 18:25:26