PDA

View Full Version : Erros no Folding e soluções



MadOnion
02-06-2005, 00:36
Erros no Folding e soluções
Ora então aqui fica uma lista de erros usuais no Folding@Home. É explicada a causa e colocada a resolução (se conhecida). Esta lista irá sendo actualizada com novos erros e problemas que ocorram, logo se não encontrarem aqui a resposta para um problema, coloquem-no que tudo faremos para tentar encontrar solução. Espero também que vão dando soluções para o que colocar aqui.

Erros:
• EARLY_UNIT_END
• FILE_IO_ERROR
• CLIENT_DIED
• UNKNOWN_ERROR
• Client-Core Communications Error
• BAD_FRAME_CHECKSUM
• SPECIAL_EXIT


EARLY_UNIT_END:
É possivelmente o mais comum de todos os erros, e deve-se a uma destas possibilidades: ou uma WU deficiente ou um sistema instável.

Se isto acontece uma vez isoladamente, muito provavelmente deve-se a uma WU deficiente. Não é um problema e não se devem preocupar com isso. Usualmente acontece quando átomos na WU atingem posições impossíveis e então o processo não pode continuar.

Múltiplos deste problema é um sinal de problemas no vosso PC. Demasiado Overclock ou problemas de aquecimento geram este erro. É aconselhável parar o F@H se este ocorrer mais do que uma vez por semana. Façam testes de saturação ao CPU (usem o stressCPU) e memórias (CPU, FSB e memórias têm de estar estáveis), verifiquem temperaturas e configurações do sistema.
EARLY_UNIT_END é na maior parte das vezes causado pelo PC do utilizador, e decerto que deve levar a um exame ao sistema.

Este erro pode ser acompanhado por uma mensagem (LINCS WARNING) que dá mais detalhes técnicos sobre o que aconteceu.

Nota: Vejam a descrição sobre "-forceasm" que causam SPECIAL_EXIT em alguns PC baseados em AMD. Se estão a correr o folding num AMD Athlon XP com core Barton ou Thoroghbred, devem remover a opção "-forceasm" que os vossos problemas devem desaparecer.


FILE_IO_ERROR
É um erro que acontece quando operações de disco correm mal. É um erro muito comum. Acontece muito desde o Gromacs Core 1.46. Normalmente acontece quando temos um erro de hardware, algo como “Write 0010, read back 0011". Se este erro ocorrer, certifique-se de que o disco está em bom estado: corra o ScanDisk, CHKDSK ou fsck. Certifique-se ainda de que o bus IDE está activo, que os cabos IDE estão em bom estado e se o disco não está mesmo a deixar de funcionar.

Também ocorre se duas Consolas a trabalhar na mesma WU, ou seja, se por acidente começa um cliente duas vezes, em vez de dois clientes uma vez.


CLIENT_DIED:
Isto acontece quando, simplesmente, o cliente é encerrado indevidamente, quer pelo utilizador quer por erros. O core continua a correr, mas visto que não encontra o cliente, é encerrado. Este problema também está relacionado com demasiado Overclock ou pelos timings das memórias estarem demasiado agressivos.


UNKNOWN_ERROR:
Um agora raro erro do Gromacs que usualmente acontece quando uma WU corrompida está a ser usada. Actualmente já não é comum e em caso de ocorrer deverão informar-nos, colocando o respectivo fragmento do FahLog. Também deverá efectuar testes ao hardware.


Client-Core Communications Error:
Existem vários e deferentes tipos deste erro.

ERROR 0xX é basicamente outra forma do UNKNOWN_ERROR. Pode ser encontrado em Linux se tem problemas na versão Glibc. Também pode ser causado por excesso de Overclock Se não for devido a nenhum destes casos, coloque o FahLog para uma análise mais precisa..
No caso particular do ERROR 0x1, este ocorre muitas vezes se o Core é “morto” enquanto o cliente o processa,ou seja, se por exemplo desligam o cliente pelo task manager.

ERROR 0x________ (no espaço em branco são 8 digitos em hexadecimal), é geralmente um erro geral do Windows.
No caso particular do ERROR 0xC0000005 significa que foi violado o acesso à memória. Este é um código-erro standard do Windows para qualquer programa que tente aceder a memória que não controla. Também pode ser um raro erro de Hardware e não é motivo de preocupação. Versões desactualizadas de cliente ou cores podem também ser a causa. Para exclerecimento, coloque o FahLog que geralmente encontra-se a causa.


BAD_FRAME_CHECKSUM:
No seu FahLog aparecerá algo do género:



[hh:mm:ss] Header on frame 220 differs from expected header
[hh:mm:ss] Got: A028B-5C-3E84B02E-EA1B7D4: 0220
[hh:mm:ss] Expected: A028B-5C-3E84B02E-EA1B7D4: 0219


Note que as duas linhas de hexadecimal são iguais. Este erro ocorre com unidades Tinker. Uma das causas conhecidas é quando dois ou mais clientes são colocados na mesma directoria. Muitas vezes, por muito estranho que pareça, este erro ocorre como EARLY_UNIT_END mas apenas é detectado no final da WU processada. BAD_FRAME_CHECKSUM, semelhante ao FILE_IO_ERROR do Gromacs, também pode significar um erro de Hardware que ocorre quando existe uma discrepância entre o que foi lido e o que era esperado: algo como escrever 101010 e ler 110110. Mais uma vez, só é detectado quando a unidade é terminada.

SPECIAL_EXIT:
Este erro significa que algo desconhecido ocorreu “dentro” do core Gromacs. A única causa conhecida é quando “-forceasm” é aplicado a um sistema AMD que não está totalmente estável. CPUs com problemas conhecidos são o Thoroughbred B, Barton e o Opteron. Neste caso, estará associado a um EARLY_UNIT_END (ver em cima). Remova o “-forceasm” que resolverá o problema. Estes erros são cada vez menos comuns.

Se não está a usar a flag “-forceasm”, deverá colocar o log pois poderá ser um problema sério.


E pronto... recomendações gerais: mantenham o sistema estável, usem sempre a versão mais recente do Folding e não se metam em aventuras
Irei actualizando este post com erros que surjam. Recomendações também venham elas.

Originnaly posted by Dazkarieh
Fonte: Techzone (http://www.techzonept.com/showthread.php?t=56467)

GinTonic
17-06-2005, 12:39
Mad: Tás lá. Nice Guide :D

:thumbsup: :thumbsup:

MadOnion
17-06-2005, 15:54
Não te esqueças que foi o Daz que criou isto, limitei-me a fazer um copy com a fonte e o autor :D

Dimebag
25-06-2005, 16:50
Tenho comportamento estranho no folding....

Não me dá erro nenhum. Vai processando as frames, tudo bem, mas chega sempre uma altura em que não continua. O uso de CPU continua a ser 100% (ou seja, 50% por causa do Hyperthreading), mas não processa frame nenhum - chega a estar uma hora sem avançar nenhuma frame.
Saio do programa, executo outra vez e começa logo a funcionar bem, continuando na última frame processada.
Alguém sabe o que é isto?

thx

SkYm@cHinE
25-06-2005, 17:41
Tenho comportamento estranho no folding....

Não me dá erro nenhum. Vai processando as frames, tudo bem, mas chega sempre uma altura em que não continua. O uso de CPU continua a ser 100% (ou seja, 50% por causa do Hyperthreading), mas não processa frame nenhum - chega a estar uma hora sem avançar nenhuma frame.
Saio do programa, executo outra vez e começa logo a funcionar bem, continuando na última frame processada.
Alguém sabe o que é isto?

thx


Já me aconteceu isto...desinstalei e instalei de novo e começou a funkar na boa...n sei pk razão...mas agora está td bem :atento:

Dimebag
25-06-2005, 19:07
Já me aconteceu isto...desinstalei e instalei de novo e começou a funkar na boa...n sei pk razão...mas agora está td bem :atento:

Ok, vou tentar isso, obrigado :thumbsup:

Dazkarieh
25-06-2005, 19:13
Por vezes basta reiniciares o pc.. ;)

Um abraço [[[ ]]]

scratch
25-06-2005, 19:59
Este deu mesmo um erro do core.. até apareceu mensagem do windows a avisar..

[11:01:04] Finished a frame (274)
[11:45:32] CoreStatus = C0000005 (-1073741819)
[11:45:32] Client-core communications error: ERROR 0xc0000005
[11:45:32] Deleting current work unit & continuing...
[11:45:36] - Preparing to get new work unit...

Luka
27-06-2005, 00:51
Epa, não faço a minima ideia que erro seja esse :confused:

Afinal sei.. estava na thread :D


Client-Core Communications Error:
Existem vários e deferentes tipos deste erro.

ERROR 0xX é basicamente outra forma do UNKNOWN_ERROR. Pode ser encontrado em Linux se tem problemas na versão Glibc. Também pode ser causado por excesso de Overclock Se não for devido a nenhum destes casos, coloque o FahLog para uma análise mais precisa..
No caso particular do ERROR 0x1, este ocorre muitas vezes se o Core é “morto” enquanto o cliente o processa,ou seja, se por exemplo desligam o cliente pelo task manager.

ERROR 0x________ (no espaço em branco são 8 digitos em hexadecimal), é geralmente um erro geral do Windows.
No caso particular do ERROR 0xC0000005 significa que foi violado o acesso à memória. Este é um código-erro standard do Windows para qualquer programa que tente aceder a memória que não controla. Também pode ser um raro erro de Hardware e não é motivo de preocupação. Versões desactualizadas de cliente ou cores podem também ser a causa. Para exclerecimento, coloque o FahLog que geralmente encontra-se a causa.

Esse erro deu-te mais vezes? Pode ser problemas de memoria.

scratch
27-06-2005, 01:07
Eu tinha lido, mas achei estranho o windows dar mensagem de erro do core.
E o sistema está memtest stable @ windows, prime stable, toast stable e snm stable. Acho que chega!

Luka
27-06-2005, 01:13
Se isso foi um erro isolado nao tens nada com que te preocupar. :)

GinTonic
27-06-2005, 01:25
Não te esqueças que foi o Daz que criou isto, limitei-me a fazer um copy com a fonte e o autor :D

Ya, ainda assim... É bastante útil para o dia-a-dia... Great work!! :Thumbsup:

scratch
27-06-2005, 01:28
sim deu erro do core, nos logs do client deu aquele erro em cima e nem enviou nada (o pior foi que estava há quase 2 dias de volta daquela unit e estava quase no fim)! Uma vez tive erro mas foi pq estava a abusar das memórias, mas enviou resultados, mesmo não estando completo..

JoaoRamalho
11-04-2006, 12:37
[05:07:51] Finished a frame (91)
[05:11:22] Finished a frame (92)
[05:14:55] Finished a frame (93)
[05:15:36]
[05:15:36] Received faulty work unit.
[05:15:46] logfile size: 103295
[05:15:46] - Writing 103807 bytes of core data to disk.
[05:15:46] end (WriteWorkResults)
[05:15:46]
[05:15:46] Folding@home Core Shutdown: BAD_WORK_UNIT
[05:15:49] CoreStatus = 72 (114)
[05:15:49] Sending work to server


[05:15:49] + Attempting to send results
(blablabla, tudo normal apartir daqui)


alguem sabe alguma coisa deste erro? wu defeciente?

Metro
12-04-2006, 02:03
[05:07:51] Finished a frame (91)
[05:11:22] Finished a frame (92)
[05:14:55] Finished a frame (93)
[05:15:36]
[05:15:36] Received faulty work unit.
[05:15:46] logfile size: 103295
[05:15:46] - Writing 103807 bytes of core data to disk.
[05:15:46] end (WriteWorkResults)
[05:15:46]
[05:15:46] Folding@home Core Shutdown: BAD_WORK_UNIT
[05:15:49] CoreStatus = 72 (114)
[05:15:49] Sending work to server


[05:15:49] + Attempting to send results
(blablabla, tudo normal apartir daqui)


alguem sabe alguma coisa deste erro? wu defeciente?

Tens a flag advmethods activada? Se sim devia ser problema da WU.

JoaoRamalho
14-04-2006, 13:15
Tens a flag advmethods activada? Se sim devia ser problema da WU.
n tenho nenhuma flag activada

Swat
14-04-2006, 13:28
Eu tenho perdido várias WU's, diga-se quase todas :what: com este erro, EARLY_UNIT_END. sei que pode ser por causa de instabilidade no sistema ou uma WU defeituosa, mas eu já exprimentei a default e estragou-me duas WU's de seguida!

Será que o problema poderá estar na versão gráfica que eu utilizo?

Metro
14-04-2006, 16:09
n tenho nenhuma flag activada

Se usas o modo consola essa opção fica definida se selecionares yes numa das opções.

Se foi um caso esporádico é normal senão aponto para instabilidade no pc.



Eu tenho perdido várias WU's, diga-se quase todas :what: com este erro, EARLY_UNIT_END. sei que pode ser por causa de instabilidade no sistema ou uma WU defeituosa, mas eu já exprimentei a default e estragou-me duas WU's de seguida!

Será que o problema poderá estar na versão gráfica que eu utilizo?

Mudar para o modo consola é uma hipótese e é extremamente facil.
Podes ver aqui: http://www.portugalfolding.org/page.php?33

De qq modo e já que não custa nada corre o memteste não seja dai. Já agora qual é a quantidade de memória que tens e qd é que isso te costuma acontecer?

Swat
14-04-2006, 21:27
Mudar para o modo consola é uma hipótese e é extremamente facil.
Podes ver aqui: http://www.portugalfolding.org/page.php?33

De qq modo e já que não custa nada corre o memteste não seja dai. Já agora qual é a quantidade de memória que tens e qd é que isso te costuma acontecer?

eu já corri memtest, occt, prime, stresscpu... e tenho 1GB de ram
btw, já mudei para console ontem à noite e deixei o pc ligado a processar uma WU... até agora ainda não disse nada....
espero que tenha ficado resolvido :D
É que eram quase todas as WU's a acabarem antes do tempo. lá uma vez ou
outra conseguia processar sem problemas

Metro
15-04-2006, 01:23
eu já corri memtest, occt, prime, stresscpu... e tenho 1GB de ram
btw, já mudei para console ontem à noite e deixei o pc ligado a processar uma WU... até agora ainda não disse nada....
espero que tenha ficado resolvido :D
É que eram quase todas as WU's a acabarem antes do tempo. lá uma vez ou
outra conseguia processar sem problemas

Optimo.
Eu sou notificado dos posts aqui e vou continuar a acompanhar a thread.
Tb me podes enviar PM se for caso disso.
Vamos ver se conseguimos resolver isto;)
Abraço.

Swat
19-04-2006, 14:45
Optimo.
Eu sou notificado dos posts aqui e vou continuar a acompanhar a thread.
Tb me podes enviar PM se for caso disso.
Vamos ver se conseguimos resolver isto;)
Abraço.

É só para avisar que o meu cpu já comeu 4 WU's seguidas até ao fim, sem problemas nenhuns! :D

I'm Back:D :D :D

Metro
19-04-2006, 15:02
É só para avisar que o meu cpu já comeu 4 WU's seguidas até ao fim, sem problemas nenhuns! :D

I'm Back:D :D :D


Optimo:)

A unica alteração que fizeste foi passar do modo grafico para o modo texto?

[[]]

Swat
19-04-2006, 21:41
Optimo:)

A unica alteração que fizeste foi passar do modo grafico para o modo texto?

[[]]

Tinha uma versão gráfica já antiga... já nem tinha o installer dela. Instalei a versão FAH504 :)

Metro
19-04-2006, 23:49
Tinha uma versão gráfica já antiga... já nem tinha o installer dela. Instalei a versão FAH504 :)

Perfeito.:)
Venham mais duvidas então que vamos tentar resolver.
Não deixem é de ajudar o projecto:)

orlando.gomes
13-08-2009, 22:35
Boas

alguém tem usado a versão smp num sistema x64 com sucesso?

no meu caso crash o pc ao ínicio (último valor que vi era 10%)

Metro
13-08-2009, 22:41
Boas

alguém tem usado a versão smp num sistema x64 com sucesso?

no meu caso crash o pc ao ínicio (último valor que vi era 10%)

Com este calor estará o PC completamente estável? Parece-se ser esse o problema.

orlando.gomes
14-08-2009, 21:03
deves ter razão.

tenho de encontrar um produto para monitorizar a temperatura que funciona no Win 2008 x64.

Se alguém recomendar algum, agradecia

abraços

Peterboss
16-08-2009, 15:33
experimenta algum dos Everest... talvez o Everest Ultimate