<br><br><div class="gmail_quote">On Mon, Mar 8, 2010 at 1:56 PM, Ronald Frazier <span dir="ltr">&lt;<a href="mailto:ron@ronfrazier.net">ron@ronfrazier.net</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
Regarding this whole concept, I&#39;ve never seen a good explanation that<br>
doesn&#39;t gloss over the specifics. When they say unrecoverable read<br>
error, I&#39;m assuming they don&#39;t just mean a temporary read error (where<br>
the next time we read it we&#39;ll get the correct value), as that would<br>
be easy to deal with. So if we are talking about a permanently bad<br>
sector, then I also assume this isn&#39;t just a case where we can scan<br>
the drive ahead of time to find the problems, as again that would be<br>
easy to deal with.<br>
<br>
So I can only assume that what they mean is that, on average, after<br>
every 12TB read 1 sector randomly turns up as permanently bad (1 bit<br>
ruins the whole sector). But is this REALLY happening out there? Even<br>
without raid, we should be seeing issues from this on high usage<br>
devices. For example. A tivo is actually recording live tv 24x7, so<br>
it&#39;s reading/writing 50+ TB/year. Thus it should be getting bad<br>
sectors several times per year. Has anyone ever pulled a drive from a<br>
several year old tivo and found a dozen or more bad sectors on it<br>
(I&#39;ve still got one that ran for 5 years or so, so maybe I should<br>
check it just for kicks)? I wouldn&#39;t be surprised if I, myself, have<br>
transferred enough data to have encountered such an error if this is<br>
really happening, but in all the years I&#39;ve yet to encounter such a<br>
thing as randomly bad sectors (when a sector goes bad, usually the<br>
rest of the drive isn&#39;t far behind, and that&#39;s a totally different<br>
issue from the one being discussed here).<br></blockquote></div><br><br>How would you know? Particularly with video content. You get a frame with some pixelation and it&#39;s fine again on the next. Most people would probably chalk that up to a signal problem rather than a disk problem. If they noticed it at all. If there is any error correction in the stream, it would probably get fixed transparently without you having any idea. As very few filesystems have the ability to detect corruption at this level, it&#39;s hard to say one way or the other based on user experience. I suppose we could set up a test writing known patterns to the disk and test our ability to read them back later. The sector might also go bad randomly before the user has ever written data to it. The drive firmware will re-map that sector without telling you about it unless it runs out of scratch space. That&#39;s probably why you say that when you see a bad sector, the drive isn&#39;t far behind. It&#39;s run out of space to map the bad sectors to and has no choice but to inform the user. <br>
<br>This sort of silent corruption is one of the big reasons I use ZFS. I can set it to scan the array and compare the checksums to ensure the data is good. If it&#39;s not, it can recover the data from the redundant copies as it knows WHICH disk is returning bad data. Unlike normal RAID, which can tell that it&#39;s broken, but can&#39;t fix it. <br>