zkuste si třeba napsat parser validního xhtml a validního html.
Projekt http://code.google.com/p/html5/ je parserem validniho i nevalidniho HTML a pri letmem pohledu do zdrojaku mi nepripadl zas tolik nerealny, jak se obcas tvrdi. BTW. je to onen parser, ktery Hixie zminuje v rozhovoru ,a ktery u Googlu cas od casu "prechroustava" nejakou tu miliardu dokumentu. Napsat robota, ktery si poradi s dnesnim HTML webem nemuze byt zas tak slozite, navic u tohodle mate vhodnou licenci.