Zdarte vseci, tak jsem to zkusil je to rychle jen bych si to predstavoval ze to bude napr. ve writeru a ne v draw, ale i tak je to celkem dobry pokrok a preju borcum at to vychytaji, vse co bude umet OO.o proti M$ je jenom dobre.
Do draw je to proto, že PDF je grafický formát. Prakticky se jedná o koláž. Žádné informace typu toto je nadpis, toto seznam, toto tabulka v PDF nenajdete.
Tak apson nejak zjednodusit treba kopirovani mezi jednotlivimi aplikacemi, rad bych totiz treba z nekterych pdf rad dostal do calcu nebo writeru a je to dost pracne.
Osobně myslím, že i informace tohoto typu jdou ze "slušných" dokumentů PDF ve většině případů vyextrahovat. Nicméně je to tak trošku úkol pro umělou inteligenci, zhruba ve stylu OCR, ale trošku jednodušší: Přesné znaky jsou zachovány, dokonce máme přesné informace o tom, jakým písmem je psána jaká část textu, takže můžeme vydedukovat hlavní styly, ale je zapotřebí identifikovat logicky oddělené části textu (hladká sazba, poznámky na okraji, záhlaví a zápatí), jejichž data mohou ve skutečnosti být všelijak promíchaná, rozpoznat seznamy, číslované seznamy a podobně. Nicméně nemožné mi to nepřijde, i když si nejsem jist, jestli zrovna tohle je něco, o co se Sun tímhle počinem pokouší. To už je v současnosti pro jednotlivce perspektivnější (rychlejší a jednodušší) jít do obchodu, koupit FineReader a v něm ten PDF soubor otevřít.
Mě to připadá jako importovat PCL. Řada aplikací si sama vytváří kombinační znaky, používá kerning pomocí mezer záporné velikosti, odrážka je písmeno B v nějakém fontu, záhlaví a zápatí stránky nelze rozeznat od obsahu... Import PDF musí mít nutně tristní výsledky. A proč dělat něco, co v principu nemůže přinést použitelný výsledek?