Re: lug-bg: nsgmls problem: non SGML character number 255
- Subject: Re: lug-bg: nsgmls problem: non SGML character number 255
- From: danchev@xxxxxxxxx (George Danchev)
- Date: Tue, 5 Mar 2002 18:30:45 +0200
äà ñå ïîïðàâÿ, ìàëêî :)
ïúðâî òåðìèíàëà èìàøå ñëåäíèòå íñòðîéêè:
style uni
size 16
encoding cp1251
layout bg_phon
options lwin_toggle
ttys /dev/tty[1-11]
òîâà å êîíôèãà íà console-cyrillic
(ñåíòåíöèÿ íà bglinux äîêîëêîòî ðàçáèðàì)
âòîðî, nsgmls íå å îò ïàêåòà "jade", à îò "sp".
> ne znaja kak raboti 'nsgmls' no izxozdajki ot opita mi s XML/XSLT
> transformaciite, simvolite se opeobrazuvat vatreshno kam UTF-16 i taka se
> obrabotvat. Poradi fakta che ISO8859-1 encoding-a definira 'ÿ' kato
> specialen simvol, obratnoto mu vrushtane kam 8-bit vodi do zaguba na
> stojnostta mu.
íåùî íå ìè ñå èçÿñíè ìíîãî ìíîãî êàêâî ñòàâà, íî íÿìà çíà÷êà :)
>V tozi sluchaj po pravilno bi bilo da polzvash ÿ ili
> ± vmesto simvol s cod 255.
ñ ãîðíèÿ êîíôèã íèòî åäíîòî íèòî äðóãîòî ïîìîãíàõà.
Âìåñòî "ÿ" â SGML ñëîæèõ ÿ , íî:
nsgmls:apt-howto-en.sgml:14:2:E: "XFF" is not a function name
à ñ ± ïàðñâàíåòî ìèíàâà ÎÊ, íî ïúê â HTML-òî ñå ïîëó÷è ñòðàíåí ñèìâîë ,
ïëþñ è ìèíóñ åäíî íàä äðóãî :)
>No po dobre bi bilo da se pishat
> documentite koito sadarzat symvoli nad 128 izpolzvajki UNICODE, UTF-16,
> UTF-8 ili s dve dumi multibyte format. Vsqko drugo reshenie bi bilo
> netochno.
Òóêà ìàé ñè ìíîãî ïðàâ, íå ñå ñåòèõ, ÷å ìàé å âðåìå äà ïîèçáÿãàìå îò cp1251.
Òà /etc/console-cyrillic:
style uni
size 16
encoding utf-8
layout bg_phon
options lwin_toggle
ttys /dev/tty[1-11]
ðåáóóò çà ïî-ñèãóðíî :) , ñúçäàâàì SGML ôàéë ñúäúðæàù "ÿ". Îò äîêóìåíòàöèÿòà
íà "sp" è nsgmls, ðàçáðàõ:
export SP_CHARSET_FIXED=1
export SP_ENCODING=utf-8
debiandoc2html -l en apt-howto-en.sgml
# òîâà å ÎÊ, íî ïúê:
debiandoc2html -l bg apt-howto-en.sgml
Warning: locale bg not supported, using default en_US.ISO8859-1
ãåíåðèðà õòìë -òî, íî ïúê ñå íàëàãà ñìÿíà íà charset-a...
çà -l íå ïîìàãà íèùî îò :
ls /usr/share/locale/ |grep bg
bg
bg_BG.CP1251
bg_BG.ISO8859-5
bg_BG.ISO-IR-111
bg_BG.KOI8-R
bg_BG.KOI8-U
èëè ìîæå áè ãëåäàì íå êúäåòî òðÿáâà? äàâà Warning ... è ïîëçâà default-a ...
Äîðè äà ïîëçâàì è uxterm íÿìà íàïðåäúê.
ÍÎ ÏÚÊ ñëåäíèÿ îïèò å ñ óñïåõ:
tyle uni
size 16
encoding koi8-r
layout ru
options lwin_toggle
ttys /dev/tty[1-11]
ñúçäàâàì SGML ôàéë, âå÷å ñ ìàëêî ðóñêî "ÿ".
debiandoc2html -l ru apt-howto-en.sgml
âñè÷êî å òîê, íÿìà ïðîáëåìè ñ ëîêàëà (-l ), ãåíåðèðà html files
charset=koi8-r, è íàé-âàæíîòî "ÿ"-òî ñå ÷åòå è â html ôàéëîâåòå.
Íåùî ïîâå÷å, íå ìîæàõ äà ðàçáåðà êàê â html-òî ñå ïîÿâèõà èìàíàòà íà ñåêöèéòå
íà ðóñêè åçèê : "Àíîòàöèÿ", "Çàìåòêà îá àâòîðñêèõ ïðàâàõ", "Ñîäåðæàíèå" è òàê
äàëèå .... Áðàòóøêèòå êàêòî âèíàãè ñà ïðåä íàñ (êîåòî ëåêî ìå èçíåðâÿ),
ñúâñåì òèõî õîðàòà ñè ëîêàëèçèðàò íåùàòà, à íå ñå èçõâúðëÿò íà ñóõî êàòî íàñ
äà ïðàâÿò öåëè äèñòðèáóöèè ... íî êàêòî è äà å.
> > è ïîñëå â õòìë äîêóìåíòà ñå íàëàãà äà ñìåíÿ charset=iso-8859-1 íà
> > charset=windows-1251 è äà ñëîæà [ÿ]-òàòà ïî ìåñòàòà èì. Âå÷å âñè÷êî å
> > ÎÊ:).
> > Ìèñëÿ äà úïäåéòíà ïðåâîäà íà APT-HOWTO,
> > íî òàçè ïðîöåäóðà "could be a bitch" :-(
å èìà è dirty ðåøåíèå êàêòî âèíàãè:
#!/bin/bash
FIXDIR=apt-howto-en.html
DUMMYCHAR1=bgia
REALCHAR1=ÿ
for i in $FIXDIR/*.html; do
cat "$i" | sed \
-e "s/charset=iso-8859-1/charset=windows-1251/" \
-e "s/$DUMMYCHAR1/$REALCHAR1/g" > "$i.new" \
-e 's/Next/Íàïðåä/g' \
-e 's/Previous/Íàçàä/g' \
-e 's/Contents/Ñúäúðæàíèå/g' \
-e 's/Abstract/Öåë íà äîêóìåíòà/g' \
-e 's/Copyright Notice/Ïðàâíà áåëåæêà/g'
mv "$i".new "$i"
done
ìîäèôèêàöèÿ íà fix-a îò linux-book-a :)
òîâà åñòåñòâåíî ìèíàâà ñàìî ïðåä òåêñòîâèòå îóòïóòè,
pdf íå ñòàâà äà ñå ìîäåðè òàêà ãðóáî :)
> > Àêî ïðîáëåìà å â nsgmls (îò ïàêåòà jade), ìîæå ëè äà ãî
> > ñáîðèì íÿêàê èëè ùå ñå ìú÷èì êàòî ïðàáúëãàðè ?
ìàé íàèñòèíà ïðîáëåìà íå å âúâ âàëèäàòîðà - nsgmls.
Òà çàäà÷êàòà å ìíîãî ïðîñòà: êàê â unicode òåðìèíàë äà ñúçäàäåì SGML ôàéë
(íàïðèìåð ñäúðæàù äóìè êàòî - Ñîôèÿ, Áúëãàðèÿ, åòö - âñå áúëãàðñêè óæ ;) è
ñëåä òîâà ñ debiandoc2{output} äà ñå ãåíåðèðàò ðàçíè outputs. Çà html
ñïåöèàëíî àêî ìîæå äà ñå ñåòâà charset-a, áåç äîïúëíèòåëíè áúëãàðèçèðàùè
fix-îâå êàòî ãîðíèòå è ðàçáèðà ñå "ÿ"-òî â outputs äà íå ñå èçðàæäà â random
symbols :).
Äà çíàì ÷å ïðåç debiandoc2*, ìîãàò äà ñå ïîäàâàò è îïöèé êúì nsgmls, îïèòàõ
ðàçíè êîìáèíàöèè, íî íåùî íåîöåëâàì. Ùå ñå ðàçâàì àêî íÿêîé ìå ñâåòíå ïî
âúïðîñà.
10x
--
Greets,
fr33zb1
===========================================================================
A mail-list of Linux Users Group - Bulgaria (bulgarian linuxers)
http://www.linux-bulgaria.org/ Hosted by Internet Group Ltd. - Stara Zagora
|