Re: lug-bg: UTF-8, UTF-16, ISO-10646-1
- Subject: Re: lug-bg: UTF-8, UTF-16, ISO-10646-1
- From: mitko@xxxxxxx (Dimitar Peikov)
- Date: Wed, 10 Apr 2002 10:22:17 +0300
On Tue, 9 Apr 2002 21:42:09 +0200
Victor Senderov <lug-bg@xxxxxxxxxxxx> wrote:
> Çäðàâåéòå LUG-BG,
>
> Òúé êàòî íàñêîðî èìàøå äèñêóñèÿ îòíîñíî åäíî ïèñìî â UTF-8, áèõ èñêàë
> äà ïîïèòàì âåðíè ëè ñà ñëåäíèòå èçâúðøåíè îò ìåí íàáëþäåíèÿ, èëè ñå
> îòíàñÿò ñàìî çà ìîÿòà ìàøèíà:
>
> 1) Òåêñò, çàïèñàí êàòî UTF-16, ìîæå äà áúäå ïðî÷åòåí áåç çàãóáà íà
> êèðèëñêèòå ñèìâîëè, è êîãàòî áúäå îòâîðåí êàòî CP-1251. Íàñòúïâà,
> îáà÷å çàãóáà ïîíå íà íÿêîè çàïàäíîåâðîïåéñêè ñèìâîëè êàòî íåìñêèòå
> óìëàóòè, íàïðèìåð.
UTF-16 e universalen standard za codirane na symboli ot razlichni
charset-i. Realno vseki charset (CP1250, CP1251, ... ISO-8859-1,
ISO-8859-2, ..., KOI-8, KANJI, ...) mogat da se predstavjat chrez
UTF-16. UTF-8 e razgunat variant na UTF-16, katsymbol ot UTF-16 se
predstavja s 1 do 5 symbola v UTF-8. Njama zaguba na informacia!
Preobrazuvaneto e 2-posochno. Sashtestvuvat 3 specialni symbol-a v
UTF-16, a imenno (kato 2 posledovatelni byte-a: (0xFF 0xFF) ->
nevaliden, (0xFE 0xFF) -> pokazvash che codiraneto na symbolite e v
Little-Endian (Intel Architechture) (0xFF 0xFE) -> pokazvash che codiraneto na
symbolite e v Big-Endian (Motorola Architechture)
Sreshtaneto na (0xFF 0xFE) ili (0xFE 0xFF) moze da e prozivolno iz
teksta i ne samo vednuz, kato sreshtaneto mu ukazva che sledvashtite
symboli sa v saotvetnata organizacia.
>
> 2) Òåêñò, çàïèñàí êàòî UTF-8, ìîæå äà áúäå îòâîðåí ñàìî êàòî UTF-8,
> èëè UTF-16, â ïðîòèâåí ñëó÷àé, ìîãàò äà áúäàò âúçñòàíîâåíè, åäèíñòâåíî
> àìåðèêàíñêèòå ñèìâîëè. Âñè÷êî äðóãî ñå ãóáè (íàïð. ïðè îòâàðÿíå êàòî
> CP-1251).
>
CP-1251 e 8bitov code i sashtestvuva tablica na preobrazuvanie ot
CP-1251 kum UTF-16, kakto i obratno (stiga symbolite da sa v mapping-a).
pogledni v /usr/X11R6/lib/X11/fonts/encodings!
> Îñâåí òîâà èñêàì äà ïîïèòàì, ðàçëè÷àâà ëè ñå ISO-10646-1 êîäèðàíåòî îò
> UTF-16, èëè ïðåäñòàâëÿâàò åäíî è ñúøî? Ñêëîíåí ñúì äà âÿðâàì, ÷å ñà
> åäíî è ñúøî, ò.ê. òåêñò, çàïèñàí êàòî ISO-10646-1 ïðîÿâÿâà ñõîäíè
> ñâîéñòâà ñ òåçè, êîèòî ñà çàïèñàíè êàòî UTF-16. Çàùî, îáà÷å,
> ôàéëîâåòå, çàïèñàíè íà ISO-10646-1 è CP-1251 èìàò åäèí è ñúùè ðàçìåð?
> Îïèòúò ñúì èçâúðøèë ñ kwrite. Ìèñëåõ ñè, ÷å óíèêîä çàåìà 2 áàéòà, à íå
> åäèí.
ISO/IEC 10646 = UCS
Unicode specifikaciata se bazira na UTF-16 (UCS-4), taka che prevoda e 1
kam 1 samo che v nachaloto si ima njakolko (3 do 5) byte-a za
identifikacia.
Pogledni tova :
http://www.nada.kth.se/i18n/ucs/unicode-iso10646-oview.html
>
> Íÿêîè äàííè çà ìîÿòà èíñòàëàöèÿ: RH 7.2, KDE 2.2-1, bglinux4.0,
> èíñòàëèðàí rpm ñ áúëãàðñêè ìåíþòà, KDE íàñòðîåíî íà CP-1251, èçïîëçâàì
> âãðàäåíàòà ùðàêàëêà + õèðóðãèÿ íà .../symbols/bg, çà äà ñìåíÿì íà
> ôîíåòè÷íà, ïàêåòúò bglinux e íàñòðîåí ïîñðåäñòâîì set-bg-env íà
> CP-1251, ïúðâèòå äâå íàáëþäåíèÿ èçâúðøèõ â kmail, à âòîðèòå äâà
> âúïðîñà ñå áàçèðàí íà îïèòè â kwrite.
>
Do kolko njakoj locale ili softuer se bazira na UTF-8/16 e vapros na
realizacia. Ot tam proiztichat i problemite, svarzani s prexvurljaneto
mezdu razlichnite charset-i, UTF-8/16, CP1251, KOI-8 ... Realno za da
njama nerazbiratelstvo da se izpolzva razshir nabor kato UTF-8/16 za da
njama problemi. Za poveche informacia pogledni za iconv, jconv, ...
> Ïîçäðàâè,
> Âèêòîð
> =====================================================================
> ====== A mail-list of Linux Users Group - Bulgaria (bulgarian
> linuxers) http://www.linux-bulgaria.org/ Hosted by Internet Group Ltd.
> - Stara Zagora
>
--
Dimitar Peikov
Programmer Analyst
Globalization Group
"We Build e-Business"
RILA Solutions
27 Building, Acad.G.Bonchev Str.
1113 Sofia, Bulgaria
phone: (+359 2) 9797320
phone: (+359 2) 9797300
fax: (+359 2) 9733355
http://www.rila.com
===========================================================================
A mail-list of Linux Users Group - Bulgaria (bulgarian linuxers)
http://www.linux-bulgaria.org/ Hosted by Internet Group Ltd. - Stara Zagora
|