|
Re: [SOLUTION] Re: lug-bg: utf,ansi,unicode etc...
- Subject: Re: [SOLUTION] Re: lug-bg: utf,ansi,unicode etc...
- From: Alexander Shopov <al_shopov_lug@xxxxxxxxx>
- Date: Mon, 11 Aug 2003 18:08:59 +0300
Predpolagam che ako se naprawi syshtoto nesto za BG text, ste otgatwa po dobre bg-encoding... ama dokolkoto znam nqma podobni na word-"corpusi" za bulgarski ezik... (i nie sme cheli malko za linguisics :") )
Ako "corpus-a" e dostatychno golqm i da obhwashta poweche oblasti naisitna move da ima 99.98% tochnost..
Хм. Мисля, че сайтът Словото е нахакал достатъчно български текст за
подобен анализ ;-)
Общо взето - имат множество текстове от български писатели. Речта ни
фонетично/буквено не се различава толкова много от тяхната (като
изключим да речем Паисиевата история и Житието Софрониево *в оригинал*
;->, осъвременените варианти са ОК )
Лексикално може би този корпус издиша, но за буквено/фонетичен анализ
мисля, че е супер. Просто wget и пускай статистиката да се генерира.
ал_шопов
============================================================================
A mail-list of Linux Users Group - Bulgaria (bulgarian linuxers).
http://www.linux-bulgaria.org - Hosted by Internet Group Ltd. - Stara Zagora
To unsubscribe: http://www.linux-bulgaria.org/public/mail_list.html
============================================================================
- Относно:
- lug-bg: utf,ansi,unicode etc...
- Изпратено от: raptor <raptor@xxxxxxxxxx>
- Re: lug-bg: utf,ansi,unicode etc...
- Изпратено от: George Danchev <danchev@xxxxxxxxx>
- [SOLUTION] Re: lug-bg: utf,ansi,unicode etc...
- Изпратено от: raptor <raptor@xxxxxxxxxx>
- Re: [SOLUTION] Re: lug-bg: utf,ansi,unicode etc...
- Изпратено от: George Danchev <danchev@xxxxxxxxx>
- Re: [SOLUTION] Re: lug-bg: utf,ansi,unicode etc...
- Изпратено от: raptor <raptor@xxxxxxxxxx>
|
|
|