Attachment 50658 Details for Bug 81159 – utf-8.xml

utf-8.xml

utf-8.xml (text/plain), 21.80 KB, created by Flammie Pirinen (RETIRED) on 2005-02-07 13:18:24 UTC

(hide)

Description:

Filename:

MIME Type:

Creator: Flammie Pirinen (RETIRED)

Created: 2005-02-07 13:18:24 UTC

Size: 21.80 KB

patch

obsolete

><?xml version='1.0' encoding="UTF-8"?>
>
><!DOCTYPE guide SYSTEM "/dtd/guide.dtd">
>
><guide link="/doc/en/utf-8.xml" lang="fi">
><title>UTF-8:n kÃ¤yttÃ¶ Gentoo-jÃ¤rjestelmÃ¤ssÃ¤</title>
>
><author title="TekijÃ¤">
>  <mail link="slarti@gentoo.org">Thomas Martin</mail>
></author>
><author title="Avustaja">
>  <mail link="devil@gentoo.org.ua">Alexander Simonov</mail>
></author>
><author title="Vastuullinen kÃ¤Ã¤ntÃ¤jÃ¤">
>  <mail link="flammie@gentoo.org">Flammie Pirinen</mail>
></author>
>
><abstract>
>TÃ¤ssÃ¤ oppaassa kerrotaan kuinka UTF-8-merkistÃ¶koodaus asetataan kÃ¤ytettÃ¤vÃ¤ksi
>Gentoo-jÃ¤rjestelmÃ¤Ã¤n. LisÃ¤ksi kerrotaan jotain yleistÃ¤ tietoa Unicoden ja
>erityisesti UTF-8:n hyÃ¶dyistÃ¤.
></abstract>
>
><license />
>
><version>1.0</version>
><date>2005-02-03</date>
>
><chapter>
><title>MerkistÃ¶koodaukset</title>
><section>
><title>MitÃ¤ merkistÃ¶koodauksella tarkoitetaan?</title>
><body>
>
><p>
>Tietokoneethan eivÃ¤t ymmÃ¤rrÃ¤ tekstiÃ¤ sinÃ¤nsÃ¤. Sen sijaan ne kÃ¤sittelevÃ¤t
>merkkejÃ¤ numeroina. Perinteisesti tapaa joilla numerot on yhdistetty
>aakkostoihin (eli merkistÃ¶koodausta, engl. character set encoding)
>on jouduttu rajoittamaan tietokoneiden laitteistorajoitteiden mukaan.
></p>
>
></body>
></section>
><section>
><title>MerkistÃ¶koodausten historiaa</title>
><body>
>
><p>
>Yleisin (tai laajimmin hyvÃ¤ksytty) merkistÃ¶koodaus tunnetaan
><b>ASCII</b>na (engl. American Standard Code for Information Interchange).
>Moderni ASCII-jÃ¤rjestelmÃ¤ standardoitiin 1986 (ANSI X3.4, RFC 20,
>ISO/IEC 646:1991 ja ECMA-6 -standardit).
></p>
>
><p>
>ASCII-jÃ¤rejstelmÃ¤ on rajoitettu 7 bittiin merkkiÃ¤ kohti, eli sen merkit
>esitetÃ¤Ã¤n desimaalinumeroilla 0:sta 127:Ã¤Ã¤n. NÃ¤ihin kuuluu 33 nÃ¤kymÃ¤tÃ¶ntÃ¤
>ohjausmerkkiÃ¤, lukuarvoilla 0â31 ja 127 (joka on DEL eli delete). Merkit
>32â126 ovat nÃ¤kyviÃ¤ kÃ¤yttÃ¶merkkejÃ¤: vÃ¤lilyÃ¶nti, vÃ¤limerkit ja latinalaiset
>aakkoset (aâz) sekÃ¤ numerot.
></p>
>
><p>
>ASCIIssa tavun kahdeksatta bittiÃ¤ kÃ¤ytettiin alunperin ns. pariteettibittinÃ¤
>virheentarkastuksessa, tai jos tÃ¤llaista ei tarvittu, se jÃ¤tettiin vÃ¤istÃ¤mÃ¤ttÃ¤
>nollaksi. Joka tapauksessa, kaikki ASCII-koodaukset kÃ¤yttivÃ¤t yhden tavun
>jokaista merkkiÃ¤ kohden.
></p>
>
><p>
>Vaikka ASCII riitti hyvin moderniin englanninkieliseen kÃ¤yttÃ¶Ã¶n, on tietysti
>selvÃ¤Ã¤ ettei se ollut kÃ¤ytÃ¤nnÃ¶llinen edes muissa Eurooppalaisissa
>kielissÃ¤, joissa saattoi tarvita kummallisia pilkkuja aiden ja oiden pÃ¤Ã¤lle tai
>vaikkapa aksenttejakin. ISO 8859 -standardisarja kehitettiin korjaamaan tÃ¤tÃ¤
>ongelmaa. Se oli taaksepÃ¤in yhteensopiva ASCIIn kanssa, mutta sen sijaan ettÃ¤
>kahdeksas bitti olisi ollut tyhjÃ¤, sitÃ¤ kÃ¤ytettiin hyÃ¶dyksi ja nÃ¤in saatiin
>kÃ¤yttÃ¶Ã¶n 127 uutta merkkipaikkaa. MyÃ¶s tÃ¤mÃ¤ oli rajoittunutta, ja jo Euroopan
>kÃ¤yttÃ¶Ã¶n kehitettiin 16 erilaista merkistÃ¶koodausta (vastaavasti ISO 8859-1:stÃ¤
>ISO 8859-16:een). ASCII-alueen ulkopuolella nÃ¤iden koodausten merkit menivÃ¤t
>pÃ¤Ã¤llekkÃ¤in, ja kÃ¤yttivÃ¤t siis keskenÃ¤Ã¤n eri merkkejÃ¤ samoille lukuarvoille.
>LisÃ¤ksi soppaa tuli sotkemaan lopulta Microsoft Windows -jÃ¤rjestelmien
>LÃ¤nsi-Eurooppalainen Windows-1252-koodaus, joka oli ISO 8859-1:n johdos,
>mutta kuitenkin erilainen. Kaikki nÃ¤mÃ¤ koodaukset kuitenkin olivat yhteensopivia
>ASCIIn kanssa.
></p>
>
><p>
>KielissÃ¤ joissa kÃ¤ytetÃ¤Ã¤n jotain muita kuin latinalaista aakkostoa tarvittiin
>kokonaan erilaisia koodaustapoja, kuten EUC:tÃ¤ (engl. Extended Unix Coding)
>japanissa ja koreassa (ja vÃ¤hemmin kiinassakin). TÃ¤mÃ¤ oli toki
>omiaan aiheuttamaan lisÃ¤Ã¤ sekaannusta, kun samat kÃ¤yttÃ¶jÃ¤rjestelmÃ¤t
>kÃ¤yttivÃ¤t myÃ¶s eri merkistÃ¶koodauksia samoille kielille, kuten
>Shift-JISsiÃ¤ ja ISO-2022-JP:tÃ¤ japanille. Kyrillisten kirjainten kanssa
>kÃ¤yettiin joko KOI8-R-koodausta venÃ¤jÃ¤lle ja bulgarialle sekÃ¤ KOI8-U-koodausta
>ukrainalle tai vaikkapa huono-onnisempaa ISO 8859-5-koodausta, tai sitten
>Windowsin windows-1251-koodausta. Kaikki nÃ¤mÃ¤ koodaukset olivat jo
>tÃ¤ysin ristiriidassa ASCII-merkistÃ¶n kanssa (vaikkapa KOI8 asetti
>kyrilliset merkit latinalaiseen aakkosjÃ¤rjestykseen, joten ASCIIksi
>tulkittunakin KOI8 vaikutti englantilaisittain translitteroidulta tekstiltÃ¤).
></p>
>
><p>
>Kaikki tÃ¤mÃ¤ on johtanut nyttemmin siihen, ettÃ¤ monikielinen, aakkostojakin
>sotkeva, kommunikaatio netitse on parhaimmillaankin ongelmallista. SittenpÃ¤
>yritetÃ¤Ã¤n siirtyÃ¤ Unicodeen.
></p>
>
></body>
></section>
><section>
><title>MikÃ¤ kumman unicode?</title>
><body>
>
><p>
>Unicode-jÃ¤rjestelmÃ¤ssÃ¤ luovuttiin tavurajoituksista merkistÃ¶koodauksille,
>sillÃ¤ jopa kaksitavuinenkin koodaus jÃ¤isi vain 65 536:een merkkiin rajoitetuksi.
>Vaikka tuo tuntuukin suurehkolta luvulta, se on todettu riittÃ¤mÃ¤ttÃ¶mÃ¤ksi
>kaikille kirjoitusmerkeille joita erikoisalat, kuten matematiikka, saattaisivat
>kÃ¤yttÃ¤Ã¤.
></p>
>
><p>
>Unicode-mÃ¤Ã¤ritykset muunnetaan tietokoneiden merksitÃ¶koodeiksi useilla tavoilla,
>mutta eniten kÃ¤ytÃ¶ssÃ¤ lienevÃ¤t <b>UTF</b> (engl. Unicode Transformation Format)
>ja <b>UCS</b> (engl. Universal Character Set). NÃ¤iden aliluokissa UTF:n
>perÃ¤Ã¤n merkitÃ¤Ã¤n bittien mÃ¤Ã¤rÃ¤ pienimmÃ¤ssÃ¤ merkkiesityksessÃ¤ ja UCS:n perÃ¤Ã¤n
>merkitÃ¤Ã¤n tavujen mÃ¤Ã¤rÃ¤ kaikissa merkkiesityksissÃ¤. UTF-8 on ehkÃ¤pÃ¤
>laajimmin levinnyt tapa koodata Unicode-merkkejÃ¤, ehkÃ¤pÃ¤ koska se on helpoiten
>yhteensopiva vanhojen 8-bittisten kanssa. Ja UTF-8 on myÃ¶s tÃ¤mÃ¤n dokumentin
>keskeisin aihe.
></p>
>
></body>
></section>
><section>
><title>UTF-8</title>
><body>
>
><p>
>UTF-8 koodaa merkit vaihtelevapituisiin jaksoihin, mikÃ¤ tÃ¤ssÃ¤ tapauksessa
>tarkoittaa, ettÃ¤ se kÃ¤yttÃ¤Ã¤ 1:stÃ¤ 4:Ã¤Ã¤n tavua merkkiÃ¤ kohden. Yksitavuiset
>merkit koodaavat ASCII-merkkejÃ¤ tÃ¤ysin alaspÃ¤in yhteensopivasti vanhan
>ASCII-merkistÃ¶n kanssa. TÃ¤mÃ¤n takia UTF-8:a ja ASCII:ta voi kÃ¤yttÃ¤Ã¤ tÃ¤ysin
>sekaisin kun pysytÃ¤Ã¤n ASCII-merkistÃ¶ssÃ¤. Suuri osa ItÃ¤-Aasialaisten
>ei-latinalaisten merkistÃ¶jen kÃ¤yttÃ¤jistÃ¤ ei pidÃ¤ UTF-8:aa hyvÃ¤nÃ¤ ratkaisuna,
>sillÃ¤ useimmiten siitÃ¤ aiheutuu jopa 50 %:n koon lisÃ¤ys tekstidataan.
></p>
>
></body>
></section>
><section>
><title>MitÃ¤ hyÃ¶tyÃ¤ UTF-8:sta on kÃ¤yttÃ¤jÃ¤lle?</title>
><body>
>
><p>
>UTF-8 mahdollistaa standardin omaiset kansainvÃ¤lisesti toimivat
>kÃ¤yttÃ¶ympÃ¤ristÃ¶t, suhteellisen pienellÃ¤ vaivalla. UTF-8 olisi paras tapa
>kÃ¤yttÃ¤Ã¤ ASCII-merkistÃ¶n ulkopuolisia merkkejÃ¤ netissÃ¤, meileissÃ¤, irkissÃ¤ ja
>muuallakin, mutta siltikin monissa paikoissa UTF-8:aa ei vielÃ¤ pidetÃ¤
>hyvÃ¤ksyttynÃ¤ tapana. Kannattaa yleensÃ¤kin ottaa selvÃ¤Ã¤ sopiiko UTF-8:aa kÃ¤yttÃ¤Ã¤
>irkkikanavalla, meililistalla tai Usenetin nyyssiryhmÃ¤ssÃ¤ ennen kuin Ã¤rsyttÃ¤Ã¤
>ihmisiÃ¤ sillÃ¤. KeskimÃ¤Ã¤rin sanottakoon, ettÃ¤ sekÃ¤ suomalaisilla irkkikanavilla,
>ettÃ¤ sfnetissÃ¤ vielÃ¤ vuonna 2005 on yleisehkÃ¶ kÃ¤ytÃ¤ntÃ¶ UTF-8:aa vastaan pikemmin
>kuin sen puolesta.
></p>
>
></body>
></section>
></chapter>
>
><chapter>
><title>UTF-8:n kÃ¤yttÃ¶ Gentoossa</title>
><section>
><title>Sopivien UTF-8-localejen lÃ¶ytÃ¤minen</title>
><body>
>
><p>
>Nyt kun tiedossa on Unicode-jÃ¤rjestelmÃ¤n perusteet, voidaan alkaa kÃ¤yttÃ¤mÃ¤Ã¤n
>UTF-8:aa jÃ¤rjestelmÃ¤ssÃ¤.
></p>
>
><p>
>Esiehtona UTF-8:n kÃ¤ytÃ¶lle on glibc kÃ¤Ã¤nnettynÃ¤ kielituin. Suositeltu tapa
>tehdÃ¤ tÃ¤mÃ¤ on asettaa tiedosto <path>/etc/locales.build</path>
>ja USE-flÃ¤gi <c>userlocales</c>. TÃ¤ssÃ¤ dokumentissa ei kerrota enempÃ¤Ã¤ tÃ¤stÃ¤
>prosessista, mutta se on hyvin dokumentoituna vaikkapa <uri
>link="/doc/fi/guide-localization.xml#doc_chap3_sect3"> Gentoon
>paikallisasetusoppaassa</uri>.
></p>
>
><p>
>Seuraavaksi pitÃ¤Ã¤ selvittÃ¤Ã¤ mikÃ¤ UTF-8 locale on saatavilla suomeksi, vai
>pitÃ¤Ã¤kÃ¶ luoda uusi:
></p>
>
><pre caption="UTF-8 localen etsiminen">
># <i>locale -a | grep 'fi_FI'</i>
>fi_FI
>fi_FI@euro
>fi_FI.iso88591
>fi_FI.iso885915@euro
>fi_FI.utf8
></pre>
>
><p>
>TÃ¤stÃ¤ tulosteesta voidaan helposti napata se kohta, jossa on pÃ¤Ã¤te
><c>.utf8</c>. Jollei mikÃ¤Ã¤n pÃ¤Ã¤te muistuta merkkijonoa
><c>.utf8</c>, pitÃ¤Ã¤ luoda uusi locale joka sisÃ¤ltÃ¤Ã¤ sen.
></p>
>
><note>
>Seuraava kannattaa suorittaa vain jos UTF-8-localea ei ole saatavilla.
></note>
>
><pre caption="UTF-8-localen luonti">
># <i>localedef -i fi_FI -f UTF-8 fi_FI.utf8</i>
></pre>
>
></body>
></section>
><section>
><title>Localen asettaminen</title>
><body>
>
><p>
>Vaikka joku saattaisi haluta kÃ¤yttÃ¤Ã¤ UTF-8:aa jÃ¤rjestelmÃ¤nlaajuisena,
>ei tÃ¤mÃ¤n oppaan kirjoittaja suosittele sitÃ¤ root-kÃ¤yttÃ¤jÃ¤n ympÃ¤ristÃ¶Ã¶n.
>Sen sijaan olisi parempi asettaa localetieto kÃ¤yttÃ¤jÃ¤n tiedostoon
><path>~/.profile</path> (tai C shellin kÃ¤yttÃ¤jille tiedostoon
><path>~/.login</path>).
></p>
>
><note>
>Jos et tiedÃ¤ mitÃ¤ tiedostoa kÃ¤yttÃ¤Ã¤, kokeile <path>~/.profile</path>a.
>Samoin jos et ole varma seuraavista koodilistauksista, kÃ¤ytÃ¤ Bourne
>shellin versiota.
></note>
>
><pre caption="Localen asettaminen ympÃ¤ristÃ¶Ã¶n Bourne shelleissÃ¤">
>export LANG="fi_FI.utf8"
></pre>
>
><pre caption="Localen asettaminen ympÃ¤ristÃ¶Ã¶n C shelleissÃ¤">
>setenv LANG "fi_FI.utf8"
></pre>
>
><p>
>Uloskirjautuminen ja takaisin sisÃ¤Ã¤nkirjautuminen saavat nuo ympÃ¤ristÃ¶muutokset
>voimaan, tai sitten on mahdollista kÃ¤yttÃ¤Ã¤ komentoa source tiedostoon
><path>~/.profile</path> tai <path>~/.login</path> konsolilta.
></p>
>
></body>
></section>
></chapter>
>
><chapter>
><title>Ohjelmistotuki</title>
><section>
><body>
>
><p>
>Unicoden alkuaikoina, monitavuiset merkistÃ¶koodaukset eivÃ¤t toimineet hyvin
>C:n tyyppisissÃ¤ ohjelmointikielissÃ¤, joita suuri osa tavallisimmista ohjelmista
>kÃ¤ytti. NykyÃ¤Ã¤nkÃ¤Ã¤n kaikki ohjelmat eivÃ¤t osaa UTF-8:aa ihan tÃ¤ydellisesti,
>onneksi valtaosa kuitenkin hallitsee jo sen.
></p>
>
></body>
></section>
><section>
><title>Tiedostonimet, NTFS ja FAT</title>
><body>
>
><p>
>KernelissÃ¤ on useita NLS-valintoja, mutta niistÃ¤ ei pidÃ¤ hÃ¤mÃ¤Ã¤ntyÃ¤! Enimmikseen
>pÃ¤rjÃ¤Ã¤, kun lisÃ¤Ã¤ UTF-8:n NLS-tukiin ja asettaa oletus-NLS:ksi utf8.
></p>
>
><pre caption="Kernelin asetukset UTF-8-tuelle">
>File Systems --&gt;
>  Native Language Support --&gt;
>    (utf8) Default NLS Option
>    &lt;*&gt; NLS UTF8
>    <comment>(Also &lt;*&gt; other character sets that are in use in
>    your FAT filesystems or Joilet CD-ROMs.)</comment>
></pre>
>
><p>
>Jos kÃ¤ytÃ¤t NTFS-osioita koneellasi, saattaa niille olla tarpeen
>antaa optio <c>nls=</c> liittÃ¤misen yhteydessÃ¤. LisÃ¤tietoja tÃ¤stÃ¤ lÃ¶ytyy
>mansivulta: <c>man mount</c>.
></p>
>
><p>
>Tiedostonimien koodauksen muuttamisessa <c>app-text/convmv</c> voi
>osoittautua nÃ¤ppÃ¤rÃ¤ksi.
></p>
>
><pre caption="Esimerkki convmv:n kÃ¤ytÃ¶stÃ¤">
># <i>emerge --ask app-text/convmv</i>
># <i>convmv -f koodaus -t utf-8 tiedostonimi</i>
></pre>
>
><p>
>Tiedostojen sisÃ¤ltÃ¶Ã¤ muutetaan vastaavasti vaikkapa <c>iconv</c>-sovellukella,
>joka tulee <c>glibc</c>:n mukana.
></p>
>
><pre caption="Esimerkki iconvin kÃ¤ytÃ¶stÃ¤">
><comment>(vaihda iso-8859-1 miksi koodaukseksi tahansa haluatkin)</comment>
><comment>(Tarkasta tuloste virheiltÃ¤)</comment>
># <i>iconv -f iso-8859-1 -t utf-8 filename</i>
><comment>(Tuloste pitÃ¤Ã¤ tehdÃ¤ ensin uuteen tiedostoon)</comment>
># <i>iconv -f iso-8859-1 -t utf-8 filename > newfile</i>
></pre>
>
><p>
><c>app-text/recode</c>a voi myÃ¶s kÃ¤yttÃ¤Ã¤ tÃ¤hÃ¤n hommaan.
></p>
>
></body>
></section>
><section>
><title>Konsoli</title>
><body>
>
><impo>
>Unicode toimii konsolilla vain sys-apps/baselayout-1.11.9:llÃ¤
>tai uudemmilla.
></impo>
>
><p>
>UTF-8-tuki saadaan konsolille asettamalla tiedostoon <path>/etc/rc.conf</path>
><c>UNICODE="yes"</c>, ja lukemalla muukin osa tiedostosta tarkkaan. Oikean
>fontin valinta on tÃ¤rkeÃ¤Ã¤ unicoden kÃ¤ytÃ¶lle.
></p>
>
><p>
>Tiedoston <path>/etc/conf.d/keymaps</path> asetuksessa <c>KEYMAP</c>
>pitÃ¤isi olla Unicode-nÃ¤ppÃ¤imistÃ¶kartta asetettuna. TÃ¤mÃ¤n saa aikaan lisÃ¤Ã¤mÃ¤llÃ¤
>-u nÃ¤ppÃ¤imistÃ¶kartan alkuun.
></p>
>
><pre caption="/etc/conf.d/keymapsin muokkaus">
>KEYMAP="-u fi-latin9"
></pre>
>
></body>
></section>
><section>
><title>Ncurses ja Slang</title>
><body>
>
><note>
>Ohita Slang tÃ¤ssÃ¤ osiossa jollet kÃ¤ytÃ¤ sitÃ¤ tai tarvitse sitÃ¤.
></note>
>
><p>
><c>Unicode</c> on hyvÃ¤ lisÃ¤tÃ¤ <path>/etc/make.conf</path>in USE-flÃ¤geihin,
>ja asentaa (uudelleen) <c>sys-libs/ncurses</c> ja <c>sys-libs/slang</c>
>jos tarpeellista:
></p>
>
><pre caption="ncursesin ja slangin asennus">
><comment>(Kirjastoja ei lisÃ¤tÃ¤ worldiin kun kÃ¤ytetÃ¤Ã¤n valitsinta --oneshot)</comment>
># <i>emerge --oneshot --verbose --ask sys-libs/ncurses sys-libs/slang</i>
></pre>
>
><p>
>TÃ¤mÃ¤n jÃ¤lkeen pitÃ¤Ã¤ myÃ¶s uudelleenasentaa ohjelmat jotka kÃ¤yttÃ¤vÃ¤t nÃ¤itÃ¤
>kirjastoja, jotta USE-muutokset tulevat kÃ¤ytetyiksi.
></p>
>
><pre caption="ncursesia ja slangia kÃ¤yttÃ¤vien ohjelmien uudelleenasentaminen">
># <i>revdep-rebuild --soname libncurses.so.5</i>
># <i>revdep-rebuild --soname libslang.so.1</i>
></pre>
>
></body>
></section>
><section>
><title>KDE, GNOME ja Xfce</title>
><body>
>
><p>
>Kaikki suuremmista tyÃ¶pÃ¶ytÃ¤ympÃ¤ristÃ¶istÃ¤ tukevat Unicodea tÃ¤ysin, eivÃ¤tkÃ¤
>tarvitse enempiÃ¤ asetuksia kuin mitÃ¤ on jo annettu. TÃ¤mÃ¤ seuraa siitÃ¤,
>ettÃ¤ graafisten ympÃ¤ristÃ¶jen ohjelmointikirjastot (Qt ja GTK+2) ovat
>UTF-8-yhteensopivia. Samoin kaikki Qt- ja Gtk+2-pohjaiset sovellukset
>tukevat nyt UTF-8:aa suoraan.
></p>
>
><p>
>Poikkeuksena tulevat Xlibin ja GTK+1:n pÃ¤Ã¤lle rakennetut ohjelmat. GTK+1
>tarvitsee iso-10646-1-fontin FontSpec-tyyppisenÃ¤ mÃ¤Ã¤rityksenÃ¤ tiedostoon
><path>~/.gtkrc</path>, kuten esimerkiksi:
><c>-misc-fixed-*-*-*-*-*-*-*-*-*-*-iso10646-1</c>.
>XlibiÃ¤ ja Xawia kÃ¤yttÃ¤vÃ¤t sovellukset tarvinnevat vastaavan asetuksen omiin
>asetuksiinsa, muutoin ne eivÃ¤t vÃ¤lttÃ¤mÃ¤ttÃ¤ toimi.
></p>
>
><note>
>Jos koneella on Gnome 1:n control center -sovellus, sitÃ¤ voi kÃ¤yttÃ¤Ã¤ fontin
>muuttamiseen huomattavasti helpommin: tarvitsee vain valita iso10646-1 listasta.
></note>
>
><pre caption="Unicode-fontin lisÃ¤ys ~/.gtkrc:hen (GTK+1:Ã¤ varten)">
>style "user-font"
>{
>    fontset="-misc-fixed-*-*-*-*-*-*-*-*-*-*-iso10646-1"
>}
>widget_class "*" style "user-font"
></pre>
>
><p>
>Jos sovelluksessa on sekÃ¤ Qt ettÃ¤ GTK+2 -tuet, GTK+2-tuki antaa paremman
>lopputuloksen Unicoden kanssa.
></p>
>
></body>
></section>
><section>
><title>X11 ja fontit</title>
><body>
>
><impo>
><c>x11-base/xorg-x11</c> tukee Unicodea paremmin kuin
>XFree86 ja on <e>erittÃ¤in</e> suositeltava ratkaisu tÃ¤ssÃ¤
>tapauksessa.
></impo>
>
><p>
>Truetype-fonteissa on sinÃ¤nsÃ¤ jo tuki Unicodelle, ja useimmisa Xorgin mukana
>tulevissa fonteissa on suhteellisen kattava valikoima. TietenkÃ¤Ã¤n kaikkia
>Unicoden merkkejÃ¤ ei ole helposti kÃ¤sillÃ¤ perusfonteissa. Joihinkin fontteihin
>(mukaanlukien Bitstream Verat) tuen ItÃ¤-Aasialaisiin merkistÃ¶ihin X:ll saa
>asettamalla <c>cjk</c>-USE-flÃ¤gin. Monet ohjelmistotkin kÃ¤yttÃ¤vÃ¤t tÃ¤tÃ¤
>flÃ¤giÃ¤, joten saattaa olla kannatavaa merkitÃ¤ se yleisiin USE-asetuksiin, jos
>sitÃ¤ tarvitsee.
></p>
>
><p>
>Useat fonttipaketit Portagessa sisÃ¤ltÃ¤vÃ¤t Unicodea:
></p>
>
><pre caption="Vaihtoehtoista: muiden Unicode-fonttien asennus">
># <i>emerge terminus-font intlfonts freefonts cronyx-fonts corefonts</i>
></pre>
>
></body>
></section>
><section>
><title>Ikkunointimanagerit ja terminaaliemulaattorit</title>
><body>
>
><p>
>MyÃ¶s ikkunointimanagerit jotka eivÃ¤t pohjaudu GTK:hon tai Qt:hen sisÃ¤ltÃ¤vÃ¤t
>hyvÃ¤n Unicode-tuen, ja usein kÃ¤yttÃ¤vÃ¤t Xft-kirjastoa fonttien kÃ¤sittelyyn.
>Ne ikkunointimanagerit, jotka eivÃ¤t kÃ¤ytÃ¤ Xft:tÃ¤, saattavat silti toimia
>aiemmin mainituilla FontSpec-asetuksilla Unicode-fonteille.
></p>
>
><p>
>Terminaaliemulaattoreit Xft-tuella ja Unicode-tuella on hieman hankalampi
>lÃ¶ytÃ¤Ã¤. Konsolen ja gnome-terminalin lisÃ¤ksi hyviÃ¤ valintoja Portagessa ovat
><c>x11-terms/rxvt-unicode</c>, <c>xfce-extra/terminal</c>,
><c>app-gnustep/terminal</c>, <c>x11-terms/mlterm</c>, <c>x11-terms/mrxvt</c> tai
>vanha kunnon <c>x11-terms/xterm</c> <c>unicode</c>-USE-flÃ¤gillÃ¤ varustettuna.
>Xterm saattaa pitÃ¤Ã¤ kÃ¤ynnistÃ¤Ã¤ komennolla <c>uxterm</c>.
><c>app-misc/screen</c> tukee myÃ¶s UTF-8:aa:
><c>screen -u</c> kÃ¤ynnistÃ¤Ã¤ UTF-8-tilan, tai
>sen voi myÃ¶s lisÃ¤tÃ¤ asetustiedostoon
><path>~/.screenrc</path>:
></p>
>
><pre caption="~/.screenrc:n asettaminen UTF-8:aa varten">
>defutf8 on
></pre>
>
></body>
></section>
><section>
><title>Vim, Emacs, Xemacs ja Nano</title>
><body>
>
><p>
>Vim, Emacs ja Xemacs sisÃ¤ltÃ¤vÃ¤t tÃ¤yden UTF-8-tuen, ja pystyvÃ¤t automaattisesti
>tunnistamaan jotkin UTF-8-tiedostot. Vimin UTF-8-tuesta saa lisÃ¤tietoa
>komennolla <c>:help
>mbyte.txt</c>.
></p>
>
><p>
>Nanossa ei ole tÃ¤llÃ¤ hetkellÃ¤ mitÃ¤Ã¤n UTF-8-tukea, mutta se on ollut
>suunnitteilla jonkin aikaa. TÃ¤mÃ¤ tullee muuttumaan siis tulevaisuudessa, itse
>asiassa tÃ¤mÃ¤nhetkisessÃ¤ CVS-versiossa on jo UTF-8-tuki, ja hyvÃ¤llÃ¤ tuurilla
>se sisÃ¤ltyy seuraavaan julkaisuversioon.
></p>
>
></body>
></section>
><section>
><title>Shellit</title>
><body>
>
><p>
>Nykyisin <c>bash</c> sisÃ¤ltÃ¤Ã¤ tÃ¤yden Unicode-tuen GNUn readline-kirjaston
>kautta. Z shellin kÃ¤yttÃ¤jillÃ¤ tilanne on huonompi, yhtÃ¤Ã¤n Unicode-tukea
>ei lÃ¶ydy nykyisistÃ¤ versioista, mutta monitavuisten merkkien kÃ¤sittelytukea
>tyÃ¶stetÃ¤Ã¤n tÃ¤llÃ¤ hetkellÃ¤.
></p>
>
><p>
>C shellissÃ¤, <c>tcsh</c>:ssa ja <c>ksh</c>:ssa ei ole mitÃ¤Ã¤n
>UTF-8-tukea tÃ¤llÃ¤ hetkellÃ¤.
></p>
>
></body>
></section>
><section>
><title>Irssi</title>
><body>
>
><p>
>Irssi tukee UTF-8:aa tÃ¤ysin, tosin se vaatii erillisen asetuksen:
></p>
>
><pre caption="UTF-8-tuen lisÃ¤Ã¤minen irssiin">
>/set term_charset UTF-8
></pre>
>
><p>
>Kanavilla joissa kÃ¤ytetÃ¤Ã¤n monia merkistÃ¶jÃ¤, <c>/recode</c>-komento auttaa
>merkkimuunnoksissa. LisÃ¤tietoa tÃ¤stÃ¤ saa komennolla <c>/help recode</c>.
></p>
>
></body>
></section>
><section>
><title>Mutt</title>
><body>
>
><p>
>Muttissa on hyvÃ¤ Unicode-tuki. UTF-8:n saa pÃ¤Ã¤lle
>lisÃ¤Ã¤mÃ¤Ã¤llÃ¤ <path>~/.muttrc</path>:hen seuraavaa.
></p>
>
><pre caption="~/.muttrc:n muokkaaminen UTF-8-yhteensopivaksi">
>set send_charset="utf8" <comment>(lÃ¤hetysten merkistÃ¶koodaus)</comment>
>set charset="utf8"      <comment>(nÃ¤ytÃ¶n merkistÃ¶koodaus)</comment>
></pre>
>
><note>
>TÃ¤mÃ¤nkin jÃ¤lkeen meileissÃ¤ saattaa esiintyÃ¤ ?:jÃ¤, ja se yleensÃ¤ johtuu
>jonkin vanhemman Latin-merkistÃ¶n (ISO 8859) kÃ¤ytÃ¶stÃ¤. Saattaa olla kannattavaa
>opastaa muita kÃ¤yttÃ¤mÃ¤Ã¤n UTF-8-postituksia ja osoittaa heille
>IETF RFC 2277 luettavaksi (viiteluettelo on dokumentin lopussa).
>Huomaa kuitenkin, ettÃ¤ erityisesti monilla postituslistoilla UTF-8 ei ole
>hyvÃ¤ksytty vaihtoehto. Kannattaa siis aina etukÃ¤teen varmistaa sopiva
>merkistÃ¶koodaus postituksiin ennen kuin kÃ¤yttÃ¤Ã¤ UTF-8:aa.
></note>
>
><p>
>LisÃ¤tietoa aiheesta on <uri
>link="http://wiki.mutt.org/index.cgi?MuttFaq/Charset"> Mutt WikiWikissÃ¤</uri>.
></p>
>
></body>
></section>
><section>
><title>Testaaminen</title>
><body>
>
><p>
>NetissÃ¤ on lukuisia UTF-8-testisivustoja. <c>net-www/w3m</c>,
><c>net-www/links</c>, <c>net-www/elinks</c>, <c>net-www/lynx</c> ja
>Mozilla-pohjaiset selaimet tukevat UTF-8:aa, kuten Konquerorkin.
></p>
>
><p>
>Tekstipohjaisissa selaimissa tulee kuitenkin varmistaa, ettÃ¤ myÃ¶s terminaali
>on Unicode-yhteensopiva.
></p>
>
><p>
>Jos jotkin merkeistÃ¤ nÃ¤kyvÃ¤t laatikkoina, joissa on ehkÃ¤ numeroita ja kirjaimia
>sisÃ¤llÃ¤, se tarkoittaa, ettÃ¤ fonteista puuttuu vastaava merkki, ja laatikossa
>on merkin UTF-8-koodi.
></p>
>
><ul>
>  <li>
>    <uri link="http://www.w3.org/2001/06/utf-8-test/UTF-8-demo.html">W3C:n
>    UTF-8 testsivu</uri>
>  </li>
>  <li>
>    <uri link="http://titus.uni-frankfurt.de/indexe.htm?/unicode/unitest.htm">
>    Frankfurtin yliopiston UTF-8-testisivu</uri>
>  </li>
></ul>
>
></body>
></section>
><section>
><title>TekstinsyÃ¶ttÃ¶</title>
><body>
>
><p>
><e>Kuolleet nÃ¤ppÃ¤imet</e> (engl. dead keys) auttavat joidenkin merkkien
>muodostamista nÃ¤ppÃ¤imistÃ¶ltÃ¤. NÃ¤mÃ¤ toimivat niin, ettÃ¤ nÃ¤ppÃ¤imistÃ¶ltÃ¤ syÃ¶tetÃ¤Ã¤n
>jokin kuolleista merkeistÃ¤, kuten suomalaisen standardinÃ¤ppÃ¤imistÃ¶n enterin
>ja backspacen vasemmalla puolella olevat merkit, ja perÃ¤Ã¤n jokin
>aakkosnumeerinen merkki, niin alussa syÃ¶tetty merkki muuttaa jÃ¤ljempÃ¤nÃ¤
>syÃ¶tetyn. NÃ¤in voidaan lisÃ¤tÃ¤ vaikkapa aksentteja latinalaisiin aakkosiin
>tai kirjoittaa potenssiin korotettuja numeroita Unicode-tyyliin.
></p>
>
><p>
>Kuolleiden nÃ¤ppÃ¤inten toiminta riippuu kÃ¤ytetystÃ¤ nÃ¤ppÃ¤inkartoista.
>Useimmissa eurooppalaisissa ne ovat oletusarvoisesti mukana.
>Pohjois-Amerikkalaisissahan nÃ¤itÃ¤ ei kuitenkaan ole. Helpoiten tÃ¤mÃ¤n saa
>kuitenkin amerikanenglantilaiseen nÃ¤ppÃ¤inkarttaan kÃ¤yttÃ¤mÃ¤llÃ¤ en_US-karttaa
>us-kartan asemesta, esimerkiksi
><path>/etc/X11/xorg.conf</path>issa.
></p>
>
><pre caption="/etc/X11/xorg.conf">
>Section "InputDevice"
>    Identifier "Keyboard0"
>    Driver     "kbd"
>    Option     "XkbLayout" "fi"
>    <comment>(Muita Xkb-asetuksia tarvittaessa)</comment>
>EndSection
></pre>
>
><p>
>TÃ¤mÃ¤ muutos tulee voimaan X:n uudelleenkÃ¤ynnistyksessÃ¤. Sen voi myÃ¶s ottaa
>kÃ¤yttÃ¶Ã¶n heti <c>setxkbmap</c>-komennolla: <c>setxkbmap fi</c>.
></p>
>
><p>
>TÃ¤ssÃ¤ vielÃ¤ muutamia esimerkkejÃ¤ kuolleista nÃ¤ppÃ¤imistÃ¤. Vaikka nÃ¤mÃ¤
>vaihtelevatkin eri nÃ¤ppÃ¤inasetuksilla, kÃ¤ytÃ¤ntÃ¶ on yleensÃ¤ sama.
></p>
>
><p>
>Painamalla ensin backspacen vasemmalla puolella olevaa
>kuollutta aksenttia  Â´ ja
>sitten aata, saadaan Ã¡. Painamalla samaa aksenttia  Â´ ja eetÃ¤ saadaan
>vastaavasti Ã©. ShiftillÃ¤ saadaan gravis-aksentti  Ì  ja sen voi yhdistÃ¤Ã¤
>vastaavasti vaikka oohon Ã².
></p>
>
><p>
>Painamalla AltGr ja backspacen vasemmalla puolella olevaa aksenttinÃ¤ppÃ¤intÃ¤
>saadaan kuollut caron Â¸ , jota voi kÃ¤yttÃ¤Ã¤ vaikkapa ranskassa: Ã§. Jos
>samaa kuollutta nÃ¤ppÃ¤intÃ¤ paina kahdesti, tai yhdistÃ¤Ã¤ vÃ¤lilyÃ¶ntiin, saa
>aikaan pelkÃ¤n aksentin tai tarkkeen, kuten akuutit ja gravikset edellÃ¤,
>kannattaa kuitenkin huomata, ettÃ¤ tÃ¤llaisia merkkejÃ¤ ei yleensÃ¤ kÃ¤ytetÃ¤
>tekstissÃ¤ vaikka ne nÃ¤yttÃ¤isivÃ¤t samalta kuin jokin muu symboli, esimerkiksi
>kaksi aksenttia ei korvaa lainausmerkkiÃ¤ eikÃ¤ ruotsalaisen Ã¥Ã¥n rengas sovi
>astemerkiksi.
></p>
>
><p>
>MyÃ¶s AltGr:n avulla saadaan aikaan hyvin paljon merkkejÃ¤, esimerkiksi
>suomalaisessa nÃ¤ppÃ¤imistÃ¶ssÃ¤ hattu-s Å¡ tulee AltGr+s yhdistelmÃ¤stÃ¤, ja hattu-z Å¾
>vastaavasti AltGr+z. Ãng-Ã¤Ã¤nteen merkki Å on geen alla ja mikron
>myy Âµ on Ã¤mmÃ¤ssÃ¤.
></p>
>
></body>
></section>
><section>
><title>ViitteitÃ¤</title>
><body>
>
><ul>
>  <li>
>    <uri link="http://fi.wikipedia.com/wiki/Unicode">Wikipedian
>    Unicode-artikkeli</uri>
>  </li>
>  <li>
>    <uri link="http://fi.wikipedia.com/wiki/UTF-8">Wikipedian
>    UTF-8-artikkeli</uri>
>  </li>
>  <li><uri link="http://www.unicode.org">Unicode.org</uri></li>
>  <li><uri link="http://www.utf-8.com">UTF-8.com</uri></li>
>  <li><uri link="http://www.ietf.org/rfc/rfc3629.txt">RFC 3629</uri></li>
>  <li><uri link="http://www.ietf.org/rfc/rfc2277.txt">RFC 2277</uri></li>
></ul>
>
></body>
></section>
></chapter>
></guide>

Actions: View

Attachments on bug 81159: 50658