Skolelinux: Informasjon om norsk locale

Premissleverandører

Referanser

Relaterte dokumenter

Dette dokumentet er en diskusjon rundt hvordan locale for bokmål og nynorsk i GNU libc (glibc) skal være. I slutten av 2002 ble det oppdaget at locale (no_NO og nn_NO) som fulgte med glibc hadde mange feil, og at disse burde korrigeres for å få skikkelig støtte for norsk. Et problem som må løses er at det finnes flere retningslinjer for hvordan dette skal være på norsk, og noen av dem er i strid med hverandre. Dette dokumentet forsøker å samle informasjon om disse retningslinjene, og tilslutt konkludere med et valg mellom disse som kan brukes i glibc.

Formattering av tall (LC_NUMERIC)

Det er i allefall tre variable i et locale som påvirker formattering av tall. Den ene er desimalskilletegn (decimal_point), den andre er skilletegnet mellom grupper av tall (thousands_sep), og det siste er hvor mange siffer som skal være i hver gruppe (grouping).

Det er enighet om at komma (, U+002C) er desimalskilletegnet på norsk. Det er også enighet om at det er tre siffer i hver gruppe på norsk.

Det er strid om hvilket skilletegn som skal brukes mellom gruppene. Noen hevder det skal være mellomrom (SPACE U+0020 eller NO-BREAK SPACE U+00A0), andre mener det skal være punktum (.). Argumentet for å bruke punktum er at det blir enklere for programmer å lese inn tall hvis de henger sammen uten mellomrom. Argumentet for å bruke NO-BREAK SPACE i stedet for SPACE er at tall ikke bør splittes i to ved automatisk tekstformattering.

Retningslinjene fra Språkrådet

Språkrådet anbefaler at en bruker mellomrom mellom gruppene. De skriver i sine retningslinjer for tall:

Store tall ordner vi i grupper på tre og tre siffer. Det skal ikke være punktum noe sted.
2 500 000 passasjerer
4 500 800 kroner
2 500 biler
0,003 02

Jan Hoel i Språkrådet har anbefalt at en bruker NO-BREAK SPACE hvis det er mulig for å unngå at tallene deles ved automatisk tekstformattering.

Retningslinjene fra Norsk Standardiseringsforbund (NSF)

Nina Zandjani ved NFS melder at de anbefaler at en følger formatteringen som gis i punkt 6.6.8 i "ISO/IEC Directives, Part 2 - Rules for the structure and drafting of International Standards":

6.6.8 Representation of numbers and numerical values

6.6.8.1 The decimal sign shall be a comma on the line in all language versions.

6.6.8.2 If a value less than 1 is written in decimal form, the decimal sign shall be preceded by a zero.
EXAMPLE 0,001

6.6.8.3 Each group of three digits reading to the left or to the right of a decimal sign shall be separated by a space from preceding digits or following digits respectively, except for fourdigit numbers designating years.
EXAMPLE 23 456
2 345
2,345
2,345 6
2,345 67
but the year 1997

6.6.8.4 For clarity, the symbol × rather than a point shall be used to indicate multiplication of numbers and numerical values.
EXAMPLE Write 1,8 × 10?3 (not 1,8 . 10?3 or 1,8 · 10?3)

6.6.8.5 To express values of physical quantities, Arabic numerals followed by the international symbol for the unit (see ISO 31, ISO 1000 and IEC 60027) shall be used.

Microsoft Windows XP

123 456 789,00

Forslag til formattering

Det er i praksis tre alternativer:
123.456.789
123 456 789 (med SPACE)
123 456 789 (med NO-BREAK SPACE)

Formattering av pengebeløp (LC_MONETARY)

Formattering av pengebeløp har en rekke forskjellige variabler. Så vidt jeg vet er det enighet om disse, så jeg går ikke i detaljer. Tallene skal formatteres som for vanlige tall. I tillegg skal myntenheten fylles inn. Positive pengebeløp skrives som 'kr 42,00', og negative pengebeløp skrives som 'kr -42,00'.

Det er usikkerhet om en skal bruke bindestrek (-) eller minustegnet (− U+2212) for å indikere negative tall.

Microsoft Windows XP

kr 123 456 789,00

Dato- og tidsframvisning (LC_TIME)

For dato og tid har et locale i allefall følgende felter:

Det er enighet om at uken starter på mandag, og at dette er første arbeidsdag. Det er også enighet om at Norsk/Norge bruker 24-timers klokke, og at am_pm derfor skal være blank.

Tidssone bør oppgis relativt til UTC, dvs. som '+0200' for norsk tidssone.

Det er ikke strid om fullt navn for ukedager og måneder. Det er strid om hvordan disse skal forkortes. Det er usikkerhet om det er viktig at forkortelsene er like lange.

Retningslinjene fra Språkrådet

Språkrådet har lagt ut følgende om forkortelser av ukedager og måneder:

Alle månedsforkortingene er på tre bokstaver pluss punktum. Mars, april, mai, juni og juli forkortes ikke. Dagene forkortes med to bokstaver pluss punktum.

På bokmål blir dermed abday "ma. ti. on. to. fr. lø. sø.", og abmon "jan. feb. mars april mai juni juli aug. sep. okt. nov. des."

Når det gjelder formatering av datoer har Språkrådet fastslått rekkefølgen "dag måned år", og anbefaler 13.1., 13.01., 13.1.99, 13.01.99, 13.1.1999, 13.01.1999, 13. januar 99 eller 13. januar 1999.

Når det gjelder formattering av klokkeslett, så skriver språkrådet følgende:

Når det gjelder hele timer, bruker vi sifrene fra 0 til 24: kl. 9, kl. 14.

Skal vi ha med minutt-tallet, kan vi bruke fire siffer uten punktum: kl. 0905, kl. 1400, kl. 2105. Alternativt kan vi bruke punktum: kl. 09.05, kl. 14.00, kl. 21.05. Dersom vi bruker punktum, kan nullen foran timetallet sløyfes: kl. 9.05.

Skal klokkeslettet oppgis helt nøyaktig med både minutter, sekunder og tidels sekunder, setter vi punktum mellom time og minutt, og mellom minutt og sekund ? og komma foran ev. tidels sekund: kl. 14.05.02,3.

Retningslinjene fra Norsk Standardiseringsforbund

Microsoft Windows XP

Klokkeslett: 11:06:38

Kort datoformat: 07.04.2003

Langt datoformat: 7. april 2003

Forslag til formattering

Formattering av forkortelser

Formattering av dato

Formattering av klokkeslett

Sorteringsregler (LC_COLLATE)

I utgangspunktet er sorteringsrekkefølgen for det norske alfabetetet følgende:

a b c d e f g h i j k l m n o p q r s t u v w x y z æ ø å

Spørsmål vi må ha svar på:

Retningslinjene fra Norwegian Bokmål language locale for Norway from NTC

Clause 1: Alphanumeric deterministic ordering

Ordering in Norwegian Bokmål is defined in Norwegian Standard NS 4103, 1972.

Normal <a> to <z> ordering is used on the Latin script, except for the following letters: The letters <æ> <ø> <å> are ordered as 3 separate letters after <z>. <ü> is ordered as <y>, <ä> as <æ>, <ö> as <ø>, <ð> as <d>, <þ> as <t><h>, French <œ> as <o><e>. Two <a>s are ordered as <å>, except when denoting two sounds (which is normally the case only in combined words). When words otherwise compare equally, nonaccented letters come before accented letters, and capital letters come before small letters. There is no explicit ordering of accents specified in "Tanums store rettskrivningsordbok", and whether case or accents are the most important is not specified.

Both strict alphabetical ordering, and word-by-word ordering are in use. Also ordering after context, keeping related terms together, is used.

Retningslinjene fra telefonkatalogen for Oslo

Dette sitatet er hentet fra side 3 i telefonkatalogen i Oslo 2002, under tittelen "Alfabetisering".

Telefonabonnentene er alfabetisk oppført innenfor hver kommune/abonnentsliste. Etternavn eller firmanavn er første innplasseringsord. Er etternavnene like, er fornavn neste sorteringskriterium. Ero også fornavnene like, er tittel eller yrke neste sorteringsledd. Er alle disse leddene i en oppføring like, er det adressen som avgjør rekkefølgen. Navn uten tittel står forran samme navn med tittel.

Navn som er skrevet med «aa» og uttales «å» står sammen med navn skrevet med «å». Når «aa» uttales som «lang a», er navnet å finne på alfabetisk plass forran ord skrevet med «enkel a». Ü står sammen med y, og ä står sammen med æ. Sammensatte personnavn uten bindestrek, dvs. dobbeltnavn (F.eks. Bank Pettersen), er vanligvis ført opp på det siste leddet i navnet, mens navn med bindestrek (Pettersen-Røst) er ført opp på det første leddet i dobbeltnavnet. Det tas ikke hensyn til bindeordene «og», «&» eller «et», og heller ikke til bindestrek («-») ved alfabetiseringen.

Navn i eieform, f.eks. Lunds, er plassert strengt alfabetisk og kan derfor komme lagt etter navn uten genitics-s (Lundar, Lundberg, Lunde kommer f.eks. imellom Lund og Lunds).

Navn skrevet med tall, f.eks. 3M, blir alfabetisk plassert slik de blir uttalt (treM).


Petter Reinholdtsen
Last modified: Thu May 29 14:43:32 CEST 2003