Informationen zur Zeichenkodierung

Der neue Standardzeichensatz bei Accounts am Mathematischen Institut ist nun UTF-8.

Was sind die Vorteile von Unicode gegenüber 8-Bit-Zeichenkodierungen (wie z. B. Latin1)?

8-Bit-Zeichensätze beinhalten nur eine kleine Anzahl an Zeichen, weswegen es für jede Region dieser Welt einen eigenen Zeichensatz gibt, um die jeweiligen Schriftzeichen darstellen zu können.
Daraus resultieren folgende Probleme:

  • Es können in Textdateien nur Zeichen einer Region (z. B. deutsche Umlaute) verwendet werden.
  • Der Austausch von Dateien kann Schwierigkeiten bereiten, wenn unklar ist, welcher Zeichensatz verwendet wurde. (Streng genommen gilt dies auch für UTF-8, allerdings gibt es Möglichkeiten diesem Problem aus dem Weg zu gehen.)

Aus diesem Grund wurde ein Zeichensatz geschaffen, der alle Zeichen beinhalten soll: Unicode. Für die Kodierung dieser Zeichen (für Computer) wird häufig UTF-8 verwendet.

Welchen Nutzen bringt die Umstellung auf UTF-8?

Offensichtlich werden die Limitierungen von 8-Bit-Zeichensätzen aufgehoben, doch gibt es weitere Gründe für die Umstellung:

  • Mac OS X und (neuere) Linux-Distributionen verwenden standardmäßig UTF-8 als Zeichensatz. Durch die Umstellung Ihrer Daten wird es für Sie somit einfacher, Dateien vom Mathematischen Institut mit Ihren eigenen Geräten auszutauschen – in der Vergangenheit mussten Sie unter Umständen Dateien umkodieren, bevor sie richtig dargestellt wurden.
  • Es gibt schon jetzt Programme, die nur noch Unicode unterstützen (Latin1-Zeichen werden kaputt dargestellt, oder verhindern sogar den korrekten Programmdurchlauf). Es ist zu erwarten, dass die Anzahl dieser Programme zunehmen wird.

Für welche Dateitypen spielt die Zeichenkodierung eine Rolle?

Generell Textdateien, dazu zählen unter anderem auch: LaTeX-Dokumente, HTML und Programmcode (z. B. in C). Nicht dazu zählen Open-/Libre-/MS-Office-Dokumente und PDF-Dateien.

Befehle zum (händischen) Konvertieren von Dateien

Anzeige der aktuellen Dateikodierung:
file -i Datei
Das Ergebnis könnte z. B. folgendermaßen aussehen:
UTF-8: Datei: text/plain; charset=utf-8
Latin1: Datei: text/plain; charset=iso-8859-1
Wenn das Ergebnis charset=ascii enthält sind keine Umlaute enthalten und die Datei muss nicht gewandelt werden.
Wenn das Ergebnis charset=unknown-8bit enthält ist die Wahrscheinlichkeit groß, dass sich sowohl Latin1- als auch UTF-8-Zeichen in der Datei befinden. Falls Sie das Problem nicht selbst beheben können hilft Ihnen der Support gerne weiter.

Konvertieren von Dateiinhalten:
Latin1 nach UTF-8: iconv -f latin1 -t utf8 Datei > NeueDatei
UTF-8 nach Latin1: iconv -f utf8 -t latin1 Datei > NeueDatei
Bitte achten Sie darauf, dass es sich bei der Eingabedatei (Datei) und der Ausgabedatei (NeueDatei) um verschiedene Dateinamen handelt, weil sonst die Chance groß ist, dass Ihre Datei korrumpiert wird.

Konvertieren von Dateinamen und Ordnern:
Latin1 nach UTF-8: convmv -f latin1 -t utf8 --notest Datei[en]
UTF-8 nach Latin1: convmv -f utf8 -t latin1 --notest Datei[en]

Konvertieren von LaTeX-Dateien:
Zunächst konvertieren Sie Dateiinhalt (siehe oben).
Danach reicht es in der Regel die Zeile \usepackage[latin1]{inputenc} durch \usepackage[utf8]{inputenc} zu ersetzen.
Falls das nicht funktionieren sollte wenden Sie sich bitte an den Support.

Umlaute werden in einer Datei falsch dargestellt, was ist zu tun?

Bitte ändern Sie zunächst nichts an der Datei und vor allem speichern diese auch nicht ab, da sie davon korrumpiert werden könnte.
Viele Editoren erkennen aufgrund von Heuristiken, welcher Zeichensatz verwendet wird. Das klappt allerdings nicht immer, bzw. nicht mit jedem Editor. In diesem Fall müssen Sie den Zeichensatz für das Dokument händisch in Ihrem Editor einstellen -- meistens werden Sie mit der Auswahl UTF-8 oder Latin1 (bzw. ISO-8859-1, ISO-8859-15) den Zeichensatz richtig einstellen können. Falls das nicht klappen sollte, dann hilft Ihnen der Support gerne weiter.

Umlaute werden im Dateimanager dolphin falsch dargestellt und lassen sich nicht öffnen/bearbeiten, was ist zu tun?

Leider haben viele KDE-Programme einen Fehler, sodass es nicht möglich ist Dateien mit anderer Zeichenkodierung im Dateinamen zu öffnen, bearbeiten oder umzubenennen.
Auf der Kommandozeile können Sie Dateinamen, wie weiter oben beschrieben, mit convmv konvertieren, woraufhin es wieder möglich sein sollte mit den Dateien zu arbeiten. Alternativ ist der grafische Dateimanager thunar installiert, mit dem Sie händisch diese Dateien umbenennen können.
Weiterhin betrifft das Fehlverhalten auch das Entpacken von Archiven, die Dateien mit Umlauten im Namen beinhalten. Bitte verwenden Sie hierfür beim Entpacken das Programm file-roller.
Falls diese Lösungen nicht klappen sollte, dann hilft Ihnen der Support gerne weiter.