auf UTF-8 umsteigen, Folgen?

classic Classic list List threaded Threaded
51 messages Options
123
Reply | Threaded
Open this post in threaded view
|

auf UTF-8 umsteigen, Folgen?

Peter Jordan-2
Hallo,

ich bekomme in der nächsten Zeit einen neuen Computer und überlege auf
den Zeichensatz UTF-8 umzusteigen.

Nun habe ich aber von meinem alten System tausende Dateien die mit
normalen ISO-8859-15 codiert sind.

Was hat es jetzt für Folgen, wenn ich meine Dateien auf den neuen
Rechner kopiere? Was muss man beachten?

Was passiert beispielsweise mit meinen Mails in meinem Thunderbirdkonto?

Vielen Dank für Antworten,

Peter


--
Haeufig gestellte Fragen und Antworten (FAQ):
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [hidden email]
mit dem Subject "unsubscribe". Probleme? Mail an [hidden email] (engl)

Reply | Threaded
Open this post in threaded view
|

Re: auf UTF-8 umsteigen, Folgen?

Ulrich Fürst-2
Peter Jordan <[hidden email]> wrote:
>
> Nun habe ich aber von meinem alten System tausende Dateien die mit
> normalen ISO-8859-15 codiert sind.

Wenn Du in Text-Dateien Umlaute hast musst Du die umändern (lassen).
Für die Config-Dateien sollte das kein Problem darstellen, weil ja
eigentlich alles auf englisch ist und somit keine Umlaute enthalten.
Zumindest habe ich bei mir da keine Probleme festgestellt (mit evtl.
vorkommenden anderen Sonderzeichen).

Je nachdem was Du so installiert hast können natürlich noch Probleme
auftreten. KDE interressiert sich z. B. weder für die .bashrc noch
für .profile etc. Manche Programme benötigen extra Optionen. Mein Gimp
braucht z. B.
cat /etc/environment
# Fuer Gimp
export G_FILENAME_ENCODING=UTF-8
[...]
Es gibt zumindest in sarge auch Programme, die gar nicht mit UTF-8
können. Der dort enthaltene Sylpheed-Claws MUA bleistiftsweise.

> Was passiert beispielsweise mit meinen Mails in meinem
> Thunderbirdkonto?

Die Mails haben ja den Zeichensatz der verwendet wurde im Header stehen
(sollte zumindest so sein). Das dürfte also kein Problem sein. Falls
ich mich da irre, bitte korrigieren.


Ulrich

Reply | Threaded
Open this post in threaded view
|

Re: auf UTF-8 umsteigen, Folgen?

Andreas Pakulat-3
On 11.07.06 19:22:03, Ulrich Fürst wrote:
> Peter Jordan <[hidden email]> wrote:
> >
> > Nun habe ich aber von meinem alten System tausende Dateien die mit
> > normalen ISO-8859-15 codiert sind.
>
> Wenn Du in Text-Dateien Umlaute hast musst Du die umändern (lassen).

Noe muss man nicht, jedenfalls solange man einen vernuenftigen Editor
verwendet. Der kann mit etwas Magie u.U. die Kodierung feststellen und
dann fuers Editieren/Anzeigen das ganze intern Umkodieren und beim
Abspeichern wieder in latin9 ablegen. Vim kann das, KDE's kate/kwrite
ebenso. Evtl. muss man ihm sagen welche Kodierung die Datei hat, wenn
Umlaute kaputt sind (aka die Magie hat nicht funktioniert).

> Je nachdem was Du so installiert hast können natürlich noch Probleme
> auftreten. KDE interressiert sich z. B. weder für die .bashrc noch
> für .profile etc.

KDE hat damit ja auch nun ueberhaupt nichts zu tun. Die Shells die
Konsole startet lesen uebrigens sehr wohl .bashrc aus.

Was das einloggen betrifft: kdm aus testing/unstable liest auch die
Shell-Configs, nicht nur .profile/.bashrc auch .zsh und was es sonst
noch gibt.

> Manche Programme benötigen extra Optionen. Mein Gimp
> braucht z. B.
> cat /etc/environment
> # Fuer Gimp
> export G_FILENAME_ENCODING=UTF-8

Komisch, hier brauchts das nicht. Aber s.o. ich fahre auch unstable,
moeglich das der schon etwas besser ist als der aus Sarge.

Andreas

--
A vivid and creative mind characterizes you.


--
Haeufig gestellte Fragen und Antworten (FAQ):
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [hidden email]
mit dem Subject "unsubscribe". Probleme? Mail an [hidden email] (engl)

Reply | Threaded
Open this post in threaded view
|

Re: auf UTF-8 umsteigen, Folgen?

Kai Hildebrandt
In reply to this post by Peter Jordan-2
Hey.

Peter Jordan wrote:

> ich bekomme in der nächsten Zeit einen neuen Computer und überlege auf
> den Zeichensatz UTF-8 umzusteigen.
>
> Nun habe ich aber von meinem alten System tausende Dateien die mit
> normalen ISO-8859-15 codiert sind.
>
> Was hat es jetzt für Folgen, wenn ich meine Dateien auf den neuen
> Rechner kopiere? Was muss man beachten?
>
Konvertieren, z.B. mit uni2ascii (konvertiert in beide Richtungen)

> Was passiert beispielsweise mit meinen Mails in meinem
> Thunderbirdkonto?
>
Falls du Ordner mit Umlauten verwendest, werden diese falsch angezeigt.
Mit den Mails passiert nichts, die Kodierung ist normalerweise
enthalten (us-ascii, iso8859-1, etc.) und wird vom Mailclient
entsprechend interpretiert.

Wundere dich aber nach dem Umstieg nicht, dass alles (was mit Codierung
zu tun hat) etwas langsamer wird.


Gruß
  Kai


--
Haeufig gestellte Fragen und Antworten (FAQ):
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [hidden email]
mit dem Subject "unsubscribe". Probleme? Mail an [hidden email] (engl)

Reply | Threaded
Open this post in threaded view
|

Re: auf UTF-8 umsteigen, Folgen?

Steffen Schulz
In reply to this post by Ulrich Fürst-2
Hi,

On 060711 at 19:30, Ulrich F�rst wrote:
> Peter Jordan <[hidden email]> wrote:
> >
> > Nun habe ich aber von meinem alten System tausende Dateien die mit
> > normalen ISO-8859-15 codiert sind.


Ich hab vor ein paar Monaten spassenshalber mal komplett auf
Unicode/UTF8 umgestellt. Meinen Mailserver (und -Client), auf den
ich nur per ssh zugreife, sowie meinen Desktop-Rechner. Ich hab mich
dabei an die UTF-Howtos gehalten, die man im Netz so findet. Wirklich
Ahnung hab ich von diesem Codierungskram aber nicht, wie man vllt
gleich sieht.


Also mit Konfigurationsdateien hatte ich hier erstmal gar keine
Probleme, man kann problemlos auf Unicode umstellen und an
verschiedenen Ecken noch tunen, ohne dass Programme nicht mehr starten
oder der Rechner nicht mehr booten will oder so. Einziges Problem waren
bei mir Nutzerdaten.


Mail ist nen bissl doof. Entweder weil ich noch immer was falsch mache,
oder viele Clients nicht mit utf8 klar kommen. (�,�,�,�,�,�,�, anyone?)


Ein Problem stellen auch zB Dateinamen dar. Die sind ja auch irgendwie
kodiert, verfuegbare Codings sind im Kernel zu konfigurieren.
Mit convmv kann man die Codierungen aendern. Aber ich hab noch immer
Probleme, wenn zB der p2p-Client gegenueber anderen Clients Dateien
fehlerhaft anzeigt(UTF wird nicht beachtet) oder beim runterladen die
Datei zwar "f�b�r" heist und korrekt angezeigt wird, aber irgendwie
trotzdem anders/falsch codiert ist. Wenn ich dann zB auf der Tastatur
"rm f�b�r" eingebe, wird diese Datei nicht geloescht, weil die Umlaute
verschieden kodiert sind. Erst wenn ich den Namen konvertiere kann ich
ihn auch "richtig" eintippen.(in der Praxis behilft man sich sinnvoller
Weise wildcards/bash-completation)

Meines Wissens hat man bei Unicode wohl schon darauf geachtet, dass
viele Zeichen gleich codiert sind wie in anderen Zeichensaetzen, aber
bei Umlauten hoert es anscheinend schon auf. Nun mag man sagen, wer
Sonderzeichen in Dateinamen nimmt ist selbst schuld. Aber bei
mp3-Sammlungen aus fernen Laendern wird das dann schon doof...


Nerviges Problem ist, dass man fuer unicode modifizierte terminals
benutzt, die dann auch anders heissen. z.B. rxvt-unicode oder uxterm.
Diese Namen als TERM-Variable kennt dann irgendwie auch kaum ein
Rechner, sodass bei der Arbeit mit SSH die Zeile "TERM=xterm" bei mir
inzwischen ziemlich flink von der Hand geht, sobald das Terminal mal
nicht aussieht wie erwartet. Das laesst sich sicher zB in der
~/.bash_profile permanent loesen, aber ich will eigentlich lieber
wissen, aus welchen Gruenden man hier die Kompatibilitaet aufgibt.
Offenbar geht mir irgendwas verloren, wenn ich TERM=xterm mache..


Zusammenfassend werd ich wohl wieder iso-8859-15 nehmen, wenn ich mal
dazu komme, das Gentoo hier durch Debian zu ersetzen. So tolle
Sonderzeichen eingeben koennen ist nett, aber wenn die dann nicht
ankommen und man sich diverse andere Probleme einhandelt, ist das dann
nicht mehr so toll...


mfg
pepe
--
Um sich in einer Schafherde wohlzuf�hlen, muss man vor allem Schaf sein.


--
Haeufig gestellte Fragen und Antworten (FAQ):
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [hidden email]
mit dem Subject "unsubscribe". Probleme? Mail an [hidden email] (engl)

Reply | Threaded
Open this post in threaded view
|

Re: auf UTF-8 umsteigen, Folgen?

Andreas Pakulat-3
On 11.07.06 20:58:41, Steffen Schulz wrote:
> Mail ist nen bissl doof. Entweder weil ich noch immer was falsch mache,
> oder viele Clients nicht mit utf8 klar kommen. (?,?,?,?,?,?,?, anyone?)

Hae? Mutt kann wunderbar UTF-8, sofern das korrekt in der Shell gesetzt
ist. Aber das ist noch lange kein Grund seine latin1/latin9 Mails als
UTF-8 zu verschicken, dafuer gibts sowas:

set send_charset = "us-ascii:iso-8859-1:iso-8859-15:utf-8"

Damit nimmt mutt das "kleinstmoegliche" Charset beim verschicken. Also
hier meistens iso-8859-1.

> Ein Problem stellen auch zB Dateinamen dar. Die sind ja auch irgendwie
> kodiert, verfuegbare Codings sind im Kernel zu konfigurieren.

Also damit habe ich eigentlich auch keinerlei Probleme. Wenn ein User
mit de_DE locale eine Datei mit Umlauten auf einem *nix-Dateisystem
ablegt kann ich die auch korrekt in UTF-8 locale sehen. Und
Default-Kodierung fuer FS im Kernel ist hier latin1. Solange der Kernel
weiss welche Kodierung das Dateisystem nutzt ist das alles kein Problem.
Problematisch wirds bei FAT/NTFS und evtl. SMB/CIFS, aber dort gibts
Optionen um dem Kernel auf die Spruenge zu helfen.

> Mit convmv kann man die Codierungen aendern.

Wie gesagt hier unnoetig.

> Aber ich hab noch immer Probleme, wenn zB der p2p-Client gegenueber
> anderen Clients Dateien fehlerhaft anzeigt(UTF wird nicht beachtet)
> oder beim runterladen die Datei zwar "f?b?r" heist und korrekt
> angezeigt wird, aber irgendwie trotzdem anders/falsch codiert ist.

Dann ist irgendwas bei dir kaputt, evtl. auch einfach nur der Client.

> Meines Wissens hat man bei Unicode wohl schon darauf geachtet, dass
> viele Zeichen gleich codiert sind wie in anderen Zeichensaetzen,

Da ist schon dein 1. Denkfehler: Unicode != UTF-8. Unicode ist etwas
sehr abstraktes, IIRC einfach nur ein Mapping von sog. Codepoints auf
Glyphen. UTF-8 ist eine Zeichenkodierung fuer Byte-Streams die alle
Unicode-Zeichen darstellen kann. Dadurch das UTF-8 variable Lange
Byte-Folgen fuer 1 Zeichen nutzt kann es den ASCII-Zeichensatz direkt
nutzen. Also alle UTF-8 1-Byte-Zeichenfolgen sind mit demselben
Integerwert im ASCII-Zeichensatz zu finden. Umlaute liegen aber oberhalb
von 127 und werden deswegen mit 2 Bytes kodiert.

Daneben gibts noch UTF-16 oder UTF-32 die jeweils die entsprechende
Mindestanzahl an Bytes fuer 1 Zeichen nutzen. Dadurch sind damit
kodierte Dateien wirklich nur mit einem Editor/Viewer zu betrachten der
UTF-16/32 auch beherrscht.

> Nerviges Problem ist, dass man fuer unicode modifizierte terminals
> benutzt, die dann auch anders heissen. z.B. rxvt-unicode oder uxterm.

Bloedsinn, deine Howtos sind hoffnungslos veraltet. Solange LANG korrekt
gesetzt ist, funktionieren xterm, gnome-terminal, konsole und
xfce4-terminal wunderbar. Ich vermute aber das bei dir einfach LANG
falsch gesetzt ist.

> Zusammenfassend werd ich wohl wieder iso-8859-15 nehmen, wenn ich mal
> dazu komme, das Gentoo hier durch Debian zu ersetzen. So tolle
> Sonderzeichen eingeben koennen ist nett, aber wenn die dann nicht
> ankommen und man sich diverse andere Probleme einhandelt, ist das dann
> nicht mehr so toll...

Also ich habe 0 Probleme. Hoechstens mal wenn eine Mail anders kodiert
ist, als im Header angegeben, aber das liegt dann meistens am OP und
seinem Mailclient...

Andreas

--
You are always busy.


--
Haeufig gestellte Fragen und Antworten (FAQ):
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [hidden email]
mit dem Subject "unsubscribe". Probleme? Mail an [hidden email] (engl)

Reply | Threaded
Open this post in threaded view
|

Re: auf UTF-8 umsteigen, Folgen?

Ulrich Fürst-2
In reply to this post by Andreas Pakulat-3
Andreas Pakulat <[hidden email]> wrote:

> On 11.07.06 19:22:03, Ulrich Fürst wrote:
> > Peter Jordan <[hidden email]> wrote:
> > >
> > > Nun habe ich aber von meinem alten System tausende Dateien die mit
> > > normalen ISO-8859-15 codiert sind.
> >
> > Wenn Du in Text-Dateien Umlaute hast musst Du die umändern (lassen).
>
> Noe muss man nicht, jedenfalls solange man einen vernuenftigen Editor
> verwendet.

Eben, aber wenn ich mit cat und less arbeite fehlen die Umlaute...

> > Je nachdem was Du so installiert hast können natürlich noch Probleme
> > auftreten. KDE interressiert sich z. B. weder für die .bashrc noch
> > für .profile etc.
>
> KDE hat damit ja auch nun ueberhaupt nichts zu tun. Die Shells die
> Konsole startet lesen uebrigens sehr wohl .bashrc aus.

Die Konsole ist so ziemlich das einzige was hier keine Probleme gemacht
hat. Viele andere Anwendungen haben Probleme.
 
> Was das einloggen betrifft: kdm aus testing/unstable liest auch die
> Shell-Configs, nicht nur .profile/.bashrc auch .zsh und was es sonst
> noch gibt.

kdm schon aber offensichtlich nicht alle kde-Anwendungen und auch nicht
alle gtk2 Anwendungen.
 
> > Manche Programme benötigen extra Optionen. Mein Gimp
> > braucht z. B.
> > cat /etc/environment
> > # Fuer Gimp
> > export G_FILENAME_ENCODING=UTF-8
>
> Komisch, hier brauchts das nicht. Aber s.o. ich fahre auch unstable,
> moeglich das der schon etwas besser ist als der aus Sarge.

Gimp startete nicht mehr und meldete, dass er diese Variable gesetzt
haben möchte.

Ulrich

Reply | Threaded
Open this post in threaded view
|

Re: auf UTF-8 umsteigen, Folgen?

Jochen Spieker
In reply to this post by Andreas Pakulat-3
Andreas Pakulat:
>
> Also ich habe 0 Probleme. Hoechstens mal wenn eine Mail anders kodiert
> ist, als im Header angegeben, aber das liegt dann meistens am OP und
> seinem Mailclient...

Da das Thema mal wieder angesprochen wird und Du Dich scheinbar damit
auskennst... :)

Ich habe aufgrund des kürzlich erwähnten Datenverlustes den
Etch-Installer ausprobiert (mit GUI!!elf) und der stellt ja automatisch
UTF-8 ein. Ich hatte aber dann das Problem, dass eine SSH-Session auf
ein ISO-8859-1-System furchtbar kaputt aussah. Ich vermute auch, dass
mein mutt auf ebendiesem System falsch kodierte Mails rausgeschickt hat
(UTF-8 als ISO-8859-1), wenn ich die per SSH vom UTF-System geschrieben
habe. Muß ich da irgendwas machen, damit ich keine Probleme kriege?
Liegt das am Terminal, oder hätte ich screen (in dem mutt läuft) neu
starten müssen?

J.
--
The news at ten makes me peevish but animal hospital makes me cry.
[Agree]   [Disagree]
                 <http://www.slowlydownward.com/NODATA/data_enter2.html>

signature.asc (196 bytes) Download Attachment
Reply | Threaded
Open this post in threaded view
|

Re: auf UTF-8 umsteigen, Folgen?

Michael Bienia
On 2006-07-11 22:45:07 +0200, Jochen Schulz wrote:
> Ich habe aufgrund des kürzlich erwähnten Datenverlustes den
> Etch-Installer ausprobiert (mit GUI!!elf) und der stellt ja automatisch
> UTF-8 ein. Ich hatte aber dann das Problem, dass eine SSH-Session auf
> ein ISO-8859-1-System furchtbar kaputt aussah. Ich vermute auch, dass
> mein mutt auf ebendiesem System falsch kodierte Mails rausgeschickt hat
> (UTF-8 als ISO-8859-1), wenn ich die per SSH vom UTF-System geschrieben
> habe. Muß ich da irgendwas machen, damit ich keine Probleme kriege?
> Liegt das am Terminal, oder hätte ich screen (in dem mutt läuft) neu
> starten müssen?

Das liegt daran, dass dein Terminal noch im UTF-8 Modus war, die
Gegenseite jedoch in ISO-8859-1 (siehe locale auf dem Zielrechner):
dein Terminal hat UTF-8 geschickt und die Gegenseite hat es als
ISO-8859-1 intepretiert => kaputte Umlaute (in beide Richtungen).
Entweder sagst du dem Zielsystem, dass du eine UTF-8 Locale nutzt (wenn
es das Ziel-System kann) oder du stellst dein Terminal passend ein.
Im gnome-terminal z.B. kannst du den Zeichensatz einstellen. Nutze ich
wenn ich mich zu Rechnern verbinde, die noch keine UTF-8 Locales haben.

Michael


--
Haeufig gestellte Fragen und Antworten (FAQ):
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [hidden email]
mit dem Subject "unsubscribe". Probleme? Mail an [hidden email] (engl)

Reply | Threaded
Open this post in threaded view
|

Re: auf UTF-8 umsteigen, Folgen?

Andreas Kroschel
In reply to this post by Ulrich Fürst-2
* Ulrich Fürst:

>> > Wenn Du in Text-Dateien Umlaute hast musst Du die umändern (lassen).
>>
>> Noe muss man nicht, jedenfalls solange man einen vernuenftigen Editor
>> verwendet.
>
> Eben, aber wenn ich mit cat und less arbeite fehlen die Umlaute...

lv als Substitut für less ist im Raten der Codierung recht gut. Mir
fällt damit nicht auf, wenn es eine iso-8859-Datei anzuschauen gilt.

> kdm schon aber offensichtlich nicht alle kde-Anwendungen und auch nicht
> alle gtk2 Anwendungen.

Welche GTK2-Anwendungen denn nicht?

Andreas
--
You have been selected for a secret mission.


--
Haeufig gestellte Fragen und Antworten (FAQ):
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [hidden email]
mit dem Subject "unsubscribe". Probleme? Mail an [hidden email] (engl)

Reply | Threaded
Open this post in threaded view
|

Re: auf UTF-8 umsteigen, Folgen?

Andreas Pakulat-3
In reply to this post by Ulrich Fürst-2
On 11.07.06 22:34:27, Ulrich Fürst wrote:

> Andreas Pakulat <[hidden email]> wrote:
> > On 11.07.06 19:22:03, Ulrich Fürst wrote:
> > > Peter Jordan <[hidden email]> wrote:
> > > >
> > > > Nun habe ich aber von meinem alten System tausende Dateien die mit
> > > > normalen ISO-8859-15 codiert sind.
> > >
> > > Wenn Du in Text-Dateien Umlaute hast musst Du die umändern (lassen).
> >
> > Noe muss man nicht, jedenfalls solange man einen vernuenftigen Editor
> > verwendet.
>
> Eben, aber wenn ich mit cat und less arbeite fehlen die Umlaute...

Jupp.

> > > Je nachdem was Du so installiert hast können natürlich noch Probleme
> > > auftreten. KDE interressiert sich z. B. weder für die .bashrc noch
> > > für .profile etc.
> >
> > KDE hat damit ja auch nun ueberhaupt nichts zu tun. Die Shells die
> > Konsole startet lesen uebrigens sehr wohl .bashrc aus.
>
> Die Konsole ist so ziemlich das einzige was hier keine Probleme gemacht
> hat. Viele andere Anwendungen haben Probleme.

Also ich hab bisher keine Anwendungen gefunden die Probleme machen,
insbesondere keine KDE-Anwendungen. Allerdings setzt das vorraus dass
die LANG-Variable beim Starten der X11-Sitzung aktiv ist. Was eben nur
fuer kdm aus Testing gilt, nicht fuer den aus Sarge. Dort muss man das
ganze entweder ueber .xsession loesen, oder direkt die
kdm-Xsession-Skripte abaendern.

> > Was das einloggen betrifft: kdm aus testing/unstable liest auch die
> > Shell-Configs, nicht nur .profile/.bashrc auch .zsh und was es sonst
> > noch gibt.
>
> kdm schon aber offensichtlich nicht alle kde-Anwendungen

Rueck doch mal bitte mit konkreten Beispielen raus. Hier verhalten sich
_alle_ von mir eingesetzten KDE-Anwendungen korrekt, sofern LANG korrekt
und auch in der "unsichtbaren" session-shell gesetzt ist.

> und auch nicht alle gtk2 Anwendungen.

Auch damit habe ich bisher keinerlei Probleme, aber ausser grip und
gelegentlich easytag brauch ich da nichts.

> > > Manche Programme benötigen extra Optionen. Mein Gimp
> > > braucht z. B.
> > > cat /etc/environment
> > > # Fuer Gimp
> > > export G_FILENAME_ENCODING=UTF-8
> >
> > Komisch, hier brauchts das nicht. Aber s.o. ich fahre auch unstable,
> > moeglich das der schon etwas besser ist als der aus Sarge.
>
> Gimp startete nicht mehr und meldete, dass er diese Variable gesetzt
> haben möchte.

Wie gesagt, kann ich nicht nachvollziehen.

Andreas

--
You will be Told about it Tomorrow.  Go Home and Prepare Thyself.


--
Haeufig gestellte Fragen und Antworten (FAQ):
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [hidden email]
mit dem Subject "unsubscribe". Probleme? Mail an [hidden email] (engl)

Reply | Threaded
Open this post in threaded view
|

Re: auf UTF-8 umsteigen, Folgen?

Andreas Pakulat-3
In reply to this post by Jochen Spieker
On 11.07.06 22:45:07, Jochen Schulz wrote:
> Andreas Pakulat:
> >
> > Also ich habe 0 Probleme. Hoechstens mal wenn eine Mail anders kodiert
> > ist, als im Header angegeben, aber das liegt dann meistens am OP und
> > seinem Mailclient...
>
> Ich habe aufgrund des kürzlich erwähnten Datenverlustes den
> Etch-Installer ausprobiert (mit GUI!!elf) und der stellt ja automatisch
> UTF-8 ein.

Achja? Ich war bisher der Meinung dass er dpkg-reconfigure locales
ausfuehrt und du dann waehlen kannst. Aber ich hab auch noch nie Etch
installiert...

> Ich hatte aber dann das Problem, dass eine SSH-Session auf
> ein ISO-8859-1-System furchtbar kaputt aussah.

Kannst du das etwas genauer beschreiben?

> Ich vermute auch, dass
> mein mutt auf ebendiesem System falsch kodierte Mails rausgeschickt hat
> (UTF-8 als ISO-8859-1),

Deine Mail auf die ich geantwortet habe war UTF-8 deklariert und soweit ich
das gesehen habe auch genauso kodiert. Nur das das eben nicht unbedingt
immer sinnvoll ist, insbesondere wenn man mit Leuten kommuniziert die
"kaputte" Mailclients oder Webmailer benutzen.

> wenn ich die per SSH vom UTF-System geschrieben
> habe. Muß ich da irgendwas machen, damit ich keine Probleme kriege?
> Liegt das am Terminal, oder hätte ich screen (in dem mutt läuft) neu
> starten müssen?

Aenderungen an Umgebungsvariablen werden erst nach einem Re-Login
erkannt.

Ich hab grad mal getestet: Eine mit vim erzeugte Datei auf dem Server
(auf dem LANG=de_DE) kriegt als Kodierung trotzdem UTF-8 (auf dem Client
ist LANG=de_DE.UTF-8). Eine in mutt verfasste Mail (mit vim als Editor)
wird in Latin1 kodiert und verschickt.

Ansonsten werden Meldungen von Programmen wohl auch in Latin1
ausgegeben, ssh scheint das hier nicht korrekt zu konvertieren (also
sehe ich Rauten statt Umlaute und es fehlt das nachfolgende Zeichen).

Das mit dem nicht-konvertieren von vim koennte eine Einstellungssache
sein, auf dem Server mache ich derlei kaum...

Andreas

--
Be careful!  Is it classified?


--
Haeufig gestellte Fragen und Antworten (FAQ):
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [hidden email]
mit dem Subject "unsubscribe". Probleme? Mail an [hidden email] (engl)

Reply | Threaded
Open this post in threaded view
|

Re: auf UTF-8 umsteigen, Folgen?

Andreas Pakulat-3
In reply to this post by Kai Hildebrandt
On 11.07.06 20:49:08, Kai Hildebrandt wrote:

> Peter Jordan wrote:
> > ich bekomme in der nächsten Zeit einen neuen Computer und überlege auf
> > den Zeichensatz UTF-8 umzusteigen.
> >
> > Nun habe ich aber von meinem alten System tausende Dateien die mit
> > normalen ISO-8859-15 codiert sind.
> >
> > Was hat es jetzt für Folgen, wenn ich meine Dateien auf den neuen
> > Rechner kopiere? Was muss man beachten?
> >
> Konvertieren, z.B. mit uni2ascii (konvertiert in beide Richtungen)

Wie soll dass denn helfen? Latin1-Kodierte Dateien enthalten 8bit
Zeichen, nicht 7Bit Ascii. 7Bit Ascii braucht man nicht in UTF-8 zu
wandeln, weil es in UTF-8 auf diesselbe Weise kodiert wird, als 1 Byte
mit 7 signifikanten Bits. Umkodierungen von latin1 zu utf-8 fuehrt
recode zuverlaessig durch:

recode latin1..utf-8 foobar

Und sagt dir dabei auch gleich ob die Datei ueberhaupt latin1 ist.

> > Was passiert beispielsweise mit meinen Mails in meinem
> > Thunderbirdkonto?
> >
> Falls du Ordner mit Umlauten verwendest, werden diese falsch angezeigt.

In TB? Dann ist das ein Bug in TB.

> Wundere dich aber nach dem Umstieg nicht, dass alles (was mit Codierung
> zu tun hat) etwas langsamer wird.

Du meinst in TB? Wieso dass denn? Hast du Zahlen dazu?

Andreas

--
A few hours grace before the madness begins again.


--
Haeufig gestellte Fragen und Antworten (FAQ):
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [hidden email]
mit dem Subject "unsubscribe". Probleme? Mail an [hidden email] (engl)

Reply | Threaded
Open this post in threaded view
|

Re: auf UTF-8 umsteigen, Folgen?

Peter Wiersig
In reply to this post by Peter Jordan-2
On Tue, Jul 11, 2006 at 06:31:09PM +0200, Peter Jordan wrote:
>
> Nun habe ich aber von meinem alten System tausende Dateien die
> mit normalen ISO-8859-15 codiert sind.

Die Rekodierung Latin9->Unicode ist problemlos.

Aufpassen muss man nur bei CP125[0-2] kodierten Dateien welche
unter Windows als standard-kodierung verwendet wird. Die sieht den
Latin-Codes aehnlich, muss aber als Ausgangskodierung richtig
benannt werden damit die Kodierung in Unicode erfolgen kann.

UTF-8 ist nur ein encoding Schema.
http://www.unicode.org/faq/utf_bom.html#2

Peter


--
Haeufig gestellte Fragen und Antworten (FAQ):
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [hidden email]
mit dem Subject "unsubscribe". Probleme? Mail an [hidden email] (engl)

Reply | Threaded
Open this post in threaded view
|

Re: auf UTF-8 umsteigen, Folgen?

Steffen Schulz-2
In reply to this post by Andreas Pakulat-3
On 060711 at 21:20, Andreas Pakulat wrote:
> > Ein Problem stellen auch zB Dateinamen dar. Die sind ja auch irgendwie
> > kodiert, verfuegbare Codings sind im Kernel zu konfigurieren.
> Also damit habe ich eigentlich auch keinerlei Probleme. Wenn ein User
> mit de_DE locale eine Datei mit Umlauten auf einem *nix-Dateisystem
> ablegt kann ich die auch korrekt in UTF-8 locale sehen.

Hm. Ich hoffe mein ü kommt korrekt an, sonst wird das jetzt etwas wirr:

[pepe@goofy ~]$ echo $TERM, $LANG
rxvt-unicode, en_US.utf8
[pepe@goofy ~]$ touch tür
[pepe@goofy ~]$ ls tür
tür
[pepe@goofy ~]$ rm tür
[pepe@goofy ~]$ export LANG=en_US
[pepe@goofy ~]$ urxvt

-> touch tür;ls tür; rm tür; geht in dem terminal ebenso. Allerdings
faellt auf, dass das terminal irgendwie der Meinung ist, ein Zeichen
anzuzeigen(ü) und 2 zeichen zu editieren, xterm das selbe. :-/

-> touch tür; exit

[pepe@goofy ~]$ rm tür
rm: cannot remove `tür': No such file or directory
[pepe@goofy ~]$ ls tür
ls: tür: No such file or directory
[pepe@goofy ~]$ ls t?r
tür


-> Unter anderem locale erzeugte Dateien werden hier korrekt angezeigt,
aber wenn ich den Namen eingebe passt er nicht auf den im FS
vorhandenen.


> Default-Kodierung fuer FS im Kernel ist hier latin1. Solange der Kernel
> weiss welche Kodierung das Dateisystem nutzt ist das alles kein Problem.
> Problematisch wirds bei FAT/NTFS und evtl. SMB/CIFS, aber dort gibts
> Optionen um dem Kernel auf die Spruenge zu helfen.

> > Mit convmv kann man die Codierungen aendern.
>
> Wie gesagt hier unnoetig.

Von oben weiter, also mit kaputter Datei "tür"(man entschuldige
meine Kreativitaet..)

[pepe@goofy ~]$ convmv --notest -f iso-8859-1 -t utf-8 t?r
mv "./tür" "./tür"
Ready!
[pepe@goofy ~]$ rm tür

Nachdem convmv den Dateinamen von 8859-1 nach utf-8 convertiert hat,
kann ich den Dateinamen korrekt eintippen. Vorher hats dann auf
Dateisystemebene nicht gepasst, weil die ü unterschiedlich kodiert
werden. Sieht man auch daran, dass ich so 2x die gleiche Datei
erstellen kann, einmal wird sie auf FS-Ebene mit iso-8859-1 und einmal
mit utf-8 kodiert, der Dateiname unterscheidet sich dort also.

Oda aba da is noch wat andret falsch...

> > Aber ich hab noch immer Probleme, wenn zB der p2p-Client gegenueber
> > anderen Clients Dateien fehlerhaft anzeigt(UTF wird nicht beachtet)
> > oder beim runterladen die Datei zwar "f?b?r" heist und korrekt
> > angezeigt wird, aber irgendwie trotzdem anders/falsch codiert ist.
> Dann ist irgendwas bei dir kaputt, evtl. auch einfach nur der Client.

Der p2p-Client, ja, weil er die Namen nicht entsprechend der locale
abspeichert.

> > Nerviges Problem ist, dass man fuer unicode modifizierte terminals
> > benutzt, die dann auch anders heissen. z.B. rxvt-unicode oder uxterm.
> Bloedsinn, deine Howtos sind hoffnungslos veraltet. Solange LANG korrekt
> gesetzt ist, funktionieren xterm, gnome-terminal, konsole und
> xfce4-terminal wunderbar. Ich vermute aber das bei dir einfach LANG
> falsch gesetzt ist.

Nun, als ich "damals" die entsprechenden terminals probiert habe, wurde
halt auf die unicode-varianten verwiesen. Das is nu mind. nen Jahr her,
okay...aber "meine" Howtos erzaehlen noch immer was von Dateinamen:

http://de.gentoo-wiki.com/Utf8#Dateinamen


Oh, und rate was ich eben in der muttrc fand...

set send_charset="UTF-8:ISO-8859-15:ISO-8859-1"

Da ist wohl was schiefgelaufen.. ^^


mfg
pepe
--
Hi, I'm a unix-virus.
Please copy me into your .signature to help me spread!


--
Haeufig gestellte Fragen und Antworten (FAQ):
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [hidden email]
mit dem Subject "unsubscribe". Probleme? Mail an [hidden email] (engl)

Reply | Threaded
Open this post in threaded view
|

Re: auf UTF-8 umsteigen, Folgen?

Steffen Schulz-2
In reply to this post by Jochen Spieker
On 060711 at 23:10, Jochen Schulz wrote:
> UTF-8 ein. Ich hatte aber dann das Problem, dass eine SSH-Session auf
> ein ISO-8859-1-System furchtbar kaputt aussah. Ich vermute auch, dass
> mein mutt auf ebendiesem System falsch kodierte Mails rausgeschickt hat
> (UTF-8 als ISO-8859-1), wenn ich die per SSH vom UTF-System geschrieben
> habe. Muß ich da irgendwas machen, damit ich keine Probleme kriege?
> Liegt das am Terminal, oder hätte ich screen (in dem mutt läuft) neu
> starten müssen?

Ich benutz zwar kein Screen, aber der setzt im Gegensatz zu SSH meines
Wissens die Kodierungen um. Dh. den haettest du wohl mindestens mal
neustarten oder ihm das anders beibringen muessen, weil der Input
fuer Screen nun utf8-codiert ist..


mfg
pepe
--
No matter where you are... Everyone is always connected.
                                - Serial Experiments Lain

signature.asc (196 bytes) Download Attachment
Reply | Threaded
Open this post in threaded view
|

Re: auf UTF-8 umsteigen, Folgen?

Helmut Wollmersdorfer
In reply to this post by Andreas Pakulat-3
Andreas Pakulat wrote:
> On 11.07.06 22:34:27, Ulrich Fürst wrote:
>> Andreas Pakulat <[hidden email]> wrote:
>>> On 11.07.06 19:22:03, Ulrich Fürst wrote:

>>>> Manche Programme benötigen extra Optionen. Mein Gimp
>>>> braucht z. B.
>>>> cat /etc/environment
>>>> # Fuer Gimp
>>>> export G_FILENAME_ENCODING=UTF-8
>>> Komisch, hier brauchts das nicht. Aber s.o. ich fahre auch unstable,
>>> moeglich das der schon etwas besser ist als der aus Sarge.
>> Gimp startete nicht mehr und meldete, dass er diese Variable gesetzt
>> haben möchte.

> Wie gesagt, kann ich nicht nachvollziehen.

Hab auch keine Probleme damit, aber ich vermeide auch non-ASCII in
Filenamen. Hab jetzt extra probiert, ein jpg in testäöü.jpg umzubenennen
- öffnet problemlos in GIMP.

Helmut Wollmersdorfer


--
Haeufig gestellte Fragen und Antworten (FAQ):
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [hidden email]
mit dem Subject "unsubscribe". Probleme? Mail an [hidden email] (engl)

Reply | Threaded
Open this post in threaded view
|

Re: auf UTF-8 umsteigen, Folgen?

Martin Reising
In reply to this post by Steffen Schulz-2
On Wed, Jul 12, 2006 at 02:02:15AM +0200, Steffen Schulz wrote:
> [pepe@goofy ~]$ echo $TERM, $LANG
> rxvt-unicode, en_US.utf8

Warum LANG=en_US.utf8 und nicht LC_CTYPE=de_DE.UTF-8 ohne LANG?

--
Nicht Absicht unterstellen, wenn auch Dummheit ausreicht!

attachment0 (196 bytes) Download Attachment
Reply | Threaded
Open this post in threaded view
|

Re: auf UTF-8 umsteigen, Folgen?

Andreas Pakulat-3
In reply to this post by Steffen Schulz-2
On 12.07.06 02:02:15, Steffen Schulz wrote:
> On 060711 at 21:20, Andreas Pakulat wrote:
> > > Ein Problem stellen auch zB Dateinamen dar. Die sind ja auch irgendwie
> > > kodiert, verfuegbare Codings sind im Kernel zu konfigurieren.
> > Also damit habe ich eigentlich auch keinerlei Probleme. Wenn ein User
> > mit de_DE locale eine Datei mit Umlauten auf einem *nix-Dateisystem
> > ablegt kann ich die auch korrekt in UTF-8 locale sehen.
>
> Hm. Ich hoffe mein ü kommt korrekt an, sonst wird das jetzt etwas wirr:

Ja, passt schon.

> [pepe@goofy ~]$ echo $TERM, $LANG
> rxvt-unicode, en_US.utf8

Ich mag mich da jetzt irren, aber en_US.utf8 ist keine korrekte locale,
denke ich. Richtig ist en_US.UTF-8, schau mal in deine /etc/locale.gen.

> [pepe@goofy ~]$ touch tür
> [pepe@goofy ~]$ ls tür
> tür

Da waere mal interesant wie es mit einem Hexeditor aussieht, also

ls tür >datei; hexedit datei

Da sollten dann 4 Bytes drin stehen (alternativ auch ls -l datei)

> [pepe@goofy ~]$ rm tür
> [pepe@goofy ~]$ export LANG=en_US
> [pepe@goofy ~]$ urxvt
>
> -> touch tür;ls tür; rm tür; geht in dem terminal ebenso. Allerdings
> faellt auf, dass das terminal irgendwie der Meinung ist, ein Zeichen
> anzuzeigen(ü) und 2 zeichen zu editieren, xterm das selbe. :-/

Ja, weil das Terminal denkt es benutzt eine UTF-8 locale, du aber in
Wirklichkeit eine latin1-Kodierung nutzt.

> -> touch tür; exit
>
> [pepe@goofy ~]$ rm tür
> rm: cannot remove `tür': No such file or directory
> [pepe@goofy ~]$ ls tür
> ls: tür: No such file or directory
> [pepe@goofy ~]$ ls t?r
> tür

Das Terminal ist aber noch im UTF-8 Modus. So wie du das machst kann ich
das auch nachvollziehen, wobei konsole mir bei einem ls dann nur "tr"
ausgibt. Wenn ich aber dann konsole sage dass die Locale auf latin1
geaendert wurde, wird bei ls wieder alles korrekt dargestellt. Und ich
kanns mit rm tür auch loeschen.

Kurz: Die Kodierung im Dateisystem ist immer diesselbe, nur die Anzeige
durchs Terminal ist u.U. kaputt.

> Nachdem convmv den Dateinamen von 8859-1 nach utf-8 convertiert hat,
> kann ich den Dateinamen korrekt eintippen. Vorher hats dann auf
> Dateisystemebene nicht gepasst, weil die ü unterschiedlich kodiert
> werden.

Hier irrst du dich. Auf Dateisystemebene ist alles korrekt gewesen, nur
dein Terminal wusste nicht dass es das "High-Byte" nicht als erstes von
2 UTF-8 Bytes interpretieren muss.

> > > Nerviges Problem ist, dass man fuer unicode modifizierte terminals
> > > benutzt, die dann auch anders heissen. z.B. rxvt-unicode oder uxterm.
> > Bloedsinn, deine Howtos sind hoffnungslos veraltet. Solange LANG korrekt
> > gesetzt ist, funktionieren xterm, gnome-terminal, konsole und
> > xfce4-terminal wunderbar. Ich vermute aber das bei dir einfach LANG
> > falsch gesetzt ist.
>
> Nun, als ich "damals" die entsprechenden terminals probiert habe, wurde
> halt auf die unicode-varianten verwiesen. Das is nu mind. nen Jahr her,
> okay...aber "meine" Howtos erzaehlen noch immer was von Dateinamen:
>
> http://de.gentoo-wiki.com/Utf8#Dateinamen

Ich hab doch gesagt, die Howtos sind veraltet und das gilt fuer fast
alle UTF-8 Howtos. Glaub mir einfach wenn ich dir sage xterm erkennt ob
es aus einer UTF-8 oder non-UTF-8 locale heraus gestartet wird.

> Oh, und rate was ich eben in der muttrc fand...
>
> set send_charset="UTF-8:ISO-8859-15:ISO-8859-1"
>
> Da ist wohl was schiefgelaufen.. ^^

Ja, genau falschherum.

Andreas

--
Someone whom you reject today, will reject you tomorrow.


--
Haeufig gestellte Fragen und Antworten (FAQ):
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [hidden email]
mit dem Subject "unsubscribe". Probleme? Mail an [hidden email] (engl)

Reply | Threaded
Open this post in threaded view
|

Re: auf UTF-8 umsteigen, Folgen?

Jochen Spieker
In reply to this post by Michael Bienia
Michael Bienia:

> On 2006-07-11 22:45:07 +0200, Jochen Schulz wrote:
> > Ich habe aufgrund des kürzlich erwähnten Datenverlustes den
> > Etch-Installer ausprobiert (mit GUI!!elf) und der stellt ja automatisch
> > UTF-8 ein. Ich hatte aber dann das Problem, dass eine SSH-Session auf
> > ein ISO-8859-1-System furchtbar kaputt aussah. Ich vermute auch, dass
> > mein mutt auf ebendiesem System falsch kodierte Mails rausgeschickt hat
> > (UTF-8 als ISO-8859-1), wenn ich die per SSH vom UTF-System geschrieben
> > habe. Muß ich da irgendwas machen, damit ich keine Probleme kriege?
> > Liegt das am Terminal, oder hätte ich screen (in dem mutt läuft) neu
> > starten müssen?
>
> Das liegt daran, dass dein Terminal noch im UTF-8 Modus war, die
> Gegenseite jedoch in ISO-8859-1 (siehe locale auf dem Zielrechner):
> dein Terminal hat UTF-8 geschickt und die Gegenseite hat es als
> ISO-8859-1 intepretiert => kaputte Umlaute (in beide Richtungen).
Klingt logisch, danke.

> Entweder sagst du dem Zielsystem, dass du eine UTF-8 Locale nutzt (wenn
> es das Ziel-System kann) oder du stellst dein Terminal passend ein.
> Im gnome-terminal z.B. kannst du den Zeichensatz einstellen. Nutze ich
> wenn ich mich zu Rechnern verbinde, die noch keine UTF-8 Locales haben.

Werd mal schauen, ob xcfe4-terminal das auch kann. Oder ich versuche,
das mit screen zu lösen.

J.
--
In an ideal world I would cure poverty and go to the gym at least three
days a week.
[Agree]   [Disagree]
                 <http://www.slowlydownward.com/NODATA/data_enter2.html>

signature.asc (196 bytes) Download Attachment
123