Direkt zum Inhalt | Direkt zur Navigation

Benutzerspezifische Werkzeuge

This Logo Viewlet registered to Business4 Theme
Sie sind hier: Startseite / allegro-utf8 / allegro-utf8 / Was ist das? Big5 oder GB2312 und jetzt ganz neu GB18030? Langform oder Kurzform? Traditional or Simplified? Und dann noch die Japaner?!!

Was ist das? Big5 oder GB2312 und jetzt ganz neu GB18030? Langform oder Kurzform? Traditional or Simplified? Und dann noch die Japaner?!!

Ein Weg aus der Nicht-Wissens-Krise. Zusammengetragenes zur Aufhellung! Mehr Wissen ist immer besser!

Werte Mitleser,
im Gespräch merke ich öfter: mir fehlt auch mal Fachwissen. Ich kann nur von mir reden ;-)
Oder: was meint denn nun der Andere damit? Es schwirren die Begriffe "Big5", "GB2312", "Kurzform", "Langform", "traditional" und "simplified" herum.
(Zum Japanischen s.a. ganz unten im Text.)

Deshalb ein Versuch der Aufklärung. Wer könnte da besser helfen als wikipedia?! Natürlich nur wikipedia ;-)
Ich bin zwar äußerst skeptisch gebenüber Internet-Daten-Quellen, aber wir haben nichts "Besseres" derzeit.

zu Big5:

http://de.wikipedia.org/wiki/Big5

zu GB2312:

http://de.wikipedia.org/wiki/GB2312

zu GB18030: [die ganz korrekte Bezeichnung ist: GB18030(-2000)]

http://de.wikipedia.org/wiki/GB_18030

evtl nützlich:
http://de.wikipedia.org/wiki/Kategorie:Zeichenkodierung_f%C3%BCr_die_chinesische_Schrift

Weitere Quellen aus wikipedia:
http://en.wikipedia.org/wiki/Code_page_936
http://en.wikipedia.org/wiki/Code_page_950
http://en.wikipedia.org/wiki/Simplified_Chinese
http://en.wikipedia.org/wiki/Traditional_Chinese

Ein universales Wörterbuch: das Wiktionary. Suchen Sie mal "guo". Sie sehen zwei unterschiedliche Zeichen: Traditional und simplified. Ab 12/2011 ist allegro-utf8 v3 auf dem Markt: Es ist in der Lage, beide "Darstellungen" zu zeichnen. Hier finden Sie die beiden Darstellungsformen für "guo". Und hier geht es zum Wörterbuch.

Daraus resultiert (für mich) aus den oberen Quellen:
Big5 ist gut für Bestände, die sich um den Komplex oder Herkunft drehen: Taiwan, Macao und Hongkong. Es ist der "Charset" 136.
Big5 ist traditional.

GB2312 wird im Mainland benutzt (VR China). Es ist der "Charset" 134.
GB2312 ist simplified. Was auch wieder nicht ganz 100%ig richtig ist. Seufz!
In beiden "Charsets" kommen Langzeichen (traditional) wie Kurzzeichen vor (simplified). Die Codepages machen den Unterschied: 936 für Simplified und 950 für Traditionell. Das Problem tritt nur bei den Chinesen auf. In allegro-utf8 ist per default MS Arial Unicode installiert, aber dieser Font scheint nicht auszureichen. SimSun soll mehr können. (Stand 3/2011)
versus:
In http://en.wikipedia.org/wiki/Simplified_Chinese wird -für uns- eindeutig ausgesagt,
daß: "In computer text applications, the GB encoding scheme most often renders simplified Chinese characters, while Big5 most often renders traditional characters."

Zu den "charsets" eine Aufstellung:
MS kennt sowas:// \fcharsetN   Specifies the character set of a font in the font table. Values for N are defined by Windows header files:
...
// 128 - Shift Jis
// 129 - Hangul
// 130 - Johab
// 132 - <Traditional Chinese>
// 134 - GB2312        (könnte evtl auch GB18030 stehen)
// 136 - Big5

Das endlich erkannte Problem bislang ist dieses: Die Bibliothek sollte sich entscheiden! Big5 oder GB2312. Oder eben: Traditionell oder Simplified (=Lang- oder Kurzzeichen!). Diese Festlegung ist absolut richtig. Es gibt einen Zwitter, einen Ausweg für das Problem. Unser Problem lautet: was macht die Bibliothek, die sich für GB 2312 entschieden hat, wenn sie partout Langzeichen eingeben will, weil sie es muß? Der Ausweg: http://de.wikipedia.org/wiki/GBK . Man lese! Und man lese: http://de.wikipedia.org/wiki/GB18030 . Ich greife mal ein paar Zeilen heraus, sie sind eindeutig: "Der chinesische Zeichenkodierungsstandard GB18030 beschreibt 27.484 Zeichen der chinesischen Schrift. ... es ist der Nachfolgestandard für die Kodierungen GBK und GB2312 und deckt traditionelle und vereinfachte Zeichen ab." Weiter: "Der Zeichensatz SimSun (Founder Extended) ermöglicht die Anzeige aller Glyphen aus GB18030, also des gesamten Zeichenvorrates aus Unicode 2.1 und die zusätzlichen aus den „Unicode CJK Unified Ideographs Extensions A und B“. Weitere bekannte Zeichensätze mit zumindest teilweiser Unterstützung (CJK Extension A) sind SimSun 18030 oder Code2000."
Dieses hat Konsequenzen! allegronet.de wird ein allegro-utf8 anbieten, welches für den GB2312-Bereich eben mit GB18030 arbeiten wird, um die Kodierung von BIG5 zu ermöglichen. Neu im Winter 2011 : allegro-utf8-v3 mit GB18030!

zu allegro-utf8:
[Derzeit:] Als Basis wird  GB18030 gewählt. Definitiv. Mit Hilfe von NJStar ist die Suche -traditionell oder simplified-, also beides möglich.
zu allegro-utf8-v3:
Man sollte sich für b5 oder GB2312 entscheiden, wenn man eindeutige Bestände hat. Wer den Komfort will, und beide "Zeichen"welten bedienen will oder muß, entscheidet sich für GB18030. Und: wer sich nicht entscheiden mag, für den ist allegro-utf8-v3 wie gemacht! Die Datenbasis ist immer UTF-8.

 

Zum Japanischen:

Wenn man von ... redet:
... = Silbenzeichen (Hieragana oder Katagana mit 87 bzw. 90 Zeichen!)
... = Wortschriftzeichen (wir kennen 6.555!, sie heissen auch Kanji)
nach http://de.wikipedia.org/wiki/Kanji ist "Kanji ist die Bezeichnung für chinesische Schriftzeichen, wie sie in der japanischen Schrift verwendet werden."

Werte Mitleser,
im Gespräch merke ich öfter: mir fehlt auch mal Fachwissen. Ich kann nur von mir reden ;-)
Oder: was meint denn nun der Andere damit? Es schwirren die Begriffe "Big5", "GB2312", "Kurzform", "Langform", "traditional" und "simplified" herum.
(Zum Japanischen s.a. ganz unten im Text.)

Deshalb ein Versuch der Aufklärung. Wer könnte da besser helfen als wikipedia?! Natürlich nur wikipedia ;-)
Ich bin zwar äußerst skeptisch gebenüber Internet-Daten-Quellen, aber wir haben nichts "Besseres" derzeit.

zu Big5:

http://de.wikipedia.org/wiki/Big5

zu GB2312:

http://de.wikipedia.org/wiki/GB2312

zu GB18030: [die ganz korrekte Bezeichnung ist: GB18030(-2000)]

http://de.wikipedia.org/wiki/GB_18030

evtl nützlich:
http://de.wikipedia.org/wiki/Kategorie:Zeichenkodierung_f%C3%BCr_die_chinesische_Schrift

Weitere Quellen aus wikipedia:
http://en.wikipedia.org/wiki/Code_page_936
http://en.wikipedia.org/wiki/Code_page_950
http://en.wikipedia.org/wiki/Simplified_Chinese
http://en.wikipedia.org/wiki/Traditional_Chinese

Ein universales Wörterbuch: das Wiktionary. Suchen Sie mal "guo". Sie sehen zwei unterschiedliche Zeichen: Traditional und simplified. Ab 12/2011 ist allegro-utf8 v3 auf dem Markt: Es ist in der Lage, beide "Darstellungen" zu zeichnen. Hier finden Sie die beiden Darstellungsformen für "guo". Und hier geht es zum Wörterbuch.

Daraus resultiert (für mich) aus den oberen Quellen:
Big5 ist gut für Bestände, die sich um den Komplex oder Herkunft drehen: Taiwan, Macao und Hongkong. Es ist der "Charset" 136.
Big5 ist traditional.

GB2312 wird im Mainland benutzt (VR China). Es ist der "Charset" 134.
GB2312 ist simplified. Was auch wieder nicht ganz 100%ig richtig ist. Seufz!
In beiden "Charsets" kommen Langzeichen (traditional) wie Kurzzeichen vor (simplified). Die Codepages machen den Unterschied: 936 für Simplified und 950 für Traditionell. Das Problem tritt nur bei den Chinesen auf. In allegro-utf8 ist per default MS Arial Unicode installiert, aber dieser Font scheint nicht auszureichen. SimSun soll mehr können. (Stand 3/2011)
versus:
In http://en.wikipedia.org/wiki/Simplified_Chinese wird -für uns- eindeutig ausgesagt,
daß: "In computer text applications, the GB encoding scheme most often renders simplified Chinese characters, while Big5 most often renders traditional characters."

Zu den "charsets" eine Aufstellung:
MS kennt sowas:// \fcharsetN   Specifies the character set of a font in the font table. Values for N are defined by Windows header files:
...
// 128 - Shift Jis
// 129 - Hangul
// 130 - Johab
// 132 - <Traditional Chinese>
// 134 - GB2312        (könnte evtl auch GB18030 stehen)
// 136 - Big5

Das endlich erkannte Problem bislang ist dieses: Die Bibliothek sollte sich entscheiden! Big5 oder GB2312. Oder eben: Traditionell oder Simplified (=Lang- oder Kurzzeichen!). Diese Festlegung ist absolut richtig. Es gibt einen Zwitter, einen Ausweg für das Problem. Unser Problem lautet: was macht die Bibliothek, die sich für GB 2312 entschieden hat, wenn sie partout Langzeichen eingeben will, weil sie es muß? Der Ausweg: http://de.wikipedia.org/wiki/GBK . Man lese! Und man lese: http://de.wikipedia.org/wiki/GB18030 . Ich greife mal ein paar Zeilen heraus, sie sind eindeutig: "Der chinesische Zeichenkodierungsstandard GB18030 beschreibt 27.484 Zeichen der chinesischen Schrift. ... es ist der Nachfolgestandard für die Kodierungen GBK und GB2312 und deckt traditionelle und vereinfachte Zeichen ab." Weiter: "Der Zeichensatz SimSun (Founder Extended) ermöglicht die Anzeige aller Glyphen aus GB18030, also des gesamten Zeichenvorrates aus Unicode 2.1 und die zusätzlichen aus den „Unicode CJK Unified Ideographs Extensions A und B“. Weitere bekannte Zeichensätze mit zumindest teilweiser Unterstützung (CJK Extension A) sind SimSun 18030 oder Code2000."
Dieses hat Konsequenzen! allegronet.de wird ein allegro-utf8 anbieten, welches für den GB2312-Bereich eben mit GB18030 arbeiten wird, um die Kodierung von BIG5 zu ermöglichen. Neu im Winter 2011 : allegro-utf8-v3 mit GB18030!

zu allegro-utf8:
[Derzeit:] Als Basis wird  GB18030 gewählt. Definitiv. Mit Hilfe von NJStar ist die Suche -traditionell oder simplified-, also beides möglich.
zu allegro-utf8-v3:
Man sollte sich für b5 oder GB2312 entscheiden, wenn man eindeutige Bestände hat. Wer den Komfort will, und beide "Zeichen"welten bedienen will oder muß, entscheidet sich für GB18030. Und: wer sich nicht entscheiden mag, für den ist allegro-utf8-v3 wie gemacht! Die Datenbasis ist immer UTF-8.

 

Zum Japanischen:

Wenn man von ... redet:
... = Silbenzeichen (Hieragana oder Katagana mit 87 bzw. 90 Zeichen!)
... = Wortschriftzeichen (wir kennen 6.555!, sie heissen auch Kanji)
nach http://de.wikipedia.org/wiki/Kanji ist "Kanji ist die Bezeichnung für chinesische Schriftzeichen, wie sie in der japanischen Schrift verwendet werden."