Hunspell dictionaries

Hallo

ich muss fuer einen Kunden einen Spellchecker in eine bestehende Java/Swing-Anwendung integrieren.

Da die Anforderungen sind, dass es ein offline spellchecker sein muss,
GPL Libraries nicht nutzbar sind (forderung von der Firma)
Sprachen waehlbar sein muessen.

Hat sich fuer mich hunspell mit den JNA bindings als praktikable Loesung herausgestellt und diese nun auch dem Kunden praesentiert.

Kunde war auch mit der Loesung zu frieden, stellte dann aber die Frage ob man damit auch Chinesisch unterstuetzen koennte.
Ich war natuerlich mal mit dierser Frage ueberfordert und konnte keine Antwort geben. Hab ihnen aber gesagt, dass ich diese Frage bei unserem naechsten Meeting
beantworten werde.

hab jetzt mal in meiner Linux Distri in den paketquellen gesucht welche sprachen ich fuer hunspell installieren kann dafinde ich nun nichts bezueglich Chinesisch.

Ich weis eigentlich nichts ueber diese Sprache.

Jetzt mal ganz doof gefragt, ich dachte ja immer, dass bei Chinesisch jedes Zeichen genau einem Wort entspricht daher wie soll es da einen Spellchecker geben?
Wie sieht das ganze ueber haupt aus gibt es Spellchecking fuer Chinesisch? Sieht dies bei Japanisch , Koreanisch und so anders aus?

ICh habe gesehen Hunspell kann Arabisch checken das ist aber auch wieder eine Buchstabenschrift.
Danke fuer eure antworten und gedanken

AmunRa

obligatorisch ‘Spellchecking fuer Chinesisch’ aus deinem Posting gleich an Suchmaschine weitergeleitet findet
ein PDF ‘Spell Checking for Chinese - LREC Conferences’, Link angeben ist ja nicht so leicht…

klingt nicht gerade einfach umsetzbar,
aber Fragen wie ‘Wie sieht das ganze ueber haupt aus gibt es Spellchecking fuer Chinesisch?’ sind Thema

falls solche Simpel-Postings unerwünscht, dann gleich genauer abwehren :wink:

Die chinesischen Zeichen (Pin Yin oder Hanzi - “Zeichen der Han[chinesen]”) sind einsilbig und stehen für ein bestimmtes Konzept (also nicht unbedingt ein Wort, sondern manchmal eher für ein “Bedeutungsfeld”). Für einfache Worte reicht ein Zeichen (durch die steigende, fallende u.s.w. Aussprache gibt es mehr “Möglichkeiten” als in westlichen Sprachen), kompliziertere sind zusammengesetzt. Es wird zwischen traditionellen Zeichen (Hong Kong, Taiwan…) und den stark vereinfachten Zeichen der VR China und Singapur unterschieden.

Die japanische Schrift besteht aus chinesischen Zeichen (hier “Kanji” genannt, und gegenüber dem traditionellen Zeichen etwas vereinfacht), die meist mehrere (auch mehrsilbige) Aussprachen haben, und zwei Silbenalphabeten (das “rundliche” Hiragana und das vor allem für Fremdworte und zur “Betonung” verwendete “eckige” Katakana). Die Aussprache der Kanji kommt teilweise aus dem Chinesischen (On-Yomi) - und zwar aus unterschiedlichen Epochen und Dialekten, aber dazu kommen auch rein japanische Lesungen (Kun-Yomi). So ist “Berg” allein “yama” (Kun-Yomi), aber der Fuji ist “Fuji-San”, obwohl das “San” (On-Yomi) mit dem gleichen Zeichen geschrieben wird. Oft hat man Worte mit einem in Kanji geschriebenen Wortstamm, und eine Hiragana-Endung (Okurigana - “drangepappte Zeichen”) für die Flexion (die es im Chinesischen nicht gibt).

Die koreanisch Schrift (Hangul) ist eine Silbenschrift. Jedes Zeichen wird recht logisch aus Anlaut, Vokal und Ablaut der Silbe gebildet. Koreanische Wörter können natürlich aus mehreren Zeichen bestehen. In koreanischen Texten können für Eigennamen auch hin und wieder chinesische Zeichen vorkommen.

Alle Angaben ohne Gewähr, ich kann nur etwas japanisch

Super danke für eure Antworten. @SlaterB Sry dass ich mich erst jetzt melde dein Dokument hat mir sehr geholfen.
@Landei danke fuer die detaillierte Antwort. Für mich als Europäer sind solche Sprachen ungewohnt, da sich dieses Silben/Wort Konzept einfach so maßgeblich von unserer Buchstabenschrift unterscheidet. Das muss man wohl einfach mal gelernt haben.