[QUOTE=Bleiglanz]Du brauchst doch nur was, zum „Vorfiltern“ und willst dann mit der Levenshtein-Distanz weitersuchen?
[/QUOTE]
konkret habe ich nichts im Sinn, nur die Gelegenheit des anderen Themas genutzt 
meine Vorstellung ist so allgemein und variabel wie sich jeder was passendes denken kann:
ähnliche Strings finden, etwa Tippfehler in Adressen und Namen,
der Fehler kann nicht nur vorne kommen (in meinem Beispiel ‚Klevenshtein‘) sondern theoretisch an jeder Position, auch mehrere Fehler,
Fehler = falsche Buchstaben/ zu viele Buchstaben/ zu wenige Buchstaben, was immer es so gibt,
dazu passt die Levenshtein-Distanz ja besonders gut, denke ich,
habe aber nur abstrakt irgendeine ‚Ähnlichkeit‘ im Sinn, das menschliche Urteil,
z.B. wieder zur Vorlage Entscheidung ob Tippfehler und Gleichheit
[QUOTE=Unregistered;96056]So ganz aus der Hüfte geschossen.
Wie sieht es mit k-means aus?
[/quote]
einzelne Theorien müssen hier wohl nicht besprochen werden,
falls nicht wer was fertiges hat und von guten Erfahrungen damit berichten kann,
‚k-means‘ war aber für mich schon als Begriff neu, insofern hilfreich, ja,
wobei ich eher auf Gleichverteilung als echte Konzentrationen tippe bei beliebigen Problemen, zweifle etwas
noch mehr gewinne ich aber dann doch und allein schon aus dem genannten Begriff ‚Cluster‘ 
nämlich nun endlich Links a la
mit Link auf interessantes
http://matpalm.com/resemblance/simhash/
ergo
(Similarity Estimation Techniques from Rounding Algorithms)
das Thema wird also doch in der Welt behandelt, wie könnte es auch anders sein
zu weiterem genannten wie ‚Bayes Theorem‘ habe ich jetzt vorerst doch gar nicht erst neu nachgeschaut,
wie gesagt habe ich nichts konkretes im Sinn, also auf keine Antworten warten 