То, что я делал для англоязычной Wikipedia: на днях, в 2015-ом году, точно так же легко сделать и для кириллицы:
--- frobenoid.py 2021-07-17 00:29:15.358187290 +0300
+++ frobenoid.py 2021-07-19 00:04:00.000000000 +0300
@@ -10,6 +10,12 @@
def str_is_latin(s):
return all(char_is_latin(c) for c in s)
+def char_is_cyr_utf_8(c):
+ return (c>='а' and c<='я') or (c>='А' and c<='Я')
+
+def str_is_cyr_utf_8(s):
+ return all(char_is_cyr_utf_8(c) for c in s)
+
def list_remove_if_present(l, item):
if item in l:
l.remove(item)
--- get_typos.py 2021-07-17 00:29:26.438381534 +0300
+++ get_typos.py 2021-07-19 07:31:18.927399220 +0300
@@ -68,7 +68,7 @@
# this is text in main namespace
for x in re.split('\s+', elem.text):
l=x.lower()
- if len(l)>5 and frobenoid.str_is_latin(l):
+ if len(l)>5 and frobenoid.str_is_cyr_utf_8(l):
frobenoid.inc_value_in_dict(words_stat, l)
if elem.tag==tmp+"page":
Для этих википедий я опять брал версии за 1-jul-2021: RU, UK.
Кое-что для русской википедии я даже когда-то исправлял сам.
Итак, полный список опечаток для русской Википедии, первые 2000 опечаток.
Для украинской Википедии список опечаток тоже интересный: полный, первые 2000 опечаток. И это притом, что мои знания украинского очень посредственные.
Так что, эти же мои скрипты вы можете использовать для любого языка на основе латиницы или кириллицы. А может и более.

Yes, I know about these lousy Disqus ads. Please use adblocker. I would consider to subscribe to 'pro' version of Disqus if the signal/noise ratio in comments would be good enough.