То, что я делал для англоязычной Wikipedia: на днях, в 2015-ом году, точно так же легко сделать и для кириллицы:
--- frobenoid.py 2021-07-17 00:29:15.358187290 +0300 +++ frobenoid.py 2021-07-19 00:04:00.000000000 +0300 @@ -10,6 +10,12 @@ def str_is_latin(s): return all(char_is_latin(c) for c in s) +def char_is_cyr_utf_8(c): + return (c>='а' and c<='я') or (c>='А' and c<='Я') + +def str_is_cyr_utf_8(s): + return all(char_is_cyr_utf_8(c) for c in s) + def list_remove_if_present(l, item): if item in l: l.remove(item)
--- get_typos.py 2021-07-17 00:29:26.438381534 +0300 +++ get_typos.py 2021-07-19 07:31:18.927399220 +0300 @@ -68,7 +68,7 @@ # this is text in main namespace for x in re.split('\s+', elem.text): l=x.lower() - if len(l)>5 and frobenoid.str_is_latin(l): + if len(l)>5 and frobenoid.str_is_cyr_utf_8(l): frobenoid.inc_value_in_dict(words_stat, l) if elem.tag==tmp+"page":
Для этих википедий я опять брал версии за 1-jul-2021: RU, UK.
Кое-что для русской википедии я даже когда-то исправлял сам.
Итак, полный список опечаток для русской Википедии, первые 2000 опечаток.
Для украинской Википедии список опечаток тоже интересный: полный, первые 2000 опечаток. И это притом, что мои знания украинского очень посредственные.
Так что, эти же мои скрипты вы можете использовать для любого языка на основе латиницы или кириллицы. А может и более.
Yes, I know about these lousy Disqus ads. Please use adblocker. I would consider to subscribe to 'pro' version of Disqus if the signal/noise ratio in comments would be good enough.