[Russian] Поиск опечаток в русскоязычной и украиноязычной Wikipedia

То, что я делал для англоязычной Wikipedia: на днях, в 2015-ом году, точно так же легко сделать и для кириллицы:

--- frobenoid.py        2021-07-17 00:29:15.358187290 +0300
+++ frobenoid.py        2021-07-19 00:04:00.000000000 +0300
@@ -10,6 +10,12 @@
 def str_is_latin(s):
     return all(char_is_latin(c) for c in s)

+def char_is_cyr_utf_8(c):
+    return (c>='а' and c<='я') or (c>='А' and c<='Я')
+
+def str_is_cyr_utf_8(s):
+    return all(char_is_cyr_utf_8(c) for c in s)
+
 def list_remove_if_present(l, item):
     if item in l:
         l.remove(item)
--- get_typos.py        2021-07-17 00:29:26.438381534 +0300
+++ get_typos.py        2021-07-19 07:31:18.927399220 +0300
@@ -68,7 +68,7 @@
                    # this is text in main namespace
                     for x in re.split('\s+', elem.text):
                         l=x.lower()
-                        if len(l)>5 and frobenoid.str_is_latin(l):
+                        if len(l)>5 and frobenoid.str_is_cyr_utf_8(l):
                             frobenoid.inc_value_in_dict(words_stat, l)

             if elem.tag==tmp+"page":

Все файлы

Для этих википедий я опять брал версии за 1-jul-2021: RU, UK.

Кое-что для русской википедии я даже когда-то исправлял сам.

Итак, полный список опечаток для русской Википедии, первые 2000 опечаток.

Для украинской Википедии список опечаток тоже интересный: полный, первые 2000 опечаток. И это притом, что мои знания украинского очень посредственные.

Так что, эти же мои скрипты вы можете использовать для любого языка на основе латиницы или кириллицы. А может и более.


List of my other blog posts.

Yes, I know about these lousy Disqus ads. Please use adblocker. I would consider to subscribe to 'pro' version of Disqus if the signal/noise ratio in comments would be good enough.