Tâi-bûn NLP ke-si.
pip install KeSi
有Ku, TuiBeTse, normalize_taibun, kam_haphuat, PIAUTIAM。
分析台文,而且做書寫轉換。
建立台文ê句,做相關操作。
hanlo是主要ê台文,ē-tàng傳漢羅、全漢、全羅攏會用得。若台文有全羅對照,ē-tàng傳lomaji變數,kui-ê句會照lomaji來斷詞、標輕聲。若是hanlo kah lomaji字數bô-kâng,會傳TuiBeTse例外。
得tio̍h tshiâu過ê台文,有tshiâu khàng-pe̍h、Unicode NFC、教育部造字碼換做正式Unicode碼。其中若輕聲詞攏有輕聲符。
得tio̍h tshiâu過ê羅馬字,有tshiâu khàng-pe̍h、Unicode NFC、教育部造字碼換做正式Unicode碼。其中若輕聲詞攏有輕聲符。
得tio̍h tshiâu過ê台文,有tshiâu khàng-pe̍h、Unicode NFC、教育部造字碼換做正式Unicode碼。其中若輕聲詞頭字是漢字,袂有輕聲符。
換做正式教育部羅馬字。
KIP數字調轉KIP:
>>> from kesi import Ku
>>> Ku("Gâu5-tsa2").KIP().hanlo
'Gâu-tsá'POJ轉KIP:
>>> from kesi import Ku
>>> Ku("Gâu-chá").KIP().hanlo
'Gâu-tsá'漢字、連字符、輕聲符lóng會好好留落來。
>>> from kesi import Ku
>>> Ku("看--起-來chiâⁿ媠。").KIP().hanlo
'看--起-來tsiânn媠。'修改記錄:1.4.3版以前POJ轉KIP函式號做TL();1.5.0版以後改號做KIP(),tsit-má兩款函式lóng支援。未來KIP()會取代TL()。
換做白話字。
KIP轉POJ:
>>> from kesi import Ku
>>> Ku("Gâu-tsá").POJ().hanlo
'Gâu-chá'漢字、連字符、輕聲符lóng會好好留落來。
>>> from kesi import Ku
>>> Ku("看--起-來tsiânn媠。").POJ().hanlo
'看--起-來chiâⁿ媠。'POJ數字調轉POJ:
>>> from kesi import Ku
>>> Ku("Gâu5-cha2").POJ().hanlo
'Gâu-chá'回傳句內下底全部Suêiter。
回傳句內下底有幾ê Su。
回傳句內下底全部Jiêiter。
得tio̍h tshiâu過ê台文。其中若輕聲詞攏有輕聲符。
得tio̍h tshiâu過ê羅馬字。其中若輕聲詞攏有輕聲符。
得tio̍h tshiâu過ê台文。其中若輕聲詞頭字是漢字,袂有輕聲符。
換做正式教育部羅馬字。
修改記錄:1.4.3版以前POJ轉KIP函式號做TL();1.5.0版以後改號做KIP(),tsit-má兩款函式lóng支援。未來KIP()會取代TL()。
換做白話字。
回傳句內下底全部Jiêiter。
回傳句內下底有幾ê Ji。
得tio̍h tshiâu過ê台文。其中若輕聲詞攏有輕聲符。
得tio̍h tshiâu過ê羅馬字。其中若輕聲詞攏有輕聲符。
得tio̍h tshiâu過ê台文。其中若輕聲詞頭字是漢字,袂有輕聲符。
換做正式教育部羅馬字。
修改記錄:1.4.3版以前POJ轉KIP函式號做TL();1.5.0版以後改號做KIP(),tsit-má兩款函式lóng支援。未來KIP()會取代TL()。
換做白話字。
Ku(hanlo, lomaji)若hanlo kah lomaji字數bô-kâng ê時,回傳ê例外。
有tshiâu Unicode NFC、教育部造字碼換做正式Unicode碼。
>>> from kesi import normalize_taibun
>>> normalize_taibun('a\u0301') == '\u00e1'
True
>>> normalize_taibun('\u00e1') == '\u00e1'
True
判斷tsit_ji_lomaji敢是合法教育部羅馬字抑是白話字。若是數字調、調符、教育部傳統版,攏會當做合法。
>>> from kesi import kam_haphuat
>>> kam_haphuat('tsiânn')
True
>>> kam_haphuat('tsiann5')
True
>>> kam_haphuat('chiâⁿ')
True
>>> kam_haphuat('tsiâⁿ')
True
含半型、全型標點符號ê set()。
$ echo '我是Tâi-gí ê ke-si' | python le/sng_jisoo.py
# 字數= 7tox -e behave