卿少納言

卿少納言

JavaScript & Japanese, Python & Polyglot, TypeScript & Translate.
zhihu
github
email
x

會議日程_言語資源工作坊2024

日語語料庫 / 計算語言學方向的線上研討會「語言資源工作坊 2024」來啦

語言資源工作坊 2024#

國立國語研究所主辦的語料庫、計算語言學相關的線上研討會,參加會議前要在官網填表報名 https://clrd.ninjal.ac.jp/lrw2024.html (免費)

接下來列一下我自己感興趣的分享,完整的會議內容可以在官網查看: https://clrd.ninjal.ac.jp/lrw2024-programme.html

另,由國立國語研究所舉辦的學術會議「計量國語學會第 68 回大會」的會議日程安排也出來了,由於是線下舉辦,有興趣的話可以去官網了解更多信息。

https://sites.google.com/view/mathling2024/%E3%83%9B%E3%83%BC%E3%83%A0

1 日目:8月28日(水)#

09:30〜10:45#

o01:[[會話數據中的「文的包摂」的出現狀況]]

https://clrd.ninjal.ac.jp/lrw/lrw2024/o01-paper.pdf

什麼是【文的包摂】:「快點做吧光環」「我在努力的表現」「寶可夢卡牌遊戲開始吧活動」等語言表現是,「文」相當的要素在語的內部出現,而語的內部不可能有比這更大的單位,這是一般的語形成規則的逸脫特異語言現象(本發表稱之為「文的包摂」)。

自己在研究 [[非詞典]] 時收集了大量來自動漫字幕的例句,這些例句中有不少都不符合日語標準語法,和這個分享想談的【文的包摂】比較像,想看看學界怎麼看待這些不那麼標準的例句。

10:55〜12:10#

o04s:[[片假名詞的意義分類對於大規模語言模型的有效性驗證]]

本稿中,報告了使用 LLM 進行片假名詞的文脈中的意義分類的方法和結果。
https://clrd.ninjal.ac.jp/lrw/lrw2024/o04s-paper.pdf

意義分類?很好奇怎麼做到的,自己設計過一個 Prompt 也算是這個方向:

# Role: 詞典查詢助手

## Profile

- Author: NoHeartPen
- Version: 0.1
- Description: 詞典查詢助手是從權威詞典提供的完整解釋中搜索出與上下文語境最接近意項的語言學習助手。

## Rules
1. 尊重原文,不得翻譯提供的詞典的完整解釋,不得修改提供的詞典的完整解釋
2. 當上下文語境出現詞典尚未收錄的用法時,返回 "詞典尚未收錄這個用法" ,其他時候不需要提供任何輔助說明,只需返回詞典解釋

## Workflow
1. 讓用戶以 "上下文:[], 想要查詢的單詞:[], 詞典的完整解釋:[]" 的方式提供上下文和需要查詢的單詞。
2. 針對用戶給定的上下文、需要查詢的單詞和詞典的完整解釋,分析用戶提供的詞典完整解釋中和上下文語境最接近的解釋意項
3. 只需要返回與上下文語境最接近的意項的相關解釋,不需要返回與上下文語境無關的其他解釋
4. 不需要翻譯詞典的解釋,不需要做任何輔助說明

## Initialization
作為角色 <Role>, 嚴格遵守 <Rules>, 友好的歡迎用戶。然後介紹自己,並告訴用戶 <Workflow>

## 示例
上下文:[全部さらけ出して], 想要查詢的單詞:[さらけ出して], 詞典的完整解釋:[さらけ‐だ・す【×曝け出す】  
[動サ五(四)]  
 隠すところなく、すべてを現す。ありのままを見せる。「内情を―・す」「弱点を―・す」  
 追い出す。  
「おらあ女房を―・してしまって」〈滑・膝栗毛・発端〉]
你的回答:① 隠すところなく、すべてを現す。ありのままを見せる。「内情を―・す」「弱点を―・す」 

(提醒:這條 Prompt 在 GPT3.5 和很多國產 AI 上表現不佳,但在 GPT4o mini 上效果很好,可以在《大辭泉》這樣的權威詞典提供的海量義項裡快速查找和語境最相似的釋義。稍微改一下示例,用國產 AI 在《牛津高階英漢雙解詞典》查英語單詞時也有不錯的體驗。)

o06s:漢語動名詞包含的名詞節的結構模式分析-基於 BCCWJ 數據-

漢語動名詞在名詞節內使用時,至少有動詞型(「漢語 + スル・シタ」)、名詞型(「漢語 + ノ」)、形容詞型(「漢語 + 的・的ナ・ナ」)等三種結構模式。…… 結果顯示,漢語動名詞在名詞節內使用時,(1)動詞型的結構模式的典型性突出,(2)名詞型的結構模式有約束,(3)形容詞型的結構模式是例外。此外,漢語動名詞的詞性、使用環境、意義範疇、時代等因素也影響各模式的選擇。

https://clrd.ninjal.ac.jp/lrw/lrw2024/o06s-paper.pdf

寫畢業論文時,導師推薦的幾篇論文裡就有作者的文章,沒想到這次也能遇到,方向和結論都挺有意思

14:10〜15:50#

o07s:『中文視頻音頻語料庫』的構建 ──以多模態為目標的準確轉錄

https://clrd.ninjal.ac.jp/lrw/lrw2024/o07s-paper.pdf

我本來也是打算寫一個類似 [[柯南雙語語料庫]] 的東西,但在寫完 [[易查]] 前實在沒空搞了,想看看他們用了什麼技術棧和有什麼需求。

上傳到視頻共享網站的中文視頻,字幕通常作為圖像數據嵌入在視頻幀內。在創建中文語料庫時,為了收集更廣泛的文本,需要對視頻使用文字識別或語音識別方法。在本研究中,我們將實現一個應用程序,可以同時顯示和搜索從多個資源獲得的文本,例如嵌入字幕的 OCR、音頻的語音識別以及視頻製作者準備的字幕。我們還將嘗試收集一些體裁並嘗試語言分析。

16:15 〜 17:15#

i1_A3s A 房間 日本語學習者用的日語・斯洛文尼亞語詞典的可讀性重音標記的嘗試

https://clrd.ninjal.ac.jp/lrw/lrw2024/i1_A3s-paper.pdf

沒想到居然會有構建日語 - 斯洛文尼亞語(スロベニア語)詞典的學者來分享經驗,而且分享的還是 UniDic 的處理經驗,必看!(另外,之前都沒注意 UniDic 裡面還有音調信息

i1_B3s 基於模式匹配的擬聲詞候補語提取的嘗試 -使用擬聲詞形態轉換程序-

現代日語的書面語和口語中出現的擬聲詞的形態模式有 61 種,具現形約 2200 語。
https://clrd.ninjal.ac.jp/lrw/lrw2024/i1_B3s-paper.pdf

研究輸入法……?自己的 [[非詞典]] 和輸入文字其實是非常類似的過程,但自己只模模糊糊地覺察到日本人實際使用平假名時非常靈活,但沒想到擬聲擬態詞就可以分為 61 種。

i1_C2 日本語中未被納入外來語的英語詞彙的特徵

本發表將聚焦於未被納入日語的英語外來語,並揭示它們有哪些特徵。現代日語中存在許多來自英語的外來語是眾所周知的。然而,並不是所有的英語都成為日語的外來語,例如,使用頻率高的冠詞「a」、副詞「as」、代名詞「he」等並未成為日語的外來語(未成為國語辭典的見出語)。…… 在前 100 語的結果中,「數字大辭泉」的見出語中有 49 語,未成為見出語的有 51 語,約半半。按詞性來看,名詞(8 語)全部成為見出語,而助動詞中 6 語中有 5 語,代名詞中 12 語中有 9 語未成為見出語。

自己之前在知乎回答過一個問題 [[知乎回答_來源於英語的日語單詞有哪些]] https://www.zhihu.com/question/544356324/answer/2609385955,畢業論文本來打算划水:分析下日語外來語和中國四六級、雅思、托福等考試考綱詞彙的交集就交差的,但最終還是沒忍住選了 [[非詞典]] 的形態素解析方向(只可惜最終就寫了個半截 2333

2 日目:08 月 29 日(木)#

9:20 〜 10:40#

i2_A1『日本語遊戲語料庫(JGC)』的構建中期報告-前期的動作遊戲中的量的特徵-

https://clrd.ninjal.ac.jp/lrw/lrw2024/i2_A1-paper.pdf

遊戲語料庫?!必看!另,選擇的都是日本廠商的主機遊戲,有新有舊(很遺憾,沒有原神,大霧

i2_A2:(仮)「國會圖書館數字化資料全文文本數據」利用的日語研究的嘗試

好奇學術界都是怎麼用已經公開的數據庫搜索自己想要的東西

i2_A3:『分類語彙表』號碼的多義詞代碼的研究-以『計算機用日語基本詞典 IPAL』最重要動詞為例-

這次的研討會有好幾個分享都用了這個『分類語彙表』,很好奇編號時考慮了哪些問題

i2_B3:為彈出式詞典設計、實現、運用的日語形態素解析系統

調查想查詢的單詞時,將鼠標懸停在單詞上顯示詞典是被認為能提高閱讀效率的。然而,為了實現這一功能,需要解決一個問題 —— 將鼠標指向的文本轉換為詞典形式。使用 Mecab 等形態素分析系統是一種解決方案,但這類系統往往對用戶的計算機性能有特定要求,因此通常在服務器上運行。然而,這一過程的形態素分析與語言研究、機器翻譯或全文檢索的形態素分析不同,主要目的是將輸入的字符串轉換為詞典形式。因此,可以縮小形態素分析系統的大小,實現更高效的實現。本文將討論為彈出式詞典檢索而設計的形態素分析系統 NonJishoKei 的設計、實現和運用。
事實證明,鼠標懸停在待查單詞上時自動顯示詞典解釋可以有效提高閱讀效率。然而,為了實現這一功能,需要解決一個問題 —— 將鼠標指向附近的文本轉換成詞典收錄的形式。使用 Mecab 等形態素分析器是一種解決方案,但這類系統往往對用戶的設備有較高的要求,因此通常在服務器上運行。不過,不同於語言研究、機器翻譯或全文檢索等場景,這個場景下只需要將鼠標指向附近的文本轉換成詞典收錄的形式即可。也就是說,可以為這樣的使用場景,專門設計一個精簡的形態素分析器。日本語非詞典形詞典(NonJishoKei)就是基於這個思路,專門為彈出式詞典檢索而設計的形態素分析器,本文將討論其算法原理和工程實現。

本人的分享(圖窮匕見 2333),譯文是我提交了原文後重寫的,所以差得比較大(囧

i2_C2:作為學習者語料庫構建機構的作文教育支持系統 TEachOtherS

(a) 為學習者提供基於網頁的作文、評論、反思環境,(b) 教師可以管理全班的賬戶,控制作文、評論、反思等活動階段,並能夠對全班進行批量應用。這些之外,還假設根據他人給予的評論等來修訂作文,並具備作文的版本管理功能。此外,作文教育活動的結果可以以 HTML 格式輸出。

對這個系統的實現細節很有興趣

i2_C4:(仮)高中生手寫漢字中的書寫錯誤的傾向

1 年級時約 70% 的學生的作文中出現漢字的書寫錯誤,但隨著年級的上升,錯誤減少,3 年級時減少到約 50%。此外,在 20 篇以上使用的漢字中,書寫錯誤比例最高的漢字是「達」,在出現「達」的作文中約 40% 的作文中出現了「達」的字形錯誤。

關注的問題結論都很有趣

10:50〜12:05#

o12:(仮)從誤解析看動畫・遊戲詞彙的特徵-為詞彙列表的製作而努力-

日語學習者的動畫和遊戲是資源之一,但在教室中學習的日語所用的詞彙不同。然而,沒有公開能夠了解按類別的詞彙及其頻率的詞彙列表,這對學習者和教師都很有幫助。因此,決定製作一個可以在日語教育中使用的語言資源詞彙列表。動畫和遊戲的劇本直接進行形態素分析時容易出現誤解析。為了提供準確的數據,首先確認在哪裡以及多大程度上出現誤解析,針對 4 部動畫和 1 部遊戲進行形態素分析。結果顯示,約 10% 的誤解析出現。這些幾乎都是作品特有的名詞,還有感嘆詞、口語化的表達、語言停頓等,這些都表現了動畫和遊戲的詞彙特徵。本文將整理為詞彙列表製作而進行的形態素分析的步驟和誤解析的內容,並探討在儘可能保留動畫和遊戲特徵的情況下進行分析的方法。
https://clrd.ninjal.ac.jp/lrw/lrw2024/o12-paper.pdf

方向和指出的【誤解析】的問題自己都很感興趣,另,研究的動畫裡有【推しの子】和【五等分的花嫁】(大笑

o13:『兒童版日常對話語料庫』的監測公開版概述

https://clrd.ninjal.ac.jp/lrw/lrw2024/o13-paper.pdf

兒童對話語料庫?期待!

13:00〜14:00#

生成 AI 與對話的深入語言學
發表者:佐野大樹(Google 合同公司)

哟,Google 排面!

14:25〜15:25#

i3_A1:上升下降調與對話形式的相關性-以「日語日常對話語料庫」為例-

發表者:李海琪(浙江大學日語科)
句末音調的上升下降調的使用場景存在見解的差異。根據內省和資料的總結,上升下降調在稍微正式的場合中使用較多。然而,根據獨白的數據和使用率的統計,上升下降調在口語中使用頻繁。
https://clrd.ninjal.ac.jp/lrw/lrw2024/i3_A1-paper.pdf

結論很有趣

i3_A2:(仮)日常對話場景中的發話速度差異

本發表將報告同樣調查對話場景和對話對象如何影響發話速度的結果。
https://clrd.ninjal.ac.jp/lrw/lrw2024/i3_A2-paper.pdf

標題就引起了我的興趣

i3_A3:日語中的 /ei/ 母音連續的發音

發表者:Katarina Hitomi Gerl(卡塔莉娜・格爾)(盧布爾雅那大學,文學院,日本研究講座)
根據各種詞典,日語中的 ei 母音連續在意義的切分之間時,會被發音為長的「え」。

關注的問題很有趣

i3_B3:基於詞典反轉和開放數據的斯洛文尼亞語・日語學習詞典的構建
發表者:克里斯蒂娜・弗梅利亞克寒川 (Kristina Hmeljak Sangawa)(盧布爾雅那大學)、勞拉・巴羅維奇・博茲雅克、納德雅・博斯蒂奇、卡塔莉娜・希托米・格爾、簡・赫拉斯特尼克、尼娜・卡利什尼克、薩拉・克萊奇、艾娃・科瓦奇、尼娜・桑加瓦・弗梅利亞克、尤雷・托梅謝和托馬茲・埃爾雅維茨
在斯洛文尼亞,日語學習非常活躍,但參考書仍然很少。因此,利用之前編輯的日語・斯洛文尼亞語詞典的數據進行反轉,並利用開放數據,嘗試構建斯洛文尼亞語・日語學習詞典。首先,從日斯詞典中提取每個詞義的對應詞,並將斯洛文尼亞語作為見出語進行排列,然後手動刪除重複和不適當的見出語,自動為見出語的詞性和 CEFR 準則難度附加標籤,部分見出語還附上平行語料庫中的例句。這樣構建的約 8500 語的詞典數據以 TEI Lex0 準則的 xml 數據形式公開。參與企劃的學習者反映獲得了對詞典機制的知識,今後也計劃繼續以相同的體制進行編輯。

介紹就很對我個人的胃口,期待到時的分享

i3_C2:個人的緊急事態:X (Twitter) 中的「等一下」的分析

在 X (Twitter) 中,著重分析在同一句中不伴隨其他表達主體或對象等元素,作為發送者(書寫者)自身的話語所記載的斷言「等一下」的用例,分析其使用實態和特徵。從最近 60 分鐘內發佈的用例觀察中,這樣的「等一下」的使用頻率高於類似特徵的「看」「聽」,且多用於不特定的「推文」(帖子)。此外,這樣的「等一下」往往與發送者(書寫者)自身的情感或評價共現,因此可以認為它表達了「有某種事件引發情感或評價的波動,且這對發送者(書寫者)個人而言是字面上需要等待的緊急情況」。進一步,還與 Yahoo! 博客及 LINE 聊天中的用例進行比較,推測在 X (Twitter) 中這樣的「等一下」特別容易被使用。

https://clrd.ninjal.ac.jp/lrw/lrw2024/i3_C2-paper.pdf

分析的對象很有趣

15:35〜16:50#

o15:基於語料庫的認知語義分析日語形容詞「冷たい」的多義性

發表者:王海濤(京都大學)、黃海紅(京都大學)、鐘勇(南京航空航天大學)

https://clrd.ninjal.ac.jp/lrw/lrw2024/o15-paper.pdf

中國人投的講日語的英語論文……?好奇到時的分享會用什麼語言來做發表 2333

o16:小說的對話形式的區分

本稿將收集出現在娛樂小說・輕小說 10 部作品中的 24 名角色的對話形式,並進行整理和分析。

https://clrd.ninjal.ac.jp/lrw/lrw2024/o16-paper.pdf

看標題以為是分析的什麼日本文學名著,結果人家的介紹是「分析了 10 部【輕】小說中不同角色的語言風格」,瞬間來了精神,打開論文一看,發現分析的作品有《青春豬頭》!而且,居然還有《葬送的芙莉蓮》這樣的新作…… 那我是不是可以期待下明年的研討會裡有人分析《MyGo》呢?(大霧

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。