|
2010-08-20 作者: 來(lái)源:經(jīng)濟參考網(wǎng)
|
|
|
是不是做了院長(cháng),就可以不做項目了?我給自己的答案是:不行。其實(shí)原因非常簡(jiǎn)單——人手不夠。
當時(shí),研究院確立的研究方向之一是“音字技術(shù)組”,也就是教電腦聽(tīng)話(huà)、講話(huà)。這個(gè)恰好是我的博士論文的內容,但是我早就脫離了這個(gè)領(lǐng)域,而且已經(jīng)多年沒(méi)有寫(xiě)程序。但在研究院,我是唯一懂這方面技術(shù)的人,我只有勉為其難地卷起袖子,和我招到的幾位副研究員一起工作。
邸爍和陳正是清華的高材生,盡管不是學(xué)語(yǔ)音的,但是1999年他們進(jìn)入希格瑪大廈的時(shí)候,選擇了語(yǔ)音識別小組。每天,我拿著(zhù)語(yǔ)音的教科書(shū),從最基礎的知識開(kāi)始教他們。讀完基礎的課本后,他們開(kāi)始練習在這個(gè)新的領(lǐng)域編程,然后,我再把我的論文拿出來(lái),一章一章地講給他們聽(tīng)。這兩個(gè)年輕人都聰明過(guò)人,可以閱讀世界水平的學(xué)術(shù)論文。另外,他們可以利用微軟的“資源共享”制度,從美國研究院語(yǔ)音負責人那里拿來(lái)全套的語(yǔ)音軟件。有了這些技術(shù)和源代碼,這就像攀登100層的高樓,兩人一開(kāi)始就站在了50層。他們倆進(jìn)步神速,兩年后,都成了項目負責人,如今在不同的公司取得了驕人的成績(jì)。
在他們倆之后,我們組又來(lái)了個(gè)年輕人——高劍峰。高雖然也是名校(上海交通大學(xué))的博士,但是他的專(zhuān)業(yè)是機械設計,方向是“工業(yè)造型”。因此,他經(jīng)歷過(guò)一段頗為迷茫的時(shí)期。
那一年,我去上海交大招聘,正好遇到了高劍峰,就問(wèn)他在研究些什么?他興致勃勃地說(shuō)了他的研究。我當頭潑了他一盆冷水,說(shuō),“這個(gè)東西在美國早過(guò)時(shí)了,你還研究什么,還不如到微軟來(lái)?yè)Q個(gè)有用的題目呢!睕](méi)想到,他真的來(lái)了,闖過(guò)了應聘的重重關(guān)卡,加入了語(yǔ)音識別小組。
不過(guò),他馬上感覺(jué)到了強大的壓力,邸爍和陳正不斷取得突破,而他連門(mén)道都沒(méi)摸清楚,有時(shí)候遇到一個(gè)問(wèn)題,他還沒(méi)有弄明白是怎么回事,人家已經(jīng)解決了。
看到高劍峰非?鄲,我開(kāi)玩笑地對他說(shuō),“你是不是混進(jìn)來(lái)的?”他抬頭看我,表情很窘迫。我笑了笑,對他說(shuō),“你不是計算機專(zhuān)業(yè)畢業(yè)的,但是我覺(jué)得你還是有潛力的,如果有不懂的問(wèn)題,我覺(jué)得你可以去請教一下組里的同事,畢竟我們是一個(gè)團隊,也歡迎你隨時(shí)來(lái)找我!
高劍峰點(diǎn)了點(diǎn)頭,就去找邸爍和陳正了。這兩個(gè)小伙子一點(diǎn)都不吝嗇,把自己知道的東西都告訴了高劍鋒,一些問(wèn)題經(jīng)他們點(diǎn)撥,就輕松化解了。
在不斷的學(xué)習中,高劍峰的信心被慢慢地樹(shù)立了起來(lái)。他覺(jué)得,作研究就像一場(chǎng)長(cháng)跑比賽,遇到了高手,被人家甩得很遠,不能著(zhù)急,不能亂了方寸,該怎么跑還是怎么跑。他后來(lái)總是告訴新來(lái)的研究員不要在意中途的快慢,最后勝出的人,才是真正的勝者。
高劍峰就這么跟了幾年,先學(xué)著(zhù)跑,再自己跑,漸漸地不再感覺(jué)累。到了第四年,他已經(jīng)是“項目帶頭人”,換句話(huà)說(shuō),他也是一個(gè)“領(lǐng)跑者”了,F在,他已經(jīng)轉到微軟美國,在那里做資深研究員。
語(yǔ)音識別不是僅僅把每個(gè)字分別識別出來(lái),而是像人一樣,要運用到語(yǔ)言的知識。中文有一個(gè)特殊的問(wèn)題,就是分詞。一個(gè)笑話(huà)就是“杭州市長(cháng)春藥店”,人們看到這個(gè)店名的時(shí)候,自然而然地知道是“杭州市/長(cháng)春/藥店”。但是僅僅向前推一個(gè)字,電腦很可能會(huì )識別成為“杭州/市長(cháng)/春藥店”。
如何做到正確的識別呢?我告訴陳正:“國內的語(yǔ)音識別往往是先分詞,然后識別。這是徹底的錯誤,因為第一次分詞總可能出錯,一定要同時(shí)分詞和識別,經(jīng)過(guò)所有的排列與組合,挑選出最好的結合!
然后,我發(fā)現我們的語(yǔ)言模型語(yǔ)料遠遠不夠。語(yǔ)言模型的功能是經(jīng)過(guò)大量的統計,來(lái)判斷在下一個(gè)位置最可能出現哪些字,比如說(shuō),看到“尊敬的李”時(shí),我們可能預測下面會(huì )是“先生”、“老師”、“女士”等詞,各有不同的概率。我對他說(shuō),“在中國做語(yǔ)音搜索統計,只聯(lián)系到前面的一個(gè)詞,但是中文的語(yǔ)言特點(diǎn)是歧義特別多。僅僅依靠向前推一個(gè)詞,電腦并不能作出正確的判斷,至少要向前推兩個(gè)詞!蔽覀冋堻S昌寧教授去開(kāi)始一個(gè)語(yǔ)料采購的計劃,訓練出這樣推兩個(gè)詞的語(yǔ)言模型。
另外,中文和英文很大的一個(gè)差別就是中文有四聲的識別。這方面團隊很快地做了一個(gè)四聲識別器,和整體的識別系統結合起來(lái)。就像分詞一樣,一定不能先把四聲識別出來(lái),而要考慮所有的可能性,再作出總體最優(yōu)的選擇。
在他們三人以及后來(lái)加入的幾位副研究員的努力下,很快,一個(gè)中文語(yǔ)音識別系統就做出來(lái)了。
此后,陳正和我發(fā)現這個(gè)系統不但可以做語(yǔ)音識別,也可以做拼音轉換。我們嘗試了一下,果然轉換率比當時(shí)任何系統都要高很多。除此之外,我們還發(fā)現可以用統計模型做出一種奇妙的功效——自動(dòng)糾正人為造成的拼寫(xiě)錯誤,也就是說(shuō),如果你打入:“zunjingdelixansheng”,這個(gè)系統可以發(fā)現你少打了一個(gè)“i”,而自動(dòng)轉換成“尊敬的李先生”。后來(lái),這個(gè)項目,由陳正做內核的技術(shù),王堅做用戶(hù)界面,成為了一個(gè)高質(zhì)量的輸入法。
在短短的一年內,這個(gè)五人團隊就做出了多項傲人的成果:中文的四聲識別、最精確的輸入法、中文的聽(tīng)寫(xiě)機,還有多用途的統計語(yǔ)言模型。這些項目都符合了我們“有用”的目標,也用我們的“兵團”模式迅速獲得了成果。
與此同時(shí),研究院里其他小組,都在為有用的夢(mèng)想而全力打拼。
|
|
凡標注來(lái)源為“經(jīng)濟參考報”或“經(jīng)濟參考網(wǎng)”的所有文字、圖片、音視頻稿件,及電子雜志等數字媒體產(chǎn)品,版權均屬新華社經(jīng)濟參考報社,未經(jīng)書(shū)面授權,不得以任何形式發(fā)表使用。 |
|
|
|