首頁 » News » OpenAI » GPT-4 Turbo | 多模態AI | Assistant API | OpenAI DevDay 20231106
GPT-4 Turbo | 多模態AI | Assistant API | OpenAI DevDay 20231106

一、GPT-4 Turbo震撼登場:128K Token對飆Claude

GPT-4 Turbo的革命性擴展:突破性的128K Token支持能力

在最新的DevDay活動中,OpenAI揭幕了創新級的GPT-4 Turbo模型,這一次模型支持的Token量驚人地達到128K。換算下來,大約對應了96,000個單詞。想象一下,這使得單一提示就能夠承載等同於超過300頁的文字,極大地豐富了GPT在長篇文章撰寫上的能力。更重要的是,GPT-4 Turbo的知識量更新到了2023年4月!

在此之前,不少人因為GPT模型的Token限制感到束手無策,於是轉向了新興的AI服務Claude。作為Anthropic公司推出的AI助理,Claude於2023年3月亮相,由一群從Open AI分家出去的前工程師創立。考慮到Open AI即是ChatGPT的背後開發公司,Claude在市場上自然成為了ChatGPT的一大競爭者。尤其在OpenAI這一最新升級之前,Claude所支持的100K Token容量,已經足夠令眾多用戶青睞。

我自己使用過GPT-4模型的經驗告訴我,它在反應速度上比GPT-3.5慢了三倍甚至是以上,而在文字理解能力上亦未見顯著進步。不過憑藉此次DevDay發布的資訊,OpenAI聲稱新版的GPT-4 Turbo不僅擴大了Token支持量,更在效能上進行了顯著的優化。實際效能如何,我將在未來的文章中仔細探討,並將相關連結更新於此。

當然,如果GPT-4 Turbo的性能真的有顯著提升,那麼價格無疑會是使用者最關注的話題。以往我多數時候還是傾向於使用GPT-3.5模型,除了考量其效能之外,成本效益也是一重要因素。在此次DevDay中,OpenAI還公布了新的定價策略,聲明由於進行了效能優化,新模型在使用成本上的輸入部分便宜了三倍,輸出部分也降價了兩倍。更詳細的收費標準,我將在後續章節為大家解析。

功能調用(Function calling)更新:GPT-4 Turbo智能整合多項操作

在最新的OpenAI更新中,「功能調用」得到了顯著的改進。功能調用允許使用者向模型描述他們的應用程式或外部API的功能,模型便能智能地選擇生成一個包含參數的JSON物件,以調用這些功能。本次我們帶來了數項重大的增強,其中包括在單一訊息中調用多個功能的能力。使用者現在可以發送一條訊息來請求多個操作,比如說“打開車窗並關閉空調”,這在以前可能需要多次與模型的互動來完成(點此瞭解更多)。同時,也在提高功能調用的準確性方面做出了進步:GPT-4 Turbo有更高的概率正確返回適當的功能參數。

舉例來說,在過去,如果你想通過語音助理同時進行多個家居自動化任務,你可能需要分別發送多個指令,一步一步地告訴它先做什麼,再做什麼。但現在,借助GPT-4 Turbo的功能調用升級,你只需要一句指令,AI就能理解並執行一系列的操作,大大節省了時間和提高了效率。這種一次性處理多重任務的能力,對於開發者而言,無疑極大地擴展了應用程式中AI的整合潛力,使得交互過程更流暢,用戶體驗更加無縫。

使用指南與JSON模式的升級:GPT-4 Turbo的精確執行力

最新版的GPT-4 Turbo在精確遵循指令的任務執行上比之前的模型有了較大的提升,比如在生成特定格式的文本時表現卓越(例如,“永遠以XML格式回應”)。此外,它還支援新推出的JSON模式,確保模型能夠返回有效的JSON結構。新的API參數─response_format─能讓模型限制其輸出,以生成語法上正確的JSON對象。JSON模式對於在功能調用之外通過Chat Completions API生成JSON的開發者們尤其有用。

在以往,當開發者利用API請求AI返回結構化數據時,可能需要額外的程式碼來確保返回的格式是正確的JSON。而現在,借助GPT-4 Turbo的新JSON模式,模型可以自動保證輸出的格式結構正確無誤,這大幅減少了開發者的後續處理工作,讓應用程序的整合變得更加便捷快速。這項改進對希望更有效率地生成和利用JSON數據的開發者來說是一項寶貴的進展。

Reproducible outputs and log probabilities:增強AI模型的一致性與可控性

OpenAI最近新增了一項稱為「seed parameter」的功能,能夠讓模型在大多數時間內返回一致的輸出結果,實現輸出的可再現性。這項處於測試階段的功能特別適用於重現請求以便於除錯、撰寫更全面的單元測試,以及一般對模型行為擁有更高程度的控制。我們OpenAI在內部使用這項功能進行單元測試,證實了它的巨大價值。我們非常期待看到開發者們將如何利用這一功能。

在接下來的幾周內,我們還將推出一項新功能,可以返回由GPT-4 Turbo和GPT-3.5 Turbo產生的最有可能輸出tokens的log probabilities。這對於構建像是在搜索體驗中的自動完成這樣的功能將非常有用。

針對此內容作進一步解釋,seed parameter可以想像為一種保持AI模型行為一致性的「記憶點」。在輸入相同的種子(seed)值後,即使多次執行相同查詢,AI模型也將產生相同或高度近似的回答,這對於需要追蹤AI決策過程或保證結果可重複的場景非常有幫助。而log probabilities功能將能夠給開發者提供每一個預測出的token發生的數學概率,這對於理解和優化模型預測的準確性非常關鍵,特別是在輸入預測如搜索查詢自動完成建議時,這將提供額外的資訊幫助判斷最適合的選項。

更新版GPT-3.5 Turbo:擴展至16K上下文視窗

除了GPT-4 Turbo之外,OpenAI同時也推出了新版的GPT-3.5 Turbo,默認支援長達16K Token的上下文視窗。這項升級賦予了GPT-3.5 Turbo更佳的指令遵循能力、JSON模式,以及並行功能調用的特性。比如,我們內部的評估顯示,在生成JSON、XML和YAML等格式遵循的任務上,新模型的表現有38%的改善。開發者可以通過在API中調用gpt-3.5-turbo-1106來訪問這個新模型。使用gpt-3.5-turbo名稱的應用程序將在12月11日自動升級至新模型。舊版模型將繼續在API中通過傳遞gpt-3.5-turbo-0613來訪問,直至2024年6月13日。點此瞭解更多。

新版GPT-3.5 Turbo的16K Token上下文視窗意味著AI模型可以處理更長的對話和文本,這對於需要保持大量上下文信息的任務非常有用。同時,優化的指令遵循能力可以更精確地執行開發者所提供的指南和生成特定格式的數據。JSON模式和並行功能調用的升級,進一步強化了AI與開發者應用程序之間的交互,使得開發者可以更簡便、高效地集成AI功能到他們的軟件和服務中。這不僅簡化了在現代應用開發中常見的繁瑣工作流,也為各種自動化流程帶來了前所未有的便利。

二、OpenAI全新發布:Assistants API提升開發自如度

作為本次的重大更新之一,Assistants API的推出意味著開發者能夠更容易地在自己的應用程序中構建類似代理的體驗。Assistants API具備的多樣功能,如程式碼解釋器(Code Interpreter)和資料檢索(Retrieval),為開發者省去先前需自行完成的繁重任务,從而實現高質量AI應用的構建。

這個API提供了靈活的使用案例,從自然語言數據分析應用、編碼助手、AI動力假日規劃器、語音控制的DJ,到智能視覺畫布等,Assistants API所支援的領域可謂豐富多彩。該API基於使我們新的GPTs產品成為可能的同樣能力構建:包括自定義指令和工具,比如程式碼解釋器,資料檢索以及Function calling等。

無限線程、持續對話——提升開發者靈活性

進一步提升功能的API,開放開發者呼叫新工具,包括:

  • 程式碼解釋器:在一個安全的執行環境中撰寫和運行Python程式碼,生成圖表,處理各種數據和格式的文件。這讓你的助理可以迭代運行代碼,解決複雜的程式和數學問題。
  • 資料檢索:通過利用外部知識來增強助理的能力,比如專有領域數據、產品信息或用戶提供的文件,這意味著無需為你的文件計算和存儲嵌入向量,或實施分塊和搜索算法。Assistants API根據在ChatGPT中構建知識檢索的經驗,優化檢索技術的選擇。

Function calling——增強助理效能與互動性

  • 功能調用:允許助理調用你定義的功能並在其訊息中包含功能響應,從而實現更復雜的互動。

OpenAI以高度重視用戶隱私與資料安全的理念,精心設計了Assistants API。這套API確保所有提交至OpenAI服務的數據及文件都不會用於模型訓練目的,同時賦予開發者自主管理的權利,讓他們能夠在需要時刪除自己的數據存檔。目前,Assistants API已推出beta版本,開發者無需寫作程式碼,即可在Assistants playground上試用這一工具。

身處beta階段的Assistants API已向所有開發者敞開大門。OpenAI鼓勵開發者們分享他們使用API創建的應用實例和反饋,公司將根據這些珍貴的意見持續優化API功能。對於Assistants API及其相關工具的具體收費標準,開發者可查看OpenAI的定價信息頁面以獲得詳細情況。

關於Assistants API的使用,後續會撰寫一篇文章說明,連結會更新在這裡

三、OpenAI API新增多模態功能:視覺識別、圖像生成與語音轉換

OpenAI的API現已擴展新的多模態能力,增添了更多互動式應用的可能性。

GPT-4 Turbo with vision

GPT-4 Turbo現在能夠通過Chat Completions API接收圖片作為輸入,激發了一系列新的用例,例如生成圖片標題、詳細分析真實世界的圖像以及解讀含有圖表的文件。舉例來說,BeMyEyes便利用此項技術協助盲人或視力受限的人士完成識別產品或在商店導航等日常任務。開發者可以在API中使用gpt-4-vision-preview來存取這項功能。隨著GPT-4 Turbo主模型穩定版本的推出,視覺支持亦將陸續開放。使用該功能的價格會根據輸入的圖像大小而有所變動,例如,輸入解析度為1080×1080像素的圖像,費用為$0.00765。

DALL·E 3重塑圖像創造

開發者亦能將近期為ChatGPT Plus與企業用戶推出的DALL·E 3直接整合進他們的應用和產品裡,方法是在Images API中指定dall-e-3作為模型。例如Snap、可口可樂和Shutterstock等公司已經利用DALL·E 3程式化生成圖像和設計,用於客戶和宣傳活動。類似於前一版的DALL·E,API內置了內容審查功能,以幫助開發者避免應用被濫用。DALL·E 3提供不同的格式和質量選項,產生圖像的價格從每張$0.04起。

文字轉語音(TTS)API:賦予文字人聲韻律

此外,開發者現在可以透過文字轉語音(TTS)API,從文字生成具有人類水準的語音輸出。新的TTS模型提供六種預設語音供選擇,以及tts-1和tts-1-hd兩種模型變體。tts專為即時使用案例優化,而tts-1-hd則是聚焦高質量輸出的最佳化。語音生成的價格從每1000個字元$0.015起。

跟前面的段落相同,這個部分也會另外撰寫一篇文章介紹如何使用,未來連結會更新在這裡

四、GPT-4 模型客製化:微調(fine-tuning)試驗計劃與專屬定制模型

GPT-4 fine tuning experimental access

OpenAI正在開展一項針對GPT-4的微調(fine-tuning)試驗計劃,目前的初步結果顯示,與GPT-3.5相比,GPT-4的微調(fine-tuning)需要更多的工作才能實現對基礎模型的有意義改進。隨著GPT-4微調(fine-tuning)的品質和安全性進一步提升,現正積極使用GPT-3.5微調(fine-tuning)的開發者們將在他們的微調(fine-tuning)控制台中獲得申請參與GPT-4計劃的選項。

ChatGPT初露頭角時,市場上泛濫著大量帶有欺騙性的信息,這些誤導性內容貿然宣稱僅憑ChatGPT就可以一夜之間打造獨一無二的聊天機器人。這不僅是一種錯誤的宣傳,更是對真相的嚴重歪曲。過去釋出的功能並未包括對GPT模型的任何細節調整,這表明無論GPT如何技藝超群,用戶都無法創建一個完全個性化的聊天機器人。然而,這樣的時代已經一去不復返了,因為fine tuning的到來開啟了新篇章。現在,只有具備了這一關鍵技術的前提下,我們才可能看到利用ChatGPT實現打造真正專屬的聊天機器人的潛力得以發揮。

客制模型計劃——迎合專業需求

針對那些需要超越微調(fine-tuning)能提供的定制化水準的組織(尤其是擁有極其龐大的專有數據集的領域——至少數十億個字元),OpenAI還推出了一項定制模型計劃。該計劃將選定的組織與OpenAI的專門研究人員的小組合作,共同訓練出符合特定領域需求的自定義GPT-4模型。這包括修改模型訓練過程的每一步,從執行額外的領域專屬預訓練到運行針對特定領域量身定制的自定義RL後訓練過程。組織將獨家使用他們的定制模型。根據現行的企業隱私政策,定制模型不會提供或共享給其他客戶使用,也不會用於訓練其他模型。此外,提供給OpenAI以訓練定制模型的專有數據將不會在任何其他情景中重複使用。這是一個初期會相對有限且成本高昂的計劃,有興趣的組織可以在此申請

詳細的教學範例連結,將更新在這理

五、OpenAI平台降價及效能提升,為開發者創造更大價值

OpenAI Pricing Table

OpenAI為了將成本節省回饋給開發者,決定在平台上調降多項服務的價格。最新調整後的價格細節如下(以下所有價格均以每1,000個token算):

GPT-4 Turbo的輸入token價格是GPT-4的三分之一,每千token降至$0.01;輸出token則為GPT-4的二分之一,降至每千token $0.03。對於GPT-3.5 Turbo,輸入token同樣下調至先前16K模型的三分之一,為$0.001,輸出token則降至先前的二分之一,現為$0.002。此前使用GPT-3.5 Turbo 4K模型的開發者,將享受到33%的輸入token價格降幅,降到$0.001。這些降價僅適用於今日推出的新版GPT-3.5 Turbo。

細調模型價格大幅下降

細調過的GPT-3.5 Turbo 4K模型輸入token價格下調至原價的四分之一,為$0.003,輸出token則降至原價的2.7倍,為$0.006。細調同樣支援16K上下文,且價格與4K的新GPT-3.5 Turbo模型相同。這些新的價格也適用於細調過的gpt-3.5-turbo-0613模型。

提升服務上限,助力應用擴展

為了幫助開發者擴大應用規模,OpenAI將為所有付費的GPT-4用戶將tokens每分鐘的限制提高一倍。用戶可以在個人的速率限制頁面查看新的速率限制。平台還公布了使用層級,用於確定自動增加的速率限制,讓用戶了解他們的使用限制將如何自動擴展。現在,用戶可以從帳號設置中請求提高使用限制。

六、OpenAI 推出 Whisper v3 及 Consistency Decoder 提升語音與圖像處理技術

OpenAI宣布推出下一版本的開源自動語音識別模型——Whisper large-v3,此版本在多語言表現上有顯著提升。未來不久,公司計劃將Whisper v3支持加入到其API服務中。同時,OpenAI還將開源Consistency Decoder,此解碼器可以直接替換穩定擴散VAE解碼器(Stable Diffusion VAE decoder)。Consistency Decoder將改善所有與Stable Diffusion 1.0+ VAE兼容的圖像,對文字、面部和直線的表現有顯著提升。这些進展將進一步促進語音和視覺技術的發展,為開發者創建更精準和更自然的數字體驗提供工具。

七、結語:開啟AI新紀元—臻化創新,不止於模擬人工智慧

隨著OpenAI DevDay 20231106的盛大揭幕,我們見證了人工智慧領域的一個重大跨越:全新的GPT-4 Turbo憑借其突破性的128K Token支援力,不僅僅在技術上凌駕過往版本,更在功能調用、使用指南的優化等方面向市場展示了AI的深度與廣度。隨著Assistants API的提升,開發自如度再度提升,加之多模態功能的添入,視覺識別、圖像創造、語音合成技術的精進開創了數字體驗的新時代。

AI模型的個性化定製與價格調整,更勾勒出OpenAI以開發者為本的企業宗旨,使得AI技術的高端能力不再是少數人的專利。Whisper v3與Consistency Decoder的推出,則奠定了語音和圖像處理技術的新基石。過去的幻想,今日成真。OpenAI DevDay 20231106的每一項進展,都不單是技術的革新,更是AI如何揉合科技與人性、安全與創新,在重定未來的同時,不斷擴展我們對「可能」的認知邊界。

One Reply to “GPT-4 Turbo | 多模態AI | Assistant API | OpenAI DevDay 20231106”

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *