1. SAS® is a globally leading data analytics platform developed by SAS® Institute Inc., a company based in the United States, with nearly half a century of specialized R&D history.

2. Its core strength lies in enterprise-grade stability and security, having established industry standards, particularly in heavily regulated sectors such as finance and pharmaceuticals.

3. The platform offers a fully integrated end-to-end solution, covering data management, advanced statistical analysis, AI modeling, and visual reporting.

4. Through automated machine learning (AutoML) and a high-performance computing engine, it significantly enhances the efficiency and predictive accuracy of large-scale data processing.

5. The continuous introduction of cloud-native architectures (such as SAS Viya) and compatibility with open-source ecosystems ensure the long-term adaptability and technological scalability of enterprise analytics systems.

  1. SAS® 是由美国 SAS® 研究所 开发的全球领先数据分析平台,拥有近半个世纪的专门研发历史。

  2. 其核心优势在于企业级的稳定性和安全性,已建立了行业标准,尤其在金融、制药等受严格监管的行业。

  3. 该平台提供了完全集成的端到端解决方案,涵盖数据管理、高级统计分析、人工智能建模和可视化报告。

  4. 通过自动化机器学习(AutoML)和高性能计算引擎,它显著提升大规模数据处理的效率和预测准确性。

  5. 云原生架构(如 SAS Viya)的持续引入以及与开源生态系统的兼容性,确保了企业分析系统长期的适应性和技术可扩展性。

Reading, analyzing, and reporting constitute a common workflow for data manipulation, and SAS is capable of handling various types of data. In SAS, a table represents a dataset where observations (rows) and variables (columns) are the fundamental structure. Internally, SAS data has two basic types: numeric and character. The primary distinction is that numeric values contain neither letters nor special characters. A typical SAS program is composed of a DATA step and a PROC step.

阅读、分析和报告构成了数据处理的一个常见工作流,而SAS能够处理各类数据。在SAS中,表格代表一个数据集,其基本结构由观测值(行)和变量(列)构成。SAS数据在内部有两种基本类型:数值型和字符型。主要的区别在于,数值型数据既不包含字母也不包含特殊字符。一个典型的SAS程序由一个DATA步和一个PROC步组成。

下面是一个使用sas处理一个费用清单的例子(全部代码在SAS® OnDemand for Academics中运行通过)

DATA expense_1;
    /* 创建文件引用,指定编码 */
    filename csvfile '/home/u64294342/learn/expense_detail.csv' encoding="utf-8";
    infile csvfile
        dsd
        lrecl=32767
        firstobs=2
        truncover;
    
        input id 日期$ 打车 公车 自驾 工作餐 住宿 餐费 交通费 其他 经手人$ 证明人$;
    /* 使用正则表达式提取月日 */
    prx = prxparse('/(\d{1,2})月(\d{1,2})日/');
    if prxmatch(prx, 日期) then do;
        month = input(prxposn(prx, 1, 日期), 2.);
        day = input(prxposn(prx, 2, 日期), 2.);
        cost_date = mdy(month, day, year(today()));
    end;
    /* 添加日期格式 */
    format cost_date yymmdd10.;
    
    /* 删除中间变量 */
    drop prx month day temp;
   
 
run;

proc print data=expense_1;
    var id 日期 cost_date 打车 公车 自驾 工作餐 住宿 餐费 交通费 其他 经手人 证明人;
    format cost_date yymmdd10.;
run;

 

上面代码使用了正则表达式提取了日期中的月和日,因为原表格没有年,只有中文格式的X月X日。

下面是csv文件的内容

id,日期,打车,公车,自驾,工作餐,住宿,餐费,交通费,其他,经手人,证明人
1,7月1日,,,123,30,,,,,小熊,小美
2,7月2日,235,,,30,,,,,小熊,小美
3,7月3日,155,,,,,,,,小罗,小美
4,7月3日,,,256,,,1000,,2000,小花,小美
5,7月5日,,8,,,,,,,小明,小美
6,7月1日,,8,,,,,,,小明,小美

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐